スケーリングは、複数の特徴量のスケールを同じスケールに揃える作業であり、正規化と標準化の 2 種類が存在する。機械学習における正規化および標準化は、学習時の収束速度や予測時の予測性能の向上が目的として行われている。統計のようにデータをと特定の確率分布に近づける、という目的ではない。
正規化
min-max スケーリング
機械学習における正規化とは、特徴量をある値の範囲内に収めることである。例えば、特徴量の範囲を 0≤x≤1 の範囲に変換する操作(min-max スケーリング)が正規化にあたる。この変換により、データを最小値は 0、最大値は 1 の範囲内に収めることができるため、上限と下限が存在しているデータに対して有効である。しかし、正規化は外れ値に影響されやすく、データに外れ値が含まれると、その外れ値の影響で正常値の取りうる範囲が著しく狭くなることがある。
\[ z_{i} = \frac{x_{i} - x_{\min}}{x_{\max} - x_{\min}} \]L2 正規化
特徴量を特徴量空間上において、その距離を 1 となるような L2 正規化法もある。L2 正規化法は、各サンプルの全特徴量に対して、正規化を行っている。そのため、正規化後の各サンプルの分布は変化することに注意。L2 正規化を、パラメーター推定時に、パラメーターの数が増えないように罰則をかけるときの L2 正則化と間違えないようすること。
標準化
標準化は、データを平均 0、分散 1 のデータに変換している。標準化は、正規化に比べて、外れ値の影響をやや受けにくい。機械学習では、正規化に比べて、標準化がよく使われている。
\[ z_{i} = \frac{x_{i} - \mu_{x}}{\sigma_{x}} \]