ウェイトの初期化

ディープラーニングの各層には、前の層からの出力 X を受け取り、ウェイト W をかけてバイアスを足し XW + b を計算し、閾値判断して、次の層に対して出力していく。ウェイトとバイアスは学習を通して、最適な値に収束していくが、学習の前には初期値を与える必要がある。

Xavier の初期値

初期値の与え方として、Xavier らは、1 層前のノード数 n に応じて、ウェイトを \(\frac{1}{\sqrt{n}}\) の標準偏差を持つ分布を使って初期化することを提唱している。この Xavier の初期値は、活性化関数が線形であることを前提としている。シグモイド関数や tanh 関数は左右対称で、中央付近が線形関係に近似できるので、活性化関数がシグモイド関数あるいは tanh 関数の場合は、Xavier の初期値を使用できる。

He の初期値

He らが提唱している ReLU 関数に特化した初期化方法である。1 層前のノード数 n に応じて、ウェイトを \(\frac{2}{\sqrt{n}}\) の標準偏差を持つ分布を使って初期化する。