パーセプトロン学習則 | 学習データを使用してウェイトの更新を行う

パーセプトロンは、動物の神経細胞を模倣したモデルとなっている。複数の入力シグナルを受け取り、入力シグナルにウェイトをかけて判断し、閾値以上であれば、シグナルを出力する。これを数式で表すと、複数の入力シグナル x = (x₁, x₂, ...) を受け取り、各入力シグナルにウェイト w をかけて、z = w^Tx を計算し、z ≥ 0 ならばシグナルを出力する、のように表すことができる。

\[ \begin{eqnarray} f(z) = \begin{cases} 1 & ( z \ge 0 ) \\ 0 & ( otherwise ) \end{cases} \end{eqnarray} \]

ウェイト w は、一般的に乱数で初期化してから、学習データを与えて、機械自身に学習を通して決定させる。このウェイト w を決定していくプロセスを学習とよぶ。

乱数で初期化された w があったとき、このモデルにある 1 サンプルの学習データ (x₁, y₁ = 1) を与えた時、z₁ = w^Tx₁ ≥ 0 と計算されたと仮定する。このとき z₁ > 0 だから、f(z₁) = 1 となるので 1 が出力される。これは学習データ y₁ = 1 と一致するので、w を更新しなくても、このモデルは予測するのに十分に使える。

次に、もう 1 サンプルの学習データ (x₂, y₂ = 1) が与えられて、z₂ = w^Tx₂ < 0 と計算されたと仮定する。すると、このモデルは f(z₂) = 0 と 0 を出力する。このモデルで出力した値は、学習データの y₂ = 1 と異なるので、w を更新（修正）していく必要がある。その更新は、w^Tx₂ の値が大きくなるような更新である必要がある。つまり、w に何かの値を加えて、しかも w^Tx₂ の値を大きくしなくてはならない。その一つの方法として、以下のようにすることができる。

\[ \mathbf{w}^{new} = \mathbf{w} + \mathbf{x}_{2} \]

このとき、x₂ は列ベクトルだから、x₂^Tx₂ は必ず 0 よりも大きくなることから、次の関係が求まる。

\[ \begin{eqnarray} (\mathbf{w}^{new})^{T} \mathbf{x}_{2} &=& (\mathbf{w} + \mathbf{x}_{2})^{T}\mathbf{x}_{2} \\ &=& \mathbf{w}^{T}\mathbf{x}_{2} + \mathbf{x}_{2}^{T}\mathbf{x}_{2} \gt \mathbf{w}^{T}\mathbf{x}_{2} \end{eqnarray} \]

よって、一般的に、学習データ (x, y₁ = 1) が与えられた時、もし、その時のモデルが f(z) = 0 となった場合は、次の式で w を更新することができる。

\[ \mathbf{w}^{new} = \mathbf{w} + \mathbf{x} \]

一方で、学習データ (x, y₁ = 0) が与えられた時、その時のモデルが f(z) = 1 となった場合は、同様に考えて（w^Tx の値を小さくなるように修正を行う必要があるので）、次の式で w を更新する必要がある。

\[ \mathbf{w}^{new} = \mathbf{w} - \mathbf{x} \]

両者の符号に着目すると、w を更新する式は次のように一般化することができる。この式であれば、学習データに対して予測が正しいとき（「y = 1 かつ f(z) = 1」または「y = 0 かつ f(z) = 0」）、w の更新が行われないようになる。一方で、予測が間違った時に、正しい方向へ更新を行うようになる。

\[ \mathbf{w}^{new} = \mathbf{w} + (y - f(z)) \mathbf{x} \]

この式で見たように、w の更新は、y - f(z) の差を使って行われる。つまり、更新する場合は、x に対して 1 倍をかけて、w の更新を行う。この更新間隔を大きくしたり、小さくしたりすることができる。例えば、1 倍ではなく、η 倍をかけて w を更新させることもできる。

\[ \mathbf{w}^{new} = \mathbf{w} + \eta (y - f(z)) \mathbf{x} \]

パラメーターの更新はこのような単純な式で行える。しかし、損失関数の形や学習率 η によって、収束速度が遅かったり、あるいは最適解に収束できなかったりする。そのため、現在では、確率的勾配降下法（SGD）をはじめとする Momentum 法、AdaGrad 法、Adam 法など、様々な最適化アルゴリズムが提唱されている。

Python スクリプト

パーセプトロンの学習を Python で実装した例。

References

Lagandula AC. Perceptron Learning Algorithm: A Graphical Explanation Of Why It Works. website