ZFNet

ZFNet は、AlexNet が持ついくつかの問題点を改良したアーキテクチャで (Matthew et al., 2013)、2013 年の ILSVRC チャレンジコンテストで 1 位を獲得した。

AlexNet では、最初の畳み込み層において 11×11 のカーネルを用いて行われていた。このようなサイズの大きいカーネルを用いることで、画像に潜在している情報の一部を取得できないことがわかった。そこで、ZFNet では、AlexNet の第 1 層目で使われているカーネルのサイズを 7×7 に縮小させたものを採用した。また、AlexNet の第 1 層目で畳み込みを行うとき、カーネルのスライディング距離を 4 ピクセルにしていた。このスライディング距離が大きくなることで、畳み込み後の画像にエイリアシングが発生することがわかった。例えば、畳み込み前の画像で斜線からなるオブジェクトがあるとき、畳み込み後ではその斜線が階段状になったりする。このため、ZFNet ではスライディング距離を 4 ピクセルの代わりに 2 ピクセルを採用した。

AlexNet に改良を加えた ZFNet では、次の図 (Figure 3, Matthew et al., 2013) のように、第 1 層目のカーネルサイズとスライディング距離以外は、AlexNet とほぼ同じ構造となっている。ただし、AlexNet では 1 枚の画像を上下半分に分けてそれぞれで学習を進めたのに対して、ZFNet は 1 枚の画像をそのままで学習を進めている。

ZFNet のアーキテクチャ

ZFNet の報告論文は、初めて転移学習を言及した研究とも言われている。この論文では、Caltech 101 データセットを使って学習させた ZFNet モデルと、ImageNet データセットで学習させたあとに Caltech 101 データセットを学習させた ZFNet モデルを比べたところ、後者の性能が高かった。この現象は、Caltech 101 データセットだけでなく、Caltech 256 データセットを使って比較しても同様な結果が得られた。Caltech データセットに含まれているクラスは、ImageNet データセットにも含まれていることを考えれば、似たような目標(データセット)であれば、別のデータセットで学習させたモデルを転用(転移学習)することで、分類の性能が上がることがわかった。

References