VGGNet | 層が深くなるにつれ画像認識の性能が上がることを示した実験

VGGNet は、2014 年の画像分類チャレンジコンテスト ISLVRC-2014 で第 2 位を獲得したアーキテクチャである（Simonyan et al., 2014）。この研究では、ネットワークの層数と分類の性能の関係を明らかにした研究でもある。

この研究では、6 種類のアーキテクチャを構築し、画像分類の性能の比較を行った。彼らは、まず基本となる 11 層からなるアーキテクチャを構築した（VGG11）。次に、AlexNet で使われている local response normalization の効果を調べるために、VGG11 の 2 層目に local response normalization (LRN) を加えたアーキテクチャも構築した（VGG11-LRN）。VGG11 と VGG11-LRN の性能を比較すると、LRN を取り入れることによって、性能が改善されないことが明らかとなった。

続いて、層数を増やすことで分類の性能にどれほどの影響を与えるのかを調べるために、彼らは 13 層のアーキテクチャを構築した（VGG13）。VGG11 と VGG13 の性能を比較したところ、層を深くすることで、性能が高くなることが明らかとなった。また、この時期に、1×1 Convolution とよばれる作業が決定関数の非線形性を増やすことが知られている。そこで、彼らは、16 層からなる深層アーキテクチャに 1×1 Convolution を導入したアーキテクチャ（VGG16 (Conv1)）とそうでないアーキテクチャ（VGG16）を構築し、性能を比較した。比較結果により、1×1 Convolution の効果が見られなかった。そのため、彼らは、1×1 Convolution を含まない VGG16 をさらに深くして、19 層からなる VGG19 を構築した。総じて、VGG16 と VGG19 の性能がよかったので、現在では VGG16 または VGG19 が使われている。

VGGNet の論文で取り上げられたいくつかのアーキテクチャは、該当論文の Table 1 で確認できる（Simonyan et al., 2014）。

References

Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv. 2014. arXiv: 1409.1556