物体検出は、学習で覚えた物体が画像中のどの領域にあるのかを検出することである。例えば、ヒト、自転車、車などの物体を覚えさせたモデルに一枚の写真を入力すると、そのモデルは、写真上のどこに既知の物体があるのかを検出し、その物体を矩形(バウンディングボックス)で囲む形で出力される。物体検出は、物体認識に加えて、その物体の位置も特定する必要があるため、比較的に難しいタスクといえる。
R-CNN | 画像の中からオブジェクトらしき領域を 2,000 領域を検出し、それぞれの候補領域に対して CNN で特徴を抽出し、その特徴を SVM に入力して物体認識を行なっている。 |
SPPnet | Spatial Pyramid Pooling とよばれる手法を用いて、CNN で抽出された特徴量を可変サイズで取り扱えるようにした方法。 |
Fast R-CNN | 画像に対して、最初に 1 回だけ CNN で特徴抽出を行なって、その特徴マップから候補領域を切り出して物体認識を行なっている。畳み込み演算の回数が減った分だけ、高速化できた。 |
Faster R-CNN | R-CNN や Fast R-CNN の物体候補を検出アルゴリズムを改良し、物体の候補位置と物体認識の両方を深層学習(CNN)で行えるようにした。 |
YOLO | YOLO は、画像をグリッド状に分割し、各グリッドごとに物体判別を行い、物体検出を行なっている。 |
SSD | SSD と YOLO と似たアルゴリズムである。YOLO よりも高速で、Faster R-CNN と同等な精度を出す。 |
DSSD |