目標檢測演算法盤點(最全)

七月線上實驗室發表於2018-04-27

640?wx_fmt=png&wxfrom=5&wx_lazy=1

七月線上實驗室國內領先的人工智慧教育平臺,零基礎學AI640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


目標檢測是很多計算機視覺任務的基礎,不論我們需要實現影象與文字的互動還是需要識別精細類別,它都提供了可靠的資訊。本文對目標檢測進行了整體回顧,第一部分從RCNN開始介紹基於候選區域的目標檢測器,包括Fast R-CNN、Faster R-CNN 和 FPN等。第二部分則重點討論了包括YOLO、SSD和RetinaNet等在內的單次檢測器,它們都是目前最為優秀的方法。


基於候選區域的目標檢測器


滑動視窗檢測器

自從 AlexNet 獲得 ILSVRC 2012 挑戰賽冠軍後,用 CNN 進行分類成為主流。一種用於目標檢測的暴力方法是從左到右、從上到下滑動視窗,利用分類識別目標。為了在不同觀察距離處檢測不同的目標型別,我們使用不同大小和寬高比的視窗。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

滑動視窗(從右到左,從上到下)


我們根據滑動視窗從影象中剪下影象塊。由於很多分類器只取固定大小的影象,因此這些影象塊是經過變形轉換的。但是,這不影響分類準確率,因為分類器可以處理變形後的影象。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

將影象變形轉換成固定大小的影象


變形影象塊被輸入 CNN 分類器中,提取出 4096 個特徵。之後,我們使用 SVM 分類器識別類別和該邊界框的另一個線性迴歸器。

640?wx_fmt=png

滑動視窗檢測器的系統工作流程圖。


下面是虛擬碼。我們建立很多視窗來檢測不同位置的不同目標。要提升效能,一個顯而易見的辦法就是減少視窗數量。

for window in windows
   patch = get_patch(image, window)
   results = detector(patch)


選擇性搜尋

我們不使用暴力方法,而是用候選區域方法(region proposal method)建立目標檢測的感興趣區域(ROI)。在選擇性搜尋(selective search,SS)中,我們首先將每個畫素作為一組。然後,計算每一組的紋理,並將兩個最接近的組結合起來。但是為了避免單個區域吞噬其他區域,我們首先對較小的組進行分組。我們繼續合併區域,直到所有區域都結合在一起。下圖第一行展示瞭如何使區域增長,第二行中的藍色矩形代表合併過程中所有可能的 ROI。

640?wx_fmt=png

圖源:van de Sande et al. ICCV'11


R-CNN

R-CNN 利用候選區域方法建立了約 2000 個 ROI。這些區域被轉換為固定大小的影象,並分別饋送到卷積神經網路中。該網路架構後面會跟幾個全連線層,以實現目標分類並提煉邊界框。

640?wx_fmt=jpeg

使用候選區域、CNN、仿射層來定位目標。


以下是 R-CNN 整個系統的流程圖:

640?wx_fmt=png

通過使用更少且更高質量的 ROI,R-CNN 要比滑動視窗方法更快速、更準確。

ROIs = region_proposal(image)
for ROI in ROIs
   patch = get_patch(image, ROI)
   results = detector(patch)


邊界框迴歸器

候選區域方法有非常高的計算複雜度。為了加速這個過程,我們通常會使用計算量較少的候選區域選擇方法構建 ROI,並在後面使用線性迴歸器(使用全連線層)進一步提煉邊界框。

640?wx_fmt=jpeg

使用迴歸方法將藍色的原始邊界框提煉為紅色的。


Fast R-CNN

R-CNN 需要非常多的候選區域以提升準確度,但其實有很多區域是彼此重疊的,因此 R-CNN 的訓練和推斷速度非常慢。如果我們有 2000 個候選區域,且每一個都需要獨立地饋送到 CNN 中,那麼對於不同的 ROI,我們需要重複提取 2000 次特徵。


此外,CNN 中的特徵圖以一種密集的方式表徵空間特徵,那麼我們能直接使用特徵圖代替原圖來檢測目標嗎?

640?wx_fmt=png

640?wx_fmt=jpeg

直接利用特徵圖計算 ROI。

Fast R-CNN 使用特徵提取器(CNN)先提取整個影象的特徵,而不是從頭開始對每個影象塊提取多次。然後,我們可以將建立候選區域的方法直接應用到提取到的特徵圖上。例如,Fast R-CNN 選擇了 VGG16 中的卷積層 conv5 來生成 ROI,這些關注區域隨後會結合對應的特徵圖以裁剪為特徵圖塊,並用於目標檢測任務中。我們使用 ROI 池化將特徵圖塊轉換為固定的大小,並饋送到全連線層進行分類和定位。因為 Fast-RCNN 不會重複提取特徵,因此它能顯著地減少處理時間。

640?wx_fmt=jpeg

將候選區域直接應用於特徵圖,並使用 ROI 池化將其轉化為固定大小的特徵圖塊。


以下是 Fast R-CNN 的流程圖:

640?wx_fmt=png

在下面的虛擬碼中,計算量巨大的特徵提取過程從 For 迴圈中移出來了,因此速度得到顯著提升。Fast R-CNN 的訓練速度是 R-CNN 的 10 倍,推斷速度是後者的 150 倍。

feature_maps = process(image)
ROIs = region_proposal(feature_maps)
for ROI in ROIs
   patch = roi_pooling(feature_maps, ROI)
   results = detector2(patch)

Fast R-CNN 最重要的一點就是包含特徵提取器、分類器和邊界框迴歸器在內的整個網路能通過多工損失函式進行端到端的訓練,這種多工損失即結合了分類損失和定位損失的方法,大大提升了模型準確度。


ROI 池化

因為 Fast R-CNN 使用全連線層,所以我們應用 ROI 池化將不同大小的 ROI 轉換為固定大小。


為簡潔起見,我們先將 8×8 特徵圖轉換為預定義的 2×2 大小。

  • 下圖左上角:特徵圖。

  • 右上角:將 ROI(藍色區域)與特徵圖重疊。

  • 左下角:將 ROI 拆分為目標維度。例如,對於 2×2 目標,我們將 ROI 分割為 4 個大小相似或相等的部分。

  • 右下角:找到每個部分的最大值,得到變換後的特徵圖。

640?wx_fmt=png

輸入特徵圖(左上),輸出特徵圖(右下),ROI (右上,藍色框)。


按上述步驟得到一個 2×2 的特徵圖塊,可以饋送至分類器和邊界框迴歸器中。


Faster R-CNN

Fast R-CNN 依賴於外部候選區域方法,如選擇性搜尋。但這些演算法在 CPU 上執行且速度很慢。在測試中,Fast R-CNN 需要 2.3 秒來進行預測,其中 2 秒用於生成 2000 個 ROI。

feature_maps = process(image)
ROIs = region_proposal(feature_maps)         # Expensive!
for ROI in ROIs
   patch = roi_pooling(feature_maps, ROI)
   results = detector2(patch)

Faster R-CNN 採用與 Fast R-CNN 相同的設計,只是它用內部深層網路代替了候選區域方法。新的候選區域網路(RPN)在生成 ROI 時效率更高,並且以每幅影象 10 毫秒的速度執行。

640?wx_fmt=png

Faster R-CNN 的流程圖與 Fast R-CNN 相同。


640?wx_fmt=jpeg

外部候選區域方法代替了內部深層網路。


候選區域網路

候選區域網路(RPN)將第一個卷積網路的輸出特徵圖作為輸入。它在特徵圖上滑動一個 3×3 的卷積核,以使用卷積網路(如下所示的 ZF 網路)構建與類別無關的候選區域。其他深度網路(如 VGG 或 ResNet)可用於更全面的特徵提取,但這需要以速度為代價。ZF 網路最後會輸出 256 個值,它們將饋送到兩個獨立的全連線層,以預測邊界框和兩個 objectness 分數,這兩個 objectness 分數度量了邊界框是否包含目標。我們其實可以使用迴歸器計算單個 objectness 分數,但為簡潔起見,Faster R-CNN 使用只有兩個類別的分類器:即帶有目標的類別和不帶有目標的類別。

640?wx_fmt=jpeg

對於特徵圖中的每一個位置,RPN 會做 k 次預測。因此,RPN 將輸出 4×k 個座標和每個位置上 2×k 個得分。下圖展示了 8×8 的特徵圖,且有一個 3×3 的卷積核執行運算,它最後輸出 8×8×3 個 ROI(其中 k=3)。下圖(右)展示了單個位置的 3 個候選區域。

640?wx_fmt=jpeg

此處有 3 種猜想,稍後我們將予以完善。由於只需要一個正確猜想,因此我們最初的猜想最好涵蓋不同的形狀和大小。因此,Faster R-CNN 不會建立隨機邊界框。相反,它會預測一些與左上角名為「錨點」的參考框相關的偏移量(如

相關文章