目標檢測入門系列手冊五:YOLO訓練教程

視覺計算發表於2019-12-10

,學習全套目標檢測演算法&模型

image.png

YOLO

由於在R-CNN 的系列演算法中都需要首先獲取大量proposal,但proposal 之間有很大的重疊,會帶來很多重複的工作。YOLO[5] 一改基於proposal 的預測思路,將輸入圖片劃分成SxS 個小格子,在每個小格子中做預測,最終將結果合併,如圖2-14 所示。

接下來我們看一下YOLO 學習的關鍵步驟:

(1)YOLO 對於網路輸入圖片的尺寸有要求,首先需要將圖片縮放到指定尺寸(448x448),再將圖片劃分成SxS 的小格。

(2)每個小格里面做這幾個預測:該小格是否包含物體、包含物體對應的矩形框位置以及該小格對應C 個類別的分數是多少。因此,每個小格需要預測的的維度為B x(1+4)+ C,其中B 代表每個小格最多可能交疊物體的個數,1 為該小格是否包含物體的置信度,4 用來預測矩形框,C 表示任務中所有可能的類別個數(不包含背景)。因此,YOLO 網路最終特徵層的大小為 S x S x( Bx5 + C),圖 2-14 中特徵層大小即為 7 x 7 x ( 2 x 5 + 20)=7x7x30(Pascal VOC2012 目標檢測資料集共有20 種類別)。

image.png

圖2-14 基於Pascal VOC2012 目標檢測資料集的YOLO 示意圖

由於YOLO 直接將輸入圖片劃分為SxS 個小格,不需要產生proposal 的過程,所以速度比Faster R-CNN 快很多,但是因為粒度較粗,所以精度相比Faster R-CNN 略遜一籌。YOLO 的主要貢獻是為目標檢測提供了另一種思路,並使實時目標檢測成為可能。近幾年,YOLOv2 和YOLOv3 接連推出,感興趣的讀者可以參考附錄的6。


文章來源:阿里雲-機器智慧技術


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956605/viewspace-2667686/,如需轉載,請註明出處,否則將追究法律責任。

相關文章