原論文連結:https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1.pdf
筆記版論文連結:https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1-PaperNotes.pdf
你只需要看一次:統一的、實時的目標檢測
1. 簡介
(1)主要作者簡介:
Joseph Redmon:YOLOv1、YOLOv2、YOLOv3、DarkNet深度學習框架。
Ross Girshick:人稱RGB大神,主要論文有DPM、R-CNN、Fast R-CNN、Faster R-CNN、FPN、Mask R-CNN、RetinaNet、YOLOv1等。
Ali Farhadi:Joseph Redmon在華盛頓大學的導師。
(2)YOLOv1特點:
R-CNN、SPP-Net、Fast R-CNN,Faster R-CNN等都是two-stage目標檢測器,即第一階段生成潛在候選框(Region Proposal);第二階段用CNN分類器逐一篩選每個候選框。這類網路雖然準確性較好,但速度太慢,很難達到實時檢測(>30FPS)的需求。而YOLO屬於one-stage(單階段)目標檢測器,可以直接端對端的優化檢測效能,通常輸入影像只需要經過一次前向預測就可迴歸得到類別和定位資訊,且速度極快,能夠很好地實現實時的目標檢測(YOLO實時最準、Fast YOLO實時最快)。
2. 論文思想
2.1 演算法流程
(1)將原圖劃分為S*S網格(grid cell);
(2)物體的中心點(也即Ground Truth人工標記框的中心點)落到哪個grid cell裡, 就由該grid cell負責檢測這個物體,且檢測這個物體的bounding box由該grid cell生成;
(3)每個grid cell預測B個bounding box(每個bounding box由5個引數組成:4個座標(x, y, w, h)和一個置信度confidence);
x, y 是bounding box中心點相對於所在grid cell左上角格點的座標;
w, h 是bounding box相對於整幅影像的寬和高;
bounding box的confidence score定義如下:
- Pr(Object):bounding box是否包含物體,包含為1不包含為0;
- IOU:Intersection Over Union,是指bounding box與ground truth的交併比,也就是預測框和真實標記框的交併比。
- 其乘積就是confidence score的標籤值,對於負責預測的bounding box,Pr=1,這個標籤值就相當於IOU。
- 注意上述的步驟是訓練階段,而在預測階段是直接回歸得到confidence,不需要計算Pr和IOU,而是隱式地包含了兩者。
(4)B個bounding box中與Ground Truth框的IOU最大的bounding box負責檢測這個物體;
(5)每個grid cell預測C個條件類別概率:Pr(Classi|Object) ,C表示目標檢測的類別數,Pr(Classi|Object) 表示確認grid cell內有物體的前提下該物體是某類別的概率;
最終每個bounding box分類的confidence就是上述的Pr(Classi|Object)與(3)中bounding box置信度預測的乘積:
上式代表每個bounding box中第i個類別的概率,包含物體的分類精度和定位精度。
(6)訓練階段,就是不斷迭代上述步驟,通過監督學習使得損失函式最小化的過程;而預測階段,輸入448*448*3的影像,只需經過一次神經網路,即可輸出7*7*30的張量(包含定位和分類資訊)。
2.2 網路結構
該網路模型由24個卷積層+2個全連線層構成。輸入448*448*3的影像,輸出7*7*30的張量。網路中的1*1卷積層,出自Network in network(NiN),在這裡的作用是降維,減少權重個數和計算量。
Tips:CNN小知識補充
預訓練:使用大型資料集預先訓練模型的過程。常用預訓練模型有VGG16/19、ResNet50等。
微調:將預訓練過的模型作用於自己的資料集,並使引數適應自己資料集的過程。
卷積神經網路的核心是:
(1)淺層卷積層提取基礎特徵,比如邊緣、輪廓等;
(2)深層卷積層提取抽象特徵,比如整個臉型;
(3)全連線層根據特徵組合進行評分分類。
預訓練模型的特點就是:用大型資料集做訓練,已經具備了提取淺層基礎特徵和深層抽象特徵的能力。
2.3 預訓練分類網路
在ImageNet 1000-class competition dataset上預訓練了一個分類器,預訓練網路使用圖中前20個卷積 + 1個GAP(Global Average Pooling) + 1個全連線層,網路輸入為224*224大小。
2.4 訓練檢測網路
(1)由於檢測需要細粒度的影像資訊,所以網路輸入由預訓練的224*224改為448*448;
(2)任少卿等人提出在預訓練網路上增加摺積層和全連線層能夠提升效能,所以訓練網路改為上圖所示:24個卷積層 + 2個全連線層;
(3)檢測框的位置資訊(x, y, w, h)都做了歸一化處理;
x, y 是bounding box中心點相對於所在grid cell左上角格點的座標;
w, h 是相對於整幅影像的寬和高。
(4)使用Leaky ReLU非線性啟用函式;
θ(x) = x, x>0
θ(x) = 0.1x, otherwise
(5)使用sum-squared error損失函式;
(6)訓練過程中採用變化的學習率;
最初的epoch,慢慢從10e-3升到10e-2(一上來就10e-2容易造成發散);
緊接著75個epoch,學習率設為10e-2;
再接下來30個epoch,學習率降為10e-3;
最後30個epoch,學習率將為10e-4。
(7)為了避免過擬合,使用dropout和資料增強,資料增強包括:隨機縮放,20%全圖大小的平移,調整HSV色彩空間。
2.5 損失函式(L2 Loss)
損失函式分五部分,第1、2項為座標迴歸誤差;第3、4項為Confidence(置信度)迴歸誤差;第5項為類別預測誤差,即分類誤差。
(1)負責檢測物體的bbox中心定位誤差
此處λcoord 取值為5,而(4)中λnoobj 取值為0.5,之所以如此設定,是因為影像中有很多grid cell是不包含物體的,這些grid cell中bbox的置信度都為0,這通常會壓制或者說弱化那些含有包含物體的grid cell的梯度,導致模型不穩定,造成訓練過早發散。所以設定λcoord = 5,λnoobj = 0.5,相當於加強bbox座標預測損失(也就是定位誤差),削弱不包含物體的bbox的置信度損失。
(2)負責檢測物體的bbox寬高定位誤差
式中,使用寬和高的平方根來代替寬和高,是因為在小框裡邊小的偏差比在大框裡邊影響更大,如下圖示:
(3)負責檢測物體的bbox的confidence誤差
(4)不負責檢測物體的bbox的confidence誤差
(5)負責檢測物體的grid cell的分類誤差
3. YOLOv1的缺陷
(1)小目標檢測差強人意,由於空間的約束導致可預測的目標數量受限,每個grid cell只能預測一個目標,整幅影像最多預測7*7=49個目標;
(2)很難泛化到新的或不常見縱橫比或形狀的目標;
(3)預測框使用了相對較粗粒度的特徵(由於存在很多下采樣層),這導致其定位誤差較高;
(4)小框裡的小的誤差比在大框裡的影響更大。(這個在損失函式的第二項中有相應的優化措施,即用寬高的平方根來代替寬高。個人猜測可能並沒有達到預期效果)
4. 其他一些檢測器的特點
- DPM(Deformable parts models)
傳統特徵HOG、傳統分類器SVM、滑動視窗方法、彈簧模型:子模型+主模型。
- R-CNN 使用region proposals代替sliding window apporoach
選擇性搜尋(Selective Search)生成潛在邊界框、卷積網路提取特徵、SVM打分、線性模型調整邊界框、NMS非最大值抑制剔除重複檢測框。
- Fast R-CNN
相比於R-CNN,做了以下幾點改進
(1)卷積不再是對每個Region Proposal進行,而是直接對整張影像,相當於共享計算;
(2)用ROI Pooling進行特徵的尺寸變換,因為全連線層的輸入要求尺寸大小一樣,因此不能把Region Proposal作為輸入;
(3)用SoftMax代替原來的SVM分類器。
- Faster R-CNN
核心改進是使用RPN(Region Propose Network)提取區域,代替Selective Search,極大的提升了檢測框的生成速度。
RPN模組主要執行的流程為輸入Faster R-CNN的公共Feature Map,生成Anchors,通過SoftMax分類器提取Positive Anchors;最後Proposal Layer負責綜合positive anchors和對應bounding box regression偏移量獲取proposals,同時剔除重疊和超出邊界的proposals。
- Deep MultiBox
使用卷積神經網路代替Selective Search來預測ROI;但無法進行通用目標檢測。
- OverFeat
使用卷積神經網路定位(高效實現了滑窗);但是其優化的是定位而非檢測效能,且是基於區域性來預測的,無法推理全域性背景。
- MultiGrasp
提出regression方法來預測抓取物體,但它只是一個更簡單的目標檢測任務,只需要預測目標的區域,而不需要預測目標的大小、位置、邊界資訊以及類別。
5. 論文精讀筆記
可以點選連結下載高清原版筆記pdf,論文重點、專有名詞解釋、公式推導、複雜單詞釋義等都有清晰的標註。
參考資料
1、b站子豪兄YOLOv1論文精度(講的特別清晰,建議一看)
3、一文詳解R-CNN、Fast R-CNN、Faster R-CNN
4、讀論文:YOLO