Report of The Paper:"The Years of Pedestrain Detection, What Have We Learned?"
1:Introduction
主要的行人檢測方法:“Viola&Jones variants”,HOG+SVM,DPM,ConvNet
2:Dateset
1:不同的資料集
- INRIA:最古老的也是有相對較少的圖片;有高質量的行人註解在多種不同的環境(城市,沙灘等)。
- ETH和TUD-Brussels:中等大小的錄影資料集。
- Daimler:幾乎不考慮,因為缺少有顏色的渠道。(Daimler stereo,ETH,KITTI 提供立體的影像資訊)
- Caltech-USA和KITTI:是行人檢測的主要基準,都是非常大且具有挑戰性的。Caltech-USA突出因為有大量已經被逐個評估的方法;而KITTI由於更多元化而突出,但是還沒有被廣泛使用。(除了KITTI都使用統一的評估工具。除了INRIA均包含視訊內容。)
2:本文使用內容
- 使用了Caltech-USA作為第一對比資料集;INRIA和KITTI作為第二佔比。
- Caltech-USA和INRIA使用了log-average miss-rate(越小越好)(Miss Rate:丟失率=測試集正例判別為負例的數目/測試集檢索到想要的正例數加上未檢測到不想要的 即是 全部groud truth的數量)
- KITTI使用了AUC(越高越好)(AUC:一個正例,一個負例,預測為正的概率值比預測為負的概率值還要大的可能性。)
3:主要提升行人檢測的方法
3.1:訓練資料
- 在Galtech-USA上訓練的方法表現比INRIA上好。
3.2:方法的家族
- 40餘個方法可以被大體分為三個家族:DPM,DF,DN。
- 我們能通過表格發現似乎(被促進的)DF很適合行人檢測,在多個資料集上均能獲得最低的MR,但不清楚原因。DN也展示出了較好的效能
3.3:更好的分類器
- 沒有明顯的證據證明非線性核會比線性核效能好;類似的,也無法說明不同的分類器(比如SVM和DF)哪個更好。
3.4:更多的資料
- 很多的解決方法還使用了更多的資料,比如:立體影像,光流(如用前面的幀),追蹤或者是從其他感測器獲取的資料(如雷達)。
- 單眼法(monocular methods?)依然不清楚追蹤能有提升多少前一幀的檢測。
3.5:利用上下文
- 利用上下文的策略包括ground plane constraints(MultiResC&RandForest),variants of auto-context(MOCO),other category detector(MT-DPM+Context),and person-to-person patterns(DBN-Mut&+2Ped&JointDeep)
- 上下文可以提升行人檢測的表現,即使沒有3.4和3.8用到的方法多。
3.6:可變形的部分
- DPM目前已經有數十種變種
3.7:多尺寸模型
- 一般對於檢測,在提取特徵之前高解析度和低解析度候選視窗都被重新取樣到相同尺寸。目前已經發現雖不同的解析度圖片用不同的模型可以提高1-2%的MR表現;而且也不會影響計算時間,即使訓練時間增加。
- 總結:多尺寸模型可以帶來提升,但是提升聊勝於無。
3.8:深層架構
- 大量的訓練資料和日益增加的計算機效能使得深層架構在各種計算機視覺任務(大規模的分類和檢測以及語義標記)上獲得成功(通常是卷積神經網路)。
- ConvNet在INRIA上使用混合監督和無監督學習建立卷積神經網路;這一方法在ETH和TUD-Brussels獲得同樣的結果,但是無法概括Caltech體系。這一方法從原始畫素值學習已有的特徵。
- 其他工作聚焦於用深層結構共同模擬零件和遮擋(jointly model parts and occlusions?)(例:DBN-Isol&DBN-Mut&JointDeep&SDN)提升大約在1.5-14%。注意這些工作用邊緣和顏色特徵,或者初始化邊緣濾波器的網路權重而不是像深層架構一樣從原始畫素值中進行學習。目前還沒有在ImageNet上的特徵預訓練的報告。
- 總結:儘管目前依舊沒有證據能證明深層網路擅長學習特徵。大部分使用深層網路的成功方法用parts,occlusions,context方面來造高層網路。這個結果不和DPM以及DF相提並論,導致使用這個架構的好處還不清楚。
3.9:更好的特徵
- 最流行的提升檢測質量的方法是增加或多樣化輸入影像的特徵。大量的特徵型別已經被髮掘:邊緣資訊,顏色資訊,紋理資訊,區域性形狀資訊,協方差資訊及其他的。
- 當大量的DF方法使用10特徵管道,一些論文想到增加更多通道的方法。儘管增加通道有提升,但是最優選擇依舊是10個(6個漸變方向,1個梯度大小,3個顏色通道,我們稱之為HOG+LUV)。
- 應該注意到深度學習並不能獲得行人檢測的更好特徵。
- 總結:近十年的行人檢測發展都能歸功於特徵的增多,而且這一趨勢還會繼續。下一步應該是建立一個更深刻的理解什麼使得好的特徵好而且知道怎麼設計一個更好的。
4:實驗
選擇了Integral Channels Features framewirks(一個DF)進行實驗。
4.1:複習特徵的作用
- 在這一部分我們將評估增加特徵複雜性的影響,在INRIA資料集上呼叫所有方法,並在Caltech-USA上進行演示;在INRIA上的結果可以在補充材料上看到細節。
- 總結:從VJ以來的進展大多可以歸功於更好的特徵,基於梯度或者顏色資訊。一些基於特徵的簡單調整也能有一些小提升(例如:把10個HOG+LUV通道用卷積每個通道和三個DCT函式,將通道增加到40個)
4.2:互補的方法
- 考慮互補的框架特徵:更好的特徵(HOG,LUV,DCT),更多的資料(光流),上下文(人與人互動?)
- 我們的實驗顯示加入更多特徵,流,上下文資訊是有很強的互補性的,即使是從一個強的檢測器開始。
- 我們仍能發現進一步瞭解核心演算法能幫助我們獲得更好的檢測質量(因此進一步減少附加項的相對改善),或者是擴充系統內部使用技術的多樣性。
4.3:模型的容量多少合適?
- 我們的主要任務是使訓練集能概括測試集,所以我們先考慮:學習的模型能在訓練集上表現好嗎?
- 我們在圖六發現在4.1中考慮的模型在測試機中表現不好,從圖5也能看到在測試集上的趨勢相同,我們沒有看到過擬合的趨勢
- 總結:我們的結果表明,越好的辨別能力帶來更好的檢測質量,而鑑別能力能從更多更好的特徵或者更復雜的分類器得到。
4.4:跨資料集的泛化
- 因為真實應用都基於一個特別的基準,所以模型的泛化能力使關鍵(泛化能力:通俗來講就是指學習到的模型對未知資料的預測能力),因此訓練集和測試集不同是更有意義的。
- 僅僅幾樣不同的行人資料集表現就比很多相似的資料集好。
- 總結:雖然在一個資料集上學到的探測器也許不會在另一個上表現的好,但是它們的排名卻跨資料集穩定;無論基準如何都能都能從好的方法中學習。
5:總結
- 我們的實驗發現近十年的行人檢測發展都能歸功於特徵的增多,而且這一趨勢還會繼續,雖然一些特徵能通過學習得到,但是大部分還是需要反覆的用手進行實驗。
- 我們的實驗發現更好的特徵,光流和上下文的結合是最互補的,而且在Caltech-USA上有最好的表現。
- 雖然三大行人檢測的家庭(deformable part models,decision forests,deep networks)基於不同的技術,但是他們的結果卻十分相近。
- 目前最主要的挑戰是什麼使得一個好的特徵是好的,以設計一個更好的。
由於自身能力和時間倉促的原因,該報告的內容肯定有不少錯誤之處,歡迎大家指出,我會及時修改;論文的pdf版本我也會在5.28日與該論文的補充材料報告一同上傳。