目標檢測發展方向

JimmyChoo發表於2018-08-09

從目標檢測發展到目標追蹤
目標檢測發展歷史
模型綜述
該部分內容是我閱讀知乎時候發現很好自己稍微整理一下:
從近幾年CVPR、ICCV、ECCV三大會議及NIPS上看深度學習已經成為研究計算機視覺的一種標準。主流的應用方向:人臉識別、影像識別、視訊識別、行人檢測、大規模場景識別等。
個人理解國內這些技術起源於亞研院,例如曹旭東、孫劍、何凱明。其中有人在亞研已經從事13年之久的技術與研究,這從實際線上看剛好接上了鄭南寧老師曾經研究的模式識別在數字影像處理。剛好西交大和亞研院有個實習和研發的合作,暫時個人理解為國內影像的學派鼻祖。
深度學習中的物體檢測與特點:
首先很多深度學習平臺的演算法或多或少的模型來自於opencv的數字影像處理基礎,對於物體檢測深度學習與傳統方法的優缺點根據知乎總結如下:
一種基於滑動視窗的搜尋框架,把一張圖分成若干不同位置不同尺度的子圖針對每一個子圖使用分類器判別是非包含物體部分。傳統方法對不同的物體需要設計不同的特徵提取方法和分類演算法。
人臉檢測:Harr特徵+Adaboosting的分類器
行人檢測:HOG(histogram of gradients)+support Vector machine
普通物體:HOG+DPM(deformable part model)
深度學習方法:
影像識別比影像分類多一個迴歸的任務
RCNN、fastRCNN(Ross Girshick)、faster RCNN(任少卿、何凱明、孫劍、Ross)。使用CNN判別候選區域的類別(分類工作),使用預計算技術sharing feature map加速模型訓練和物體檢測速度,同時共享特徵圖提高計算ROI的速度(使用了RPN),其次採用全卷積海量滑動視窗分類檢測物體。
RCNN系列演算法檢測步驟:第一步實現分類第二步實現迴歸,由於改進現在也很多端到端一步方法yolo,Unified,Real-Time Object Detection,Single Shot MultiBox Detector,特點物體檢測樣本正負極端不均衡,two-stage-cascade更好對應非均衡。所以端到端需要更多研究研究,不過最近很多方法,上海交大等研究模型進步很快。
法國Inria研究所的研究人員Nikos paragios描述原因及特點。
第一深度學習可以做的傳統方法無法達到的高精度準確,工業上非常實用。
第二深度學習的演算法通用性強fasterRCNN都可以用在檢測人臉、行人、一般物體。
第三深度學習獲取特徵有很強的遷移能力,知識表示能力很強。例如ImageNet訓練完很多場景都能用。
第四工程維護成本低,主要是矩陣乘和卷積通過現有的層可以開發複雜網路結構實現功能的融合,可以對比維護Boosting、Random Forest。
深度學習與機器學習的區別:
深度學習是學習輸入到輸出的多層的複合對映,二而機器學習只是一種對映。學習目標和學習方法可以通過調節層之間卷積或全連線的關係或其他對映得到不同的知識表示。亞研院用RF做過一個新對映關係研究等。
商湯CVPR2016年釋出的論文是目前工業級主要的應用,四篇論文分別是《物體分割》、《服飾識別搜尋術》、《行為識別與定位》、《人臉檢測中級聯卷積神經網路聯合訓練》,基礎技術Alexnet、VGGnet、GoogleNet、ResNet、DensNet完成任務:檢測、識別、分割、特徵定位、序列學習。
第一篇主要解決的學術問題:Instance segmentation(Simultaneous Detection and Segementation)
主要解決了object Detection檢測和語義分割Semantic Segmentation需要得到物體精確的邊界資訊和區分不同物體。
從語義分割上升到場景理解,解決joint cascade face detection and alignment,facial landmark detection by deep mulit -task learning。有多個標註的任務並列Multi-Task Learning。
所以多感知學習是非監督學習的方向主要是藉助動態規劃和圖解決學習侷限,實現遷移學習基礎上的增強學習
Deep Residual learing for image Recognition和Structural—RNN:deep learning Spatio-Temporal Graphs值得閱讀。
論文太對了,可以閱讀最近幾年CVPR、ECCV、ICCV的最近論文和最佳學術論文。
孫劍和何凱明等主要解決了超過20層的訓練和測試不再下降,隨著層數增加loss會逐漸增加。通過跨層反傳skip-layer把loss反傳到中間的很多層,解決梯度傳播問題,同時提出一種思路:resNet通過skip-layer可以做到多模型融合。
模型優化有本書《解析卷積神經網路》第四章有壓縮方案
前端壓縮和後端壓縮,分別是剪枝、低秩近似和引數量化。
前端方法:
剪枝,思想來自決策樹解決冗餘引數。流程
1、衡量神經元的重要程度,L1和L2範數來衡量channel維濾波器的重要程度
2、按照重要程度降序刪除影響小神經元
3、網路微調
4、迴圈操作
一種基於濾波器權重的剪枝一種基於資料驅動根據某一個channel輸出的稀疏程度,也可能反應出了濾波器權重的稀疏程度。另外計算濾波器對於損失函式的影響程度減去小濾波器。所以適用於前端壓縮技術,對網路破壞性小。
低秩近似(後端)
卷積的基本操作矩陣的相乘和相加,權重矩陣的特徵比較巨大和稠密,計算開銷和儲存很大,所以進行矩陣的若干個小規模矩陣近似重構。奇異值分解SVD分解全連結層的權重。
但是由於這種方法的本質是重構近似矩陣,大型神經網路秩很高不一定能用,所以適合小網路。
引數量化
權重聚類,通過類別索引代替原權重矩陣。步驟如下:
1、歸納權重代表,代表某一類權重的具體數值。
2、將代表數存在碼本中
3、將原矩陣中的權重替換成索引標量表示
採用思想:二值網路、知識蒸餾、緊湊網路結構技術。
相關機構:雲從研究院、《ICLR2016Bestpaper》song Han、ISCA2018、
發展方向:Non-fine-tuning or Unsupervised Compression
self-adaptive Compression
Network Acceleration for other tasks
Hardware-Software Co-design
Binarized Neural Networks 等VALSE2018深度神經網路加速與壓縮

相關文章