目標檢測實用中可以改進的方向

AIBigbull2050發表於2019-11-23


根據目前手頭上的工作整理的一份清單,主要是自己的工作過程中,感覺到需要改進或者比較關注的問題,可能和一般的目標檢測的研發不太一致,更多的還是些雜七雜八的點。



連續幀檢測

一般的訓練和評估都是針對單幀影像的,然而,實際應用中,很多都是針對連續幀(或者相近幀)的檢測。

在連續幀檢測上,即使在觀感上,就會比較明顯的感覺到不如單幀檢測。

現象主要是以下:

  • 目標不能連續檢出,造成檢測框的閃爍
  • 偶爾的誤識別
  • 檢測框的偶爾跳變和漂移

null

以上就是連續兩幀的影像,用 COCO 資料的模型。直接把沒有處理的裸結果顯示出來的話,觀感上就非常明顯了。

當然,這些都可以在工程上用一些方法來平滑掉。

但是,訓練時,怎樣讓模型可以在連續幀上獲得一個平滑的預測?包括檢測框本身更加穩定的預測。



小目標、遠距離檢測

部分應用場景上,對識別距離是有一定的要求的,也就是對微小目標的識別。一般來說,這個需求比較小眾,只有一些特殊的應用場景上需要。比如,高速上的目標識別。

在有些要求更高的場合,還需要與攝像頭硬體結合,這樣可以支援更遠距離的目標識別。比如圖森的一千米識別。

泛化效能

主要是 訓練和應用場景的差別,畢竟,實際應用是不可能挑場景的。比如:車內物體的玻璃反光、部分資料集不包含的城市、光線變化(特別是圖片區域性區域光照反常)。

還有一個就是 尺度變化問題,實際應用中,一般都是類別相對少一點,但是尺度變化範圍很大。可能從十幾個畫素,一直到填滿整個圖片。算力不愁的話,大不了就是多尺度預測,resize 好幾個解析度,都塞模型跑一遍。實際應用,哪有這份閒算力,多尺度預測的條件在應用上不是總能滿足。



算力節省

一些線上的預測任務,給模型的算力空間是很小的。要求實時處理的話,那麼一般就是 20-30FPS 的預測速度。即使主流的單階段模型,預測速度也都是在旗艦 GPU 上的執行。

比如車載平臺的話,功率都是受限的,然而一份功率一份算力。離線的運算還可以增加 batch size 提升利用率,線上的都是一張張圖片,實際 GPU 利用率也是有折扣的。

不考慮工程上的方法,只能在 backbone 和檢測方法的 head 裡面做工作。



難檢目標

各種難度比較大的目標:

  • 區域性和遮擋:區域性的目標可能會出現不檢出或者檢測框不準的問題
  • 模糊和噪點:運動模糊、光線不足下的攝像頭噪點等等
  • 成組:成組目標會誤導檢測框的迴歸。成組目標非常容易出現檢測框不準的問題,比如,漂移、整組一個檢測框

資料問題

當然,這個是永遠待解決的問題,因為資料永遠都不夠。不多說。

同時,另外一個問題是,實際場景中有些特例就是非常少,甚至採集還得看老天的意思。這個不論是通過資料增強,還是通過模型的改進,目前看來也只能說是修修補補。



多工與多感測器

多工的融合,比如:組合分割任務(Mask-RCNN)、場景屬性預測

多工中也可以提供更加精細的結構化資訊,比如,目標的運動趨勢、目標的多屬性的預測、3D box、目標距離。

感測器的融合,比如:雙目、雷達點雲、深度資訊、毫米波。這些都需要硬體標定和感測器資料匹配,基本都是一臺裝置一次標定,也少不了體力活。



https://www.yanxishe.com/blogDetail/15948?from=tttt1122



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2665430/,如需轉載,請註明出處,否則將追究法律責任。

相關文章