3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

机器之心發表於2020-05-28

在自動駕駛領域,基於鐳射雷達 (LiDAR) 的 3D 物體檢測和運動行為預測是一種普遍的方案。目前絕大部分關於鐳射雷達的物體檢測演算法都是基於單幀的。鐳射雷達的多幀時序資料,提供了對於檢測物體的多視角觀測 (multiple views),歷史記憶 (history memory),安全冗餘 (redundant safty),以及運動特徵 (motion kinematics) 等豐富的資訊;可用來幫助提高檢測速度和精度,並且增加檢測結果的可靠性。對於感知的下游模組,例如追蹤和預測,時序資訊則更為重要。

在傳統影片理解領域,時序資訊融合研究相對比較成熟,具體方法主要透過後處理 (post-processing) 來建立檢測物體間的對應關係 [1,2];藉助光流 (optical flow) 跨越多幀來傳播高層特徵 [3,4];或者利用記憶對準 (memory alignment) 直接融合多幀特徵資訊 [5,6]。

而相較於影片或者影像,鐳射雷達的點雲非常稀疏,導致對其提取的特徵圖譜 (feature maps) 也非常稀疏;此外,在點雲鳥瞰圖 (bird』s eye view) 中絕大多數前景物體如車輛和行人只佔據很小的空間範圍。所以如何有效融合鐳射雷達的時序資訊對於學術界和工業界仍然是一個開放的問題。

時序融合—3D 物體檢測

FaF 是一個具有代表性的考慮鐳射雷達時序資訊的物體檢測和行為預測演算法,論文《Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net》發表於 CVPR 2018。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

論文連結:http://openaccess.thecvf.com/content_cvpr_2018/papers/Luo_Fast_and_Furious_CVPR_2018_paper.pdf

該論文提出了一種結合檢測,跟蹤和預測於一體的網路結構。通常自動駕駛系統包含檢測,跟蹤,軌跡預測與規劃等模組,下游模組以上游模組的結果作為輸入。

但遺憾的是,這樣的解決方案存在一個問題,即每個模組的誤差會在下游逐步累積,例如誤檢或漏檢的物體會對後續的跟蹤與預測帶來很大影響,從而造成錯誤的規劃,最終對乘車舒適度甚至安全造成負面影響。

FaF 提出了一種端到端的網路用以同時完成檢測,追蹤和預測三項任務,從而在一定程度上緩解了各個模組錯誤的逐級累積。其具體做法是首先將相鄰若干幀鐳射雷達掃描得到的點雲轉換到同一座標系下,把每一幀的點雲進行體素化 (voxelization);同時為了避免在單幀上使用 3D 卷積及其所引入的計算複雜度,將高度這一維作為通道 (channel),從而將每一幀表示成為一個三維張量以便使用 2D 卷積處理。網路以多幀點雲的鳥瞰圖作為輸入,直接輸出當前輸入 5 幀的檢測結果以及未來 10 幀的預測結果 (如下圖所示)。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

而對於多幀點雲的時序資訊,FaF 提出了兩種融合方式:早期融合 (early fusion) 和後期融合 (late fusion),具體做法如下圖所示。

早期融合(下圖 a)對輸入的每一幀體素表示採取 1D 時間卷積,空間維度共享權重,將多幀資訊合併在一起。這種做法十分高效,可以達到和單幀幾乎一樣的檢測速度;論文中的實驗指出,單幀處理需要 9ms,早期融合處理 5 幀需要 11ms;但早期融合的缺點是無法準確地捕捉複雜的運動資訊;

後期融合(下圖 b)則採取逐級融合的方式,透過 3D 時空卷積逐步將多幀時序資訊融合在一起。論文在 Uber 內部資料集上報告的結果顯示,後期融合效果最好,但推理時間也相應增加到 30ms。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

最近的一篇關於鐳射雷達時序融合的論文《LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention》收錄於 CVPR 2020。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

論文連結:https://arxiv.org/pdf/2004.01389.pdf

該論文首先利用圖神經網路 (graph neural networks) 構建體柱資訊傳輸網路 PMPNet (Pillar Message Passing Network) 從而增加每個體柱特徵的感受野 (receptive field) 來增強單幀鐳射雷達的特徵提取。文中進一步提出了結合注意力機制的門控迴圈卷積 AST-GRU (Attentive Spatio-temporal Transformer GRU) 進行時空建模。

具體來說,AST-GRU 包含兩部分:STA (Spatial Transformer Attention) 和 TTA (Temporal Transformer Attention)。STA 關注於前景物體檢測,TTA 用以處理運動物體在特徵圖譜上的對齊,具體操作是透過可變形卷積 (deformable convolution) 來對齊前後兩幀特徵圖譜中的運動物體。該方法的網路結構如下圖所示,它在 nuScenes 的 3D 物體檢測資料集上相比於單幀演算法有較大提升。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

時序融合—3D 物體行為預測和運動檢測

FaF 的後續工作《IntentNet: Learning to Predict Intention from Raw Sensor Data》收錄於 CoRL 2018。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

論文連結:http://proceedings.mlr.press/v87/casas18a/casas18a.pdf

IntentNet 在 FaF 的基礎上進一步加入動態高精地圖作為輸入來提供靜態 (如車道,交叉口,交通指示牌等) 和動態 (如紅綠燈的狀態轉換) 語意地圖 (semantic map)。包含時序資訊的動態高精地圖為 3D 物體檢測,意圖分類和軌跡預測提供了豐富的線索。

為了更好的挖掘和利用鐳射雷達和動態地圖的時序資訊,如下圖所示,IntentNet 的輸出端在 FaF 的 3D 物體檢測 (detection) 和軌跡預測 (regression) 的基礎上加入了行為意圖分類 (intention classification,例如左/右轉,停/泊車,變道等) 一起進行端到端 (end-to-end) 的訓練。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

此外,行為意圖分類的結果也被連線補充到共享特徵 (shared features) 上進行基於行為意圖分類的軌跡預測,使得軌跡預測獲得了豐富的背景環境資訊 (context)。相比於 FaF,IntentNet 的檢測和預測的結果均有所提升。

此外,利用時序資訊進行物體運動檢測是另一個值得關注的方向。這一方向近期有兩篇論文發表,《MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps》發表於 CVPR 2020,以及《Any Motion Detector: Learning Class-Agnostic Scene Dynamics from a Sequence of LiDAR Point Clouds》發表於 ICRA 2020。

論文連結 1:https://arxiv.org/pdf/2003.06754.pdf

論文連結 2:https://arxiv.org/pdf/2004.11647.pdf

這兩篇論文的核心方法相近,都是利用多幀點雲作為輸入,透過網路在鳥瞰圖上回歸物體的運動行為。MotionNet 透過時空金字塔網路 (spatio-temporal pyramid network) 內部的 2D 空間卷積和 1D 時間卷積來實現時空資訊的提取和融合,從而實現鳥瞰圖上以體柱 (pillar) 為單位的語意和狀態分類以及運動檢測。Any Motion Detector 則提出自運動補償層 (ego-motion compensation layer) 並結合迴圈 2D 卷積 (recurrent convolution) 來實現時序資訊的高效融合。

如下圖所示,這類方法的優勢在於檢測鐳射雷達視野中所有運動的物體,包括訓練集中沒有見過的物體,這對自動駕駛的安全性十分有意義。目前點雲演算法對於常見的物體,例如車輛,行人和騎單車的人,具有較高的檢測準確率;而對於不常見的物體 (尤其是運動的物體) 和突發狀況,其結果往往並不滿意。這類方法也為物體檢測和感知提供了一種新的思路。

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向

時序融合—總結

本文對於鐳射雷達的時序融合這一前沿方向進行了簡單的梳理和總結。融合時序資訊,可以提升對於 3D 物體檢測的準確率;而對於 3D 物體的行為預測和運動檢測,時序資訊則更是必不可少。時序融合同時也為整合自動駕駛系統的感知,跟蹤,預測甚至決策等模組提供了資訊基礎和可能性。

相對於影片理解領域,時序融合在鐳射雷達中的研究和應用還處於相對早期階段,希望這一重要方向能夠吸引越來越多的研發和工程力量來得以不斷推進和完善。

作者簡介:

羅晨旭,輕舟智航實習生,約翰·霍普金斯大學(Johns Hopkins University)電腦科學系博士研究生,在CVPR、ICCV等發表過高質量計算機視覺科研文章。

楊曉東,輕舟智航首席科學家、機器學習技術總監,曾任英偉達(NVIDIA)高階科學家,在NeurIPS、CVPR、ICCV、ECCV等發表過多篇重量級計算機視覺科研文章。

輕舟智航(QCraft)成立於美國矽谷,世界前沿的無人駕駛公司,致力於打造適應城市複雜交通環境的“老司機”,將無人駕駛帶進現實。專注於為合作伙伴提供城市複雜交通環境下的可量產無人駕駛解決方案。

其核心團隊成員來自Waymo、特斯拉、Uber、福特、英偉達等世界頂級公司,實現了無人駕駛關鍵技術模組的全棧覆蓋,現輕舟智航多個崗位正面向全球持續熱招中。

[1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016. 

[2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016. 

[3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017. 

[4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018. 

[5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018. 

[6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019. 

相關文章