前言 最近OCC的綜述很多,這兩天arxiv上又掛出來一篇,從資訊融合的角度全面回顧了佔用網路的相關工作,值得一看!
本文轉載自自動駕駛之心
僅用於學術分享,若侵權請聯絡刪除
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
CV方向的準研究生們,未來三年如何度過?
招聘高光譜影像、語義分割、diffusion等方向論文指導老師
3D佔用感知技術旨在觀察和理解自動駕駛汽車的密集3D環境。由於其全面的感知能力,該技術正在成為自動駕駛感知系統的一種趨勢,並引起了工業界和學術界的極大關注。與傳統的BEV感知類似,3D佔用感知具有多源輸入的性質,具有資訊融合的必要性。然而,不同之處在於,它捕捉了2D BEV忽略的垂直結構。在這項調查中,我們回顧了關於3D佔用感知的最新工作,並對各種輸入模態的方法進行了深入分析。具體來說,我們總結了一般的網路管道,重點介紹了資訊融合技術,並討論了有效的網路訓練。我們在最流行的資料集上評估和分析了最先進的佔用感知效能。此外,還討論了挑戰和未來的研究方向。
開源倉庫:https://github.com/HuaiyuanXu/3D-Occupancy-Perception
總結來說,本文的主要貢獻如下:
- 我們系統地回顧了自動駕駛領域3D佔用感知的最新研究,涵蓋了整體研究背景、對其重要性的全面分析以及對相關技術的深入討論。
- 我們提供了3D佔用感知的分類,並詳細闡述了核心方法論問題,包括網路pipeline、多源資訊融合和有效的網路訓練。
- 我們提供了3D佔用感知的評估,並提供了詳細的效能比較。此外,還討論了目前的侷限性和未來的研究方向。
背景
Occ歷史回顧
佔用感知源於佔用網格對映(OGM),這是移動機器人導航中的一個經典主題,旨在從有噪聲和不確定的測量中生成網格圖。該地圖中的每個網格都被分配了一個值,該值對網格空間被障礙物佔據的機率進行評分。語義佔用感知源於SUNCG,它從單個影像中預測室內場景中所有體素的佔用狀態和語義。然而,與室內場景相比,研究室外場景中的佔用感知對於自動駕駛來說是必不可少的。MonoScene是僅使用單眼相機進行戶外場景佔用感知的開創性工作。特斯拉在2022年CVPR自動駕駛研討會上宣佈了其全新的純視覺的佔用網路,與MonoScene並駕齊驅。這個新網路根據環繞檢視RGB影像全面瞭解車輛周圍的3D環境。隨後,佔用感知引起了廣泛關注,推動了近年來自動駕駛佔用感知研究的激增。
早期的戶外佔用感知方法主要使用鐳射雷達輸入來推斷3D佔用。然而,最近的方法已經轉向更具挑戰性的以視覺為中心的3D佔用預測。目前,佔用感知研究的一個主要趨勢是以視覺為中心的解決方案,輔以以鐳射雷達為中心的方法和多模式方法。佔用感知可以作為端到端自動駕駛框架內3D物理世界的統一表示,隨後是跨各種駕駛任務(如檢測、跟蹤和規劃)的下游應用。佔用感知網路的訓練在很大程度上依賴於密集的3D佔用標籤,導致了多樣化街景佔用資料集的開發。最近,利用大型模型強大的效能,將大型模型與佔用感知相結合,有望緩解繁瑣的3D佔用標籤需求。
與OCC的相關任務主要包含:
- BEV感知
- 3D語義場景補全
- 視覺3D重建
方法論
表1詳細介紹了自動駕駛佔用感知的最新方法及其特點。該表詳細說明了每種方法的釋出地點、輸入方式、網路設計、目標任務、網路培訓和評估以及開源狀態。下面,我們根據輸入資料的模態將佔用感知方法分為三種型別。它們分別是以鐳射雷達為中心的佔用感知、以視覺為中心的佔據感知和多模態佔用感知。隨後,討論了佔用網路的訓練及其損失函式。最後,介紹了利用佔用感知的各種下游應用程式。
LiDAR-Centric Occupancy Perception
General Pipeline
以鐳射雷達為中心的語義分割僅預測稀疏點的語義類別。相比之下,以鐳射雷達為中心的佔用感知提供了對環境的密集3D理解,這對自動駕駛系統至關重要。對於鐳射雷達感測,所獲取的點雲具有固有的稀疏特性,並受到遮擋。這就要求以鐳射雷達為中心的佔用感知不僅解決了場景從稀疏到密集的佔用推理,而且實現了對物體的部分到完全估計。
圖3a說明了以鐳射雷達為中心的佔用感知的一般流程。輸入點雲首先進行特徵提取和體素化,然後透過編碼器-解碼器模組進行表示增強。最終,推斷出場景的完整和密集佔用。
以鐳射雷達為中心的OCC資訊融合
一些作品直接利用單個2D分支來推理3D佔用,例如DIF和PointOcc。在這些方法中,只需要2D特徵圖而不是3D特徵體積,從而減少了計算需求。然而,一個顯著的缺點是高度資訊的部分丟失。相反,3D分支不壓縮任何維度的資料,從而保護完整的3D場景。為了提高三維分支中的記憶體效率,LMSCNet將高度維度轉換為特徵通道維度。與3D分支中的3D卷積相比,這種自適應便於使用更高效的2D卷積。此外,整合來自2D和3D分支的資訊可以顯著地細化佔用預測。
S3CNet提出了一種獨特的後期融合策略,用於整合來自2D和3D分支的資訊。該融合策略涉及動態體素融合技術,該技術利用2D分支的結果來增強來自3D分支的輸出的密度。消融研究報告稱,這種直接的資訊融合策略可以在3D佔用感知方面提高5-12%的效能。
以視覺為中心的OCC預測
General Pipeline
受特斯拉的啟發,以視覺為中心的佔用感知在工業界和學術界都引起了極大的關注。與以鐳射雷達為中心的方法相比,僅依賴於相機感測器的以視覺為中心的佔用感知代表了當前的趨勢。主要有三個原因:(i)相機在車輛上大規模部署具有成本效益。(ii)RGB影像捕捉豐富的環境紋理,有助於理解場景和物體,如交通標誌和車道線。(iii)深度學習技術的迅速發展使從2D視覺實現3D佔用感知成為可能。以視覺為中心的佔用感知可以分為單目解決方案和環視解決方案。多攝像頭感知覆蓋了更廣闊的視野,遵循如圖3b所示的一般流程。它首先從多攝像頭影像中提取前檢視特徵圖,然後進行二維到三維轉換、空間資訊融合和可選的時間資訊融合,最後使用佔用頭推斷環境三維佔用情況。
2D-to-3D Transformation
該轉換旨在將前檢視特徵轉換為BEV特徵、TPV特徵或體積特徵,以獲取前檢視缺失的深度維度。值得注意的是,儘管BEV特徵位於俯視2D平面上,但它們可以將高度資訊編碼到特徵的通道維度中,從而表示3D場景。三視角檢視將3D空間投影到三個正交的2D平面中,使得3D空間中的每個特徵可以表示為三個TPV特徵的組合。這種轉換可以分為三種型別,分別以使用投影、反向投影和交叉注意力技術為特徵。以體積特徵的構建為例,該過程如圖4a所示。
- Projection
- Back projection
- Cross Attention
以視覺為中心的OCC資訊融合
在環視設定中,每個相機的前檢視特徵圖描述場景的一部分。為了全面瞭解場景,有必要在空間上融合來自多個特徵圖的資訊。此外,場景中的物件可能被遮擋或處於運動中。臨時融合多幀的特徵圖可以幫助推斷遮擋區域並識別物體的運動狀態。
(1)空間資訊融合:來自多個相機的觀測結果的融合可以建立具有擴充套件視野的3D特徵體積,用於場景感知。在多相機檢視的重疊區域內,特徵體積中的3D體素在投影后會碰到幾個2D前檢視特徵圖。有兩種方法可以融合命中的2D特徵:平均注意力和交叉注意力,如圖4b所示。平均運算計算多個特徵的平均值,這簡化了融合過程並降低了計算成本。然而,它假設不同2D視角對感知3D場景的貢獻是相等的。這種情況可能並不總是如此,尤其是當某些檢視被遮擋或模糊時。
(2)時間資訊融合:基於視覺的BEV感知系統的最新進展表明,整合時間資訊可以顯著提高感知效能。同樣,在基於視覺的佔用感知中,可以透過結合歷史特徵和當前感知輸入的相關資訊來提高準確性和可靠性。時間資訊融合過程由兩個部分組成:時間-空間對齊和特徵融合,如圖4c所示。
多模態OCC
General Pipeline
相機拍攝的RGB影像提供了豐富而密集的語義資訊,但對天氣條件變化敏感,缺乏精確的幾何細節。相比之下,鐳射雷達或雷達的點雲對天氣變化具有魯棒性,並擅長透過準確的深度測量捕捉場景幾何結構。然而,它們只產生稀疏的特徵。多模態佔用感知可以結合多種模態的優勢,減輕單模態感知的侷限性。圖3c展示了多模式佔用感知的一般流程。大多數多模態方法將2D影像特徵對映到3D空間,然後將它們與點雲特徵融合。此外,在融合過程中結合2D透檢視特徵可以進一步細化表示。融合表示由可選的細化模組和佔用頭(例如3D卷積或MLP)處理,以生成最終的3D佔用預測。可選的細化模組可以是交叉注意力、自注意力和擴散去噪的組合。
多模態OCC的資訊融合
有三種主要的多模態資訊融合技術來整合不同的模態分支:串聯、求和和和交叉注意。
(1)串聯:受BEVFusion的啟發,OccFusion透過沿著特徵通道連線來自不同模態的3D特徵體積,並隨後應用卷積層。類似地,RT3DSO將3D點的強度值及其相應的2D影像特徵(透過投影)連線起來,然後將組合資料饋送到卷積層。然而,3D空間中的一些體素可能僅包含來自點雲分支或視覺分支的特徵。為了緩解這個問題,CO-Occ引入了幾何和語義感知融合(GSFusion)模組,該模組識別包含點雲和視覺資訊的體素。該模組利用K近鄰(KNN)搜尋來選擇特定半徑內體素空間中給定位置的K近鄰。
(2)求和:CONet和OccGen採用自適應融合模組,動態整合來自相機和鐳射雷達分支的佔用表示。它利用3D卷積來處理多個單模態表示,以確定其融合權重,隨後應用這些權重來求和鐳射雷達分支表示和相機分支特徵。
(3)交叉注意:HyDRa提出了在透檢視(PV)和BEV表示空間中整合多模態資訊。具體地,PV影像特徵透過使用交叉注意力的BEV點雲特徵來改進。然後,將增強的PV影像特徵轉換為具有估計深度的BEV視覺表示。這些BEV視覺特徵透過與BEV點雲特徵串聯,然後是簡單的擠壓和激發層來進一步增強。最後,透過交叉關注將增強的PV影像特徵和增強的BEV視覺特徵融合,得到最終的佔用表示。
模型訓練
我們根據監督訓練型別對文獻中提到的網路訓練技術進行分類。最普遍的型別是強監督學習,而其他人則採用弱監督、半監督或自監督的方式進行訓練。本節詳細介紹了這些網路訓練技術及其相關的損失函式。表1中的“訓練”列簡要概述了各種佔用感知方法的網路訓練。
Training with Strong Supervision
佔用感知的強監督學習涉及使用佔用標籤來訓練佔用網路。大多數佔用感知方法都採用這種訓練方式。相應的損失函式可分為:幾何損失,最佳化幾何精度;語義損失,增強語義預測;語義和幾何損失相結合,這促進了更好的語義和幾何準確性;一致性損失,鼓勵整體一致性;以及提煉損失,將知識從教師模式轉移到學生模式。接下來,我們將提供詳細的描述。
在幾何損失中,二進位制交叉熵(BCE)損失是最常用的,用於區分空體素和佔用體素。
交叉熵(CE)損失是最佳化佔用語義的首選損失。它將類視為獨立的實體。
此外,一些佔用感知方法使用了其他語義損失,這些損失通常用於語義分割任務,如Lovasz-Softmax損失和Focal損失。此外,還有兩種專門的語義損失:截頭體比例損失,它從視覺截頭體的角度提供線索來緩解遮擋歧義;位置感知損失,它利用區域性語義比喻來鼓勵更清晰的語義和幾何梯度。
可以同時最佳化佔用感知的語義和幾何結構的損失包括場景類仿射損失和掩碼分類損失。前者從幾何和語義角度最佳化了準確性、回憶性和特異性的組合。後者通常與掩模解碼器頭相關聯。掩碼分類損失源於MaskFormer和Mask2Former,它結合了交叉熵分類損失和每個預測掩碼段的二進位制掩碼損失。
consistency損失和蒸餾損失分別對應於空間一致性損失和Kullback–Leibler(KL)發散損失。空間一致性損失最小化了空間中給定點和某些支援點之間語義推理的Jenssen-Shannon分歧,從而增強了語義的空間一致性。KL散度,也稱為相對熵,量化了一個機率分佈如何偏離參考分佈。HASC採用KL發散損失來鼓勵學生模型從教師模型提供的線上軟標籤中學習更準確的佔用率。
Training with Other Supervisions
(1)弱監督:表示未使用佔用標籤,監管來源於替代標籤。例如,具有語義標籤的點雲可以指導佔用預測。具體來說,Vampire和RenderOcc構建密度和語義體積,這有助於透過體積渲染推斷場景的語義佔用,以及計算深度和語義圖。這些方法不使用佔用標籤。或者,他們將帶有語義標籤的鐳射雷達點雲投影到相機平面上,以獲取地面實況深度和語義,然後監督網路訓練。由於強監督和弱監督學習都預測幾何和語義佔用,因此強監督學習中使用的損失,如交叉熵損失、Lovasz-Softmax損失和尺度不變對數損失,也適用於弱監督學習。
(2)半監督:它使用佔用標籤,但不覆蓋整個場景,因此僅為佔用網路培訓提供半監督。POP-3D最初透過處理鐳射雷達點雲來生成佔用標籤,其中,如果體素包含至少一個鐳射雷達點,則將其記錄為佔用,否則為空。考慮到鐳射雷達點雲中固有的稀疏性和遮擋性,以這種方式產生的佔用標籤並不包括整個空間,這意味著只有場景的一部分具有其佔用標籤。POP-3D採用交叉熵損失和Lovasz-Softmax損失來監督網路訓練。此外,為了建立文字和3D佔用之間的跨模態對應關係,POP-3D提出將語言影像特徵和3D語言特徵之間的L2均方誤差計算為模態對齊損失。
(3)自監督:它在沒有任何標籤的情況下訓練佔用感知網路。為此,體積渲染提供了一個自監督訊號,透過最小化光度差異,從時間和空間角度鼓勵不同檢視之間的一致性。MVBTS計算渲染的RGB影像和目標RGB影像之間的光度差。然而,其他幾種方法可以計算扭曲影像(來自源影像)和目標影像之間的差異,其中扭曲過程所需的深度是透過體積渲染獲得的。OccNeRF認為,不比較渲染影像的原因是,室外場景的規模大,檢視監督少,這會使體積渲染網路難以收斂。從數學上講,照片集一致性損失結合了L1損失和可選的結構相似性(SSIM)損失來計算重建誤差。
評測
效能
感知準確性
SemanticKITTI是第一個具有戶外駕駛場景3D佔用標籤的資料集。Occ3D nuScenes是CVPR 2023 3D佔用預測挑戰中使用的資料集。這兩個資料集是目前最受歡迎的。因此,我們總結了在這些資料集上訓練和測試的各種3D佔用方法的效能,如表3和表4所示。這些表分別根據輸入模式和監督學習型別進一步組織佔用方法。最佳表現以粗體突出顯示。表3利用IoU和mIoU度量來評估3D幾何形狀和3D語義佔用感知能力。表4採用mIoU和mIoU來評估語義佔用感知。與mIoU不同,mIoU度量不包括“其他”和“其他平面”類,由自監督OccNeRF使用。為了公平起見,我們計算了其他自監督佔用方法的mIoU*。值得注意的是,OccScore指標用於CVPR 2024自主大挑戰賽,但目前尚未普及。因此,我們沒有用這個指標來總結入住率表現。下面,我們將從三個方面對感知準確性進行比較:整體比較、模態比較和超視覺比較。
(1)總體比較。表3顯示(i)佔用網路的IoU分數小於50%,而mIoU分數低於30%。IoU分數(指示幾何感知,即忽略語義)大大超過mIoU分數。這是因為預測某些語義類別的佔用率很有挑戰性,例如腳踏車、摩托車、人、騎腳踏車的人、騎摩托車的人、電線杆和交通標誌。這些類中的每一個在資料集中的比例都很小(不到0.3%),它們的形狀很小,很難觀察和檢測。因此,如果這些類別的IOU分數較低,它們會顯著影響mIoU的整體值。因為mIOU計算不考慮類別頻率,它將所有類別的總IoU分數除以類別的數量。(ii)較高的IoU並不保證較高的mIoU。一種可能的解釋是,佔用網路的語義感知能力(反映在mIoU中)和幾何感知能力(體現在IoU中中)是不同的,並且不是正相關的。
從表4中可以明顯看出,(i)佔用網路的mIOU分數在50%以內,高於SemanticKITTI上的分數。例如,TPVFormer在SemanticKITTI上的mIOU為11.26%,但在Occ3D nuScenes上為27.83%。類似地,OccFormer和SurroundOcc具有相同的情況。我們認為這可能是由於Occ3D nuScenes中的佔用標籤更準確。SemanticKITTI基於鐳射雷達點雲對每個體素進行註釋,也就是說,基於對體素內所有標記點的多數投票,將標籤分配給體素。相比之下,Occ3D nuScenes利用了複雜的標籤生成過程,包括體素緻密化、遮擋推理和影像引導的體素細化。此註釋可以生成更精確、更密集的三維佔用標籤。(ii)COTR的mIoU最好(46.21%),並且在所有類別中的IoU得分最高。
(2)模態比較。輸入資料模態顯著影響3D佔用感知準確性。“Mod.”表3中的列報告了各種佔用方法的輸入模式。可以看出,由於鐳射雷達感測提供了準確的深度資訊,以鐳射雷達為中心的佔用方法具有更精確的感知,IoU和mIoU得分更高。例如,S3CNet具有最高的mIoU(29.53%),DIFs實現了最高的IoU(58.90%)。我們觀察到,這兩種多模態方法並不優於S3CNet和DIF,這表明它們沒有充分利用多模態融合的優勢和輸入資料的豐富性。在多模式佔用感知方面有相當大的進一步改進潛力。此外,儘管近年來以視覺為中心的佔用感知發展迅速,但從表3可以看出,最先進的以視覺為核心的佔用方法在IoU和mIoU方面與以鐳射雷達為中心的方法仍有差距。我們認為有必要進一步改進以視覺為中心的方法的深度估計。
(3)監督比較。“主管”表4的列概述了用於訓練佔用網路的監督學習型別。具有強大監督的培訓,直接使用3D佔用標籤,是最普遍的型別。表4顯示,基於強監督學習的佔用網路取得了令人印象深刻的效能。FastOcc、FB Occ、PanoOcc和COTR的mIoU得分顯著高於弱監督或自監督方法(mIoU增加12.42%-38.24%)。這是因為資料集提供的佔用標籤經過了高精度的標註,並且可以對網路訓練施加強大的約束。然而,註釋這些密集的佔用標籤既費時又費力。有必要探索基於薄弱或自我監督的網路培訓,以減少對佔用標籤的依賴。Vampire是基於弱監督學習的表現最好的方法,其mIoU得分為28.33%。這表明語義鐳射雷達點雲可以監督三維佔用網路的訓練。然而,語義鐳射雷達點雲的收集和註釋是昂貴的。SelfOcc和OccNeRF是基於自我監督學習的兩部具有代表性的佔有作品。它們利用體積渲染和光度一致性來獲取自監督訊號,證明網路可以在沒有任何標籤的情況下學習3D佔用感知。然而,它們的效能仍然有限,SelfOcc的mIoU為7.97%,OccNeRF的mIoU*為10.81%。
推理速度
最近關於3D佔用感知的研究不僅開始考慮感知的準確性,還開始考慮其推理速度。根據FastOcc和FullySparse提供的資料,我們梳理了3D佔用方法的推理速度,並在Occ3D nuScenes資料集上報告了它們的執行平臺、輸入影像大小、骨幹架構和佔用精度,如表5所示。
一種實用的佔用方法應該具有高精度(mIoU)和快速推理速度(FPS)。從表5中可以看出,FastOcc實現了高mIoU(40.75%),與BEVFomer的mIoU相當。值得注意的是,FastOcc在效能較低的GPU平臺上的FPS值高於BEVFomer。此外,經過TensorRT的加速,FastOcc的推理速度達到12.8Hz。
挑戰與機遇
基於OCC的自動駕駛應用
3D佔用感知使人們能夠全面瞭解3D世界,並支援自動駕駛中的各種任務。現有的基於佔用的應用程式包括分割、檢測、流量預測和規劃。(1) 分割:語義佔用感知本質上可以看作是一個三維語義分割任務。(2) 檢測:OccupancyM3D和SOGDet是實現三維物體檢測的兩個基於佔用的作品。OccuencyM3D首先學習佔用以增強3D特徵,然後將其用於3D檢測。SOGDet開發了兩個並行任務:語義佔用預測和3D物件檢測,同時訓練這些任務以實現相互增強。(3) 流量預測:Cam4Occ從佔用的角度預測三維空間中的前景流量,並實現對周圍三維環境變化的理解。(4) 規劃:OccNet將物理3D場景量化為語義佔用,並訓練共享佔用描述符。該描述符被饋送到各種任務頭以實現駕駛任務。例如,運動規劃頭輸出自車的規劃軌跡。
然而,現有的基於佔用的應用程式主要關注感知層面,而較少關注決策層面。鑑於3D佔用比其他感知方式(如鳥瞰感知和透視感知)更符合3D物理世界,我們認為3D佔用在自動駕駛中有更廣泛的應用機會。在感知層面,它可以提高現有軌跡預測、3D物體跟蹤和3D車道線檢測的準確性。在決策層面,它可以幫助更安全的駕駛決策,併為駕駛行為提供3D解釋。
部署效率
對於複雜的3D場景,總是需要處理和分析大量的點雲資料或多檢視視覺資訊,以提取和更新佔用狀態資訊。為了實現自動駕駛應用程式的實時效能,解決方案通常需要在有限的時間內完成計算,並需要高效的資料結構和演算法設計。一般來說,在目標邊緣裝置上部署深度學習演算法不是一項容易的任務。
目前,已經嘗試在佔用任務上進行一些實時工作。例如,Hou等人提出了一種基於輸入解析度、檢視轉換模組和預測頭的調整來加快預測推理速度的解決方案FastOcc。劉等人提出了SparseOcc,一種沒有任何密集三維特徵的稀疏佔用網路,以最小化基於稀疏卷積層和掩模引導的稀疏取樣的計算成本。唐等人提出採用稀疏潛在表示代替TPV表示和稀疏插值運算,以避免資訊丟失,降低計算複雜度。然而,上述方法距離採用自動駕駛系統的實時部署還有一段距離。
魯棒3D佔用預測
在動態和不可預測的真實世界駕駛環境中,感知魯棒性對自動駕駛汽車的安全至關重要。現有技術的3D佔用模型可能容易受到分佈外的場景和資料的影響,例如會引入視覺偏差的照明和天氣變化,以及由車輛運動引起的輸入影像模糊。此外,感測器故障(例如,丟失幀和相機檢視)也很常見。鑑於這些挑戰,研究穩健的3D佔用感知是有價值的。
然而,對穩健3D佔用率的研究有限,主要是由於資料集的稀缺性。最近,ICRA 2024 RoboDrive挑戰賽為研究穩健的3D佔用感知提供了不完美的場景。我們認為,穩健BEV感知的相關工作可以啟發穩健佔用感知的研究。M-BEV提出了隨機掩蔽和重建相機檢視,以增強在各種丟失相機情況下的魯棒性。GKT採用粗投影來實現魯棒的BEV表示。在大多數涉及自然損傷的情況下,多模態模型因多模態輸入的互補性而優於單模態模型。此外,在3D LiDAR感知中,Robo3D將知識從具有完整點雲的教師模型提取到具有不完美輸入的學生模型,從而增強了學生模型的魯棒性。基於這些工作,實現穩健的3D佔用感知可以包括但不限於穩健的資料表示、多種模式、網路架構和學習策略。
泛化性
3D標籤是昂貴的,並且用於真實世界的大規模3D註釋是不切實際的。在有限的3D標記資料集上訓練的現有網路的泛化能力尚未得到廣泛研究。為了擺脫對3D標籤的依賴,自監督學習代表了一種實現廣義3D佔用感知的潛在途徑。它從廣泛的未標記影像中學習佔用感知。然而,目前自監督的入住感知表現不佳。在Occ3D nuScene資料集上(見表4),自監督方法的最高精度在很大程度上低於強監督方法。此外,目前的自我監督方法需要用更多的資料進行訓練和評估。因此,增強自監督廣義三維佔有率是未來一個重要的研究方向。此外,當前的3D佔用感知只能識別一組預定義的物件類別,這限制了其可推廣性和實用性。大型語言模型(LLM)和大型視覺語言模型(LVLMs)的最新進展表明,它們具有很好的推理和視覺理解能力。整合這些預先訓練的大型模型已被證明可以增強感知的泛化能力。POP-3D利用強大的預訓練視覺語言模型來訓練其網路,並實現開放詞彙的3D佔用感知。因此,我們認為使用LLM和LVLMs是實現廣義3D佔用感知的挑戰和機遇。
結論
本文對近年來自動駕駛中的3D佔用感知進行了全面的調查。我們詳細回顧和討論了最先進的以鐳射雷達為中心、以視覺為中心和多模式感知解決方案,並重點介紹了該領域的資訊融合技術。為了便於進一步研究,提供了現有佔用方法的詳細效能比較。最後,我們描述了一些懸而未決的挑戰,這些挑戰可能會啟發未來幾年的研究方向。我們希望這項調查能造福社群,支援自動駕駛的進一步發展,並幫助不熟練的讀者在該領域導航。
參考
[1] A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
計算機視覺入門1v3輔導班
【技術文件】《從零搭建pytorch模型教程》122頁PDF下載
QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。
其它文章
分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了
明年畢業,還不知道怎麼做畢設的請抓緊機會了
LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT
ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出
ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習
聽我說,Transformer它就是個支援向量機
HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法
南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香
1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4
SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!
GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR
Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星
CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!
AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習
計算機視覺入門1v3輔導班
計算機視覺交流群