[Paper Reading] FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

fariver發表於2024-05-29

FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

link
時間:23.11
機構:houmo.ai 後摩智慧

TL;DR

當時比較流行的OCC方案記憶體與計算複雜度較高,本文提出一種稱為FlashOcc的方法,僅使用2D卷積將特徵由二維空間lift到3D空間。

Method


Image Encoder, View Transform, BEV特徵構建(LSS) 等處理都比較常規,時序特徵融合是在BEV特徵下利用車身位姿來對齊特徵。唯一不同的是Occupancy Head預測不使用3D Conv比較輕量級,具體細節如下。

Occupancy Head

使用Channel-to-Height的方案預測Occupancy,具體透過幾層Conv處理BEV特徵為(B×C×W×H),經過Reshape將該特徵變為Occupancy特徵(\(B×C^{*}×Z×W×H\)),其中\(C = C^{*}×Z\),也就是將BEV每個位置特徵的channel維度split成包含高度的特徵向量。

Experiment


記憶體相對於其它occ方法從398MB -> 124MB,推理速度從7.5ms -> 3.1ms。

總結與發散

模型架構比較容易理解,整體是在走降低記憶體與計算開銷的賣點。
channel-to-height的思想比較有意思,其實重要的不是中間特徵的shape,而是你使用什麼樣GT來監督,把occ的GT reshape成2D來監督2D feature其實也是同樣效果。

相關連結

https://github.com/Yzichen/FlashOCC/tree/master

資料查詢

摺疊Title FromChatGPT(提示詞:XXX)

相關文章