FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
link
時間:23.11
機構:houmo.ai 後摩智慧
TL;DR
當時比較流行的OCC方案記憶體與計算複雜度較高,本文提出一種稱為FlashOcc的方法,僅使用2D卷積將特徵由二維空間lift到3D空間。
Method
Image Encoder, View Transform, BEV特徵構建(LSS) 等處理都比較常規,時序特徵融合是在BEV特徵下利用車身位姿來對齊特徵。唯一不同的是Occupancy Head預測不使用3D Conv比較輕量級,具體細節如下。
Occupancy Head
使用Channel-to-Height的方案預測Occupancy,具體透過幾層Conv處理BEV特徵為(B×C×W×H),經過Reshape將該特徵變為Occupancy特徵(\(B×C^{*}×Z×W×H\)),其中\(C = C^{*}×Z\),也就是將BEV每個位置特徵的channel維度split成包含高度的特徵向量。
Experiment
記憶體相對於其它occ方法從398MB -> 124MB,推理速度從7.5ms -> 3.1ms。
總結與發散
模型架構比較容易理解,整體是在走降低記憶體與計算開銷的賣點。
channel-to-height的思想比較有意思,其實重要的不是中間特徵的shape,而是你使用什麼樣GT來監督,把occ的GT reshape成2D來監督2D feature其實也是同樣效果。
相關連結
https://github.com/Yzichen/FlashOCC/tree/master