問題:如何將單目影像提取成一個完整的3D語義體?
直覺:(1)如何利用3D空間的稀疏性,3D空間存在很多的空白空間;(2)在進行完全的3D表示之前,先進行重建可能會提供更好的視覺化結果。
解決方案:基於兩級Transformer架構。