
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文一作湯軼文字科畢業於上海科技大學,導師是李學龍教授,在上海人工智慧實驗室實習。他的研究興趣是 3D 視覺,大模型高效遷移,多模態大模型和具身智慧等。主要工作有 Any2Point, Point-PEFT, ViewRefer 等。

論文標題: Exploring the Potential of Encoder-free Architectures in 3D LMMs 作者單位:上海人工智慧實驗室,西北工業大學,香港中文大學,清華大學 程式碼連結:https://github.com/Ivan-Tang-3D/ENEL 論文連結:https://arxiv.org/pdf/2502.09620v1

點雲解析度限制:3D 編碼器通常在固定解析度的點雲資料上進行預訓練,例如 PointLLM 的編碼器 Point-BERT 使用 1,024 個點。然而,在推理過程中,輸入點雲的解析度可能會有所不同(例如,8,192 個點或 512 個點)。訓練和推理解析度之間的差異可能導致在提取 3D 嵌入時丟失空間資訊,從而使 LLMs 理解變得困難。如(a)所示,PointLLM 在不同的點雲解析度輸入下效能差異過大,而我們提出的 ENEL 顯示出了一定的魯棒性。 嵌入語義差異:3D 編碼器通常採用自監督方法(如掩碼學習和對比學習)進行預訓練,但 3D 編碼器和大語言模型的訓練分離導致訓練目標可能與 LLMs 的特定語義需求不一致,無法捕捉到 LLMs 理解 3D 物體所需的最相關語義。即使使用投影層將 3D 編碼器與 LLMs 連線,簡單的 MLP 也往往不足以進行完全的語義轉換。如圖(b)所示,ENEL 架構中 text token 更能關注到點雲物體的關鍵部位,如椅腳和機翼。
如何彌補 3D 編碼器最初提取的高層次 3D 語義?在 3D LMMs 中,完全跳過編碼器會導致難以捕捉 3D 點雲的複雜空間結構。 如何將歸納偏置整合到 LLM 中,以便更好地感知 3D 幾何結構?傳統的 3D 編碼器通常將顯式的歸納偏置嵌入到其架構中,以逐步捕捉多層次的 3D 幾何。例如,像 Point-M2AE 這樣的模型使用區域性到全域性的層次結構,這一概念在 2D 影像處理的卷積層中也很常見。


點雲自監督學習損失通常有助於無編碼器 3D LMM。自監督學習損失透過特定的任務設計對複雜的點雲進行變換,促使 LLM 學習潛在的幾何關係和高層次的語義資訊。 在這些自監督學習損失中,掩蔽建模損失展示了最強的效能提升。掩蔽比率與訓練最佳化難度直接相關,從 30% 增加到 60% 會導致效能下降。此外,顯式重建點雲 patch 不如掩蔽建模有效,但有助於 LLM 學習點雲中的複雜模式。相比前兩種損失,知識蒸餾損失的效果較差。最後,對比損失未能提取詳細的語義資訊,表現最差。 基於上述實驗結果,作者提出混合語義損失 (Hybrid Semantic Loss),他們對於掩蔽部分採用掩蔽建模,而對於可見部分,他們使用重建策略。這種方法不僅將高層次的語義嵌入 LLM 中,而且確保在整個點雲學習過程中保持幾何一致性。

從 LLM 的第二層開始,輸入的點雲 token 基於它們對應的座標使用最遠點取樣進行下采樣,將 token 數量從 M 減少到𝑀/2, 作為區域性中心。然後,使用 k-NN 演算法獲得鄰近點。針對鄰近點他們採用門控自注意力機制進行組內互動,捕捉區域性幾何結構。最後,他們應用池化操作融合每個鄰居的特徵,結果特徵長度為 M/2。總共進行 l-1 次幾何聚合。 為了確保 LLM 充分提取區域性資訊,作者選擇在聚合操作後經過多層 LLM 層進行進一步的語義建模,避免丟失細粒度的幾何細節。 隨後,他們進行 l 次幾何傳播。按照 PointNet++ 的方法,他們將聚合後的特徵從區域性中心點傳播到它們周圍的 k 個鄰近點,經過 l 次後重新得到長度為 M 的點雲特徵。

在 Objaverse 基準測試中,ENEL-7B 在 3D 物體描述任務中取得了 50.92% 的 GPT-4 得分,創下了新的 SOTA 效能。在傳統指標中,SentenceBERT 和 SimCSE 分別達到了 48.61% 和 49.31% 的得分,表現與 ShapeLLM-13B 相當。對於 3D 物體分類任務,ENEL-7B 超越了先前基於編碼器的 3D LMMs,取得了 55% 的 GPT 得分。 此外,在 3D MM-Vet 資料集的 3D-VQA 任務上,儘管訓練集中缺乏空間和具身互動相關的資料,ENEL 仍取得了 42.7% 的 GPT 得分,超過了 PointLLM-7B 1.5%。 考慮到與 PointLLM 相同的訓練資料集,這些結果驗證了作者提出的 LLM 嵌入式語義編碼和層次幾何聚合策略在無編碼器架構中的有效性。