李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了

机器之心發表於2024-12-23
希望 2025 年 AI 領域能帶來推理之外的突破。

在購買傢俱時,我們會嘗試回憶起我們的客廳,以想象一個心儀的櫥櫃是否合適。雖然估計距離是困難的,但即使只是看過一次,人類也能在腦海裡重建空間,回憶起房間裡的物體、它們的位置和大小。

我們生活在一個感官豐富的 3D 世界中,視覺訊號圍繞著我們,讓我們能夠感知、理解和與之互動。

這是因為人類擁有視覺空間智慧(visual-spatial intelligence),能夠透過連續的視覺觀察記住空間。然而,在百萬級影片資料集上訓練的多模態大語言模型 (MLLM) 是否也能透過影片在空間中思考,即空間思維(Thinking in Space)?

為了在視覺空間領域推進這種智慧,來自紐約大學、耶魯大學、史丹佛大學的研究者引入了 VSI-Bench,這是一個基於影片的基準測試,涵蓋了近 290 個真實室內場景影片,包含超過 5000 個問答對。

其中,影片資料是透過捕捉連續的、時間性的輸入來完成的,不僅與我們觀察世界的方式相似,而且比靜態影像更能豐富空間理解和推理。在 VSI-Bench 上評估開源和閉源模型顯示,儘管模型與人類之間存在較大的效能差距,儘管 MLLM 面臨影片理解、文字理解和空間推理的挑戰,但其仍展現出了新興的視覺空間智慧。

為了對模型行為展開研究,本文受到雙重編碼理論的啟發(該理論認為語言處理和視覺處理既有區別又相互補充),他們提出了用於自我解釋(語言)和認知圖(視覺)的選擇模型(selected models)。

圖片

  • 論文地址:https://arxiv.org/pdf/2412.14171v1
  • 論文主頁:https://vision-x-nyu.github.io/thinking-in-space.github.io/
  • 論文標題:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

這篇論文作者有我們熟悉的史丹佛大學教授李飛飛,她提倡的「空間智慧」最近正在引領 AI 發展方向,還有紐約大學電腦科學助理教授謝賽寧等。

謝賽寧表示,「影片理解是下一個研究前沿,但並非所有影片都是一樣的。模型現在可以透過 youtube 片段和故事片進行推理,但是我們未來的 AI 助手在日常空間中導航和經驗如何呢?空間思維正是為這一問題誕生的,我們的最新研究 VSI-Bench,可以探索多模態 LLM 如何看待、記憶和回憶空間。」
圖片
「在視覺處理方面,我們通常處理空間問題,但很少進行推理;而多模態大語言模型(LLM)雖然能夠思考,但通常忽略了邏輯空間。然而,作為人類 —— 無論是做心理旋轉測試還是為新家定製傢俱 —— 我們依賴於空間和視覺思維 。而這些思維並不總能很好地轉化為語言。」
圖片
「我們透過研究涵蓋各種視覺空間智慧任務(關係和度量)的新基準來探索這一點。」
圖片
李飛飛也對這項研究進行了宣傳,她表示這項名為「Thinking in Space」的研究,是對 LLM(大部分都失敗了)在空間推理方面表現的評估,而空間推理對人類智慧至關重要。2025 年還有更多值得期待的事情,以突破空間智慧的界限!
圖片
在李飛飛的這條推文下,網友已經開始期待即將到來的 2025 年。
圖片
在論文主頁給出的 Demo 中,作者提供了谷歌 Gemini 模型在視覺空間智慧上的一些表現。(以下影片均以 2 倍速播放。)

1:估計相對距離李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了
問:如果我站在冰箱旁邊,面對著洗衣機,爐子是在我的左邊、右邊還是後面……
圖片
2:讓大模型數物體李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了
問:房間裡有幾把椅子?Gemini-1.5 Pro 給出了 2。
圖片
3:根據影片猜測物體出現的順序李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了
問:以下類別在影片中第一次出現的順序是:毯子、垃圾桶、微波爐、植物?Gemini 給出 B 選項,正確答案是 C。
圖片
4:估計房間大小李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了
問:這個房間有多大(平方米)?如果展示了多個房間,估計一下組合空間的大小。
圖片
VSI-Bench 介紹

VSI-Bench 是一個用於定量評估從第一視角影片出發的 MLLM 視覺空間智慧的工具。VSI-Bench 包含了超過 5000 個問答對,這些問答對來源於 288 個真實影片。這些影片包括居住空間、專業場所(例如,辦公室、實驗室)和工業場所(例如,工廠)—— 以及多個地理區域。VSI-Bench 的質量很高,經過迭代審查以最小化問題的歧義,並移除了從源資料集中傳播的錯誤註釋。

VSI-Bench 包括八項任務,如圖 3 所示,包括:物體計數、相對距離、出現的順序、相對方向、物體大小、絕對距離、房間面積、路徑規劃。
圖片
SI-Bench 的任務演示。注意:為清晰簡潔起見,上述問題略作簡化。

資料集統計見圖 5。
圖片
此外,本文還開發了一個複雜的基準構建流程,以有效地大規模生成高質量問答(QA)對,如圖 4 所示。
圖片
評估

評估設定:本文對 15 個支援影片的 MLLM 進行了基準測試。專有模型包括 Gemini-1.5 和 GPT-4o。開源模型包括 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 。

主要結果:透過 5000 多個問答對,作者發現 MLLM 表現出了有競爭性的視覺空間智慧(儘管仍然低於人類)。Gemini Pro 表現最佳,但與人類的表現仍有差距。

具體而言,人類評估者的平均準確率達到 79%,比最佳模型高出 33%,在配置和時空任務上的表現接近完美(94%-100%)。

然而,在需要精確估計的測量任務上,差距縮小了,MLLM 在定量任務中表現出相對優勢。

在專有模型中,Gemini-1.5 Pro 脫穎而出,儘管只在 2D 數字資料上進行訓練,但它大大超過了機會基線,並在絕對距離和房間大小估計等任務中接近人類表現。

表現最佳的開源模型,如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B,取得了有競爭力的結果,僅落後 Gemini-1.5 Pro 4%-5%。然而,大多數開源模型(7/12)都低於機會基線,暴露出視覺空間智慧的明顯缺陷。
圖片
為了更好地理解模型成功或失敗的時間和原因,並闡明它們所擁有的視覺空間智慧的各個方面,本文研究了 MLLM 如何在空間語言中思考。

當被要求解釋自己時,LLM 表示空間推理(而不是物體識別或語言能力)是主要瓶頸。

在成功示例中,該模型展示了高階影片理解能力,具有準確的時間戳描述和正確的逐步推理過程。全域性座標系的使用表明 MLLM 可以透過整合空間背景和推理來構建隱式世界模型。
圖片
錯誤分析:對 VSI-Bench(tiny)上表現最佳的 MLLM 的錯誤進行分析,發現主要有四種錯誤型別:視覺感知、語言智慧、關係推理和第一視角 - 他人視角轉換。圖 6 顯示,71% 的錯誤源於空間推理,特別是在理解距離、大小和方向方面。這表明空間推理仍然是提高 VSI-Bench 上 MLLM 效能的關鍵瓶頸。
圖片
此外,本文還有一些其他發現。

  • 發現 1:空間推理是影響 MLLM 在 VSI-Bench 上的主要瓶頸。
  • 發現 2:語言提示技術雖然在語言推理和一般視覺任務中有效,但對空間推理有害。
  • 發現 3:在記憶空間時,MLLM 會根據給定的影片在模型中形成一系列區域性世界模型,而不是統一的全域性模型。
圖片
語言提示技術在這種情況下是無效的 —— 像 CoT 或多數投票這樣的方法實際上對本文任務是非常有害的。

瞭解更多內容,請參考原論文。

相關文章