物理直覺不再是人類專屬?LeCun等新研究揭示AI可如何湧現出此能力
机器之心發表於2025-02-20
在當今的 AI 領域,圖靈獎得主 Yann LeCun 算是一個另類。即便眼見著自迴歸 LLM 的能力越來越強大,能解決的任務也越來越多,他也依然堅持自己的看法:自迴歸 LLM 沒有光明的未來。在近期的一次演講中,他將自己的觀點總結成了「四個放棄」:放棄生成式模型、放棄機率模型、放棄對比方法、放棄強化學習。他給出的研究方向建議則是聯合嵌入架構、基於能量的模型、正則化方法與模型預測式控制。他還表示:「如果你感興趣的是人類水平的 AI,那就不要研究 LLM。」總之,他認為有望實現 AGI 或「人類水平的人工智慧」的方向是世界模型(World Model),其領導的團隊也一直在推進這方面的研究工作,比如基於 DINO 的世界模型(DINO-WM)以及一項在世界模型中導航的研究。近日,Yann LeCun 團隊又釋出了一項新研究。他們發現,只需在自然影片上進行自監督預訓練,對物理規則的直覺理解就會湧現出來。似乎就像驢一樣,透過觀察世界,就能直覺地找到最輕鬆省力的負重登山方法。- 論文標題:Intuitive physics understanding emerges from self-supervised pretraining on natural videos
- 論文地址:https://arxiv.org/pdf/2502.11831v1
- 專案地址:https://github.com/facebookresearch/jepa-intuitive-physics
要理解這篇論文,我們首先需要明確一下什麼才算是「直覺物理理解」。這篇論文寫到,對物理規則的直覺理解是人類認知的基礎:我們會預期事物的行為方式是可預測的,比如不會憑空出現或消失、穿透障礙物或突然改變顏色或形狀。這種對物理世界的基本認知不僅在人類嬰兒中有所記錄, 在靈長類動物、海洋哺乳動物、鴉科鳥類和雛雞中也有所發現。這被視為核心知識(或核心系統)假說的證據,根據該假說:人類擁有一套與生俱來或早期進化發展的古老計算系統,專門用於表示和推理世界的基本屬性:物體、空間、數字、幾何、agent 等。在追求構建具有高階人類智慧水平的機器的過程中,儘管 AI 系統在語言、程式設計或數學等高階認知任務上經常超越人類表現,但在常識性物理理解方面卻顯得力不從心,這體現了莫拉維克悖論,即對生物有機體來說微不足道的任務對人工系統來說可能異常困難,反之亦然。 旨在改善物理直覺理解的 AI 模型的先前研究可以分為兩類:結構化模型和基於畫素的生成模型。- 結構化模型利用手工編碼的物體及其在歐幾里得三維空間中關係的抽象表示,產生一個能夠捕捉人類物理直覺的強大的心理「遊戲引擎」。這類模型可以被視為核心知識假說的一種可能的計算實現。
- 基於畫素的生成模型採取了完全相反的觀點,否認需要任何硬編碼的抽象。相反,它們提出了一種通用學習機制,即基於過去的感知輸入(如影像)重建未來的感知輸入。
在新論文中,LeCun 等人探索了第三類模型 —— 聯合嵌入預測架構(JEPA),它在這兩種對立觀點之間找到了中間立場,整合了兩者的特徵。與結構化模型一樣,JEPA 認為對未來世界狀態的預測應該在模型的學習抽象、內部表示中進行,而不是在低階的、基於畫素的預測或生成方面進行。然而,與結構化模型不同,JEPA 讓演算法自行學習其表示,而不是手工編碼。這種在表示空間中進行預測的機制與認知神經科學的預測編碼假說相一致。新論文研究了該架構的影片版本,即 V-JEPA,它透過在表示空間中重建影片的被掩蔽部分來學習表示影片幀。該研究依賴於預期違反(violation-of-expectation)框架來探測物理直覺理解,而無需任何特定任務的訓練或適應。透過提示模型想象影片的未來(表示)並將其預測與實際觀察到的影片的未來進行比較,可以獲得一個定量的意外度量(measure of surprise),該度量可用於檢測違反直觀物理概念的情況。 研究發現 V-JEPA 能夠準確且一致地區分遵循物理定律的影片和違反物理定律的影片。具體來說,當被要求對影片對的物理合理性進行分類時(其中一個影片是合理的,另一個不是),在自然影片上訓練的 V-JEPA 模型在 IntPhys 基準測試上達到了 98% 的零樣本準確率,在 InfLevel 基準測試上達到了 62% 的零樣本準確率。令人驚訝的是,研究發現多模態大語言模型和在畫素空間中進行預測的可比較影片預測方法都是隨機執行的。為了更好地理解哪些設計選擇導致了 V-JEPA 中物理直覺理解的湧現,LeCun 等人消融了訓練資料、預訓練預測目標(從什麼預測什麼)和模型大小的影響。雖然觀察到改變這些元件中的每一個都會影響效能,但所有 V-JEPA 模型都達到了顯著高於隨機水平的效能,包括一個小型的 1.15 億引數模型,或者僅在一週獨特影片上訓練的模型,這表明在學習表示空間中進行影片預測是獲得物理直覺理解的一個穩健目標。 預期違反正規化源自發展心理學。研究物件(通常是嬰兒)會看到兩個相似的視覺場景,其中一個包含物理上不可能的情況。然後,研究者透過各種生理指標(如相對注視時間)獲取對每個場景的「感到意外」反應,用以確定研究物件是否感受到了概念違反。這一正規化已經擴充套件到評估 AI 系統的物理理解能力。類似於嬰兒實驗,向模型展示成對的場景,除了違反特定直覺物理概念的某個方面或事件外,兩個場景的所有方面(物體屬性、物體數量、遮擋物等)都保持相同。例如,一個球可能會滾到遮擋物後面,但在配對的影片中再也不會出現,從而測試物體永續性的概念。模型對不可能場景表現出更高的意外反應,反映了其對被違反概念的正確理解。 V-JEPA 架構的主要開發目的是提高模型直接從輸入適應高層級下游任務的能力,如活動識別和動作分類,而無需硬編碼一系列中間表示,如物體輪廓或姿態估計。在這項研究中,研究團隊測試了一個假設:該架構之所以在高層級任務上取得成功,是因為它學習到了一種隱式捕捉世界中物體結構和動態的表示,而無需直接表示它們。如圖 1.B 所示,V-JEPA 由一個編碼器(神經網路)和一個預測器(也是神經網路)構成。編碼器從影片中提取表示,預測器預測影片中人為掩蔽部分的表示,如隨機掩蔽的時空塊、隨機畫素或未來幀。編碼器和預測器的聯合訓練使編碼器能夠學習抽象表示,這些表示編碼可預測的資訊並丟棄低層級(通常語義性較低)特徵。 在自監督訓練之後,可以使用編碼器和預測器網路來探測模型對世界的理解,而無需任何額外的適應。具體來說,在遍歷影片流時,模型對觀察到的畫素進行編碼,隨後預測影片後續幀的表示,如圖 1.C 所示。透過記錄每個時間步的預測誤差(預測的影片表示與實際編碼的影片表示之間的距離),可以獲得模型在整個影片中意外程度的時間對齊定量度量。透過改變模型可以用來預測未來的過去影片幀數(上下文),可以控制記憶因素;透過改變影片的幀率,可以控制動作的精細程度。研究團隊在三個資料集上評估了直覺物理理解能力:IntPhys 的開發集、GRASP 和 InfLevel-lab。這些資料集的組合使研究團隊能夠探測各類方法對物體永續性、連續性、形狀和顏色恆常性、重力、支撐、固體性、慣性和碰撞的理解。研究團隊將 V-JEPA 與其他影片模型進行了比較,以研究影片預測目標以及執行預測的表徵空間對直覺物理理解的重要性。研究團隊考慮了兩類其他模型:直接在畫素空間進行預測的影片預測模型和多模態大語言模型(MLLM)。 對於考慮的每種方法,研究團隊評估了原始工作中提出的旗艦模型。研究團隊進一步將所有模型與未訓練的神經網路進行比較,測試直覺物理理解的可學習性。圖 1.A 總結了各方法在成對分類(即在一對影片中檢測不可能的影片)中跨資料集的效能。研究團隊發現,V-JEPA 是唯一一個在所有資料集上都顯著優於未訓練網路的方法,在 IntPhys、GRASP 和 InfLevel-lab 上分別達到了 98%(95% CI [95%,99%])、66%(95% CI [64%,68%])、62%(95% CI [60%,63%])的平均準確率。這些結果表明,在學習到的表徵空間中進行預測足以發展出對直覺物理的理解。這是在沒有任何預定義抽象,且在預訓練或方法開發過程中不知道基準的情況下實現的。 透過比較,該團隊發現,VideoMAEv2、Qwen2-VL-7B 和 Gemini 1.5 pro 的效能僅略高於隨機初始化模型。畫素預測和多模態 LLM 的低效能證實了先前的一些發現。該團隊表示:「這些比較進一步凸顯了 V-JEPA 相對於現有 VideoMAEv2、Gemini 1.5 pro 和 Qwen2-VL-72B 模型的優勢。然而,這些結果並不意味著 LLM 或畫素預測模型無法實現直觀的物理理解,而只是意味著即使對於前沿模型來說,這個看似簡單的任務仍然很困難。」接下來,為了更準確地理解 V-JEPA 的直觀物理理解,該團隊仔細研究了其在先前使用的資料集上的各屬性效能。在這裡,V-JEPA 編碼器和預測器基於 Vision Transformer-Large 架構,並在 HowTo100M 資料集上進行了訓練。結果見下圖 2。可以看到,在 IntPhys 上,V-JEPA 在多個直觀物理屬性上的表現都明顯優於未經訓練的網路,其中包括物體永續性、連續性、形狀恆常性。在 GRASP 上,V-JEPA 也在物體永續性、連續性、支撐結構、重力、慣性方面有顯著更高的準確度。不過 V-JEPA 在流體和碰撞等方面優勢不顯著。總結起來,V-JEPA 在與場景內容相關的屬性方面表現出色,但在需要了解情境事件或精確物體互動的類別方面卻頗為困難。該團隊猜想,這些限制主要來自模型的幀速率限制。儘管如此,V-JEPA 展現出了直覺物理理解能力,同時可從原始感知訊號中學習所需的抽象,而無需依賴於強大的先驗資訊。不同於之前的研究,這表明,要讓深度學習系統理解直覺物理概念,核心知識並不是必需的。更進一步,該團隊使用來自 IntPhys 的私有測試集將 V-JEPA 與人類表現進行了比較。這次實驗使用了旗艦 V-JEPA 架構,即使用 ViT-Huge 並在 VideoMix2M 上進行預訓練。結果發現 V-JEPA 在所有直觀物理屬性上都實現了相同或更高的效能,如圖 2.B 所示。該團隊發現,如果在影片中使用最大意外值而不是平均意外值,可以在單個影片上獲得更好的效能。一般來說,當打破物理直覺的事件發生在遮擋物後面時,V-JEPA 和人類的效能都較低。此外,在遮擋設定下,人類和 V-JEPA 之間的效能具有很好的相關性。最後,該團隊也研究了掩碼型別、訓練資料的型別和數量、模型大小對 V-JEPA IntPhys 分數的影響,結果如下。