Sora 的釋出讓整個 AI 領域為之狂歡,但 LeCun 是個例外。
面對 OpenAI 源源不斷放出的 Sora 生成影片,LeCun 熱衷於尋找其中的失誤:
歸根結底,LeCun 針對的不是 Sora,而是 OpenAI 從 ChatGPT 到 Sora 一致採用的自迴歸生成式路線。
LeCun 一直認為, GPT 系列 LLM 模型所依賴的自迴歸學習正規化對世界的理解非常膚淺,遠遠比不上真正的「世界模型」。
所以,一遇到「Sora 是世界模型」的說法,LeCun 就有些坐不住:「僅僅根據 prompt 生成逼真影片並不能代表一個模型理解了物理世界,生成影片的過程與基於世界模型的因果預測完全不同。」
那麼,面對視覺任務,世界模型如何獲得自迴歸模型一般的效能?
最近,Lecun 釋出了自己關於「世界模型」的新論文《在視覺表徵學習中學習和利用世界模型》,剛好解釋了這個問題。
論文標題:Learning and Leveraging World Models in Visual Representation Learning
論文連結:https://arxiv.org/pdf/2403.00504.pdf
透過以往 LeCun 對世界模型的介紹,我們知道,JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)相比於重建畫素的生成式架構(如變分自編碼器)、掩碼自編碼器、去噪自編碼器,更能產生優秀的視覺輸入表達。
2023 年 6 月,Meta 推出了首個基於 LeCun 世界模型概念的 AI 模型,名為影像聯合嵌入預測架構(I-JEPA),能夠透過建立外部世界的內部模型來學習, 比較影像的抽象表徵(而不是比較畫素本身)。今年,在 Sora 釋出的第二天,Meta 又推出了 AI 影片模型 V-JEPA,可根據訊號的損壞或轉換版本來預測訊號的表徵,讓機器透過觀察瞭解世界的運作方式。
而最新這項研究揭示了利用世界模型進行表徵學習的另一個關鍵方面:賦予世界模型的容量直接影響所學表徵的抽象程度。
直觀地說,如果預測器是身份,網路將捕捉到高階語義資訊,因為它只會學習編碼輸入 y 及其變換 x 之間的共同點。另一方面,由於預測器的容量更大,可以有效反轉變換的效果,編碼器的輸出可以保留更多關於輸入的資訊。
這兩個理念是等變表徵學習的核心,能有效應用變換的預測器是等變的,而不能有效應用變換的預測器是不變的。研究者發現,對變換不變的世界模型線上性評估中表現更好,而等變的世界模型與更好的世界模型微調相關。這就在易適應性和原始效能之間做出了權衡。因此,透過學習世界模型來學習表徵,能靈活掌握表徵的屬性,從而使其成為一個極具吸引力的表徵學習框架。
接下來,我們來看一些具體的研究細節。
方法
影像世界模型(Image World Models,IWM)採用 JEPA 的框架,類似於 I-JEPA。該框架中的預測器是世界模型的例項化。研究者認為,如果一個世界模型能夠在潛在空間中應用變換,從而學習等變表徵,那麼它就是有能力的。研究者將有能力的世界模型為等變( equivariant ),稱能力較差的世界模型為不變( invariant )。
使用 JEPA 的一個吸引人之處在於,使用對比方法學習等變表徵的方法通常需要依賴於不變性損失來提高表徵質量,無論是顯式的還是隱式的。而 JEPA 的方法則不存在這一缺點,因為表徵的語義方面是透過潛在空間的修補學習的。在潛空間中工作還能讓網路去除不必要的資訊或難以預測的資訊。這就使得 JEPA 方案很有吸引力,因為對於重建方法來說,重建的質量不一定與表徵質量相關。
要訓練 IWM,第一步是從影像 I 生成源檢視和目標檢視(圖 2 中分別為 x 和 y)。
研究者將 a_x→y 表示為從 x 到 y 的變換引數,即初始變換過程的逆轉。它包含了 x 與 y 之間顏色抖動差異的資訊,以及是否應用了每種破壞性增強的資訊。
透過 p_ϕ 進行世界建模。然後分別透過編碼器 f_θ 和它的指數移動平均得到源和目標。這樣就有了 和 。使用 EMA 網路對避免解決方案崩潰至關重要。為了給作為世界模型的預測器設定條件,它被輸入了關於目標的幾何資訊,以掩碼 token 的形式以及 a_x→y。研究者將這些掩碼 token 稱為 m_a,它們對應於 中的位置。
然後,預測器 p_ϕ 將嵌入的源補丁 x_c、變換引數 a_x→y 和遮罩令牌 m_a 作為輸入。其目標是匹配 p_ϕ(z_x, a_x→y, m_a) = 到 z_y。損失。使用的損失函式是預測 及其目標 z_y 之間的平方 L2 距離:
學習用於表徵學習的影像世界模型
如前所述,學習等差數列表徵和學習世界模型是密切相關的問題。因此,可以借用等差數學文獻中的指標來評估訓練好的世界模型的質量。研究者使用的主要指標是平均互斥等級(MRR)。
為了計算它,研究者生成了一組增強目標影像(實際為 256 幅)。他們透過預測器輸入乾淨影像的表徵,目的是預測目標影像。然後計算預測結果與增強表徵庫之間的距離,從中得出目標影像在該 NN 圖中的等級。透過對多個影像和變換的倒數等級進行平均,就可以得到 MRR,從而瞭解世界模型的質量。MRR 接近 1 意味著世界模型能夠應用變換,相反,MRR 接近 0 則意味著世界模型不能應用變換。
為了構建效能良好的 IWM,研究者分離出三個關鍵方面:預測器對變換(或操作)的條件限制、控制變換的複雜性以及控制預測器的容量。如果對其中任何一個環節處理不當,都會導致表徵不穩定。
如表 1 所示,不進行調節會導致世界模型無法應用變換,而使用序列軸或特徵軸進行調節則會導致良好的世界模型。研究者在實踐中使用了特徵調節,因為它能帶來更高的下游效能。
如表 2 所示,增強越強,學習強世界模型就越容易。在更廣泛的增強方案中,這一趨勢仍在繼續。
如果變換很複雜,預測器就需要更大的能力來應用它,意味著能力成為了學習影像世界模型的關鍵因素。如上表 2 ,深度預測器意味著能在更廣泛的增強上學習到強大的世界模型,這也是 IWM 取得成功的關鍵。因此,預測能力是強大世界模型的關鍵組成部分。
與計算 MRR 的方法相同,我們可以將預測的表徵與變換影像庫進行比較,並檢視與預測最近鄰的影像。如圖 1 所示,IWM 學習到的世界模型能夠正確應用潛空間中的變換。不過,可以看到灰度反轉時存在一些誤差,因為灰度無法正確反轉。
以下視覺化效果有助於強化 IWM 能夠為影像轉換學習強大的世界模型這一事實。
利用世界模型完成下游任務
論文還探討了如何使用世界模型完成下游任務。
在影像上學習的世界模型的侷限性在於,它們所解決的任務與大多數下游任務並不一致。
研究者表示,已經證明 IWM 可以應用色彩抖動或對影像進行著色,但這些並不是推動計算機視覺應用的任務。這與 LLM 形成了鮮明對比,在 LLM 中,預測下一個 token 是此類模型的主要應用之一。
因此,研究者探索瞭如何在視覺中利用世界模型來完成應用變換之外的任務,重點是影像分類和影像分割等判別任務。
首先,需要對預測器進行微調以解決判別任務。研究者按照 He et al. (2021) 的方法,重點放在與微調協議的比較上。所研究的所有方法都在 ImageNet 上進行了預訓練和評估,並使用 ViT-B/16 作為編碼器。
表 3 展示了定義預測任務的各種方法及其對效能的影響。
表 4 中比較了預測器微調和編碼器微調以及預測器和編碼器的端到端微調,編碼器使用了 ViTB/16。
從表 5 中可以看出,在對所有協議的效能進行彙總時,利用 IWM 可以在凍結編碼器的情況下獲得最佳效能,即允許利用預訓練的每一部分。
表 6 展示了 I-JEPA 和 IWM 在 ADE20k 影像分割任務中的表現。
在圖 3 中,展示了預測器微調與編碼器微調相比的效率。
表徵學習的主要目標之一是獲得可用於各種任務的表徵。就像預測器是為解決各種任務(著色、內畫、變色)而訓練的一樣,對於每個任務,都有一個任務 token,以及一個任務特定的頭和 / 或損失函式。然後合併所有任務損失,並更新預測器和特定任務頭。這裡研究了一種簡單的情況,即批次在任務之間平均分配,同時注意到其他取樣策略可能會進一步提高效能。
總之,當學習到一個好的世界模型後,透過微調就可以將其重新用於下游任務。這樣就能以極低的成本實現與編碼器微調相媲美的效能。透過進行多工微調,它還能變得更加高效,更凸顯了這種方法的多功能性。
影像世界模型使表徵更加靈活
為了完成對 IWM 在表徵學習中的分析,研究者研究了它在自監督學習中常用的輕量級評估協議上的表現。本文重點關注線性探測和注意力探測。
如表 8 所示,當 IWM 學習一個不變的世界模型時,其表現類似於對比學習方法,如 MoCov3,線上性探測中與 MIM 或其他基於 JEPA 的方法相比有顯著的效能提升。同樣,當 IWM 學習一個等變的世界模型時,其表現類似於 MIM 方法,如 MAE,線上性探測中效能較低,但在注意力探測中表現更具競爭力。
這表明,方法之間的重大區別不一定在於表徵的質量,而在於它們的抽象級別,即從中提取資訊的難易程度。線性探測是最簡單的評估之一,注意力探測稍微複雜一些,而微調則是更復雜的協議。
圖 4 可以看出,評估協議的適用性與世界模型的等價性之間有著明顯聯絡。不變性較高的世界模型線上性探測中表現出色,而等變世界模型在使用更大的評估頭部,如在預測器微調中,有組合更好的表現。研究者們還注意到,由等變世界模型產生的更豐富的表徵在跨域 OOD 資料集上具有更好的效能。
圖 5 中按表徵的抽象程度將方法分類。對比學習方法佔據了高抽象度的一端,只需一個簡單的協議就能輕鬆提取資訊。然而,如表 5 所示,當忽略調整成本時,這些方法的峰值效能較低。與之相反的是掩蔽影像建模法(MIM),它在微調等複雜評估中效能更強,但線上性探測中由於資訊不易獲取而表現不佳。透過改變世界模型的等變性,IWM 能夠在對比學習方法和 MIM 之間有屬於自己的位置,如圖 4 和表 8 所示, 和 是 IWM 光譜的兩個極端。
這個光譜可以用自監督學習(SSL)的理念「學習可預測之物」來概括。透過一個弱世界模型進行學習意味著它無法正確地建模世界,編碼器會移除那些無法預測的資訊。反之,如果世界模型非常強大,那麼表徵就不需要那麼抽象或語義化,因為它能夠在任何情況下找到預測表徵的方法。這意味著,學習一個世界模型提供了一種可度量的方式來控制表徵的抽象級別。
更多技術細節,請參閱原文。