統一視覺理解與生成,MetaMorph模型問世,LeCun、謝賽寧、劉壯等參與

机器之心發表於2024-12-21

如今,多模態大模型(MLLM)已經在視覺理解領域取得了長足進步,其中視覺指令調整方法已被廣泛應用。該方法是具有資料和計算效率方面的優勢,其有效性表明大語言模型(LLM)擁有了大量固有的視覺知識,使得它們能夠在指令調整過程中有效地學習和發展視覺理解。

在 Meta 和紐約大學合作的一篇論文中,研究者探究了 LLM 是否也可以透過微調來生成具有同等效率和有效性的視覺資訊?論文作者中包括了 AI 領域的幾位知名學者,包括圖靈獎得主 Yann LeCun、紐約大學電腦科學助理教授謝賽寧、FAIR 研究科學家劉壯(將於明年 9 月加盟普林斯頓大學,擔任電腦科學系助理教授)。

圖片
  • 論文標題:MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
  • 論文地址:https://arxiv.org/pdf/2412.14164v1
  • 專案地址:https://tsb0601.github.io/metamorph/

作者之一 Peter Tong 表示:「這個專案確實改變了我對多模態模型和 LLM 的看法。我過去認為多模態(視覺)預測需要對模型進行重大更改和大量預訓練,例如 Chameleon。但令人驚訝的是,事實恰恰相反!在大型自迴歸模型中,視覺理解和生成緊密相關,可以直接從 LLM 進行指令調整。」
圖片
當前,人們試圖建立「統一」的模型,能夠同時進行多模態理解和生成,這就通常將視覺生成視為與視覺理解正交的功能。這些模型往往需要對原始 MLLM 架構進行大量更改,並進行大量多模態預訓練和 / 或微調。設計此類方法具有挑戰性,以往研究採用了不同的方法,包括將視覺輸入 tokenizing 為離散的 token、融入擴散目標以及將視覺解耦為單獨的理解和生成模式。例如,LWM、Show-o 和 Chameleon 等方法需要數十億個圖文對以進行廣泛的預訓練和微調。

在本文中,研究者提出了視覺預測指令調整(Visual-Predictive Instruction Tuning,VPiT),它是視覺指令調整的簡單擴充套件,建立在將連續視覺 token 作為輸入傳遞給 LLM 的現有正規化之上。VPiT 訓練 LLM 以在微調階段輸出連續視覺 token 和離散文字 token。該模型以預訓練的視覺編碼器嵌入以及文字 token 作為輸入,並輸出文字 token 和連續視覺 token 的組合。

為了視覺化生成的視覺 token,研究者還微調了一個擴散模型,將嵌入對映回畫素空間(參見下圖 1 中的示例)。這個框架使得能夠研究視覺理解、視覺生成和預訓練 LLM 之間的協同作用,從而得出以下幾個有趣的發現。
圖片
首先,研究者表明,預測視覺 token 的能力源於對視覺輸入的理解,並且只需要極少的額外訓練。與視覺指令調整類似,VPiT 可以高效地將 LLM 轉變為一個可以理解和生成多模態 token 的「統一」模型。當使用足夠的視覺理解資料進行聯合訓練時,此過程只需要 200k 額外的視覺生成資料。

研究者進一步確定,理解和生成視覺 token 的能力具有內在聯絡且不對稱。具體來講,增加理解資料可以提高視覺理解(更高的 VQA 分數)和生成效能(更低的 FID 分數)。相反,增加生成資料可以提高生成質量,也有助於增強視覺理解,但程度較小。重要的是,研究結果強調了每種能力的訓練對模型整體視覺效能具有不對稱的影響:在提高視覺理解和生成方面,以理解為中心的訓練大大優於以生成為中心的訓練。

基於這些發現,研究者訓練了一個名為 MetaMorph 的統一模型,使用 VPiT 預測多模態 token。他們利用各種資料來源,從常見的視覺問答資料集到無文字註釋的純影像和影片資料。結果顯示,MetaMorph 在視覺理解和視覺生成基準上都取得了有競爭力的表現。

此外,研究者展示了這種統一的建模方法允許模型利用 LLM 的強大功能,比如 MetaMorph 可以在生成視覺 token 從預訓練的 LLM 中提取知識。更令人驚訝的是,他們還觀察到 MetaMorph 可以在生成視覺 token 之前隱式地執行推理步驟。比如當輸入提示詞「帝王斑蝶幼蟲轉變形態後的動物」,MetaMorph 成功生成了一張蝴蝶的影像(圖 1 右)。

本文的結果表明了以下兩點見解,為混合模態模型的開發提供了啟發。

  1. 使用指令調整來訓練統一模型是可行的。
  2. LLM 具有強大的預先存在的視覺功能,與廣泛的預訓練相比,這些功能可以使用少得多的樣本來啟用。

視覺預測指令調整(VPiT)

VPiT 是一種簡單的設計,它擴充套件了現有的指令調整方法,以額外生成視覺 token,而不僅僅是文字。研究者使用相同的架構和 next-token 預測正規化來解鎖視覺生成功能,而無需花哨的東西。他們採用預訓練的 LLM 並對其進行微調以預測離散文字 token 和連續視覺 token。這些視覺 token 可以使用經過調整的擴散模型來視覺化。

從單模態到多模態 next-token 預測

模型架構。研究者採用預訓練 LLM,並對其進行微調,以處理任意的文字和視覺 token 序列。他們保留原始的 LLM 頭(head)用於文字預測,並將單獨的視覺頭附加到 LLM 以預測視覺 token,即視覺編碼器在處理影像時生成的輸出 token。視覺頭是一個對映層,從 LLM 的維數對映到視覺編碼器的維數。然後以提示詞 token 作為上下文,對所有響應 token 進行自迴歸訓練和預測。

與傳統的視覺指令調整不同,在 VPiT 中,視覺 token 也是 LLM 的輸出,而不僅僅是輸入。為了讓 LLM 意識到視覺 token 的存在,研究者引入特殊 token( 〈image_start〉 和 〈image_end〉 )來指示視覺 token 序列的邊界以及何時使用視覺頭。

損失函式。語言頭輸出詞彙表的機率分佈,並使用交叉熵損失進行訓練以進行下一個 token 預測。視覺預測使用了「 LLM 預測的視覺 token 與視覺編碼器的視覺 token 之間」的餘弦相似性損失。與指令調整實踐一致,該模型僅對響應 token 進行預測併產生損失。

使用多種型別的資料

由於 VPiT 使模型能夠預測其響應中的文字和視覺 token,因此它允許使用更廣泛的訓練資料。另一方面,傳統的視覺指令調整主要依賴於問答對。本文的大部分資料集都是公開的,研究者將它們分為以下三個主要類別:

  • 視覺理解資料:包括以影像或影片作為輸入並輸出文字響應的資料。
  • 視覺生成資料:MetaCLIP 資料,根據影像描述預測視覺 token。研究者最多使用 500 萬對,並將資料整理成問答格式。
  • 其他視覺資料:包括需要模型根據「交錯輸入的視覺 token 和文字 token」來預測視覺 token 的資料。

利用擴散將 token 對映到影像

由於使用 VPiT 訓練的模型學習預測連續的視覺 token,因此需要將預測的 token 對映回畫素空間。研究者利用了「擴散自編碼器」的概念,其中擴散模型可以適應影像嵌入而不是文字嵌入的條件。具體地,他們使用 held-out 訓練資料微調現有的擴散模型以適應視覺編碼器的輸出。

在推理時,如果生成了標籤 token 〈image_start〉,則模型開始輸出視覺 token,直到 〈image_end〉。然後將生成的視覺 token 插入擴散模型以在畫素空間中視覺化預測。研究者使用了標準的潛在擴散模型訓練流程。

解鎖視覺生成的發現

在 VPiT 框架下,研究者探究了有關視覺理解與生成影響與協同作用的問題:

  • 視覺生成可以透過輕量級調整來解鎖嗎?還是需要大量資料?視覺理解和生成是互惠互利還是相互對立?
  • 更多的視覺理解或生成資料對理解和生成質量的貢獻有多大?
  • 哪些視覺理解任務與生成效能最相關?

在評估時,研究者使用了 9 個 ImageQA 基準來評估模型的不同方面,包括 MMBench、Seed、VStar、MMVP、MMMU、ChartQA、TextVQA、ScienceQA、RealWorldQA。

透過視覺理解聯合訓練可以高效解鎖視覺生成能力

研究者首先調研了教(teach)語言模型生成高質量視覺 token 所需的圖文樣本數量。為此,他們從生成資料(MetaCLIP 資料集)中隨機抽取 {1k、5k、10k、50k、200k、1M、3M、5M} 個圖文對。同時探索了兩種設定:1 僅使用視覺生成資料對 LLM 進行微調,2)使用視覺理解和其他型別的資料來聯合訓練視覺生成。

在下圖 2 中,研究者發現僅對視覺生成進行訓練的表現明顯差於使用所有其他資料的聯合訓練。在超過 300 萬個圖文對的情況下,模型很難生成高質量的視覺影像(∼40 FID 分數),並且效能仍然不如使用 500 萬個圖文對進行聯合訓練的情況。這表明僅對視覺生成資料進行訓練的樣本效率明顯較低。

相比之下,與其他資料集聯合訓練可以顯著提高生成效能。模型僅使用 5k 生成資料即可生成有效的視覺 token,效能在 200k 樣本左右可以保持穩定。這表明視覺生成不是一種正交能力,而是一種受益於其他任務並在聯合訓練中更有效出現的能力。
圖片
為了更好地理解每種型別的資料如何有助於視覺生成,研究者使用 200k 視覺生成資料進行了一項可控實驗,使用前文展示的每種型別資料進行單獨聯合訓練。他們還將單獨訓練與一起訓練所有資料進行了比較。下圖 3 中展示了結果。
圖片
結果表明,雖然所有資料型別都增強了模型視覺生成能力,但改程序度各不相同。即使生成資料量保持在 200k 不變,ImageQA 和 VideoQA 等視覺理解資料也能顯著提升模型視覺生成能力。這表明理解視覺內容的能力與生成視覺 token 之間存在很強的聯絡。此外,在訓練中結合所有資料型別可以進一步提高效能,這表明不同資料型別帶來的好處可以疊加。

發現 1:當模型與視覺理解資料聯合訓練時,與僅在生成資料上進行訓練相比,可以使用明顯更少的生成資料來解鎖生成視覺 token 的能力。

視覺理解與生成互惠互利

更多的理解資料可以帶來更好的理解和生成效能。基於上文發現,研究者進行了一項對照實驗,以研究視覺理解能力與視覺生成能力之間的關係。他們使用一組固定的 200k 生成資料來進行模型消融,同時利用 Cambrian-7M 的 1M 到 7M 樣本的 VQA 資料變化來開發不同級別的視覺理解。下圖 4 中顯示的結果表明,更強的 VQA 能力與更好的生成效能具有相關性。
圖片
更多的生成資料同樣可以帶來更好的理解和生成效能。研究者探索了視覺生成能力的提高是否也與更高的 VQA 效能有關,為此他們使用固定的 1M VQA 樣本作為理解基線進行了一項對照實驗。然後改變生成資料的數量({200k、500k、1M、2M、3M、4M})以調整生成能力,同時與固定的 1M VQA 資料進行聯合訓練。下圖 5 的結果顯示,在 1M VQA 設定中,更強的生成能力與 VQA 效能的提升相關。這意味著增加生成資料量不僅可以增強生成能力,而且還會對 VQA 效能產生積極影響。
圖片
這種協同作用可以擴充套件到不同的 LLM。研究者探究研究結果是否可以遷移到不同的 LLM 主幹。透過使用 7M VQA 樣本和 1M 生成資料的組合,他們在 LLaMA-3 8B、LLaMA-3.1 8B 和 LLaMA-3 70B 上訓練 VPiT。下圖 6 顯示了不同 LLM 之間的擴充套件行為。
圖片
發現 2:視覺理解和視覺生成相輔相成,增加任意一項任務的資料都會同時增強兩者的效能。

理解資料可以實現更多增益

研究者調研了理解與生成資料是否同等重要,他們聯合訓練了不同規模的 VQA 資料(f1M、4M、7M)和生成資料(200k、500k、1M、2M、3M、4M)。下圖 7 總結了這些發現,其中 x 軸表示 VQA 資料,y 軸表示生成資料。結果透過熱圖視覺化,其中較深的顏色代表更好的效能。

結果表明,增加 VQA 資料可以在所有三個指標中產生最顯著的改進。當 VQA 資料較低(1M)時,隨著 VQA 資料的擴大(從 1M 到 4M 再到 7M),生成資料的增加會帶來顯著的改進。不過,VQA 資料的影響更加明顯,熱圖中急劇的顏色過渡證明了這一點。最終,對於 7M VQA 資料,生成資料的增加貢獻很小。這些結果證明了理解資料在增強理解和生成效能方面具有關鍵作用。
圖片
發現 3:雖然增加資料可以提升整體效能,但視覺理解資料的影響明顯高於視覺生成資料的影響。

某些理解任務與生成效能更相關

鑑於 OCR、以視覺為中心的任務和基於知識的任務等理解任務的多樣性,論文研究了哪些任務與生成能力的相關性最強。受 Cambrian-1 的啟發,研究者將 VQA 任務分為五組:一般、文字和圖表、高解析度、知識和以視覺為中心的 VQA。研究者利用早先的實驗結果,用不同數量的生成資料聯合訓練各種 VQA 資料規模,並在圖 8 中繪製了每個基準的 VQA 效能與生成效能的對比圖。他們還計算了 VQA 分數與 FID/CLIP 分數之間的皮爾遜相關性 (ρ)。
圖片
圖 8 顯示,通用、視覺中心和文字與圖表 VQA 任務與生成效能密切相關,每個任務的皮爾遜相關係數(p)都高於 0.85。高解析度 VQA 表現出中等程度的相關性,p 約為 0.7。相比之下,知識 VQA 任務(如 MMMU)的相關性較弱,這表明生成能力與生成效能的相關性更為密切。這與模型的視覺能力有關,而與知識特定任務無關。

發現 4:通用、視覺中心和文字理解的 VQA 任務與視覺生成有很強的相關性,而基於知識的 VQA 任務則沒有。

MetaMorph 模型

理解和生成表現

研究者將 MetaMorph 與其他統一模型進行了比較,並在表 1 中總結了結果。
圖片
MetaMorph 利用 LLM 知識進行視覺生成

MetaMorph 能有效利用預訓練的 LLM 中蘊含的世界知識,圖 9 左側展示了一些例子。研究者去提示模型生成需要非難和專業化知識的概念,例子包括 Chhogori(世界第二高峰)、Oncilla(南美洲的一種小野貓)和 Chizarira(辛巴威一個與世隔絕的荒野地區)。
圖片
MetaMorph 成功地將特定領域的知識轉化為準確的視覺 token,從而展示了從 LLM 中利用世界知識的能力。與此相反,最新的文字到影像(T2I)模型 StableDiffusion-3.5 8B,儘管生成了高質量的影像,卻很難生成正確的概念。這個問題可能源於它所使用的文字嵌入模型 CLIP 和 T5,它們未能正確編碼這些專業術語。

圖 9 右側展示了 MetaMorph 如何比 CLIP 和 T5 等文字嵌入模型更有效地處理常見的語義難題。這些挑戰包括否定和主觀性,MetaMorph 使用了在 Multimon 中識別出的常見失敗模式的提示來區分語義的細微差別,如「稍微」與「非常」、「少數」與「許多」、「沒有」與「有」,這些都是現有文字到影像系統中常見的失敗。

多模態生成推理

圖 10 中,研究者展示了模型根據謎題提示生成影像的例子,例如「國家公園位於」。在每道謎題中,都直接使用了「黃石公園所在國家的國家公園」這一提示語,而沒有使用任何思維鏈(CoT)提示語「生成謎題圖片」。MetaMorph 可以從需要多步推理的提示中生成正確的影像。
圖片
例如,在回答「一種樂器,這種樂器通常由 theity 演奏」這一問題時,該模型需要隱式地完成三個推理科學家是誰提出了狹義相對論的步驟:識別出愛因斯坦是提出狹義相對論的科學家;識別出愛因斯坦的首選樂器是小提琴,並直接生成正確的視覺 token;然後完成推理過程。這一結果意味著,MetaMorph 在緊接著提示的生成過程中,隱式地明確分離了這些步驟。這些結果解決了謎題,並生成了正確的視覺 token,與《LLMs 物理學》的研究結果一致,作者認為 LLM 可以生成後續 token。在這裡,研究者展示了在自迴歸之前預先計算推理圖的能力,即使在解碼視覺 token 時,這種能力也能轉移到統一多模態模型設定中。

更多技術細節請參閱原論文。

相關文章