理解生成協同促進?華為諾亞提出ILLUME,15M資料實現多模態理解生成一體化

机器之心發表於2024-12-31
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

多模態理解與生成一體化模型,致力於將視覺理解與生成能力融入同一框架,不僅推動了任務協同與泛化能力的突破,更重要的是,它代表著對類人智慧(AGI)的一種深層探索。透過在單一模型中統一理解與生成,模型能夠從語義層面真正 “洞察” 視覺、文字與世界本質之間的深層聯絡,從而在複雜場景中實現更加智慧、靈活的互動與任務執行。

近期,華為諾亞方舟實驗室提出了統一多模態大模型 ——ILLUME。這一模型以 LLM 為核心,採用 “連續影像輸入 + 離散影像輸出” 的架構,巧妙融合了多模態理解與生成的雙重能力,並深度挖掘了統一框架下理解與生成能力協同增強的潛力,展示了對多模態任務的全新詮釋。

圖片
  • 論文標題:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
  • 論文地址:https://arxiv.org/pdf/2412.06673
理解生成協同促進?華為諾亞提出ILLUME,15M資料實現多模態理解生成一體化
總體來說,本文貢獻如下:

1、ILLUME 在保持整體架構可擴充套件與可泛化的前提下,透過合理的視覺詞表、訓練策略與資料配比策略,成功以僅約 15M 的圖文對資料用於圖文對齊,實現了在視覺理解(包括自然影像和文件圖表)、生成、編輯等多元任務上的出色表現,總體效果優於現有統一模型例如 Chameleon, Show-O 和 Janus,與專用單任務模型相媲美。
圖片
2、ILLUME 提出一種自提升式多模態對齊策略,透過讓模型對自身生成的負樣本進行內省式評估,統一模型在理解和生成兩方面的能力可實現協同進化。

ILLUME:理解生成一體的多模態大模型

挑戰一:如何高效訓練一個統一多模態模型?

現有的統一多模態模型構建方案多集中於在 LLM 基礎上擴充視覺詞表,以支援視覺生成任務。這些模型通常需要大量的圖文對資料來實現圖文對齊訓練。這種對海量資料的依賴,在一定程度上放緩了這一領域進一步探索與實踐的程序。
圖片
與此不同的是,我們在 ILLUME 中僅使用約 15M 的圖文對資料完成預訓練,並在視覺理解(涵蓋自然影像與文件圖表)、生成與編輯等多類視覺文字任務上達到與專有模型相媲美的水平。這一成果並非僅體現於資料規模的減少,更重要的是在架構、訓練策略、資料配比以及視覺詞表表徵方式上的關鍵設計,使模型能夠更高效地進行圖文對齊學習。這種方法為在更廣泛和更深層的多模態語義理解與生成融合中奠定了基礎。

關鍵設計 1:視覺詞表的表徵選擇

傳統基於 VQGAN 的視覺詞表往往透過重建原始畫素作為目標,但這種基於底層紋理的表徵不利於與文字模態進行高層語義對齊。與此相反,我們採用語義特徵重建的方式構造視覺詞表,直接在高層語義空間中完成圖文對齊的特徵學習。實驗表明,這一設計可顯著加速 MLLM 的預訓練過程。
圖片
在解碼階段,我們再利用 Diffusion 模型將語義特徵還原為高保真畫素空間,從而實現高達 32 倍的壓縮率。透過這一流程,模型在輸入端沿用連續視覺編碼器保障精細視覺理解能力,並在輸出端透過語義視覺詞表完成離散化處理,為視覺生成能力的無縫融合奠定基礎。
圖片
關鍵設計 2:三階段訓練策略和資料配比

我們採用 “三階段” 訓練策略,以分層遞進的方式逐步強化模型的多模態理解與生成能力:

階段一:引入影像重建任務,為視覺詞表擴充套件後的新引數進行快速初始化,並對齊連續輸入與離散輸出的模式;

階段二:進行圖文對齊預訓練,進一步強化模型在語義層面將影像與文字聯結的能力;

階段三:對高質量的理解、生成、混合資料進行微調,使模型最終勝任多型別的視覺文字任務(包括理解、生成與編輯)。
圖片
挑戰二:統一多模態模型的判別能力和生成能力能否相互促進?

當我們構建一個統一模型後,我們最關心的是:聯合訓練視覺理解和生成任務應該如何促進呢?

自提升多模態對齊方案

針對這一點,我們提出了以自我評估過程為橋樑的自提升多模態對齊策略。透過讓模型對自身生成的負樣本進行內省式評估,模型在理解和生成兩方面的能力可實現協同進化:

  • 生成促進理解:模型以自我評估的方式分析自己產生的負樣本,這種內省過程使模型能夠查明並解決其自身弱點,從而更準確地理解影像。
  • 理解促進生成:模型可以利用其判別能力來評估其自生成的影像是否與文字一致,並基於此分析進行修正,從而確保模型在推理時更加謹慎和準確,避免在生成影像時出現錯誤。

我們的自提升多模態對齊方法分為三個步驟:

  • Step 1: 語料自生成。取樣訓練子集,推理模型生成影像。
  • Step 2: 生成評估資料。從物體、數量、顏色和空間關係多個維度評估影像和文字的一致性,評估資料包括評估得分和相應的分析。
  • Step 3: 多模態對齊。將評估資料重新格式化後加入階段三訓練,使模型在理解與生成層面同時得到強化。
圖片
實驗結果證明,自提升多模態對齊方法能在理解和生成任務上同時為模型賦能,促使統一多模態模型向更高層次的智慧形態穩步邁進。
圖片
實驗結果

多模態理解任務

在 12 個常用的多模態理解開源綜合評測集與文件場景評測集上,ILLUME 均展現出卓越效能,與現有統一多模態模型相比達到 SOTA 水準,尤其在文件理解任務上表現尤為突出。同時,相較多模態理解模型(如 LLaVA-NeXT),ILLUME 的理解能力總體保持相當甚至更優的水平。
圖片
圖片
文圖生成任務

ILLUME 在 3 個文生圖評測集上取得與現有生成模型和統一多模態模型相當的表現。
圖片
圖片
編輯任務

ILLUME 能處理物體刪除,風格遷移,影像補充等各種編輯任務。
圖片
圖片

相關文章