影像生成迎來CoT時刻!港中文首次提出文生圖的o1推理和Inference Scaling新正規化!

机器之心發表於2025-02-08
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

第一作者,郭子瑜,是香港中文大學 MiuLar Lab 的博士生,本科畢業於北京大學,曾在 Amazon、Roblox、上海人工智慧實驗室、騰訊等機構實習,研究多模態大模型和 3D 視覺,一作代表作有 Point-LLM、PointCLIP、SAM2Point 等。

隨著 OpenAI o1 向社群展示了思維鏈 Chain-of-Thought(CoT)對於大模型推理能力的強大提升,各種基於強化學習 RL 和提升 test-time 推理成本的方案已經在大模型理解領域取得了很大的進展。然而,在影像生成(Image Generation)領域,例如文生圖(Text-to-Image)與文生影片(Text-to-Video),我們是否也可以借鑑 CoT 相關的策略,來提升圖片或影片的質量和文字一致性呢?

來自香港中文大學、北京大學、和上海 AI Lab 的研究者們透過 Verify 和 Reinforce 的方案,系統地探索了「CoT 推理 + 文生圖」的結合與潛力。研究結果表明,這些方法能夠有效提升自迴歸(Autoregressive)影像生成的質量,作者也提出了兩種專門針對該任務的新型獎勵模型 —— 潛力評估獎勵模型(Potential Assessment Reward Model, PARM) 及其增強版本 PARM++,後者引入了反思機制(Reflection Mechanism),進一步最佳化了影像生成質量。
圖片
  • 論文標題:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
  • 論文地址:https://arxiv.org/pdf/2501.13926
  • 專案地址:https://github.com/ZiyuGuo99/Image-Generation-CoT

研究背景與挑戰

目前,CoT 推理已廣泛應用於大語言模型(LLM)和多模態大模型(LMM),尤其在數學推理、科學計算等任務上展現出卓越的能力。然而,在自迴歸影像生成任務中,如何有效地驗證(Verify)和強化(Reinforce)影像生成過程,仍是一個尚未解決的問題。

下圖左邊部分是目前領域使用「CoT 推理 + 解數學題」的方案概述,而右邊部分則是本文對於「CoT 推理 + 文生圖」的全面探索。研究團隊觀察到,自迴歸影像生成與 LLM/LMM 具有類似的推理架構,即:

  1. 離散化 Token 表示:無論是語言還是影像資料,自迴歸模型都將其量化為離散 Token,並透過逐步預測的方式進行生成。
  2. 逐步解碼(Step-by-Step Decoding):類似於 CoT 在數學問題上的逐步推理,自迴歸影像生成也可以逐步生成中間影像,並在生成過程中進行驗證與最佳化。
圖片
CoT 如何應用於影像生成?

考慮到 Autoregressive 影像生成和 LLM 在資料表徵和推理架構的相似性,論文調研了包括使用 ORM 和 PRM 的 Test-time Verification、構造 Preference Ranking Data、和透過 DPO 進行偏好對齊等方案,首次證明了「CoT + 文生圖」的可行性!本文也提出了兩種新型的 reward model,PARM 和 PARM++,來最佳化影像生成質量。如下圖所示,透過本文探索的推理策略,大幅度提升了 Autoregressive Image Generation 的效果。
圖片
具體方案

本文的探索以「文生圖」為任務場景,並使用了 Show-o 來作為 baseline 模型,主要分為 3 個部分:

1、測試時驗證(Test-time Verification)

首先,論文探索如何使用獎勵模型(Reward Model, RM) 來進行 Test-time Verification,實現了 Outcome Reward Model(ORM,下圖左邊部分)和 Process Reward Model(PRM,下圖中間部分)方案,並在兩者的基礎上提出了一種全新的針對於影像生成任務的 Potential Assessment Reward Model(PARM,下圖右邊部分)。
圖片
1.1. 結果獎勵模型(Outcome Reward Model, ORM)

論文提出了 2 種方案,均使用 Best-of-N 的方式進行驗證,即進行多次完整路徑的生成,並從中選擇出質量最高的最終圖片。

Zero-shot ORM:基於 LLaVA-OneVision 強大的影像理解能力,作者使用了其 7B 模型,直接作為 zero-shot ORM 使用,並透過下面的 prompt 來激發其作為文生圖質量評估的能力:
圖片
Fine-tuned ORM:為了進一步增強 ORM 的專業效能,作者也構建了大規模的圖文 reward data 來得到 fine-tuned ORM,資料形式如下圖所示:
圖片
1.2. 過程獎勵模型(Process Reward Model, PRM):

作者使用了類似 ORM 的方案,同樣嘗試了 Zero-shot 和 Fine-tuned 兩種方案,並對每個 step 進行 Best-of-N 的方案,即逐步選擇出質量最高的中間階段的生成圖片。然而,作者發現這種 naive 的 PRM 無法對影像生成有顯著的提升。透過視覺化,作者發現:PRM 在早期生成階段由於影像模糊而難以評估,而在後期生成階段不同路徑的圖片趨於相似,導致辨別能力受限,如下圖所示。
圖片
1.3. 潛力評估獎勵模型(Potential Assessment Reward Model, PARM):

為了同時結合 ORM 的簡潔和有效性,以及 PRM 細粒度逐個 step 驗證的思想,作者提出了一個專門針對 Autoregressive 影像生成任務的 reward model:Potential Assessment Reward Model(PARM)。PARM 透過以下三步提升影像生成質量:

  1. 清晰度判斷(Clarity Judgment):識別哪些中間步驟的影像已經足夠清晰,可用於後續評估。
  2. 潛力性評估(Potential Assessment):分析當前步驟是否有潛力生成高質量的最終影像。
  3. 最佳選擇(Best-of-N' Selection):在高潛力路徑中選擇最佳的最終影像。
圖片
圖片
1.4. 潛力評估獎勵模型 ++(Potential Assessment Reward Model++,PARM++)

如下圖所示,在 PARM 的基礎上,作者提出了 PARM++,使模型能夠在生成錯誤時進行自我修正。具體來說,基於 PARM 選出的最終圖片,作者首先使用 PARM++ 評估生成圖片是否符合文字描述;若圖片不符合要求,會要求 RM 提供詳細的錯誤描述,並根據該描述,要求生成模型進行自我修正(Self-correction),即模型接收反饋,並參考錯誤資訊重新生成結果。結果表明,PARM++ 進一步提升 GenEval +10%。如下圖右邊所示,生成結果在物體數量、顏色、空間關係等方面更加準確。
圖片
圖片
2、直接偏好最佳化(Direct Preference Optimization, DPO)Alignment:

作者進一步引入 DPO 偏好對齊,即使用大規模排名資料訓練模型,使其生成結果更符合人類偏好。研究團隊構建了 288K 條圖文排名資料(Text-to-Image Ranking Data)用於訓練。具體來說,訓練過程是採用最大似然最佳化,調整模型輸出,使其更偏向人類偏好。同時,論文也進一步使用迭代 DPO(Iterative DPO),在模型最佳化後重新生成新資料進行再次訓練。結果表明,初次 DPO 訓練使模型在 GenEval 效能提升 +9%,而迭代 DPO 進一步提高至 +12%,超越 Fine-tuned ORM。

3、Test-time Verification + DPO Alignment:

在前述兩種方法的基礎上,作者探索了將 Test-time Verification 與 DPO 對齊相結合的策略,以實現端到端的最佳化。在 DPO 訓練的模型基礎上,進一步應用 Test-time Verification 進行篩選,使生成影像質量更高,文字一致性更強。實驗結果表明,結合 DPO 和 Test-time Verification 後,模型在 GenEval 指標上的整體提升達 +27%,超越單獨使用 DPO 或 Test-time Verification 的方案。
圖片
總體效果對比

下表展示了模型在 GenEval 基準上的總體效能比較,相比於現有的擴散模型和自迴歸模型,結果證明了在文字生成影像任務中使用 CoT 推理策略的潛力。
圖片
結論

本研究首次系統性探索了 CoT 推理策略在自迴歸影像生成中的適應性及潛力。透過全面的實驗分析證明了不同的推理策略(如測試時驗證、偏好對齊及其結合)能夠有效提升影像生成質量。基於這些觀察,本文進一步提出了兩種專門針對自迴歸影像生成的獎勵模型 —— 潛在評估獎勵模型(PARM)PARM++,前者能夠對逐步生成過程進行自適應獎勵評分,後者則結合了反思機制(Self-reflection),實現自我修正的影像生成。實驗結果表明,CoT 推理在自迴歸影像生成任務中展現出了巨大的潛力,為該領域的發展開闢了新的方向,也為大模型推理能力的進一步提升奠定了基礎!

相關文章