影片生成模型變身智慧體：史丹佛Percy Liang等提出VideoAgent，竟能自我最佳化

机器之心發表於2024-10-20

原文網址 : https://www.jiqizhixin.com/articles/2024-10-20-2

現在正是「文字生影片」賽道百花齊放的時代，而且其應用場景非常多，比如生成創意影片內容、建立遊戲場景、製作動畫和電影。甚至有研究表明還能將影片生成用作真實世界的模擬器，比如 OpenAI 今年初就釋出過一份將影片生成模型作為世界模擬器的技術報告，參閱機器之心報導《我在模擬世界！OpenAI 剛剛公佈 Sora 技術細節：是資料驅動物理引擎》。

文字生影片模型的這些近期應用既有望實現網際網路規模級別的知識遷移（比如從生成人類影片到生成機器人影片），也有望打通實現通用智慧體的道路（比如用單個策略控制不同環境中不同形態的機器人來執行多種多樣的任務）。

然而，現實情況是，文字生影片模型的下游應用還很有限，原因包括幻覺問題以及生成的影片內容不符合現實物理機制等。

雖然理論上可以透過擴大資料集和模型大小來有效減輕這些問題，但對影片生成模型來說，這會很困難。

部分原因是標註和整理影片的人力成本很高。另外，影片生成方面還沒有一個非常適合大規模擴充套件的架構。

除了擴大規模，LLM 領域的另一個重要突破是能整合外部反饋來提升生成質量。那文字生影片模型也能受益於這一思路嗎？

為了解答這一問題，一個多所機構的研究團隊探索了影片生成模型能自然獲得的兩種反饋型別，即來自視覺 - 語言模型（VLM）的 AI 反饋和將生成的影片轉換成運動控制時得到的真實世界執行反饋。

為了利用這些反饋來實現影片生成模型的自我提升，該團隊提出了 VideoAgent，即影片智慧體。該研究有三位共一作者：Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他參與者包括滑鐵盧大學 Sebastian Fischmeister 教授、史丹佛大學基礎模型研究中心（CRFM）主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang（楊夢嬌）。

論文標題：VideoAgent: Self-Improving Video Generation
論文地址：https://arxiv.org/pdf/2410.10076
程式碼地址：https://github.com/Video-as-Agent/VideoAgent

不同於將生成的影片直接轉換成運動控制的策略，VideoAgent 的訓練目標是使用來自預訓練 VLM 的反饋來迭代式地最佳化生成的影片規劃。

在推理階段，VideoAgent 會查詢 VLM 以選擇最佳的改進版影片規劃，然後在環境中執行該規劃。

在線上執行過程中，VideoAgent 會觀察任務是否已成功完成，並根據來自環境的執行反饋和從環境收集的其它資料進一步改進影片生成模型。

生成的影片規劃獲得了兩方面的改進：

該團隊受一致性模型的啟發，提出了用於影片擴散模型的自我調節一致性（self-conditioning consistency），其可將來自影片擴散模型的低質量樣本進一步最佳化成高質量樣本。
當可線上訪問環境時，VideoAgent 會執行當前影片策略並收集其它成功軌跡，以進一步在成功軌跡上微調影片生成模型。

圖 1 是 VideoAgent 的直觀圖示。