無需引導取樣,清華大學提出視覺模型訓練新正規化

机器之心發表於2025-02-09
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

引導取樣 Classifier-Free Guidance(CFG)一直以來都是視覺生成模型中的關鍵技術。然而最近,清華大學 TSAIL 團隊提出了一種極其簡單的方法,實現了原生無需引導取樣視覺模型的直接訓練。他們在 Stable Diffusion,DiT,VAR,LlamaGen,MAR 五個截然不同的視覺架構上進行了驗證,一致發現新方法效能與 CFG 相當,而取樣成本減半。
圖片
  • 演算法名稱:Guidance-Free Training (GFT)
  • 論文連結:https://arxiv.org/abs/2501.15420
圖片
文生圖任務中,免引導取樣演算法 GFT 與引導取樣演算法 CFG 均能大幅提升生成質量,而前者更為高效。
圖片
GFT 可透過調節取樣時的「溫度係數」來調節 diversity-fidelity trade-off
圖片
與此同時,GFT 演算法保持了與 CFG 訓練流程的高度一致,只需更改不到 10 行程式碼就可輕鬆實現。

視覺引導取樣的問題與挑戰

生成質量和多樣性是相互牽制的關係。大語言模型(LLMs)主要透過將模型輸出直接除以一個取樣溫度係數 圖片來權衡二者,可明顯提高生成質量。然而,早期研究卻發現這類溫度取樣方法對視覺生成完全不起作用。如今,視覺生成依賴引入一個新的無條件模型,用引導取樣(CFG)達到類似溫度取樣的效果:
圖片
然而,CFG 中引入的無條件模型卻給視覺模型訓練帶來了種種掣肘,因為在每一個取樣步我們都需要進行有條件和無條件兩次模型推理,導致計算開銷倍增。此外,在對預訓練模型微調或進一步蒸餾時,我們也需要分別考慮有條件和無條件兩個視覺模型的訓練,這又增加了模型訓練的開銷及演算法複雜度。

為了避免 CFG 引導取樣導致的額外計算開銷,已有的方法大多采用基於一個預訓練好的 CFG 教師模型繼續蒸餾的手段。但這引入了一個額外的訓練階段,可能會帶來效能損失。

GFT 演算法正是嘗試解決這一問題。簡單說,它實現了原生免 CFG 視覺模型從零訓練,且有著和 CFG 相當的收斂速度,演算法穩定性與取樣表現。更重要的是,它足夠簡潔、通用。一種演算法可同時用於擴散、自迴歸、掩碼三種視覺模型。

Guidance Free Training 演算法設計

GFT 完全採用了監督訓練中的擴散損失函式。在訓練中,其和 CFG 最大的不同是:GFT 並不顯式引數化一個「有條件視覺模型」,而是將其表示為一個取樣模型和一個無條件模型的線性組合:
圖片
這樣在在我們訓練這個「隱式」有條件模型時,我們本質上在直接訓練其背後引數化好的取樣模型。
圖片
論文證明,隨著線性組合係數 β(又稱「偽溫度係數」)的變化,其對應的取樣模型將和 CFG 演算法定義的取樣分佈一一對應。

GFT 的演算法靈魂:簡單、高效、相容

在實際部署中,由於 GFT 演算法在設計上可以與 CFG 訓練方法保持了高度對齊,這使得其可以最低成本被部署實現(<10 行程式碼),甚至不需要更改已有程式碼的訓練超引數。
圖片
GFT 訓練也非常高效,與 CFG 相比,它不需要任何額外的記憶體開銷,只需增加約 20% 的訓練時間,即可節約 50% 的取樣成本。
圖片
此外,GFT 高度通用。不僅僅適用於擴散視覺模型,對於自迴歸、掩碼這類離散視覺模型也同樣適用:
圖片
實驗驗證

GFT 在擴散模型 DiT、Stable Diffusion,自迴歸模型 VAR,LlamaGen,掩碼擴散模型 MAR 五個截然不同的模型上面分別進行了實驗驗證。

首先,研究者測試了 GFT 作為一個微調演算法,把當下已有的 CFG 預訓練模型轉換為免引導採用模型的能力。發現在 FID 指標上,GFT 可以做到無損轉換。
圖片
圖片
隨後、研究者測試了 GFT 作為一個預訓練演算法,和 CFG 訓練的比較(相同訓練步)。
圖片
圖片
結果表明,GFT 訓練出的免引導採用模型能力與 CFG 模型持平甚至更優。連損失函式收斂曲線也基本重合。

最後,論文還在不同模型上測試了 GFT 對於取樣質量和多樣性權衡曲線的控制能力。

圖片

作者介紹

本文有兩位共同一作。陳華玉、清華大學計算機系四年級博士生。主要研究方向為強化學習與生成式模型。曾在 ICML/NeurIPS/ICLR 國際會議上發表多篇學術論文。是開源強化學習演算法庫「天授」的主要作者(Github 8k 星標)。導師為朱軍教授。

姜凱、清華大學 TSAIL 團隊實習生,主要研究方向為視覺生成模型。導師為陳鍵飛副教授。

相關文章