AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
引導取樣 Classifier-Free Guidance(CFG)一直以來都是視覺生成模型中的關鍵技術。然而最近,清華大學 TSAIL 團隊提出了一種極其簡單的方法,實現了原生無需引導取樣視覺模型的直接訓練。他們在 Stable Diffusion,DiT,VAR,LlamaGen,MAR 五個截然不同的視覺架構上進行了驗證,一致發現新方法效能與 CFG 相當,而取樣成本減半。- 演算法名稱:Guidance-Free Training (GFT)
- 論文連結:https://arxiv.org/abs/2501.15420
文生圖任務中,免引導取樣演算法 GFT 與引導取樣演算法 CFG 均能大幅提升生成質量,而前者更為高效。GFT 可透過調節取樣時的「溫度係數」來調節 diversity-fidelity trade-off與此同時,GFT 演算法保持了與 CFG 訓練流程的高度一致,只需更改不到 10 行程式碼就可輕鬆實現。生成質量和多樣性是相互牽制的關係。大語言模型(LLMs)主要透過將模型輸出直接除以一個取樣溫度係數
來權衡二者,可明顯提高生成質量。然而,早期研究卻發現這類溫度取樣方法對視覺生成完全不起作用。如今,視覺生成依賴引入一個新的無條件模型,用引導取樣(CFG)達到類似溫度取樣的效果:然而,CFG 中引入的無條件模型卻給視覺模型訓練帶來了種種掣肘,因為在每一個取樣步我們都需要進行有條件和無條件兩次模型推理,導致計算開銷倍增。此外,在對預訓練模型微調或進一步蒸餾時,我們也需要分別考慮有條件和無條件兩個視覺模型的訓練,這又增加了模型訓練的開銷及演算法複雜度。為了避免 CFG 引導取樣導致的額外計算開銷,已有的方法大多采用基於一個預訓練好的 CFG 教師模型繼續蒸餾的手段。但這引入了一個額外的訓練階段,可能會帶來效能損失。GFT 演算法正是嘗試解決這一問題。簡單說,它實現了原生免 CFG 視覺模型從零訓練,且有著和 CFG 相當的收斂速度,演算法穩定性與取樣表現。更重要的是,它足夠簡潔、通用。一種演算法可同時用於擴散、自迴歸、掩碼三種視覺模型。Guidance Free Training 演算法設計GFT 完全採用了監督訓練中的擴散損失函式。在訓練中,其和 CFG 最大的不同是:GFT 並不顯式引數化一個「有條件視覺模型」,而是將其表示為一個取樣模型和一個無條件模型的線性組合:這樣在在我們訓練這個「隱式」有條件模型時,我們本質上在直接訓練其背後引數化好的取樣模型。論文證明,隨著線性組合係數 β(又稱「偽溫度係數」)的變化,其對應的取樣模型將和 CFG 演算法定義的取樣分佈一一對應。在實際部署中,由於 GFT 演算法在設計上可以與 CFG 訓練方法保持了高度對齊,這使得其可以最低成本被部署實現(<10 行程式碼),甚至不需要更改已有程式碼的訓練超引數。GFT 訓練也非常高效,與 CFG 相比,它不需要任何額外的記憶體開銷,只需增加約 20% 的訓練時間,即可節約 50% 的取樣成本。此外,GFT 高度通用。不僅僅適用於擴散視覺模型,對於自迴歸、掩碼這類離散視覺模型也同樣適用:GFT 在擴散模型 DiT、Stable Diffusion,自迴歸模型 VAR,LlamaGen,掩碼擴散模型 MAR 五個截然不同的模型上面分別進行了實驗驗證。首先,研究者測試了 GFT 作為一個微調演算法,把當下已有的 CFG 預訓練模型轉換為免引導採用模型的能力。發現在 FID 指標上,GFT 可以做到無損轉換。隨後、研究者測試了 GFT 作為一個預訓練演算法,和 CFG 訓練的比較(相同訓練步)。結果表明,GFT 訓練出的免引導採用模型能力與 CFG 模型持平甚至更優。連損失函式收斂曲線也基本重合。最後,論文還在不同模型上測試了 GFT 對於取樣質量和多樣性權衡曲線的控制能力。
本文有兩位共同一作。陳華玉、清華大學計算機系四年級博士生。主要研究方向為強化學習與生成式模型。曾在 ICML/NeurIPS/ICLR 國際會議上發表多篇學術論文。是開源強化學習演算法庫「天授」的主要作者(Github 8k 星標)。導師為朱軍教授。
姜凱、清華大學 TSAIL 團隊實習生,主要研究方向為視覺生成模型。導師為陳鍵飛副教授。