VAR:自迴歸建模與縮放的視覺大模型

banq發表於2024-04-07


視覺自迴歸建模VAR:一種新的視覺化生成方法將 GPT 式模型提升到了超越擴散模型。

視覺自迴歸建模(VAR)是一種新一代正規化,它將影像上的自迴歸學習重新定義為從粗到細的 "下一尺度預測 "或 "下一解析度預測",有別於標準的柵格掃描 "下一標記預測"。

VAR 已經初步模擬了 LLM 的兩個重要特性:縮放定律和零點任務泛化。我們已經發布了所有模型和程式碼,以促進對視覺生成和統一學習的 AR/VAR 模型的探索。

  • GPT 式自迴歸模型首次超越擴散模型:VAR 在影像質量、推理速度、資料效率和可擴充套件性等多個方面都優於擴散變換器(DiT)
  • 發現 VAR transformers中的冪律縮放定律,VAR 模型的擴充套件表現出明顯的冪律擴充套件規律,類似於在 LLM 中觀察到的冪律擴充套件規律,線性相關係數接近 -0.998,這就是確鑿的證據。
  • 零樣本泛化能力:VAR 在下游任務(包括影像內繪、外繪和編輯)中進一步展示了零點泛化能力。

這些結果表明,VAR 已經初步模擬了 LLM 的兩個重要特性:縮放定律和零點任務泛化。

提供一個演示網站供您使用 VAR 模型並互動式生成影像。享受視覺自迴歸建模的樂趣!

相關文章