新一代視覺生成正規化「VAR: Visual Auto Regressive」視覺自迴歸來了!使 GPT 風格的自迴歸模型在影像生成首次超越擴散模型,並觀察到與大語言模型相似的 Scaling Laws 縮放定律、Zero-shot Task Generalization 泛化能力:
論文標題: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"
這項名為 VAR 的新工作由北京大學和位元組跳動的研究者提出,登上了 GitHub 和 Paperwithcode 熱度榜單,並得到大量同行關注:
目前體驗網站、論文、程式碼、模型已放出:
體驗網站:https://var.vision/
論文連結:https://arxiv.org/abs/2404.02905
開原始碼:https://github.com/FoundationVision/VAR
開源模型:https://huggingface.co/FoundationVision/var
背景介紹
在自然語言處理中,以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive 自迴歸模型已經取得了較大的成功,尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務泛化能力十分亮眼,初步展示出通往「通用人工智慧 AGI」的潛力。
然而在影像生成領域中,自迴歸模型卻廣泛落後於擴散(Diffusion)模型:近期持續刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均屬於 Diffusion 家族。此外,對於視覺生成領域是否存在「Scaling Law 縮放定律」仍未知,即測試集損失是否隨模型或訓練開銷增長而呈現出可預測的冪律 (Power-law) 下降趨勢仍待探索。
GPT 形式自迴歸模型的強大能力與 Scaling Law,在影像生成領域,似乎被「鎖」住了:
自迴歸模型在生成效果榜單上落後於一眾 Diffusion 模型
劍指「解鎖」自迴歸模型的能力和 Scaling Laws,研究團隊從影像模態內在本質出發,模仿人類處理影像的邏輯順序,提出一套全新的「視覺自迴歸」生成正規化:VAR, Visual AutoRegressive Modeling,首次使得 GPT 風格的自迴歸視覺生成,在效果、速度、Scaling 能力多方面超越 Diffusion,並迎來了視覺生成領域的 Scaling Laws:
VAR 方法核心:模仿人類視覺,重新定義影像自迴歸順序
人類在感知影像或進行繪畫時,往往先概覽全域性、再深入細節。這種由粗到細、從把握整體到精調區域性的思想非常自然:
人類感知圖片(左)與創作畫作(右)由粗到細的邏輯順序
然而,傳統的影像自迴歸(AR)卻使用一種不符合人類直覺(但適合計算機處理)的順序,即自上而下、逐行掃描的光柵順序(或稱 raster-scan 順序),來逐個預測影像 token:
VAR 則「以人為本」,模仿人感知或人創造影像的邏輯順序,使用從整體到細節的多尺度順序逐漸生成 token map:
除了更自然、更符合人類直覺,VAR 帶來的另一個顯著優勢是大幅提高了生成速度:在自迴歸的每一步(每一個尺度內部),所有影像 token 是一次性並行生成的;跨尺度則是自迴歸的。這使得在模型引數和圖片尺寸相當的情況下,VAR 能比傳統 AR 快數十倍。此外,在實驗中作者也觀察到 VAR 相比 AR 展現出更強的效能和 Scaling 能力。
VAR 方法細節:兩階段訓練
VAR 在第一階段訓練一個多尺度量化自動編碼器(Multi-scale VQVAE),在第二階段訓練一個與 GPT-2 結構一致(結合使用 AdaLN)的自迴歸 Transformer。
如左圖所示,VQVAE 的訓練前傳細節如下:
離散編碼:編碼器將圖片轉化為離散 token map R=(r1, r2, ..., rk),解析度從小到大
連續化:r1 至 rk 先透過嵌入層轉換為連續 feature map,再統一插值到 rk 對應最大解析度,並求和
連續解碼:求和後的 feature map 經過解碼器得到重建圖片,並透過重建 + 感知 + 對抗三個損失混合訓練
如右圖所示,在 VQVAE 訓練結束後,會進行第二階段的自迴歸 Transformer 訓練:
自迴歸第一步是透過起始 token [S] 預測最初的 1x1 token map
隨後每一步,VAR 都基於歷史所有的 token map 去預測下一個更大尺度的 token map
訓練階段,VAR 使用標準的交叉熵損失監督這些 token map 的機率預測
測試階段,取樣得到的 token map 會藉助 VQVAE 進行連續化、插值求和、解碼,從而得到最終生成的影像
作者表示,VAR 的自迴歸框架是全新的,而具體技術方面則吸收了 RQ-VAE 的殘差 VAE、StyleGAN 與 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列經典技術的長處。VAR 實際是站在巨人的肩膀上,聚焦於自迴歸演算法本身的創新。
實驗效果對比
VAR 在 Conditional ImageNet 256x256 和 512x512 上進行實驗:
VAR 大幅提升了 AR 的效果,一轉 AR 落後於 Diffusion 的局面
VAR 僅需 10 步自迴歸步驟,生成速度大幅超過 AR、Diffusion,甚至逼近 GAN 的高效率
透過 Scale up VAR 直至 2B/3B,VAR 達到了 SOTA 水平,展現出一個全新的、有潛力的生成模型家族。
令人關注的是,透過與 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer(DiT)對比,VAR 展現出了:
更好效果:經過 scale up,VAR 最終達到 FID=1.80,逼近理論上的 FID 下限 1.78(ImageNet validation set),顯著優於 DiT 最優的 2.10
更快速度:VAR 只需不到 0.3 秒即可生成一張 256 影像,速度是 DiT 的 45 倍;在 512 上更是 DiT 的 81 倍
更好 Scaling 能力:如左圖所示,DiT 大模型在增長至 3B、7B 後體現出飽和現象,無法靠近 FID 下限;而 VAR 經過縮放到 20 億引數,效能不斷提升,最終觸及 FID 下限
更高效的資料利用:VAR 僅需 350 epoch 訓練即超過 DiT 1400 epoch 訓練
這些比 DiT 更高效、更高速、更可擴放的證據為新一代視覺生成的基礎架構路徑帶來了更多可能性。
Scaling Law 實驗
Scaling law 可謂是大語言模型的「皇冠明珠」。相關研究已經確定,在 Scale up 自迴歸大型語言模型過程中,測試集上的交叉熵損失 L,會隨著模型引數量 N、訓練 token 個數 T,以及計算開銷 Cmin 進行可預測的降低,呈現出冪律(Power-law)關係。
Scaling law 不僅使根據小模型預測大模型效能成為可能,節省了計算開銷和資源分配,也體現出自迴歸 AR 模型強大的學習能力,測試集效能隨著 N、T、Cmin 增長。
透過實驗,研究者觀察到了 VAR 展現出與 LLM 幾乎完全一致的冪律 Scaling Law:研究者訓練了 12 種大小的模型,縮放模型引數量從 1800 萬到 20 億,總計算量橫跨 6 個數量級,最大總 token 數達到 3050 億,並觀察到測試集損失 L 或測試集錯誤率 與 N 之間、L 與 Cmin 之間展現出平滑的的冪律關係,並擬合良好:
在 scale-up 模型引數和計算量過程中,模型的生成能力可見得到逐步提升(例如下方示波器條紋):
Zero-shot 實驗
得益於自迴歸模型能夠使用 Teacher-forcing 機制強行指定部分 token 不變的這一優良性質,VAR 也展現出一定的零樣本任務泛化能力。在條件生成任務上訓練好的 VAR Transformer,不透過任何微調即可零樣本泛化到一些生成式任務中,例如影像補全(inpainting)、影像外插(outpainting)、影像編輯(class-condition editing),並取得一定效果:
結論
VAR 為如何定義影像的自迴歸順序提供了一個全新的視角,即由粗到細、由全域性輪廓到區域性精調的順序。在符合直覺的同時,這樣的自迴歸演算法帶來了很好的效果:VAR 顯著提升自迴歸模型的速度和生成質量,在多方面使得自迴歸模型首次超越擴散模型。同時 VAR 展現出類似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者們希望 VAR 的思想、實驗結論、開源,能夠貢獻社群探索自迴歸正規化在影像生成領域的使用,並促進未來基於自迴歸的統一多模態演算法的發展。