撞牆還是新起點?自迴歸模型在影像領域展現出Scaling潛力

机器之心發表於2024-11-26
自迴歸方法,在影像生成中觀察到了 Scaling Law。

「Scaling Law 撞牆了?」這恐怕是 AI 社群最近討論熱度最高的話題。

該話題始於 The Information 的一篇文章。這篇文章透露,OpenAI 下一代旗艦模型的質量提升幅度不及前兩款旗艦模型之間的質量提升,因為高質量文字和其他資料的供應量正在減少,原本的 Scaling Law(用更多的資料訓練更大的模型)可能無以為繼。

文章釋出後,很多人反駁了這一觀點,認為 Scaling Law 還沒到撞牆的地步,畢竟很多訓練大模型的團隊依然能夠看到模型能力的持續提升。而且,我們現在所說的 Scaling Law 更多是指訓練階段,而推理階段的 Scaling Law 還未被充分挖掘,藉助測試時間計算等方法,大模型的能力還能更上一層樓。

圖片
還有人指出,其實,在文字以外的領域,Scaling Law 的蹤跡正在逐漸顯現,比如時間序列預測以及影像、影片這類視覺領域。

下面這張圖來自投稿給 ICLR 2025 的一篇論文。論文發現,在把類似於 GPT 的自迴歸模型應用於影像生成時,Scaling Law 同樣可以被觀察到。具體表現為:隨著模型大小的增加,訓練損失會降低,模型生成效能會提高,捕捉全域性資訊的能力也會增強。
圖片
  • 論文標題:Elucidating the design space of language models for image generation
  • 論文連結:https://arxiv.org/pdf/2410.16257
  • 程式碼與模型:https://github.com/Pepper-lll/LMforImageGeneration

論文作者之一、雲天勵飛的齊憲標博士在接受機器之心採訪時表示:「我們不知道影像中的 Scaling Law 到底有多強,比如如果我們把影像生成模型也擴充套件到 Llama 7B 這個規模,是不是 GPT 那樣的自迴歸方法也具有非常大的潛力?」

抱著這個想法,他們進行了一些初步實驗,發現只訓練到一半的時候,自迴歸模型就已經在影像生成任務上表現出了很強的 Scaling Law。這讓他們對自迴歸方法在視覺領域的應用充滿信心。可見,至少在影像和影片生成等領域,Scaling Law 依然強勢,離撞牆還遠。

在另一篇論文中,齊憲標等人還發現,其實在應用於影像領域時,傳統的自迴歸方法也有改進空間。他們把改進後的方法稱為「BiGR 」,該方法建立在何愷明等人 MAR(masked autoregressive)工作的基礎之上,並在一些方面實現了改進,成為了首個將生成和判別任務統一在同一框架內的條件生成模型。這意味著,BiGR 不僅是一個好的影像生成器,同時還是一個強大的特徵提取器,二者是相互促進的關係。
圖片
  • 論文標題:BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
  • 論文連結:https://arxiv.org/pdf/2410.14672
  • 程式碼與模型:https://github.com/haoosz/BiGR

這些工作為研究界繼續探索自迴歸模型在視覺領域的 Scaling Law 提供了一些啟發。在這篇文章中,我們將對這些工作進行深入解讀。順帶一提,這兩項研究的程式碼和模型都已釋出。

自迴歸:Diffusion 之外的另一條道路

在當前的視覺生成領域,Diffusion 模型是毫無疑問的霸主。這種方法生成的影像質量較高,影片也越來越好。但另一方面,以 Transformer 為代表的自迴歸模型在文字領域的成功就在眼前,這不禁讓人去想象自迴歸模型在視覺領域的可能性。

其實,早在 2018 年,谷歌的一個團隊(其中大部分是 Transformer 論文作者)就已經探索過用自迴歸模型來生成影像(參見論文《Image Transformer》)。OpenAI 的初代 DALL・E 模型用的也是基於自迴歸的方法。但由於探索初期效果不佳,再加上 Diffusion 模型的強勢崛起和開源,基於自迴歸的方法逐漸淡出了大部分研究者的視野。
圖片
初代 DALL・E 生成效果

雲天勵飛的這些研究更像是一種「重新探索」,而且這次探索有很多可以借鑑的經驗教訓。正如齊憲標說的那樣:「在我們重新探索這條路的時候,這些經驗其實可以讓我們思考過去走這條路的時候可能哪個地方沒走好。」

關於這種「重新探索」的動機,齊憲標分享了幾個觀點。

第一個是關於 Scaling Law 的。正如前面所提到的,自迴歸方法的可擴充套件性已經在文字領域得到了驗證,最大的文字模型已經做到了萬億引數。而在影像領域,這種 Scaling Law 才剛剛顯現,未來還存在巨大的探索空間

第二個是關於多模態理解和生成的統一。在當前「scaling law 撞牆」的相關討論中,多模態其實是一個被寄予厚望的方向。但是,這個領域目前面臨一個嚴峻的挑戰,即多模態的理解和生成是分開進行的,這就造成理解模型的理解能力強而生成能力弱,生成模型則相反。統一這兩類任務,可以促進模型學到更通用的語義表徵,還能讓模型更好地探索資料中的潛在規律,從而增強模型在跨模態任務中的泛化性。而自迴歸方法的好處就在於它有一個 token 化的過程。無論什麼模態,只要經過了 token 化,生成和理解就可以很容易被統一在一個框架裡面。相比之下,基於 Diffusion 的方法就缺乏這種靈活性。

除此之外,自迴歸方法用於視覺任務還有很多好處,比如模型指令遵循能力更強,之前在文字模型領域積累的經驗、資源可以複用等等。這些原因驅使齊憲標和他的同事跳出 Diffusion 這條「主路」,走回了自迴歸這條已經相對冷門的路線。

在影像上 Scaling 有效以及生成和判別的統一

要理解 BiGR 和 ELM 的意義,我們得從離散化的影像和文字的 token 分佈談起。

齊憲標表示:「我們得把一個影像塊表示成一個單詞。如果只是單純的硬編碼,我們是做不到的,因為它的空間太大了。所以,我們首先就是想辦法來表示影像。這也就是所謂的 token 化。」
圖片
影像的 token 化通常需要一個編碼器 ENC、一個量化演算法 QUANT 和一個解碼器 DEC。目前,主流的影像 token 化方案有兩種:VQGAN 和 BAE;它們的主要區別是離散化隱向量的方式 。經過 token 化處理之後,影像也就變成了類似文字的 token 序列。

如此一來,理論上看,自迴歸(AR)模型和掩碼式語言模型(MLM)等用於建模文字的方法也就可以用於處理影像了。即便如此,經過離散和 token 化處理的影像序列與文字序列之間依然存在固有的差異。

下表給出了 ImageNet、OpenWebText 和 Shakespeare(後兩個是文字資料集)的 token 分佈的 KL 距離。
圖片
基於此,可以得到兩點觀察:

  1. 影像資料缺乏語言資料常有的那種內在結構和序列順序。這種影像 token 分佈的隨機性表明影像生成並不依賴嚴格的序列模式。
  2. 接近均勻的 token 分佈表明生成任務對錯誤的容忍度更高。由於所有 token 的機率幾乎相等,因此該模型可以容忍不太精確的 token 預測,同時還不會顯著影響輸出的質量。

基於這些觀察和進一步的實驗,雲天勵飛得到了一個結論:在影像生成方面,自迴歸(AR)方法並不比掩碼式語言模型(MLM)差,甚至可能還更好一點。雖然在語言領域,AR 優於 MLM 已經得到了許多研究成果的驗證(實際上當今的大多數 LLM 都是 AR 正規化),但在影像領域,這算是一個有些讓人意外的結果,畢竟掩碼機制似乎和影像任務有著天然的親和力。

在此基礎上,雲天勵飛團隊更進一步,初步發現了 AR 模型在影像生成任務上的 Scaling Law。

越大越強,AR 或在影像生成上再次成功

Scaling Law 的概念其實並不複雜,簡單總結起來就是模型越大越好,資料越多越好,算力越強越好。研究 Scaling Law 之所以重要,是因為這能為後續的研究探索指引方向。

在此之前,雖然已經有不少研究團隊嘗試過使用 Transformer 來生成影像,但還少有人嚴肅地探索過自迴歸 Transformer 在影像生成任務上的 Scaling Law。
圖片
自迴歸模型的 Scaling Law,其中 2B 模型由於時間限制並未完成 200 萬次迭代,但其趨勢依然很明顯

雲天勵飛的這項研究無疑是一支強心劑。具體來說,他們發現,隨著模型規模增大,AR 模型在影像生成任務上的訓練損失越低、生成效能越好、也能更好地捕獲影像中的全域性資訊。他們基於這些觀察構建了一個可生成影像的闡述式語言模型(ELM/elucidate language model),並在 ImageNet 256×256 基準上實現了 SOTA。
圖片
ELM-2B 生成的一些不同類別的影像

至於注意力模式,不同大小的模型的差別倒是不大:L 大小的模型主要關注區域性資訊,難以捕獲長程資訊。相較之下,更大的 XL 和 XXL 模型的某些層表現出了更長程的注意力,這說明它們也能學習全域性特徵。

為了進一步確認 AR 模型確實能理解影像任務,該團隊對不同 AR 模型的注意力圖(attention map)進行了視覺化,結果發現其注意力機制確實會關注影像的某些區域性區域,這說明自迴歸 Transformer 模型確實可以有效學習區域性模式對於影像生成的重要性。這一結果又進一步凸顯了自迴歸 Transformer 在不同領域的強大效能。
圖片
AR 模型的注意力圖,可以明顯看到其中對區域性模式的關注

掩碼式 AR:判別與生成任務的創新性統一

雲天勵飛在另一項研究中更深度地探索了 AR 模型在影像領域的可能性。這一次,AR 模型不僅被用來執行影像生成任務,還在影像判別任務上大展拳腳。
圖片
BiGR 框架的簡化示意圖

為此,他們構建了一個名為 BiGR 的新框架。該框架包含 3 個主要元件:

  1. 一個二元 token 化器,其作用是將畫素影像轉換成二元隱碼構成的序列;
  2. 一個僅解碼器 Transformer,並配備了完整的雙向注意力;
  3. 一個二元轉碼器(binary transcoder),作用是將連續特徵轉換成伯努利分佈的二元編碼。

不僅如此,BiGR 的訓練完全是重建 token 的生成過程,無需依賴任何判別損失。那 BiGR 是如何將影像的生成與判別統一在一起的呢?其關鍵在於掩碼機制與自迴歸模型的深度融合!

具體來說,他們使用的骨幹網路是基於 Transformer 的語言模型 Llama。由於影像和文字 token 的不同性質,他們沒有使用語言模型常用的因果注意力,而是使用了雙向注意力。模型的預測目標也不再是下一 token,而是被遮掩的 token。

在輸入空間,他們的做法也不再是查詢有某個 token 索引的嵌入向量,而是使用一個簡單的線性層來將二元編碼投射到嵌入空間。

在訓練過程中,會使用一個可學習的掩碼 token 遮蔽掉一部分影像 token。然後僅計算被遮蔽位置的損失,其中模型的預測目標是被遮掩的 token 的值。

之後,再使用二元轉碼器,透過一個伯努利擴散過程,將模型的輸出轉換成二元編碼。而在訓練時,語言模型和擴散網路是聯合最佳化的。

訓練完成後,模型本身就會具備強大的視覺表徵能力:對於輸入的影像,可以不帶任何掩碼地提供給模型,並附加一個無條件 token。然後,在連續值的特徵上執行平均池化,推斷給定影像的全域性表徵。

他們得到了一個有趣的觀察:最具判別性的表徵還不是來自最後一層,而是 Transformer 模組內的中間層!因此,他們便將這些中間特徵用作了最終的影像表徵。

對於影像生成任務,他們設計了一種取樣策略,使模型可以根據完全掩蔽的序列迭代地預測 token。不同於訓練階段(每一步的掩碼位置都是隨機選取的),在取樣階段,會按照一個預定義的標準按順序去除 token 的掩碼。

最終得到的模型可說是影像生成能力與判別能力俱佳,算是首個做到這一點的條件生成模型,並且同時還具備統一、高效、靈活、可擴充套件四大優勢。
圖片
從上表的結果中我們可以得出以下結論:

  • 透過比較 LlamaGen 和 S0,可知相比於使用 VQGAN,使用二元自動編碼器可以帶來更好的生成效能,但判別效能會下降一些。
  • 對於生成任務,AR 建模更適合分類損失,而掩碼建模更適合二元損失。
  • 對於判別任務,不管哪種損失,掩碼建模都大幅優於 AR 建模,而二元損失能進一步提升效能。
  • 與 AR 建模相比,掩碼建模由於取樣迭代次數較少,因此推理速度明顯更快,而二元目標的擴散過程需要更多時間。

這種生成與判別的統一能帶來什麼好處呢?齊憲標舉了兩個例子,如果我們想讓模型生成一張「飛翔的熊貓」圖,那麼這種自迴歸 Transformer 方法可以直接完成從語言理解到影像生成的全過程,而無需呼叫 Stable Diffusion 等外部介面。另外,它也能幫助我們理解並進一步加工影像,比如可以在多張圖片中找到我們想要的文字資訊並將其抹除。
圖片
BiGR 的一些生成結果

而透過實驗不同大小的模型,我們同樣看見了 Scaling Law 存在的蹤跡。
圖片
雖然雲天勵飛的論文中沒有明說,但 Transformer 在這些不同視覺任務的成功或許意味著,在眾說紛紜、似乎即將到來的 AGI 中,自迴歸 Transformer 或許至少有一席之地。

當然,自迴歸正規化在影像領域的成功也並非對 Diffusion 的否定,正如齊憲標說的那樣:「基於自迴歸的方法的一個特別大的特點是它的指令服從能力非常強,而基於 Diffusion 的方法的生成質量可能更高,細節會更豐富一些,但是它對於指令的控制能力有的時候會偏弱一些。」

另外,也應當指出,基於時間和成本的考量,這兩項研究更側重於對前沿技術和可能性的探索,想要開發基於 Transformer 的影像生成應用,還有待進一步的工程開發。而相關的 Scaling Law 也有待進一步的探索完善,比如,齊憲標指出,基於自迴歸方法和基於 Diffusion 方法的 Scaling Law 之間的差異就是一個非常有價值的研究課題。

「我更想知道 transformer 為什麼會 work」

將自迴歸模型應用於視覺生成並不是一條擁擠的賽道,因為眾所周知,想要跑通這條路線需要克服很多難點,比如生成速度慢、長程依賴難建模、高解析度擴充套件性差、生成質量受限等。但出於對 Scaling Law 探索的渴望,雲天勵飛的研究團隊依然選擇走出了這一步。這可能也是非常有前瞻性的一步。

這種前瞻性一方面與公司的人才密度(研發人員佔公司總人數比例高達 64.08%)密不可分,另一方面也在於公司給予人才的探索空間和算力支援(千億引數模型訓練能力)。齊憲標提到,這幾點其實也是他當初選擇雲天勵飛的關鍵原因。

此外,齊憲標還談到了自己頗為敬佩的雲天勵飛首席科學家、曾在微軟工作 17 年的演算法大牛肖嶸,稱肖嶸是一個對公司整體戰略把握非常清晰,同時又喜歡追問技術細節的人,比如他會讓大家把學習曲線拉出來,看看 loss 為什麼會飛掉,學習率設定對不對,資料有沒有清洗乾淨。

在這樣的團隊氛圍中,雲天勵飛近年來在多個方向取得了一些研究成果,其中包括多項對大模型加速的工作這些工作探索了大模型端側加速的方法,能夠大大提升大模型端側部署推理速度。考慮到雲天勵飛本身就有自有晶片,所以可為大模型的端側落地提供「軟硬一體的解決方案」。同時,雲天勵飛科研團隊還有多項研究成果投稿到 ICLR 2025 會議。其中有兩項是關於 Transformer 基礎理論的研究。一項探索了大模型訓練崩潰的根本原因,他們歸結於 圖片 的譜能量集中。另外一項則是設計了高效且穩定的 Transformer 模組。

「谷歌在訓練 PaLM 模型的時候,訓練的 loss 飛掉了 20 多次。Meta 訓練 Llama 3 的時候因為各種問題崩潰了四百多次。這其中很多問題可能都跟我們對 Transformer 的底層理解有關。也就是說,我們對於 Transformer 的應用已經做了很多,但對 Transformer 理論的理解相對來說還不夠透徹。我更想知道 Transformer 為什麼會 work,為什麼會出現問題。」齊憲標在談及這個方向的研究動機時說道。

結語

這幾天,關於 Scaling Law 是否撞牆的討論還在繼續,齊憲標顯然並不認可 Scaling Law 已經撞牆的說法 —— 不管是影像還是文字,Scaling 都還能帶來明顯的提升。不過,他也指出,對於 Scaling Law 的探索註定是一項長期工作,需要從多個方向找突破口,雲天勵飛也將持續探索。

據瞭解,今年雲天勵飛一直在強調「邊緣 AI」戰略。為此,他們選擇了從軟硬體兩個方向同時前進,即 AI 晶片和大模型。

在此基礎上,他們進入了「演算法晶片化」這一賽道。雲天勵飛表示,他們已經打造出了一些面向消費者、企業和城市的大模型相關產品和解決方案。據瞭解,今年底雲天勵飛還會推出兩款基於大模型打造的智慧硬體產品。

2024 年被許多人稱為「人工智慧應用的真正元年」。AI 開始走出開發者和愛好者的圈子,向普羅大眾更廣泛地滲透。透過在底層技術創新和應用開發兩方面持續發力,雲天勵飛能否在已然捲成紅海的 AI 行業博取一塊蛋糕?還有待進一步觀察。不過,考慮雲天勵飛在 AI 的軟體和硬體兩方面都已經有了相當厚實的技術沉澱,做到這一點應該並不難。

相關文章