統一transformer與diffusion!Meta融合新方法劍指下一代多模態王者

机器之心發表於2024-08-26
本文引入了 Transfusion,這是一種可以在離散和連續資料上訓練多模態模型的方法。

一般來說,多模態生成模型需要能夠感知、處理和生成離散元素(如文字或程式碼)和連續元素(如影像、音訊和影片資料)。

在離散模態領域,以預測下一個詞為目標的語言模型佔據主導地位,而在生成連續模態方面,擴散模型及其泛化形式則是當前最先進技術。

研究者一直試圖將語言模型與擴散模型結合,一種方法是直接擴充套件語言模型,使其能夠利用擴散模型作為一個工具,或者將一個預訓練的擴散模型嫁接到語言模型上。另一種替代方案是對連續模態進行量化處理,然後在離散的 token 上訓練一個標準的語言模型,這種方法雖然簡化了模型架構,但也會造成資訊的丟失。

在這項工作中,來自 Meta 、 Waymo 等機構的研究者展示了透過訓練單個模型來預測離散文字 token 和擴散連續影像,從而實現兩種模態的完全整合,且不會丟失任何資訊

具體而言,本文引入了一個訓練模型的新方法 Transfusion,能夠無縫地生成離散和連續的模態。Transfusion 將語言模型損失函式與擴散相結合,在混合模態序列上訓練單個 transformer。

該研究還在文字和影像資料混合基礎上從頭開始預訓練多個 Transfusion 模型,最多可達到 7B 引數量,並針對各種單模態和跨模態基準建立擴充套件定律。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.11039
  • 論文標題:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

實驗表明,Transfusion 的擴充套件能力顯著優於將影像量化並在離散影像 token 上訓練語言模型的方法。透過引入特定於模態的編碼和解碼層,該研究證明可以進一步提高 Transfusion 模型的效能,並且甚至可以將每張影像壓縮到僅 16 個 patch。

最後將 Transfusion 方法擴充套件到 70 億引數和 2 萬億多模態 token,能夠生成與相似規模的擴散模型和語言模型相媲美的影像和文字,從而獲得兩個領域的優勢。這意味著 Transfusion 模型不僅能夠處理影像和文字的生成,還能在這兩種型別的生成上達到領先水平,有效地結合了影像和文字生成的優點。

在 GenEval 基準測試中,本文模型(7B)優於其他流行模型,例如 DALL-E 2 和 SDXL;與那些影像生成模型不同,它可以生成文字,在文字基準測試中達到與 Llama 1 相同的效能水平。因此,Transfusion 是一種很有前途的訓練真正多模態模型的方法。

Transfusion 介紹

Transfusion 是一種訓練單一統一模型來理解和生成離散和連續模態的方法。本文的主要創新是證明了可以在共享資料和引數上對不同模態使用單獨的損失(針對文字使用語言建模,針對影像使用擴散)。圖 1 說明了 Transfusion。

圖片

模型架構:模型中的大部分引數來自單個 transformer,用來處理每一個序列,不論其模態如何。Transformer 接收一系列高維向量作為輸入,併產生相似的向量作為輸出。研究者為了將資料轉換成這種空間,他們使用了具有非共享引數的輕量級特定於模態的元件。

對於文字,這些是嵌入矩陣,Transformer 將每個輸入的整數轉換成向量空間,每個輸出向量轉換成一個關於詞彙表的離散分佈。

對於影像,研究者嘗試了兩種方法來壓縮 k×k patch 向量的區域性視窗到一個單一 transformer 向量(以及反向操作):(1)一個簡單的線性層;(2)U-Net 的 up 和 down 塊。圖 3 展示了整體架構。

圖片

Transfusion 注意力:語言模型通常使用因果掩碼來有效地計算單個前向 - 後向傳播中整個序列的損失和梯度,而不會洩露未來 token 的資訊。雖然文字是自然連續的,但影像不是,並且通常使用不受限制的(雙向)注意力進行建模。

Transfusion 透過將因果注意力應用於序列中的每個元素,並將雙向注意力應用於每個單獨影像的元素中,從而結合了兩種注意力模式。這使得每個影像 patch 能夠關注同一影像中的每一個其他 patch,但只限於關注序列中之前出現的文字或其他影像的 patch 。這種設計允許影像內部的高效資訊交流,同時限制了與序列前面內容的互動,有助於模型在處理複雜資料序列時,更好地聚焦和整合相關資訊。圖 4 顯示了 Transfusion 注意力掩碼的示例。

圖片

訓練目標:為了訓練模型,研究者將語言建模目標圖片應用於文字 token 的預測;將擴散目標圖片應用於影像 patch 的預測。總損失可以表示為如下形式:

圖片

實驗結果

該研究透過實驗證明了 Transfusion 是一種可行、可擴充套件的統一多模態模型訓練方法。研究者在一系列標準的單模態和跨模態基準上評估模型效能,如表 1 所示。

圖片

圖 5 直觀顯示了擴充套件趨勢。在每個基準測試中,Transfusion 始終表現出比 Chameleon 更好的擴充套件規律。雖然線條接近平行,但 Transfusion 的優勢更明顯。

圖片

圖片

該研究在 2T token 的資料集上訓練了一個 7B 引數模型,生成的影像如下所示:

圖片

表 9 顯示,Transfusion 實現了與 DeepFloyd 等高效能影像生成模型類似的效能,同時超越了之前釋出的模型,包括 SDXL。

圖片

影像編輯。經過微調的 Transfusion 模型可以按照指示執行影像編輯,比如將紙杯蛋糕從盤子中移除。

圖片

相關文章