DiT:Transformers 與擴散模型強強聯手

Zilliz發表於2023-01-16

出品人:Towhee 技術團隊 王翔宇、顧夢佳

擴散模型在影像生成領域有著難以撼動的地位,而其通常都選擇了卷積 U-Net作為主幹模型。那麼在其他領域大殺四方的 Transformers 在擴散模型中是否還有用武之地呢?基於這一想法,DiT(Diffusion Transformer) 利用 transformer 結構探索了一種新的擴散模型。它不僅繼承了 Transformer 模型類的優秀擴充套件特性,效能還優於先前使用 U-Net 的模型。研究表明,擴散模型可以成功地用 transformer 替換 U-Net 主幹。另外,它還證明了網路複雜性與樣本質量之間存在很強的相關性。透過簡單地擴充套件 DiT 並訓練具有高容量主幹的潛在擴散模型,DiT 模型可以在類條件 256 × 256 ImageNet 生成基準上實現 FID 2.27 的最新結果。

The Diffusion Transformer (DiT) architecture.

DiT 首先將空間表示輸入透過第一層網路,將每個 patch 線性嵌入到輸入中,以此將空間輸入轉換為一個數個 token 序列。然後,模型會將標準的基於 ViT 頻率的位置嵌入應用於所有輸入 token。接著,輸入 token 由一系列 transformer 塊處理。除了噪聲影像輸入之外,擴散模型有時還會處理額外的條件資訊,例如噪聲時間步長、類標籤、自然語言等。DiT 探索了四種transformer 塊變體,分別以不同方式處理條件輸入 。

相關資料:
程式碼地址:https://github.com/facebookre...
論文連結:https://arxiv.org/abs/2212.09748
更多資料:https://zhuanlan.zhihu.com/p/...

相關文章