走進一款新的文生圖模型 - Nvidia eDiff-I

編者按：AIGC(AI生成內容)目前正處於爆發前夜。在前幾期的IDP Inspirtation，我們曾經介紹過大語言模型GPT-3，影像編輯模型Imagic和Runway Erase and Replace。
本期，讓我們跟隨Victor Dey一起走進Nvidia的文生圖模型eDiff-I，並一起探討生成式AI的現狀挑戰和未來前景。
以下是譯文，Enjoy!

作者 | Victor Dey, VentureBeat

編譯 | 嶽揚

人工智慧（AI）文轉圖生成器領域是當下科技公司的新戰場。現在很多人工智慧公司都想要開發一個生成模型，並能夠透過相對簡單的文字提示生成精緻逼真的影像。在OpenAI的DALL-E 2[1]、谷歌的Imagen[2]和Meta的Make-a-Scene以其影像合成能力而聞名於天下之後，Nvidia以其名為eDiff-I[3]的文轉圖模型加入了這場競賽。

與其他透過迭代去噪進行影像合成的生成式文轉圖模型不同，Nvidia的eDiff-I使用一個專門對生成過程的不同區間進行去噪的強大去噪器集合。

Nvidia獨特的影像合成演算法

eDiff-I的開發者將該模型描述為 “新一代生成性人工智慧內容創作工具，能夠提供前所未有的文轉圖功能”。

在最近發表的一篇論文中[4]，作者說，目前的影像合成演算法在很大程度上依賴文字提示來建立與文字完全對標的資訊，而文字調節幾乎完全被忽略，將影像合成任務轉移成產生高度逼真的圖片。這導致人們意識到比起在整個生成過程中共享模型引數，可能有更好的方法來表示生成過程的這些模型。

“因此，與當前主流的做法相比，我們更建議訓練一個專門用於不同合成階段的文轉圖擴散模型集合。”Nvidia研究團隊在他們的論文中如此說。“為了保持模型訓練的效率，我們最開始訓練一個單一的模型，然後將其逐步拆分成專門的模型，為迭代生成過程的特定階段進行更進一步的訓練。”

eDiff-I的影像合成管道是由三個擴散模型組成——一個低解析度擴散模型，可以合成64 x 64解析度的樣本，以及兩個高解析度擴散模型，可以分別將影像逐步上取樣到256 x 256和1024 x 1024解析度。

這些模型首先透過計算其T5 XXL嵌入和文字嵌入來處理輸入的文字。eDiff-I的模型架構還利用了從參考影像計算出來的CLIP影像編碼。這些影像嵌入作為風格向量送入級聯擴散模型，逐步生成解析度為1024 x 1024的影像。

這些獨特的步驟使eDiff-I對其生成的內容有更強的控制。除了將文字生成影像外，eDiff-I模型還有兩個功能——風格轉移，允許你使用參考影像的風格來控制生成的圖案的風格，以及 “用文字繪畫”，使用者可以透過在虛擬畫布上繪製分割圖來建立影像，這個功能對於使用者建立特定場景的影像來說非常方便。

圖片來源：Nvidia AI

提出一種新的去噪過程

擴散模型的合成通常是透過一系列迭代去噪過程進行的，這些流程透過隨機噪音逐漸生成影像，在整個去噪過程中使用同一個去噪器神經網路。eDiff-I模型採用了另一種獨特的去噪方法，該模型在生成過程的不同時期內訓練專門用於去噪的去噪器集合。Nvidia將這種新的去噪網路稱為 “專家級去噪器”，並稱這一過程極大地提高了影像生成的質量。

eDiff-I使用的去噪架構。圖片來源：Nvidia AI

Deepgram[5]的執行長Scott Stephenson說，eDiff-I提出的新方法可以被運用到DALL-E或Stable Diffusion的新版本中，可使合成影像在質量和控制能力方面取得重大進步。

Stephenson告訴VentureBeat：“這肯定會增加訓練模型的複雜性，但在生產使用過程中並沒有明顯增加計算的複雜性，能夠分割和定義所產生的影像的每個組成部分應該是什麼樣子，可以加速影像創作過程。它能讓人和機器更加緊密地合作。”

比同時期的其他AI文轉圖生成器好？

其他同時期產品如DALL-E 2和Imagen只使用單一的編碼器，如CLIP或T5，而eDiff-I的架構在同一模型中使用兩個編碼器。這樣的架構使eDiff-I能夠從相同的文字輸入中產生大量不同的視覺效果。

CLIP為建立的影像提供了風格化的效果，然而，輸出的影像經常遺漏文字資訊。而使用T5文字嵌入建立的影像可以根據文字資訊產生更好的內容。透過結合它們，eDiff-I產生了整合這兩種優點的影像。

相同的文字輸入產生的變化。圖片來源：Nvidia AI

開發團隊還發現，文字資訊的描述性越強，T5的表現就越比CLIP好，而且將兩者結合起來會產生更好的合成輸出。該模型還在標準資料集（如MS-COCO）上進行了模型評估，表明CLIP+T5的trade-off曲線明顯優於單獨的任何一種。

Nvidia的研究表明，根據Frechet Inception Distance（FID）——這是一種評估人工智慧生成的影像質量的指標，eDiff-I的表現優於DALL-E 2、Make-a-Scene、GLIDE和Stable Diffusion等競爭對手。

在COCO 2014驗證資料集上同當下其他最先進的模型進行的Zero-shot FID得分比較。圖片來源：Nvidia AI

Nvidia的研究稱，在對簡單和詳細的文字說明生成的影像進行比較時，DALL-E 2和Stable Diffusion都未能根據文字說明準確合成影像。此外，該研究發現，其他生成模型要麼會產生錯誤的資訊，要麼忽略了一些屬性。同時，eDiff-I可以在大量樣本基礎上正確地從英文文字中建立特徵模型。

研究小組也從每種方法中產生了多張輸出影像，並挑出了最好的一張列入下圖中。

生成式AI的當前挑戰

當下文轉圖的擴散模型可能使藝術表達大眾化，為使用者提供了產生細緻和高質量影像的能力，而不需要專門技能。然而，它們也可以被用於進行照片處理，以達到惡意目的或創造欺騙性或有害的內容。

生成模型和AI影像編輯的最新研究進展對影像的真實度和其他方面有著較大的影響。Nvidia表示，可透過自動驗證影像真實性和檢測偽造的內容來應對此類挑戰。

目前大規模文轉圖生成模型的訓練資料集大多未經過濾，可能包含由模型捕獲並反映在生成資料中的偏差。因此，需要意識到基礎資料中的這種偏差，並透過積極收集更具代表性的資料或使用偏差校正方法來抵消偏差。

Stephenson說：“生成式人工智慧影像模型面臨著與其他人工智慧領域相同的倫理挑戰：訓練資料的出處和理解它如何被用於模型中，大的影像標註資料集可能包含受版權保護的材料，而且往往無法解釋受版權保護的材料是如何（或是否）被應用在最終生成出來的影像的。”

根據Stephenson的說法，模型訓練速度是生成式人工智慧模型面臨的另一個挑戰，特別是在其開發階段。

Stephenson告訴VentureBeat說：“如果一個模型在市場上最高階的GPU上生成一個影像需要3到60秒，那麼如果達到規模部署要麼需要大幅增加GPU的數量，要麼想辦法在在很少的時間內生成影像。如果需求增長10倍或100倍，現在是無法實現的。”

生成式AI的未來

reVolt[6]公司的創始人兼執行長Kyran McDonnell說，儘管現在的文轉圖模型已經做得特別好，但還是缺乏必要的架構來構建正確理解現實所需的先驗條件。

他說：“有了足夠的訓練資料和更好的模型，生成的影像將能夠近似於現實，但模型還是不會真正理解生成的影像。在這個根本問題得到解決之前，我們仍然會看到這些模型犯一些常識性錯誤。”

McDonnell認為，下一代文轉圖的架構，如eDiff-I，將解決目前的許多問題。

McDonnell還說：“仍然會出現構圖錯誤，但質量將類似於現在生成人臉的GANs，我們會在幾個應用領域看到生成式AI的更多應用。根據一個品牌的風格和‘氛圍’訓練出來的生成模型可以產生無限的創意，企業應用的空間很大，而生成性式AI還沒有迎來它的‘輝煌時刻’。”

END

封面首圖由白海AIGC引擎生成
其他插圖來自Nvidia AI

參考資料

[1] https://venturebeat.com/ai/to...

[2] https://venturebeat.com/ai/go...

[3] https://deepimagination.cc/eD...

[4] https://arxiv.org/pdf/2211.01...

[5] https://deepgram.com/

[6] https://www.revolt.energy/

IDP-Inspiration是IDP常設專欄。在這裡，我們會分享國內外資料科學家和演算法工程師在實戰中總結的寶貴經驗，為想要從事資料科學和AI開發生產相關工作的小夥伴提供借鑑！
AI相關技術投稿，請聯絡Alex@baihai.ai