掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

機器之心發表於2022-10-28

據瞭解,ERNIE-ViLG 2.0 在文字生成影像公開權威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了當前該領域的世界最好效果,在語義可控性、影像清晰度、中國文化理解等方面均展現出了顯著優勢。

  • 論文連結:https://arxiv.org/pdf/2210.15257.pdf
  • 體驗連結:https://wenxin.baidu.com/ernie-vilg

文心 ERNIE-ViLG 2.0: 最強中文 AI 作畫大模型

AIGC (AI-Generated Content) 是繼 UGC、PGC 之後,利用 AI 技術自動生成內容的新型生產方式。AI 作畫作為 AIGC 重要方向之一,蘊含了極大的產業應用價值。相比於人類創作者,AI 作畫展現出了創作成本低、速度快且易於批次化生產的巨大優勢。

近一年來,該領域迅猛發展,國際科技巨頭和初創企業爭相湧入,國內也出現了眾多 AI 作畫產品,這些產品背後主要使用基於擴散生成演算法的 DALL-E 2 和 Stable Diffusion 等國外模型。目前,這類基礎模型在國內尚處空白,ERNIE-ViLG 2.0 是國內首個在該方向取得突破的工作。

當前 AI 作畫技術在影像細節紋理的流暢度、清晰度、語義的可控性等方面還存在諸多問題。基於此,百度提出了基於知識增強的混合降噪專家(Mixture-of-Denoising-Experts,MoDE)建模的跨模態大模型 ERNIE-ViLG 2.0,在訓練過程中,透過引入視覺知識和語言知識,提升模型跨模態語義理解能力與可控生成能力;在擴散降噪過程中,透過混合專家網路建模,增強模型建模能力,提升影像的生成質量。

我們先來欣賞下 ERNIE-ViLG 2.0 根據文字描述生成影像的一些示例:

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 創作的影像示例:令人震撼的科幻插圖傑作,神秘宇宙星辰背景中出現一隻巨大的星球, 大場景,無比詳細,明暗對比,32k

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 創作的影像示例:鳳凰周身火焰,多彩的祥雲,明月,cg 感

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 創作的影像示例:用沙塵暴製作的令人敬畏的龍,概念藝術,二次元

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 創作的影像示例:srudio ghibli 風格,一個巨大的圓月、超現實的超自然村莊,抽象的生物形態建築、白色,金色


ERNIE-ViLG 2.0 可應用於工業設計、動漫設計、遊戲製作、攝影藝術等場景,激發設計者創作靈感,提升內容生產的效率。透過簡單的描述,模型便可以在短短几十秒內生成設計圖,極大地提升了設計效率、降低商業出圖的門檻。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 助力視覺內容 AI 大生產

文心 ERNIE-ViLG 2.0 技術揭秘

ERNIE-ViLG 2.0 透過視覺、語言等多源知識指引擴散模型學習,強化文圖生成擴散模型對於語義的精確理解,以提升生成影像的可控性和語義一致性。同時,ERNIE-ViLG 2.0 首次引入基於時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的「降噪專家」網路,從而實現更加細緻的降噪任務建模,進而提升生成影像的質量。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 架構圖

基於語言和影像知識的知識增強演算法。為提升生成影像的語義一致性和可控性,百度研究者提出將知識增強演算法融入擴散模型學習,在擴散模型學習過程中,引入語言、視覺等多源知識指引模型更加關注文字和影像中的核心語義元素,同時針對訓練資料噪聲帶來的訓練圖文樣本語義偏差問題提出了文字語義補全的方法,對圖文的語義一致性進行針對性學習,進而實現精準的細粒度語義控制。

混合降噪專家網路。針對模型建模能力不足,導致影像質量不夠好的問題,百度研究者發現,擴散模型的降噪過程中不同階段對降噪網路的能力要求不同,初始階段模型需要從純隨機噪聲中生成影像輪廓,結尾階段對模型的要求變為對影像細節補全,傳統方法使用同一網路建模整個降噪過程,模型需要同時滿足不同階段的建模需求。為此,百度研究者提出了針對不同階段選擇不同網路(降噪專家)進行建模的框架,有效地解決了不同階段對模型能力要求不一致的問題,減少降噪任務的互相干擾,提升影像生成的質量。由於每個生成階段只選取一個專家進行生成,實現了在不增加模型預測計算量的情況下對模型建模能力的擴充。

文心 ERNIE-ViLG 2.0 重新整理 MS-COCO 評測集合最好效果

百度研究者在業內公開文字生成影像權威集合 MS-COCO 上評測了模型效果。相較於業內的其他工作,如 DALL-E 2、Imagen、Parti 等模型,ERNIE-ViLG 2.0 取得了當前最好效果,重新整理了該任務的基準( FID 指標代表了模型生成影像的逼真程度,數值越低代表模型越好)。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 在 MS-COCO 上的效果

除了客觀自動評估指標,百度研究者還採用了人工評估方式,從影像保真度和圖文相關性兩個維度比較了 ERNIE-ViLG 2.0 與 DALL-E 2 以及 Stable Diffusion 的效果。評測人員採用多人盲評的方式,根據評價維度選擇表現更好的一方。在圖文相關性和影像保真度兩個維度上,ERNIE-ViLG 2.0 相對於 DALL-E 2 和 Stable Diffusion 都有較大優勢。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 人工評估結果

百度研究者還針對 ERNIE-ViLG 2.0 中的知識增強演算法和混合降噪專家網路做了進一步效果分析。

其中,基於知識增強演算法,ERNIE-ViLG 2.0 展現出對語義更精準的理解,生成結果更加可控,如以下示例中對顏色等物體屬性實現精準控制。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 與 DALL-E 2 在屬性控制方面對比示例

基於混合降噪專家網路,ERNIE-ViLG 2.0 在清晰度和紋理質量方面都取得了顯著的提升,對比業界其他模型生成了更加逼真的影像。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 清晰度對比示例

文心 ERNIE-ViLG 2.0 更懂中國文化、影像創作能力更強

百度研究者構建了近 2 億高質量中文圖文資料對,透過基於知識增強的混合降噪專家建模,ERNIE-ViLG 2.0 具備了強大的中文語義理解能力。下面是 ERNIE-ViLG 2.0 結合了多種不同的風格重新繪製了中國文化相關的元素。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 在中國元素相關概念上創作的影像(仙鶴、京劇、青花瓷、建築、剪紙、鳳凰等中國元素)

在動漫創作方面,ERNIE-ViLG 2.0 也有顯著的優勢,與當下主流的 AI 繪畫模型相比,展現出更加驚豔的效果,能夠創作精美的動漫人物。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 創作動漫影像

生成創意影像是 AI 作畫的重要應用之一,它能夠幫助使用者激發想象力、帶來創作靈感。ERNIE-ViLG 2.0 能夠根據文字描述,精準地生成現實世界沒有的具有創造性的影像。

 掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

ERNIE-ViLG 2.0 生成的創意影像

文心 ERNIE-ViLG 2.0 開放服務

值得注意的是,早在今年 8 月,ERNIE-ViLG 2.0 模型透過 API 服務方式開放公測,一經上線,便受到了國內外廣大開發者和愛好者廣泛關注。其中,討論度最高的是 ERNIE-ViLG 2.0 在中國元素和二次元相關的創作中,效果遠超其他 AI 作畫模型。有網友評價: 「最先進的 AI 動畫生成技術在中國」。

除此之外,ERNIE-ViLG 2.0 展現出來的影像質量、美感度也獲得了國外網友比較高的評價。

掀起一股中國風,最強中文AI作畫大模型文心ERNIE-ViLG 2.0來了

開發者和科技愛好者可以透過 ERNIE-ViLG 2.0 的 API 呼叫入口直接體驗該模型的技術效果,並靈活方便地整合到產品中。同時,基於 ERNIE-ViLG 2.0 大模型,百度也推出了 AI 作畫產品—— AI 藝術與創意輔助平臺:文心一格(yige.baidu.com),以滿足更廣泛人群在 AI 作畫方面的需求。

結語

生成式 AI 技術是最近的熱門話題,伴隨著大量應用的落地,AI 生成文字、圖片、影片等內容也漸漸走入了人們的日常。ERNIE-ViLG 2.0 等 AI 作畫大模型的推出,將進一步加速 AI 輔助視覺內容創作與生產時代的來臨。

作為百度文心大模型「家族」重要一員,ERNIE-ViLG 2.0 也代表著百度在 AIGC 領域邁出堅實步伐,從技術自主創新和加速產業應用方面持續推動中國 AI 發展。

相關文章