AI出圖更快、更美、更懂你心意,高美感文生圖模型修煉了哪些技術秘籍?

机器之心發表於2024-08-12

圖片

隨著大模型的落地按下加速鍵,文生圖無疑是最火熱的應用方向之一。

自從 Stable Diffusion 誕生以來,海內外的文生圖大模型層出不窮,一時有「神仙打架」之感。短短几個月,「最強 AI 畫師」的稱號幾次易主。每一次技術迭代,都不斷重新整理著AI影像生成質量和速度的上限。

於是現在,我們輸入幾個文字就能得到任何想要的畫面。無論是專業級別的商業海報,還是超寫實畫風的寫真照片,AI 製圖的逼真程度已經讓我們歎為觀止。甚至 AI 贏下了 2023 年度的索尼世界攝影獎。在大獎公佈之前,這幅「照片」已經在倫敦薩默賽特宮進行展覽——如果作者不公開說明,可能沒有人會發現這張照片實際出自 AI 之手。

圖片

Eldagse和他的AI生成作品《電工》

如何讓 AI 畫出來的圖片更具美感,這離不開 AI 技術人員持之以恆的付出。第六期的《AIGC體驗派》就邀請到了豆包文生圖技術專家李亮、NVIDIA 解決方案架構師趙一嘉,為我們深入剖析了文生圖模型出圖更美、更快、更懂使用者心意背後的技術鏈路。

直播開始,李亮首先詳細拆解了近期國產大模型「頂流」—— 位元組跳動豆包大模型在文生圖模型方面的技術升級。

李亮表示,豆包團隊想解決的問題主要包含三個方面:一是如何實現更強的圖文匹配來滿足使用者的想法設計;第二個是如何生成更具美感的影像來提供更極致的使用者體驗;第三個是如何更快速地出圖來滿足超大規模的服務呼叫。

在圖文匹配方面,豆包團隊從資料入手,對海量圖文資料做精細化篩選和過濾,最終入庫了千億量級的高質量影像。此外,團隊還專門訓練了一個多模態大語言模型進行 recapiton 任務。這個模型將更加全面、客觀地描述圖片中影像的物理關係。

圖片

有了高質量高細節的圖文對資料之後,想要更好地發揮出模型的實力,還需要提升文字理解模組的能力。團隊採用原生雙語大語言模型作為文字編碼器,顯著提升了模型理解中文的能力,因此,面對「唐代」、「元宵節」等國風元素,豆包・文生圖模型也展現出了更加深刻的理解力。

圖片

對於 Diffsuion 模型架構,豆包團隊也注入了獨門秘籍,他們 UNet 進行了有效地scaling,透過增加引數量,豆包・文生圖模型進一步地提升了影像文字對的理解和高保真的生成能力。

圖片

針對使用者直觀感受最明顯的美學風格,豆包團隊引入了專業的美學指導,也時刻關注使用者和大眾審美的偏好。與此同時,團隊也在資料和模型架構上下了一番功夫。很多時候,使用者得到的影像和 demo 展示的效果對比好比「買家秀」和「賣家秀」,實際上是給出的 prompt 對於模型來說不夠詳細和明確,而豆包·文生圖模型引入了一個「Rephraser」,在遵循使用者原始意圖的同時,為提示詞增加更多的細節描述,所有使用者也將因此體驗到更完美的生成效果。

圖片

為了讓模型出圖速度更快,每張圖消耗的成本更低,豆包團隊在模型的蒸餾方式上也給出了新的解題思路,一項代表性的成果是 Hyber-SD,這是一種新穎的擴散模型蒸餾框架,在壓縮去噪步數的同時可保持接近無損的效能。

圖片

接下來,英偉達解決方案架構師趙一嘉從底層技術出發,講解了文生圖最主流的基於Unet的SD和DIT兩種模型架構及其相應的特性,並介紹了英偉達的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何為部署模型提供支援,助力大模型更加高效地推理。

趙一嘉首先分享了 Stable Diffusion 背後模型的原理詳解,細緻地闡述了 Clip、VAE 和 Unet 等關鍵元件的工作原理。隨著 Sora 爆火,也帶火了背後的 DiT(擴散 Transformer)架構。趙一嘉進一步從模型結構、特性和算力消耗三方面,從模型結構、特性和資源消耗三個方面,對 SD 和 DiT 的優勢進行了全面的比較。

圖片

使用 Stable diffusion 生成影像時,往往會感覺提示詞內容在生成結果中都得到了呈現,但圖不是自己想要的,這是因為基於文字出圖的 Stable diffusion 並不擅長控制影像的細節,例如構圖、動作、面部特徵、空間關係等。因此,基於Stable diffusion 的工作原理,研究人員們設計了許多控制模組,彌補 Stable diffusion 的短板。趙一嘉補充了其中具有代表性的 IP-adapter 和 ControlNet。圖片

想要加快吃算力的文生圖模型的推理速度,英偉達的技術支援發揮了關鍵作用。趙一嘉介紹了 Nvidia TensorRT 和 TensorRT-LLM 工具,這些工具透過高效能卷積、高效排程和分散式部署等技術,最佳化了圖文生成模型的推理過程。同時,英偉達的 Ada、Hopper 以及即將推出的 BlackWell 硬體架構,都已支援 FP8 訓練和推理,將為模型訓練帶來更加絲滑的體驗。

圖片

經歷了六場精彩的直播,由火山引擎、NVIDIA 聯手機器之心和 CMO CLUB 共同推出的《AIGC體驗派》迎來了圓滿收官。透過這六期節目,相信大家對 AIGC 如何從「有趣」變為「有用」有了更深的理解。我們也期待著《AIGC 體驗派》不止停留在節目的討論中,並更能在實際中加速營銷領域智慧化升級的程序。

《AIGC 體驗派》全六期回顧地址:https://vtizr.xetlk.com/s/7CjTy

相關文章