AI出圖更快、更美、更懂你心意，高美感文生圖模型修煉了哪些技術秘籍？

机器之心發表於2024-08-12

原文網址 : https://www.jiqizhixin.com/articles/2024-08-12-6

隨著大模型的落地按下加速鍵，文生圖無疑是最火熱的應用方向之一。

自從 Stable Diffusion 誕生以來，海內外的文生圖大模型層出不窮，一時有「神仙打架」之感。短短几個月，「最強 AI 畫師」的稱號幾次易主。每一次技術迭代，都不斷重新整理著AI影像生成質量和速度的上限。

於是現在，我們輸入幾個文字就能得到任何想要的畫面。無論是專業級別的商業海報，還是超寫實畫風的寫真照片，AI 製圖的逼真程度已經讓我們歎為觀止。甚至 AI 贏下了 2023 年度的索尼世界攝影獎。在大獎公佈之前，這幅「照片」已經在倫敦薩默賽特宮進行展覽——如果作者不公開說明，可能沒有人會發現這張照片實際出自 AI 之手。

^{Eldagse和他的AI生成作品《電工》}

如何讓 AI 畫出來的圖片更具美感，這離不開 AI 技術人員持之以恆的付出。第六期的《AIGC體驗派》就邀請到了豆包文生圖技術專家李亮、NVIDIA 解決方案架構師趙一嘉，為我們深入剖析了文生圖模型出圖更美、更快、更懂使用者心意背後的技術鏈路。

直播開始，李亮首先詳細拆解了近期國產大模型「頂流」—— 位元組跳動豆包大模型在文生圖模型方面的技術升級。

李亮表示，豆包團隊想解決的問題主要包含三個方面：一是如何實現更強的圖文匹配來滿足使用者的想法設計；第二個是如何生成更具美感的影像來提供更極致的使用者體驗；第三個是如何更快速地出圖來滿足超大規模的服務呼叫。

在圖文匹配方面，豆包團隊從資料入手，對海量圖文資料做精細化篩選和過濾，最終入庫了千億量級的高質量影像。此外，團隊還專門訓練了一個多模態大語言模型進行 recapiton 任務。這個模型將更加全面、客觀地描述圖片中影像的物理關係。

有了高質量高細節的圖文對資料之後，想要更好地發揮出模型的實力，還需要提升文字理解模組的能力。團隊採用原生雙語大語言模型作為文字編碼器，顯著提升了模型理解中文的能力，因此，面對「唐代」、「元宵節」等國風元素，豆包・文生圖模型也展現出了更加深刻的理解力。

對於 Diffsuion 模型架構，豆包團隊也注入了獨門秘籍，他們 UNet 進行了有效地scaling，透過增加引數量，豆包・文生圖模型進一步地提升了影像文字對的理解和高保真的生成能力。

針對使用者直觀感受最明顯的美學風格，豆包團隊引入了專業的美學指導，也時刻關注使用者和大眾審美的偏好。與此同時，團隊也在資料和模型架構上下了一番功夫。很多時候，使用者得到的影像和 demo 展示的效果對比好比「買家秀」和「賣家秀」，實際上是給出的 prompt 對於模型來說不夠詳細和明確，而豆包·文生圖模型引入了一個「Rephraser」，在遵循使用者原始意圖的同時，為提示詞增加更多的細節描述，所有使用者也將因此體驗到更完美的生成效果。

為了讓模型出圖速度更快，每張圖消耗的成本更低，豆包團隊在模型的蒸餾方式上也給出了新的解題思路，一項代表性的成果是 Hyber-SD，這是一種新穎的擴散模型蒸餾框架，在壓縮去噪步數的同時可保持接近無損的效能。

接下來，英偉達解決方案架構師趙一嘉從底層技術出發，講解了文生圖最主流的基於Unet的SD和DIT兩種模型架構及其相應的特性，並介紹了英偉達的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何為部署模型提供支援，助力大模型更加高效地推理。

趙一嘉首先分享了 Stable Diffusion 背後模型的原理詳解，細緻地闡述了 Clip、VAE 和 Unet 等關鍵元件的工作原理。隨著 Sora 爆火，也帶火了背後的 DiT（擴散 Transformer）架構。趙一嘉進一步從模型結構、特性和算力消耗三方面，從模型結構、特性和資源消耗三個方面，對 SD 和 DiT 的優勢進行了全面的比較。

使用 Stable diffusion 生成影像時，往往會感覺提示詞內容在生成結果中都得到了呈現，但圖不是自己想要的，這是因為基於文字出圖的 Stable diffusion 並不擅長控制影像的細節，例如構圖、動作、面部特徵、空間關係等。因此，基於Stable diffusion 的工作原理，研究人員們設計了許多控制模組，彌補 Stable diffusion 的短板。趙一嘉補充了其中具有代表性的 IP-adapter 和 ControlNet。

想要加快吃算力的文生圖模型的推理速度，英偉達的技術支援發揮了關鍵作用。趙一嘉介紹了 Nvidia TensorRT 和 TensorRT-LLM 工具，這些工具透過高效能卷積、高效排程和分散式部署等技術，最佳化了圖文生成模型的推理過程。同時，英偉達的 Ada、Hopper 以及即將推出的 BlackWell 硬體架構，都已支援 FP8 訓練和推理，將為模型訓練帶來更加絲滑的體驗。

經歷了六場精彩的直播，由火山引擎、NVIDIA 聯手機器之心和 CMO CLUB 共同推出的《AIGC體驗派》迎來了圓滿收官。透過這六期節目，相信大家對 AIGC 如何從「有趣」變為「有用」有了更深的理解。我們也期待著《AIGC 體驗派》不止停留在節目的討論中，並更能在實際中加速營銷領域智慧化升級的程序。

《AIGC 體驗派》全六期回顧地址：https://vtizr.xetlk.com/s/7CjTy

文生圖大模型
2024-11-07
大模型
人工智慧文生圖技術介紹
2024-06-03
人工智慧
視野修煉-技術週刊第95期 | 終端裡展示圖片
2024-08-04
「更高更快更穩」，看阿里巴巴如何修煉容器服務「內外功」
2020-12-04
阿里
文生影片Sora模型釋出，是否引爆AI晶片熱潮
2024-02-29
Sora模型AI晶片
WidsMob AI Retoucher ai修圖工具
2022-05-24
AI
DALL-E 文生圖
2024-03-22
你還說這是AI？我們體驗了一波生成亞洲人最好看的文生圖大模型
2024-12-29
AI大模型
WidsMob AI Retoucher for mac ai修圖工具
2022-05-25
AIMac
拖拽P圖技術又升級了：StableDrag更穩、更準，南大、騰訊聯合打造
2024-03-18
實驗室裡的AI激情：騰訊優圖的升級修煉之路
2020-07-10
AI
視野修煉-技術週刊第63期
2023-11-26
視野修煉-技術週刊第62期
2023-11-19
視野修煉-技術週刊第61期
2023-11-12
視野修煉-技術週刊第56期
2023-10-06
視野修煉-技術週刊第59期
2023-10-29
視野修煉-技術週刊第64期
2023-12-03
走進一款新的文生圖模型 - Nvidia eDiff-I
2022-11-29
模型
Movavi Picverse for mac(AI智慧修圖)
2022-08-30
MacAI
圖解Linux的IO模型和相關技術
2021-09-09
圖解Linux模型
萬字長文看懂「美圖雲修」AI修圖解決方案
2021-08-11
AI圖解
視野修煉-技術週刊第80期 | Bundows
2024-04-14
golang 技術圖
2019-04-29
Golang
騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛
2024-06-21
大模型
Luminar Neo智慧AI修圖軟體
2022-07-29
AI
視野修煉-技術週刊第105期 | AI驅動全棧應用開發
2024-10-13
AI全棧
GPUStack v0.4：文生圖模型、語音模型、推理引擎版本管理、離線支援和部署本地模型
2024-12-09
GPU模型
視野修煉-技術週刊第92期 | 薅牛毛
2024-07-14
高精地圖技術專欄 | 基於空間連續性的異常3D點雲修復技術
2021-03-16
地圖3D
全圖化引擎(AI·OS)中的編譯技術
2018-11-30
AI編譯
Topaz Photo AI：用AI技術，提升圖片品質 mac/win版
2023-12-05
AIMac
高德地圖首席科學家任小楓QA答疑彙總丨視覺+地圖技術有哪些新玩法？
2020-04-29
地圖視覺
基於DiT，支援4K影像生成，華為諾亞0.6B文生圖模型PixArt-Σ來了
2024-03-11
模型
麒鳴:用提示詞讓AI更懂你的真實需求
2024-11-20
AI
為何AI更懂你：向量搜尋，瞭解一下！
2024-08-21
AI
科大訊飛釋出智慧辦公本Air 2，打造更懂你的辦公AI助手
2024-08-06
AI
視野修煉-技術週刊第76期 | Rolldown 開源
2024-03-10
你關注的熱門AI技術，都有哪些最新落地案例了
2018-11-05
AI

AI出圖更快、更美、更懂你心意，高美感文生圖模型修煉了哪些技術秘籍？

相關文章