2024 年的 AI 影像生成技術,又提升到了一個新高度。技術的飛速迭代,讓這一領域的商業化落地進入加速階段。前有 Midjourney v6 史詩級更新,後有開源巨頭 Stable Diffusion 3 獨領風騷,而 DALL・E 3 背靠 ChatGPT 這棵「大樹」,也收穫了眾多使用者的關注。近日,國產大模型「頂流」—— 位元組跳動豆包大模型,迎來一場集中放送:在 2024 火山引擎 AI 創新巡展成都站活動上,豆包大模型團隊公佈了豆包大模型的最新進展,以及文生圖模型、語音模型等垂直模型的新升級。與此同時,豆包大模型家族的最新成員 ——「豆包・圖生圖模型」正式面世,一口氣上新了 50 多項玩法。作為國產大模型中的實力之作,豆包大模型在今年 5 月透過火山引擎正式對外提供服務。儘管入場時間不是最早,但今天的豆包大模型已經是國內使用量最大、應用場景最豐富的大模型之一。這場活動中,火山引擎還透露了一個數字:截至 2024 年 7 月,豆包大模型的日均 tokens 使用量已經超過 5000 億。與此同時,豆包大模型的技術實力在短時間內也經歷了多次迭代。在多個公開評測集以及專業的第三方評測中,豆包通用模型 pro 均表現出眾,是得分最高的國產大模型。至於豆包大模型的「功力」究竟練到了哪一層?我們不妨體驗一把再下結論。我們就從剛剛更新的影像生成方面來考驗一下豆包大模型。對 AIGC 應用接觸比較多的使用者可能都有一個感受:AI 影像生成類產品越來越卷,彼此之間也越來越難拉開差距。這種直觀感受的變化,幾乎能完全對應上底層技術的演進節點。與一些早期 GAN 模型的生成水準相比,如今的影像生成質量已經讓大部分人覺得「真假難辨」。在這個過程中,學界和業界對影像生成質量的評估維度也發生了巨大變化:像 FID Score 這樣的指標已經不足以全面反映模型能力,人類評估成為了評估影像生成質量的黃金標準。儘管經濟和時間成本更高,但這種方式可以提供更加細微且可解釋的感知反饋。以「文生圖」方向為例,現階段的目標可以總結為對綜合維度的全面提升,具體可拆分為影像美感、圖文一致性、內容創造、複雜度適應性四個維度。在這幾方面,豆包・文生圖都達到了業界較高水準。在使用者感受最強烈的「圖文匹配」維度上,豆包・文生圖模型不斷進化,比如很好地理解多數量主體、主客體關係、人物構造和空間構造等資訊:Prompt:古代日本鬼機甲、中國朋克、太空歌劇、科幻小說、古代未來主義、神秘、明亮、不對稱密集構圖、32k 超高畫質、電影光、氣氛光、電影、柔和的調色盤、超現實、自由度、自然體積光。而在「畫面效果美感」層面,豆包・文生圖模型非常善於從光影明暗、氛圍色彩和人物美感方面進行畫面質感提升:Prompt:OC 渲染,3D 設計,長髮小女孩,人臉朝著鏡頭,中心構圖,帽子上長滿鮮花,輪廓清晰,面部細節放大,帽子細節放大,畫質高畫質,超清畫質,深景深,背景是花海此外,作為國產 AI 精品之作,面對中國人物、物品、朝代、美食、藝術風格等元素,豆包・文生圖模型也展現出了更加深刻的理解力。Prompt:超寫實畫風,唐代,長安,元宵節夜市,唐代侍女,燈火輝煌,細節完美,特寫,熱鬧非凡,超高畫質,4K
Prompt:國風水墨繪畫,點彩、肌理磨砂、陳家泠、大面留白的構圖,高畫質16k故宮遠景,雪景、流暢建築結構,層次,白色主色,淡雅基於雙語大模型文字編碼器,豆包・文生圖模型對英文 Pormpt 的理解同樣精準:Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charmPrompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design, 3D不久之後,豆包・文生圖模型還將升級到 2.0 版本。豆包視覺團隊表示,新版本將比當前模型的生成效果有 40% 的提升,對比當前版本,圖文一致性和美感會有大幅提升。與文生圖略有不同,在影像美感和結構等因素之外,圖生圖更算是一種應用模型,質量評估更加關注「一致性」和「相似度」兩個維度。豆包・圖生圖模型的能力涵蓋「AI 寫真」、「影像風格化」、「擴圖 / 區域性重繪」三個主要方向,共提供了 50 餘種風格玩法。「AI 寫真」算是以圖生圖方向中使用頻率非常高的一種玩法,豆包・圖生圖模型的一大亮點是高度還原人物特徵,能夠精準捕捉輪廓、表情、姿態等多維特徵,輕鬆生成定製化寫真:豆包・圖生圖模型還能具備優秀的圖片擴充套件、區域性重繪和塗抹能力,在邏輯合理的前提下,還能充滿想象力。比如在下方的任務中,使用者想要實現自然的區域性消除,豆包・圖生圖模型生成結果也做到了平滑過渡:對於只想區域性進行重繪的需求,豆包・圖生圖模型能夠精準修改影像區域性內容,無縫融合原有畫面。比如將粉色外套改為藍色牛仔外套:面對下方的人物照背景擴圖任務,豆包・圖生圖模型給出的結果,實現了良好的景觀結構及光線保持:感受完這一波 Demo,我們好奇:是從什麼時候開始,豆包大模型在影像生成方面有了這麼深厚的實力?兩年前,Stable Diffusion 的橫空出世,宣告了 AIGC 時代的正式開啟。隨後,AI 社群形成了巨大的迭代效應,基於各個版本 Stable Diffusion 開源模型的 AI 影像生成工具被迅速創造出來,不斷重新整理生成質量和速度的上限。不到半年後,DiT 架構的提出,驗證了 Scaling Law 在影像生成領域同樣成立。越來越多的研究選擇用 Transformer 替代傳統的 U-Net,讓擴散模型繼承了其他領域的最佳實踐和訓練方法,增強了影像生成模型的可擴充套件性、魯棒性和效率,還提高了對文字提示的理解能力和影像生成質量,有效增加了定製化、生成內容可控性方面的優勢。早在豆包大模型誕生前的幾年,位元組跳動就開始關注影像生成相關技術,近兩年更是持續增加這方面的研發投入,保持著創新成果的高頻產出。這也是為什麼豆包大模型一經面世,就可以驚豔所有人。Scaling Law 被驗證帶來的另外一個啟示是,算力基礎提升、訓練資料增加、資料質量改善成為了影像生成模型能力提升的關鍵因素。在這些方面,位元組跳動自研的豆包大模型在影像生成能力進化上具備天然優勢。但 Stable Diffusion 模型的訓練和推理仍然是一個複雜且耗時的過程,比如,擴散模型在推理過程中天然存在的多步數迭代去噪特性會導致較高的計算成本。如何在提升生成質量的同時加快速度,成為了影像生成領域的關鍵問題。豆包視覺團隊提出了多項創新成果,從不同的維度嘗試解決這個難題,並將這些成果開放給了 AI 社群。一項代表性的成果是 Hyber-SD,這是一種新穎的擴散模型蒸餾框架,在壓縮去噪步數的同時可保持接近無損的效能,在 SDXL 和 SD1.5 兩種架構上都能在 1 到 8 步內生成中實現 SOTA 級別的影像生成。(https://huggingface.co/ByteDance/Hyper-SD)另外一項研究 SDXL- Lightning則透過一種名為「漸進式對抗蒸餾」(Progressive Adversarial Distillation)的創新技術,實現了生成質量和生成速度的雙重提升:僅需短短 2 步或 4 步,模型就能生成極高質量和解析度的影像,將計算和時間成本降低了十倍,而且能在實現更高解析度和更佳細節的同時保持良好的多樣性和圖文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)同時,豆包視覺團隊還提出了一個利用反饋學習全面增強擴散模型的統一框架 UniFL。透過整合感知、解耦和對抗性反饋學習,這個框架不僅在生成質量和推理加速方面表現優秀,還在 LoRA、ControlNet、AnimateDiff 等各類下游任務中展現出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)眾所周知,Stable Diffusion 的核心功能是從文字生成影像,而 ControlNet、Adapter 等技術的融合,能夠在保留部分影像資訊的同時新增一些額外控制條件,引導生成與給定參考影像「相似」的結果。這些技術的融合演變出了我們今天見到的各項「圖生圖」功能,並進一步消除了 AI 影像生成技術的商用門檻。在這方面,豆包視覺團隊同樣有深厚技術積累,僅今年就在國際計算機視覺頂會 CVPR 中發表了十多篇論文,提出了數十項相關專利。針對影像 Inpaint/Outpaint 問題,豆包視覺團隊提出了 ByteEdit。關鍵創新包括三點:首先,增大訓練資料量級,相容自然影像輸入、mask 輸入、無 prompt 輸入,讓模型「看到」更多泛化場景;其次,引入一致性獎勵模型,重點提升生成結果一致性,讓希望填充的區域和非填充區域更加的和諧;然後,引入漸進式的分階段對抗訓練策略,在不損失模型效能條件下實現速度的提升。(https://byte-edit.github.io)針對 ID 保持,豆包視覺團隊提出了 PuLID,透過引入一個新的訓練分支,在訓練中加入了對比對齊損失和更精確的 ID 損失,讓 ID 介面卡學習如何在注入的 ID 資訊的同時,減少對原模型行為的破壞,從而在保證較高 ID 相似度的同時,兼顧編輯能力、風格化能力以及畫面質量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)針對 IP 保持,豆包視覺團隊提出了一種「參考圖 IP - 文字」解耦控制的通用場景 IP 定製化生成方法 RealCustom,對於任意開放域物體或人物 IP 均可實現無需微調的實時定製化生成。(https://corleone-huang.github.io/realcustom/)短短兩年內,AI 在影像生成上的持續進步,打破了長期存在的專業門檻,讓任何人都可以創造出高質量的視覺作品,帶來了一場前所未有的革命。豆包大模型的影像生成能力,已經為位元組跳動旗下多個應用提供技術支援,包括抖音、剪映、醒圖、即夢、豆包、星繪。對於大眾來說,AIGC 已經實實在在地改變了生活。但從企業使用者的角度來說,這些最前沿的技術仍然存在一些應用壁壘,涉及資料、人才、算力等多方面因素。對於各行各業的使用者來說,即使有了強大的開源模型可供選擇,也需要解決計算資源、專業知識、模型微調等方面的挑戰。成本的全方位降低,才是推動大模型真正實現價值創造的關鍵因素。自發布以來,豆包大模型正在透過火山引擎源源不斷地向千行百業輸出技術能力,推動大模型技術實現更廣泛深入的行業落地。目前,包括豆包・文生圖模型和豆包・圖生圖模型在內,豆包大模型家族的成員數量已經達到了 10 個。這些針對應用場景細分的模型都會上線火山方舟,開放給火山引擎的眾多企業客戶合作共創。飛速增長的使用量,也在幫助豆包大模型持續打磨自身能力。自 2024 年 5 月 15 日豆包大模型釋出至今,短短兩個月內,平均每家企業客戶的日均 tokens 使用量已經增長了 22 倍。同時,火山引擎提供了更豐富的核心外掛、更強大的系統效能以及更優質的平臺體驗,企業可根據自身業務場景需求靈活選擇、快速落地。比如,依靠豆包・圖生圖模型,客戶利用幾張圖片即可訓練專屬的數字分身。在很多情況下,價格仍然是客戶的首要考慮因素。火山引擎正是率先將最強模型版本降價的行業先行者,以更強模型、更低價格滿足企業複雜業務場景需求,真正推動大模型落地。憑藉充沛 GPU 算力資源池,並透過潮汐、混部等方式,實現資源的高利用率和極致降低成本,即使是在大模型價格戰越來越激烈的未來,火山引擎所提供的大模型服務仍然保持著絕對吸引力。轟轟烈烈的百模大戰之後,海內外的大模型快速湧現。儘管有 OpenAI 等一系列強大的競爭對手,但豆包大模型還是殺出了自己的一條路。過去一段時間,人們喜歡談論國產大模型技術的追趕。從「追趕」到「媲美」,很多中國團隊只用了一年、半年時間,這其中也包括豆包大模型團隊。短時間內躋身影像生成這條賽道的上游,與豆包大模型團隊在研發和人才方面的投入密不可分。近幾年,越來越多頂尖大模型人才的加入,純粹極致的技術研究氛圍,大規模的研發資源投入,都是成就豆包這一國產大模型代表作的重要因素。特別是在應用場景優勢的加持下,當大模型被「用起來」的這天,人們看到了中國大模型走進千行百業時的充足「後勁」。可以期待的是,大模型這條賽道的競爭正在開啟新篇章,而在新的章節裡,國產大模型將有機會書寫更加濃墨重彩的一筆。