位元組首次公開影像生成基模技術細節!資料處理到RLHF全流程披露

机器之心發表於2025-03-12
就在今天,位元組豆包大模型團隊在 arxiv 上釋出了一篇技術報告,完整公開了文生圖模型技術細節,涵蓋資料處理、預訓練、RLHF 在內的後訓練等全流程模型構建方法,也詳細披露了此前大火的文字精準渲染能力如何煉成。

報告將豆包文生圖模型稱為 Seedream 2.0,並明確提到,該模型於去年 12 月初上線到豆包 APP 和即夢平臺。從模型能力看,Seedream 2.0 是原生的中英雙語影像生成基礎模型,擁有很強的美感和文字渲染效果,與目前即夢上的文生圖主力模型特性匹配。

換而言之,位元組此次披露的,就是線上直接服務於數億使用者的核心模型。

至於技術報告中有哪些主要看點,本文進行了總結。
圖片
  • 論文標題:Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

  • 論文地址:https://arxiv.org/pdf/2503.07703

  • 技術展示頁:https://team.doubao.com/tech/seedream

面向文生圖老大難問題
構建綜合實力更強的模型

眾所周知,基於 DiT 架構下影像生成的質量、細節豐富度、美感、結構性等問題仍是技術從業者面臨的老大難問題,阻礙技術更大規模落地,服務大眾。

各家廠商也紛紛在從細節處入手,最佳化文生圖效果。位元組走在國內大廠前列,旗下即夢平臺頗受 AIGC 愛好者歡迎,主要因其 AI 生圖兼顧真實度與美感,尤其在國風內容生成上獨具特色。
圖片
海辛、歸藏、AJ 等 AIGC 領域 KOL 也對即夢上模型文字生成與渲染、指令遵循、風格把控等方面表達過認可。
圖片
近期,即夢上還有不少「哪吒 2」主題的相關內容,所生成的圖片既貼合人物特徵,又有創意發揮之處。
圖片
根據豆包大模型團隊提供的評測結果可以看到,服務即夢的 Seedream2.0 模型,在面向英文提示詞上,生成內容的結構合理性、文字理解準確性對比 Ideogram 2.0 、Midjourney V6.1 、Flux 1.1 Pro 等模型展現出優勢,且各類關鍵維度無明顯短板。
圖片
注:面向英文提示詞,Seedream 2.0 在不同維度上的表現。本圖各維度資料以最佳指標為參照系,已進行歸一化調整。

Seedream 2.0 中文綜合能力同樣突出,尤其在中文文字渲染和國風美感方面。面向中文提示詞,其 78% 的生成與渲染文字可用率和 63% 的提示詞完美響應率,高於業界目前其他模型。

面向中文提示詞,其生成與渲染文字可用率達 78% ,完美響應率為 63% ,高於業界目前其他模型。
圖片
注:面向中文提示詞,Seedream 2.0 在不同維度上的表現。本圖各維度資料以最佳指標為參照系,已進行歸一化調整。

上述能力並非來自於單點技術突破,而是源自 Seedream 2.0 團隊針對資料處理、預訓練、後訓練階段融入了一系列最佳化方法和技術。

資料處理:構建深度融合知識的預處理框架

面對百億量級的中英多模態資料,Seedream 2.0 團隊構建了以 “知識融合” 為核心的預處理框架,從以下三個方面實現技術突破。
  • 四維資料架構,實現質量與知識的動態平衡

大規模資料構建,往往伴隨質量下滑,進而影響模型表現。為此,團隊創新設計了四維拓撲網路,突破單一模態限制。該架構包含四個資料層:
  1. 優質資料層:精選高解析度、知識密度強的資料(如科學圖解、藝術創作),奠定質量基礎;

  2. 分佈維持層:採用雙層級降取樣策略,從資料來源維度對頭部平臺等比降維,從語義維度透過 10 萬級細粒度聚類維持多樣性;

  3. 知識注入層:構建 3 萬 + 名詞和 2000 + 動詞分類體系,結合百億級跨模態檢索,為資料注入文化特徵;

  4. 定向增強層:建立 “缺陷發現 - 資料補充 - 效果驗證” 閉環,最佳化動作序列、反現實生成等場景。

這一架構有效平衡了資料質量與知識多樣性,為模型訓練提供堅實的資料支撐。
圖片
  • 智慧標註引擎:三級認知進化

傳統標註的 Caption 系統受單模態理解侷限,對影像內容描述不夠全面精準。團隊在其基礎上,實現了智慧標註引擎的三級認知進化。

首先,構建分層描述體系,透過短、長和特殊場景 Caption 結合,讓模型既能捕捉影像核心內容,又能提供豐富細節與藝術解釋。

其次,建立文化專有名詞對映庫,實現跨語言對齊,將中英文生成質量差異壓縮至 2% 以內,提升模型在多語言環境下表現。

最後,引入動態質檢機制,利用 LLM 預篩選,透過 Badcase 驅動 prompt 模板迭代,最佳化描述質量。
  • 工程化重構:百億資料的流水線革命

工程化方面,傳統 ETL 流程存在算力錯配與迭代遲滯痛點。

這不僅導致非核心任務佔用大量高算力資源,擠佔核心任務資源,也造成資料處理流程難以適應業務與資料變化,限制整體效能。

團隊從兩方面重構工程系統。

一方面透過異構排程,釋放高算力資源用於關鍵任務。另一方面,採用 “分片 - 校驗 - 裝載” 三級流水線並行處理方法,打包速度提升 8 倍。

這些改進大幅提高資料處理效率與質量,為大規模資料管理利用奠定基礎。

預訓練階段:聚焦雙語理解與文字渲染

在預訓練階段,團隊基於大量使用者調研與技術預判認為,多語言語義理解、雙語文字渲染和多解析度場景適配等模組的突破,對於影像生成技術發展極為關鍵,可大幅提升模型適用性與使用者體驗,滿足不同語言文化背景的使用者需求,並擴充應用場景。

因此,Seedream 2.0 採用了全新的預訓練架構設計,其整體框圖如下。
圖片
具體來看,Seedream 2.0 從三個方面實現了關鍵技術升級。
  • 原生雙語對齊方案,打破語言視覺次元壁

面向雙語文生圖場景,團隊提出基於 LLM 的雙語對齊方案。

具體來說,先透過大規模文字 - 影像對微調 Decoder-Only 架構的 LLM,使文字 Embedding 與視覺特徵形成空間對映對齊。

同時,針對中文書法、方言俚語、專業術語等場景構建專用資料集,加強模型對文化符號的深度理解與感知。

這種 “預訓練對齊 + 領域增強” 的雙軌策略,使模型能夠直接從大量中英文資料中習得 “地道” 的本土知識,進而,準確生成具有文化細微差別的中文或英文美學表達影像,打破不同語言與視覺的次元壁。
  • 讓模型既看懂文字,又關注字型字形

在過去,影像生成模型的文字渲染常面臨兩難困境:依賴 ByT5 等字形模型易導致長文字佈局混亂,而引入 OCR 影像特徵又需額外佈局規劃模組。

為此,團隊構建了雙模態編碼融合系統 ——LLM 負責解析 “文字要表達什麼”,ByT5 專注刻畫 “文字應該長什麼樣”。

此種方法下,字型、顏色、大小、位置等渲染屬性不再依賴預設模板,而是透過 LLM 直接描述文字特徵,進行端到端訓練。

如此一來,模型既能從訓練資料中學習文字渲染特徵,也可以基於編碼後的渲染特徵,高效學習渲染文字的字形特徵。
  • 三重升級 DiT 架構,讓影像生成縮放自如

多解析度生成是影像生成場景的常用需求,團隊在 SD3 的 MMDiT 架構基礎上,進行了兩重升級:

其一,在訓練穩定性方面。團隊引入 QK-Norm 抑制注意力矩陣的數值波動,結合全分片資料並行(FSDP)策略,使模型的訓練收斂速度提升 300%。

其二,團隊設計了 Scaling ROPE 技術方案。傳統二維旋轉位置編碼(RoPE)在解析度變化時,可能會導致位置標識錯位。Seedream 2.0 透過動態縮放因子調整編碼,使影像中心區域在不同寬高比下,保持空間一致性。這使得模型在推理過程中,能夠生成從未訓練過的影像尺寸和各種解析度。

後訓練 RLHF 突破能力瓶頸

Seedream 2.0 的後訓練過程包含四個階段:Continue Training (CT) 、 Supervised Fine-Tuning (SFT) 、人類反饋對齊(RLHF)和 Prompt Engineering (PE) 。

較值得分享的是 —— 團隊開發了人類反饋對齊(RLHF)最佳化系統,提升了 Seedream 2.0 整體效能。

其核心工作包含以下三個方面:
  • 多維度偏好資料體系,提升模型偏好上限

團隊收集並整理了一個多功能的 Prompt 集合,專門用於獎勵模型(RM)訓練和反饋學習階段,並透過構建跨版本和跨模型標註管道,增強了 RM 的領域適應性,並擴充套件了模型偏好的上限。

在標註階段,團隊構建了多維融合註釋。這一做法成功擴充套件了單一獎勵模型的多維度偏好表徵邊界,促進模型在多個維度上實現帕累托最優。
  • 三個不同獎勵模型,給予專項提升

Seedream 2.0 直接利用 CLIP 嵌入空間距離,作為基礎獎勵值。這省去了迴歸頭等冗餘引數結構以及不穩定訓練情況。

同時,團隊精心製作並訓練了三個不同的獎勵模型:影像文字對齊 RM、美學 RM 和文字渲染 RM。

其中,文字渲染 RM 引入了觸發式啟用機制,在檢測到 “文字生成” 類標籤時,模型將強化字元細節最佳化能力,提升漢字生成準確率。
  • 反覆學習,驅動模型進化

團隊透過直接最大化多個 RM 的獎勵,以改進擴散模型。透過調整學習率、選擇合適的去噪時間步長和實施權重指數滑動平均,實現了穩定的反饋學習訓練。

在反饋學習階段,團隊同時微調 DiT 和文字編碼器。此種聯合訓練顯著增強了模型在影像文字對齊和美學改進方面的能力。

經過 RLHF 階段對擴散模型和獎勵模型的多輪迭代,團隊進一步提高了模型效能。

獎勵曲線顯示,在整個對齊過程中,不同獎勵模型的表現分數值都呈現穩定且一致的上升趨勢。

圖片

從 Scaling 到強化學習
解鎖模型最佳化新可能

Seedream 2.0 模型技術報告的釋出,是位元組跳動首次公開影像生成基礎模型的細節做法。團隊還將持續探索更高效地 Scaling 模型引數及資料的創新技術,進一步提升模型的效能邊界。

伴隨 2025 年強化學習浪潮興起,團隊認為,他們將持續探索基於強化學習的最佳化機制,包括如何更好地設計獎勵模型及資料構建方案。

後續,豆包大模型團隊也將持續分享技術經驗,共同推動行業發展。

相關文章