6月21日,騰訊混元文生圖大模型(以下簡稱為混元DiT模型)宣佈全面開源訓練程式碼,同時對外開源混元DiT LoRA 小規模資料集訓練方案與可控制外掛ControlNet。
這意味著,全球的企業與個人開發者、創作者們,都可以基於混元DiT訓練程式碼進行精調,創造更具個性化的專屬模型,進行更大自由度的創作;或基於混元DiT的程式碼進行修改和最佳化,基於此構建自身應用,推動技術的快速迭代和創新。
作為中文原生模型,使用者在透過混元DiT的訓練程式碼進行精調時,可以直接使用中文的資料與標籤,無需再將資料翻譯成英文。
此前,騰訊混元文生圖大模型宣佈全面升級並對外開源,已在 Hugging Face 平臺及 Github 上釋出,可供企業與個人開發者免費商用。這是業內首箇中文原生的DiT架構文生圖開源模型,支援中英文雙語輸入及理解。模型開源僅一個月,Github Star數達到2.4k,位於開源社群熱門DiT模型前列。
混元DiT Github專案頁面
在開源訓練程式碼的同時, LoRA小規模資料集訓練方案與可控制外掛ControlNet的釋出也讓混元DiT模型的開源生態更具想象力。
LoRA模型,全稱Low-Rank Adaptation of Large Language Models,是一種用於微調大型語言模型的技術。在文生圖模型中,LoRA被用作一種外掛,允許使用者在不修改原有模型與增加模型大小的情況下,利用少量資料訓練出具有特定畫風、IP或人物特徵的模型。
LoRA技術在文生圖開源領域十分受歡迎,大量的創作者利用這種技術創造出多種多樣的模型,比如使用幾張個人照片,生成一個專屬於某個人的高精度照相館;或創造出盲盒、黏土等風格模型。
AI影像社群LiblibAI上的LoRA模型
混元DiT本次釋出的專屬LoRA外掛,支援開發者最少僅需一張圖即可創作出專屬的模型。比如,匯入四張青花瓷圖片與相應的提示詞,即可完成模型訓練,建立了一個“青花瓷”生成模型:使用者輸入簡單提示詞,即可生成想要的青花瓷影像。
部分訓練資料:
訓練後模型的推理結果示例:
使用混元DiT LoRA訓練的青花瓷生成模型
本次上線的另一個外掛ControlNet,則是一種應用於文生圖領域的可控化生成演算法,它允許使用者透過新增額外條件來更好地控制影像的生成。
目前,騰訊混元提供了能提取與應用影像的邊緣(canny)、深度(depth)、人體姿勢(pose)等條件的三個首發ControlNet模型,讓開發者直接使用其進行推理。該三個ControlNet外掛能實現透過線稿生成全綵圖、生成具有同樣深度結構的圖、生成具有同樣姿態的人等能力。同時,混元DiT也開源了ControlNet的訓練方案,開發者與創作者可以訓練自定義的ControlNet模型。
騰訊混元DiT上線的三個ControlNet外掛效果演示
自混元DiT模型開源以來,得到了眾多開發者的支援和反饋,騰訊混元團隊也一直在持續完善和最佳化基於混元DiT的開源元件,與行業共建下一代視覺生成開源生態。本月初,混元DiT釋出的專屬加速庫,可將推理效率進一步提升,生圖時間縮短75%。同時模型易用性大幅提升,使用者可以基於ComfyUI的圖形化介面,使用混元DiT,或者透過Hugging Face Diffusers通用模型庫,僅用三行程式碼即可呼叫混元DiT模型,無需下載原始程式碼庫。
據瞭解,騰訊混元文生圖能力已廣泛被用於素材創作、商品合成、遊戲出圖等多項業務及場景中。今年初,騰訊廣告基於騰訊混元大模型釋出了一站式AI廣告創意平臺騰訊廣告妙思。《央視新聞》《新華日報》等20餘家媒體也已經將騰訊混元文生圖用於新聞內容生產。
騰訊混元開源文生圖大模型
官網:https://dit.hunyuan.tencent.com/
程式碼:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
資料製作流程:https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md