騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛

新闻助手發表於2024-06-21

原文網址 : https://www.jiqizhixin.com/articles/2024-06-21-2

6月21日，騰訊混元文生圖大模型（以下簡稱為混元DiT模型）宣佈全面開源訓練程式碼，同時對外開源混元DiT LoRA 小規模資料集訓練方案與可控制外掛ControlNet。

這意味著，全球的企業與個人開發者、創作者們，都可以基於混元DiT訓練程式碼進行精調，創造更具個性化的專屬模型，進行更大自由度的創作；或基於混元DiT的程式碼進行修改和最佳化，基於此構建自身應用，推動技術的快速迭代和創新。

作為中文原生模型，使用者在透過混元DiT的訓練程式碼進行精調時，可以直接使用中文的資料與標籤，無需再將資料翻譯成英文。

此前，騰訊混元文生圖大模型宣佈全面升級並對外開源，已在 Hugging Face 平臺及 Github 上釋出，可供企業與個人開發者免費商用。這是業內首箇中文原生的DiT架構文生圖開源模型，支援中英文雙語輸入及理解。模型開源僅一個月，Github Star數達到2.4k，位於開源社群熱門DiT模型前列。

騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛混元DiT Github專案頁面

在開源訓練程式碼的同時， LoRA小規模資料集訓練方案與可控制外掛ControlNet的釋出也讓混元DiT模型的開源生態更具想象力。

LoRA模型，全稱Low-Rank Adaptation of Large Language Models，是一種用於微調大型語言模型的技術。在文生圖模型中，LoRA被用作一種外掛，允許使用者在不修改原有模型與增加模型大小的情況下，利用少量資料訓練出具有特定畫風、IP或人物特徵的模型。

LoRA技術在文生圖開源領域十分受歡迎，大量的創作者利用這種技術創造出多種多樣的模型，比如使用幾張個人照片，生成一個專屬於某個人的高精度照相館；或創造出盲盒、黏土等風格模型。

騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛

AI影像社群LiblibAI上的LoRA模型

混元DiT本次釋出的專屬LoRA外掛，支援開發者最少僅需一張圖即可創作出專屬的模型。比如，匯入四張青花瓷圖片與相應的提示詞，即可完成模型訓練，建立了一個“青花瓷”生成模型：使用者輸入簡單提示詞，即可生成想要的青花瓷影像。

部分訓練資料：

騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛

訓練後模型的推理結果示例：

騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛

使用混元DiT LoRA訓練的青花瓷生成模型

本次上線的另一個外掛ControlNet，則是一種應用於文生圖領域的可控化生成演算法，它允許使用者透過新增額外條件來更好地控制影像的生成。

目前，騰訊混元提供了能提取與應用影像的邊緣（canny）、深度（depth）、人體姿勢（pose）等條件的三個首發ControlNet模型，讓開發者直接使用其進行推理。該三個ControlNet外掛能實現透過線稿生成全綵圖、生成具有同樣深度結構的圖、生成具有同樣姿態的人等能力。同時，混元DiT也開源了ControlNet的訓練方案，開發者與創作者可以訓練自定義的ControlNet模型。

騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛

騰訊混元DiT上線的三個ControlNet外掛效果演示

自混元DiT模型開源以來，得到了眾多開發者的支援和反饋，騰訊混元團隊也一直在持續完善和最佳化基於混元DiT的開源元件，與行業共建下一代視覺生成開源生態。本月初，混元DiT釋出的專屬加速庫，可將推理效率進一步提升，生圖時間縮短75%。同時模型易用性大幅提升，使用者可以基於ComfyUI的圖形化介面，使用混元DiT，或者透過Hugging Face Diffusers通用模型庫，僅用三行程式碼即可呼叫混元DiT模型，無需下載原始程式碼庫。

據瞭解，騰訊混元文生圖能力已廣泛被用於素材創作、商品合成、遊戲出圖等多項業務及場景中。今年初，騰訊廣告基於騰訊混元大模型釋出了一站式AI廣告創意平臺騰訊廣告妙思。《央視新聞》《新華日報》等20餘家媒體也已經將騰訊混元文生圖用於新聞內容生產。

騰訊混元開源文生圖大模型

官網：https://dit.hunyuan.tencent.com/

程式碼：https://github.com/Tencent/HunyuanDiT

模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

論文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

資料製作流程：https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

首箇中文原生DiT架構！騰訊混元文生圖大模型全面開源，免費商用
2024-05-15
架構大模型
大模型量化訓練極限在哪？騰訊混元提出低位元浮點數訓練Scaling Laws
2025-01-16
大模型
騰訊混元又來開源，一出手就是最大MoE大模型
2024-11-06
大模型
騰訊釋出混元大模型Turbo版本用AI助力場景創新
2024-09-06
大模型AI
騰訊混元大模型全面降價！混元-lite即日起免費
2024-05-22
大模型
「騰訊地圖」小程式外掛
2018-11-13
地圖
文生圖大模型
2024-11-07
大模型
使用 LoRA 和 Hugging Face 高效訓練大語言模型
2023-04-12
Hugging Face模型
最新中文大模型測評出爐，騰訊混元居卓越領導者象限
2024-05-06
大模型
fasttext訓練模型程式碼
2020-12-23
AST模型
vue 外掛開發教程與釋出
2018-04-25
Vue
騰訊雲Mac圖床外掛
2018-12-29
Mac圖床
使用 diffusers 訓練你自己的 ControlNet ?
2023-04-04
Vue外掛打包與釋出
2018-08-16
Vue
BSN正式釋出開源外掛DDC保管箱
2022-06-06
面向大模型訓練，騰訊雲釋出新一代高效能運算叢集
2023-04-16
大模型
lora訓練之偷師
2023-11-07
全世界 LoRA 訓練指令碼，聯合起來!
2024-02-11
指令碼
騰訊混元大模型核心論文曝光：Scaling law、MoE、合成資料以及更多
2024-11-22
大模型
蘋果捲開源大模型，公開程式碼、權重、資料集、訓練全過程，OpenELM亮相
2024-04-25
蘋果大模型
浪潮資訊釋出源2.0基礎大模型，千億引數全面開源
2023-11-27
大模型
騰訊釋出2017年程式碼報告
2018-03-21
大模型高效微調-LoRA原理詳解和訓練過程深入分析
2024-06-11
大模型
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
開源社群引數量最大的文生影片模型來了，騰訊版Sora免費使用
2024-12-03
模型Sora
飛槳圖學習大模型訓練框架
2023-04-10
大模型框架
騰訊地圖SDK Flutter外掛實現
2021-04-06
地圖Flutter
利用Python訓練手勢模型程式碼
2024-05-23
Python模型
Jenkins 外掛中心國內映象源釋出
2019-11-13
Jenkins
vue外掛-(elementui-dropdown)開源包的開發和釋出
2019-02-28
VueUI
外掛化之程式碼呼叫與載入資源
2018-11-08
騰訊旗下協作SaaS產品全面接入混元大模型，實現智慧化升級
2024-04-22
大模型
[外掛擴充套件]騰訊分析外掛
2019-05-11
套件
監控大模型訓練
2024-03-13
大模型
國內首個自研MoE多模態大模型，揭秘騰訊混元多模態理解
2024-08-22
大模型
騰訊開源專案TARS首次全面釋出PHP版本
2019-02-28
PHP
讓預訓練語言模型讀懂數字：超對稱技術釋出 10 億引數 BigBang Transformer [乾元]金融大規模預訓練語言模型
2022-07-09
模型ORM
阿里巴巴開源大規模稀疏模型訓練/預測引擎DeepRec
2022-03-22
阿里模型

騰訊混元文生圖大模型開源訓練程式碼，釋出LoRA與ControlNet外掛

相關文章