AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
想要體驗文生影片的小夥伴又多了一個選擇!
今日,騰訊宣佈旗下的混元影片生成大模型(HunYuan-Video )對外開源,模型引數量 130 億,可供企業與個人開發者免費使用。目前該模型已上線騰訊元寶 APP,使用者可在 AI 應用中的「AI 影片」板塊申請試用。
騰訊混元影片生成開源專案相關連結:
騰訊混元影片生成模型 HunYuan-Video(HY-Video)是一款突破性的影片生成模型,提供超寫實畫質質感,能夠在真實與虛擬之間自由切換。它打破了小幅度動態圖的限制,實現完整大幅度動作的流暢演繹。
HY-Video 具備導演級的運鏡效果,具備業界少有的多視角鏡頭切換主體保持能力,藝術鏡頭無縫銜接,一鏡直出,展現出如夢似幻的視覺敘事。同時,模型在光影反射上遵循物理定律,降低了觀眾的跳戲感,帶來更具沉浸感的觀影體驗。模型還具備強大的語意遵從能力,使用者只需簡單的指令即可實現多主體準確的描繪和流暢的創作,激發無限的創意與靈感,充分展現 AI 超寫實影像的獨特魅力。
總的來說,HunYuan-Video 生成的影片內容具備以下特點:
卓越畫質:呈現超寫實的視覺體驗,輕鬆實現真實與虛擬風格的切換。
動態流暢:突破動態影像的侷限,完美展現每一個動作的流暢過程。
語義遵從:業界首個以多模態大語言模型為文字編碼器的影片生成模型,天然具備超高語義理解能力,在處理多主體及屬性繫結等生成領域的難點挑戰時表現出色。
原生鏡頭轉換:多視角鏡頭切換主體保持能力,藝術鏡頭無縫銜接,打破傳統單一鏡頭生成形式,達到導演級的無縫鏡頭切換效果。
AI 文生圖開源生態蓬勃發展,眾多創作者與開發者為生態貢獻作品與外掛。然而,影片生成領域的開源模型與閉源模型差距較大。騰訊混元作為第一梯隊大模型,將影片生成開源,相當於將閉源模型的最強水平帶到開源社群,有望促進影片生成開源生態像影像生成社群一樣繁榮。
透過騰訊元寶 APP-AI 應用-AI 影片即可使用該功能(前期需申請)HunYuan-Video 在文生影片的畫質、流暢度與語義一致性等方面都具有較高的質量。超寫實畫質騰訊混元影片生成模型提示詞:超大水管浪尖,衝浪者在浪尖起跳,完成空中轉體。攝影機從海浪內部穿越而出,捕捉陽光透過海水的瞬間。水花在空中形成完美弧線,衝浪板劃過水面留下軌跡。最後定格在衝浪者穿越水簾的完美瞬間。 騰訊混元影片生成模型提示詞:穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位於佈滿灰塵的閣樓中,閣樓裡有老舊的橫樑和被布料遮蓋的傢俱。閣樓的場景映照在鏡子中。幽靈在鏡子前跳舞。電影氛圍,電影打光。原生鏡頭切換 影片由騰訊混元影片生成,提示詞:一位中國美女穿著漢服,頭髮飄揚,背景是倫敦,然後鏡頭切換到特寫鏡頭 騰訊混元影片生成模型提示詞:特寫鏡頭拍攝的是一位 60 多歲、留著鬍鬚的灰髮男子,他坐在巴黎的一家咖啡館裡,沉思著宇宙的歷史,他的眼睛聚焦在畫外走動的人們身上,而他自己則基本一動不動地坐著,他身穿羊毛大衣西裝外套,內襯係扣襯衫,戴著棕色貝雷帽和眼鏡,看上去很有教授風範,片尾他露出一絲微妙的閉嘴微笑,彷彿找到了生命之謎的答案,燈光非常具有電影感,金色的燈光,背景是巴黎的街道和城市,景深,35 毫米電影膠片。騰訊混元影片生成模型提示詞:一個男人在書房對著電腦,敲打鍵盤,認真地工作,鏡頭切換到臥室裡,暖黃色的燈光下,他的妻子在床邊讀著故事書,輕柔地拍著孩子的胸口,哄孩子入睡。溫馨的氛圍。高語義一致一位戴著復古飛行護目鏡的機械師,半跪在蒸汽朋克風格的工作室裡。她棕色捲髮挽成髮髻,零星的銀色髮絲閃著金屬光澤。深棕色皮質工裝揹帶褲上沾滿機油汙漬,袖口捲起露出佈滿齒輪紋身的手臂。特寫她正用黃銅工具除錯一隻機械鳥,齒輪間冒出縷縷蒸汽,工作臺上散落著銅管、發條和老式圖紙。 固定機位的老公寓內景,自然光透過紗簾漫射,青色街燈滲入,茶煙嫋嫋升起,老式傢俱靜靜陳列,定格歲月流逝的時光。基於騰訊混元的開源模型,開發者及企業無需從頭訓練,即可直接用於推理,並可基於騰訊混元系列打造專屬應用及服務,能夠節約大量人力及算力。同時,各大模型研發團隊均可基於騰訊混元模型進行研究與創新,加速行業創新步伐。據技術報告,在混元影片生成模型架構設計與訓練中,採用了多個創新技術:包括透過新一代本文編碼器提升語義遵循,自研 3D 視覺編碼器支援影像影片混合訓練,透過全注意力機制提升畫面運鏡能力,並根據自研的影像影片 Scaling Law 設計和訓練了最優配比模型。Hunyuan-Video 是一個綜合的影片訓練系統,涵蓋了從資料處理到模型部署的各個方面。本技術報告介紹了我們的資料預處理技術,包括資料過濾運算元和重新標註模型,並詳細說明了 Hunyuan-Video 所有元件的架構,和我們發現的影片生成模型 scaling law,以及我們的訓練和推理策略。我們討論了加速模型訓練和推理的方法,使得開發一個擁有 130 億引數的大型模型成為可能,並評估了我們的文字到影片基礎模型的效能,與最先進的影片生成模型(包括開源和專有模型)進行了比較。最後,我們展示了基於預訓練基礎模型構建的各種應用,並附上相關的視覺化效果。我們採用自動化資料過濾和人工過濾相結合的方式,從粗到細構建多個階段訓練資料集。在 256p、360p、540p 和 720p 訓練階段,採用各種過濾器對圖片、影片資料過濾,並逐步提高過濾運算元的閾值。在 SFT 階段訓練階段,採用人工過濾的方式以充分保障訓練資料質量。該圖突出顯示了在每個階段使用的一些最重要的過濾器。在每個階段,將會移除大量資料,移除的比例從前一階段的資料的一半到五分之一不等。在這裡,灰色條表示每個過濾器過濾掉的資料量,而彩色條則表示每個階段剩餘的資料量。首個適配 MLLM 作為文字編碼器的影片生成模型,具備強大的語義跟隨能力,可以輕鬆應對多個主體描繪。在文生圖和文生影片等視覺生成模型中,負責處理文字、理解文字的文字編碼器起著關鍵作用。目前行業中大部分的視覺生成模型的文字編碼器,適配的主要是上一代語言模型。混元影片生成是業界適配最新一代大語言模型 MLLM (Multimodal Large Language Model)作為文字編碼器的影片生成模型,具備強大的語義跟隨能力,更好地應對多個主體描繪,實現更加細節的指令和畫面呈現。文字到影片等生成任務中,文字編碼器在隱式表徵空間中提供的指導資訊起著關鍵作用。業界常見模型通常使用預訓練的 CLIP 和 T5 作為文字編碼器,其中 CLIP 使用 Transformer Encoder,而 T5 使用的是 Encoder-Decoder 結構。相比之下,我們利用最先進的多模態大語言模型(MLLM)進行編碼操作,它具有以下優勢:
(1)與 T5 相比,MLLM 在視覺指令微調後的表徵空間中具有更好的影像 - 文字對齊性,這減輕了擴散模型中指令跟隨的難度;(2)與 CLIP 相比,MLLM 在影像細節描述和複雜推理方面有著更加優越的能力;
(3)MLLM 可以透過設計系統指令前置於使用者提示來充當零樣本學習器,幫助文字特徵更加關注關鍵詞。此外,如圖 8 所示,MLLM 基於因果注意力,而 T5-XXL 利用雙向注意力,為擴散模型產生更好的文字指導。因此,我們遵循的方法,引入了一個額外的雙向令牌細化器,以增強文字特徵。此外,CLIP 文字特徵也是文字資訊的摘要。如圖所示。我們採用了 CLIP-Large 文字特徵的最終非填充令牌作為全域性指導,將其整合到雙流和單流的 DiT 塊中。
透過自研的 3D 視覺編碼器支援混合圖片和影片訓練 / 先進的影像影片混合 VAE(3D 變分編碼器),讓模型在重建能力場景有明顯提升,具備小人臉和動作的極高上限。視覺編碼器在壓縮圖片 / 影片資料,保留細節資訊方面起著關鍵作用。混元團隊透過自研的 3D 視覺編碼器支援混合圖片 / 影片訓練,同時最佳化了編碼器訓練演算法,顯著提升了編碼器在快速執行、紋理細節上的壓縮重建效能,使得影片生成模型在細節表現上,特別是小人臉、高速鏡頭等場景有明顯提升從頭到尾用 full attention(全注意力)的機制,沒有用時空模組,提升畫面流暢度。混元影片生成模型採用基於單雙流模型機制的全注意力網路架構,使得每幀影片的銜接更為流暢,並能實現主體一致的多視角鏡頭切換。與「分離的時空注意力機制」分別關注影片中的空間特徵和時間特徵,相比之下,全注意力機制則更像一個純影片模型,表現出更優越的效果。其次,它支援影像和影片的統一生成,簡化了訓練過程並提高了模型的可擴充套件性。最後,它更有效地利用了現有的大型語言模型(LLM)相關的加速能力,從而提升了訓練和推理的效率。根據自研的影像影片 Scaling Law 設計和訓練了最優配比模型。Scaling Law 通常用來描述模型效能如何隨著模型大小、訓練資料和計算資源的增加而變化。在人工智慧研究的早期,訓練模型往往需要在諸多超引數之間反覆嘗試,而 Scaling Law 提供了指導如何擴充套件這些引數的經驗公式,使模型達到更好的效能 。Scaling Law 在 AI 領域的應用非常廣泛。尤其是在大模型的訓練中,幫助科學家們確定,如果需要模型有更好的表現,應該優先增加模型引數、訓練資料的規模還是訓練計算量。Google、OpenAI 等領先的科技公司對 Scaling Law 進行了大量的探索,這些研究為現代大型 AI 模型的成功奠定了基礎 。但是多模態模型領域(如影像、影片、音訊等)的 Scaling Law 尚沒有被真真切切地驗證過。騰訊混元團隊在過億級別的影像影片資料上,較為系統的訓練驗證了影像影片生成模型的 Scaling Law。根據我們的發現,我們可以準確的設計出最優的模型引數 / 資料 / 算力配比,也給了後續學術界和業界開發更大規模模型一個經驗公式,到底什麼樣規模的模型需要多少訓練資料和算力,使模型達到更好的效果效能,可以推動業界在影片生成領域的發展。從年初以來,騰訊混元系列模型的開源速度就在不斷加快。5 月 14 日,騰訊宣佈旗下的混元文生圖大模型全面升級並對外開源,這是業內首箇中文原生的 DiT 架構(DiT,即 Diffusion With Transformer)文生圖開源模型,支援中英文雙語輸入及理解,引數量 15 億,整體能力屬於國際領先水平。11 月 5 日,騰訊混元宣佈最新的 MoE 模型「混元 Large」以及混元 3D 生成大模型「Hunyuan3D-1」正式開源。Hunyuan-Large 總引數量約 389B,啟用引數量約 52B,文字長度 256k。這是當前業界引數規模最大、效果排名第一的 MoE 開源模型。其在 CMMLU、MMLU、CEval、MATH 等多學科綜合評測集以及中英文 NLP 任務、程式碼和數學等 9 大維度全面領先,超過 Llama3.1、Mixtral 等一流的開源大模型。 混元 3D 生成大模型則是首個同時支援文字、影像生成 3D 的開源大模型。一期開源模型包含輕量版和標準版,輕量版僅需 10s 即可生成高質量 3D 資產。該模型在今年年初已在騰訊內部上線釋出並應用於實際業務中,如 UGC 3D 創作、商品素材合成、遊戲 3D 資產生成等。本次影片生成大模型的開源,也是騰訊混元擁抱開源,用技術反饋社群的一大成果。至此,騰訊混元全系列大模型已實現全面開源。騰訊在開源上一直持開放態度,已開源了超 170 個優質專案,均來源於騰訊真實業務場景,覆蓋微信、騰訊雲、騰訊遊戲、騰訊 AI、騰訊安全等核心業務板塊,目前在 Github 上已累計獲得超 47 萬開發者關注及點贊。騰訊混元也會繼續保持開放,將更多經過騰訊應用場景經驗的模型開源出來,促進大模型生態的繁榮發展。未來我們會開源更多基於影片創作生態的模型,這裡小小劇透一些片段。