火山引擎釋出大模型訓練影片預處理方案,已應用於豆包影片生成模型

新闻助手發表於2024-10-15

10月15日,火山引擎在影片雲技術大會上釋出了大模型訓練影片預處理方案,助力解決影片大模型訓練的成本、質量和效能等方面的技術挑戰。目前,該技術方案已應用於豆包影片生成模型。

火山引擎總裁譚待在活動致辭表示,在AIGC、多模態等技術的共同推動下,使用者體驗在多個維度上經歷著深刻轉變,“基於抖音業務實踐和與行業客戶共創,火山引擎影片雲正積極探索AI大模型與影片技術的深度融合,在技術底座、處理鏈路和業務增長層面為企業尋找解法。”譚待說。

自研多媒體處理框架BMF ,助力豆包影片生成模型突破業界難題

據介紹,對訓練影片進行預處理是保障大模型訓練效果的重要前提。預處理過程可以統一影片的資料格式、提高資料質量、實現資料標準化、減少資料量以及處理標註資訊,從而使模型能更高效地學習影片中的特徵和知識,提升訓練效果和效率。

抖音集團影片架構負責人王悅表示,對大模型廠商而言,上述過程中面臨著諸多挑戰。

“首先,超大規模影片訓練資料集導致計算和處理成本激增,”王悅說,“其次是影片樣本資料參差不齊,然後是處理鏈路環節多、工程複雜,最後還面臨著對GPU、CPU、ARM等多種異構算力資源的排程部署。”

火山引擎釋出大模型訓練影片預處理方案,已應用於豆包影片生成模型

抖音集團影片架構負責人王悅介紹火山引擎大模型訓練影片預處理方案。

藉助Intel的CPU等資源,火山引擎此次釋出的大模型訓練影片預處理方案依託於自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰。此外,該方案還在演算法和工程方面進行了調優,可以對海量影片資料高質量預處理,短時間內實現處理鏈路的高效協同,提高模型訓練效率。值得一提的是,火山引擎本次還發布並開源了移動端後處理解決方案BMF lite版本。BMF lite支援端側大模型接入和運算元加速,更加輕量、通用。

Bytedance Research 負責人李航介紹,豆包影片生成模型PixelDance在訓練過程中採用了火山引擎的大模型訓練影片預處理方案,充分利用了大量潮汐資源,為模型訓練提供了有力支撐。火山引擎影片雲團隊提供的點播解決方案還為PixelDance生產的影片提供了從編輯、上傳、轉碼、分發、播放的全生命週期一站式服務,讓模型的商業化應用有了保障。

據瞭解,豆包影片生成模型PixelDance於9月24日釋出,該模型採用 DiT 架構,透過高效的DiT融合計算單元和全新設計的擴散模型訓練方法,突破了多主體運動的複雜互動、多鏡頭切換的內容一致性難題,在業界引起廣泛關注。目前,豆包影片生成模型已透過火山引擎面向企業開啟邀測。

多項音影片+AI”技術方案,助力企業全鏈路適配AIGC時代

此次活動中,火山引擎還發布了跨語言同聲復刻直播方案、多模態影片理解與生成方案、對話式AI實時互動方案和AIG3D&大場景重建方案,從影片的生產端、互動端到消費端,全鏈路融入了AI的能力。

火山引擎影片雲負責人Yongyuan 指出,在AI影片時代,人和AI互動變得更加動態和生動,這要求處理鏈路更加智慧和互動。

以對話式AI實時互動方案為例,依託豆包大模型和火山引擎影片雲自研的多項演算法,火山引擎為使用者提供了智慧對話和自然語言處理的強大能力,可實現毫秒級人聲檢測和打斷響應,以及絲滑穩定的端到端響應體驗。

在沉浸式消費體驗方面,火山引擎透過AI生成3D內容和大場景重建方案,為山西高平二郎廟金代戲臺和北京正乙祠兩座珍貴的歷史建築生成了3D數字資產,並以虛擬直播間的形式應用於抖音的戲曲直播場景。

大會上,王悅還透露了位元組自研影片編解碼晶片的最新進展,經過抖音集團內部的實踐驗證,該晶片在同等影片壓縮效率下,成本節省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。

王悅表示,該晶片將於近期正式對外開放測試,招募首批種子使用者,共同探索商業價值的可複製性。

火山引擎影片雲團隊為位元組跳動提供音影片技術,並透過火山引擎服務外部客戶。

相關文章