近期,即夢AI在官方社交媒體上釋出了一條新功能上線預告片。影片顯示,採用了全新的多模態影片生成模型OmniHuman,使用者僅需輸入一張圖片和一段音訊,就可以生成一條生動的AI影片,有望大幅提升AI短片的製作效率和質量。
圖片來自即夢AI影片號內容截圖
OmniHuman技術主頁資訊顯示,該模型為位元組跳動自研的閉源模型,可支援肖像、半身以及全身等不同尺寸的圖片輸入,並根據輸入的音訊,在影片中讓人物生成與之匹配的動作,包括演講、唱歌、樂器演奏以及移動。對於人物影片生成中常見的手勢崩壞,也相比現有方法取得了顯著的改善。此外,對動漫、3D卡通等非真人圖片輸入的支援效果也較為出色,生成的影片能保持特定風格和原有的運動模式。
根據技術主頁展示的演示效果來看,OmniHuman的生成效果已經具有較高的自然度。為防止該項技術被不當利用,位元組跳動技術團隊在主頁中特別標註稱,OmniHuman將不會對外提供下載。
即夢AI相關負責人透露,該模型目前已具備較好的表現,但在生成影視真實級別的影片上仍存在一定的提升空間。由其支援的多模態影片生成功能會在即夢上以小範圍內測的形式進行調優調整,並逐步開放。該負責人同時表示,即夢還會對這一功能設定嚴格的安全稽核機制,並且對輸出的影片標註水印以作提醒,從而確保AI發揮正面、積極的作用,助力影片創作者更好地實現想象力的表達。