還記得半年前在 X 上引起熱議的肖像音訊驅動技術 Loopy 嗎?升級版技術方案來了,位元組跳動數字人團隊推出了新的多模態數字人方案 OmniHuman, 其可以對任意尺寸和人物佔比的單張圖片結合一段輸入的音訊進行影片生成,生成的人物影片效果生動,具有非常高的自然度。
如對下面圖片和音訊:
論文專案主頁:https://omnihuman-lab.github.io/ 技術報告:https://arxiv.org/abs/2502.01061
還記得半年前在 X 上引起熱議的肖像音訊驅動技術 Loopy 嗎?升級版技術方案來了,位元組跳動數字人團隊推出了新的多模態數字人方案 OmniHuman, 其可以對任意尺寸和人物佔比的單張圖片結合一段輸入的音訊進行影片生成,生成的人物影片效果生動,具有非常高的自然度。
如對下面圖片和音訊: