SadTalker是一款先進的人工智慧模型,它透過從音訊中學習生成3D運動係數,並使用全新的三維面部渲染器來生成頭部運動,只需傳入一張照片和一段音訊,就能生成高質量的AI數字人影片
工作原理
1、顯式地對音訊和不同型別的運動係數之間的聯絡進行單獨建模
2、透過蒸餾係數和3D渲染的臉部,從音訊中學習準確的面部表情
3、透過條件VAE設計PoseVAE來合成不同風格的頭部運動
4、使用生成的三維運動係數對映到人臉渲染的無監督三維關鍵點空間,合成最終影片
SadTalker生成後的人物頭部運動規律,面部表情自然,口型也和音訊的內容保持一致(小姐姐還會眨眼睛!)
最新中文版:
百度網盤:https://pan.baidu.com/s/1AMInL9l_LxfQ0g3j1TrWQA?pwd=8r4f
使用方法
1、上傳人物圖片和音訊(音訊可以是英文、中文、歌曲)
2、設定引數(下面會詳細介紹)
3、點選“生成”按鈕
引數說明
· 姿式風格:調節頭部運動風格,預設0
· 表達量表:人物表情豐富程度,預設1
· 生成中的批次大小:生成影片的速度,預設1,顯示卡好可以適當拉大
· 預處理
crop:從圖片中擷取頭部做影片
resize:拉伸圖片,人物被壓縮選擇此項
full:全身照做影片
extcrop:加強版crop,主要聚焦頭部
extfull:加強版全身
· 面部渲染:兩種模式可自由嘗試
· GFPGAN:讓面部高畫質化
在控制檯可以檢視當前的處理進度,程式執行完畢會輸出資訊The generated video is named
生成的影片儲存在SadTalker\results路徑下,也可以在網頁端下載
在操作介面下方的Examples中提供了部分圖片和音訊,請點選“圖片源”選擇使用
注意事項
①專案安裝路徑不要包含中文
②推薦使用GTX1060以上視訊記憶體執行此專案
③使用過程中若不慎關閉軟體後臺,請重新開啟,並重新整理網頁