照片也能說話了?嘴型表情全同步,AI數字人時代要來了

老艾的AI世界發表於2024-03-09

SadTalker是一款先進的人工智慧模型,它透過從音訊中學習生成3D運動係數,並使用全新的三維面部渲染器來生成頭部運動,只需傳入一張照片和一段音訊,就能生成高質量的AI數字人影片

工作原理

1、顯式地對音訊和不同型別的運動係數之間的聯絡進行單獨建模

2、透過蒸餾係數和3D渲染的臉部,從音訊中學習準確的面部表情

3、透過條件VAE設計PoseVAE來合成不同風格的頭部運動

4、使用生成的三維運動係數對映到人臉渲染的無監督三維關鍵點空間,合成最終影片

SadTalker生成後的人物頭部運動規律,面部表情自然,口型也和音訊的內容保持一致(小姐姐還會眨眼睛!)

最新中文版:

百度網盤:https://pan.baidu.com/s/1AMInL9l_LxfQ0g3j1TrWQA?pwd=8r4f

使用方法

1、上傳人物圖片和音訊(音訊可以是英文、中文、歌曲)

2、設定引數(下面會詳細介紹)

3、點選“生成”按鈕

引數說明

· 姿式風格:調節頭部運動風格,預設0

· 表達量表:人物表情豐富程度,預設1

· 生成中的批次大小:生成影片的速度,預設1,顯示卡好可以適當拉大

· 預處理

crop:從圖片中擷取頭部做影片

resize:拉伸圖片,人物被壓縮選擇此項

full:全身照做影片

extcrop:加強版crop,主要聚焦頭部

extfull:加強版全身

· 面部渲染:兩種模式可自由嘗試

· GFPGAN:讓面部高畫質化

在控制檯可以檢視當前的處理進度,程式執行完畢會輸出資訊The generated video is named

生成的影片儲存在SadTalker\results路徑下,也可以在網頁端下載

在操作介面下方的Examples中提供了部分圖片和音訊,請點選“圖片源”選擇使用

注意事項

①專案安裝路徑不要包含中文

②推薦使用GTX1060以上視訊記憶體執行此專案

③使用過程中若不慎關閉軟體後臺,請重新開啟,並重新整理網頁

相關文章