虛擬主播技術在智慧問答中的應用

架構師修行手冊發表於2023-12-07

來源:之家技術


1. 基於虛擬人的元宇宙

1.1

元宇宙

Facebook更名Meta帶火了元宇宙概念,元宇宙是一個與現實世界平行的虛擬世界,在這個虛擬世界中,人們可以像在現實世界中一樣實現實時互動,透過逼真的人、物形象使使用者沉浸於虛擬世界之中,身臨其境地感受周遭環境並與其他使用者進行互動。

1.2

虛擬人

虛擬人是使用數字技術合成的人類形象,早期虛擬人如初音未來、周杰倫和鄧麗君的隔空對唱。最近,隨著人工智慧技術的發展,一批新一代,具有類人智慧的虛擬人也應運而生。如可與真人對話的央視虛擬主播小C,清華大學虛擬學生華智冰,虛擬美妝達人柳夜熙等。此外,虛擬人也開始走入職場,如阿里巴巴的頭號數字人員工AYAYI。



2. 擬人相關技術介紹

2.1

3D建模

虛擬人的3D模型一種依賴3D動畫師的設計,另外一種則來自對現實世界物體的三維重建。隨著虛擬人技術的不斷髮展,出現了越來越多的個性化需求,如將使用者自己的形象只作為虛擬人等,3D建模技術也不斷髮展。
傳統3D建模方法主要分為多目視覺、紅外和鐳射三種。多目視覺是透過多角度拍攝的同一物體的影像,使用匹配特徵點進行建模,這種建模方式受光線、遮擋影響較大,需要從很多角度拍攝照片,才能覆蓋物體全貌;紅外建模的代表就是微軟的Kinect,使用多路紅外光照射物體表面,獲得物體上各點的深度資訊,完成3D建模;鐳射建模的原理與紅外類似,只不過使用的是鐳射,重建精度較高,但成本也較高,一版用於精度敏感的工業領域。
近年來,隨著深度學習技術的發展,學界和工業界開始越來越多地使用基於“神經輻射場”技術的NeRF,該方法使用深度網路和多角度輻射資料對輻射場進行建模,進而獲得未覆蓋角度的影像。

2.2

 NLP

虛擬人需要具有跟現實世界人物一樣的語言理解、對話能力,ChatGPT等大語言模型的出現,提供了這個可能,使虛擬人可以與虛擬和現實世界的人物交流,實現類人智慧。

2.3

TTS

ChatGPT等大語言模型的釋出,大大提升了智慧對話的質量,生成式對話模型的圖靈測試逐漸接近人類水平,這種情況下,將文字轉為語音,透過虛擬人“說”出來可以大大增加身臨其境的感覺。將文字轉為語音的TTS技術發揮了重要作用,按處理的實時性,TTS可分為流式和非流式兩種,非流式TTS延遲較大,無法滿足實時性要求。因此,在虛擬人應用中,一般採用流式TTS。

2.4

VR/AR 

虛擬世界和現實世界的互動,除了傳統的電腦、電視、手機螢幕外,還可以透過具有3D立體效果的VR頭戴式裝置和AR眼鏡等可穿戴裝置進行人機互動。

2.5

AIGC

AIGC是一種新興的人工智慧內容生成技術,既包括文字,如ChatGPT,又包括影像,如GAN和基於擴散模型的影像生成技術。在人機互動過程中,虛擬人對問題的回答的文字、語音,以及動作、口型、表情都需要使用AIGC技術生成。


3. 虛擬主播技術在智慧問答中的應用

2022年8月12日,汽車之家正式宣佈簽約虛擬數字人IP-“宮玖羽”擔任“汽車之家特邀AI體驗官”。宮玖羽不僅以“機車女神”的形象滿足使用者的情感需求,同時也能完美支援虛擬直播、AR/VR相關應用。基於大模型的智慧問答系統滿足了使用者的搜尋、查詢需求,虛擬數字人的引入增加了應用的互動屬性,有助於延長使用者的留存時間。

3.1

大模型問答系統 

問答系統能夠為使用者提供快速和精準的答案,可以顯著減少使用者在查詢資訊或解決問題時所需的時間,提升使用者滿意度和體驗,增加使用者黏性,進一步提升使用者留存。

大模型具備強大的自然語言理解和生成能力,但由於大模型的幻覺問題,技術團隊選擇使用大模型結合汽車之家搜尋資料來解決使用者問題。大模型主要關注兩方面的能力,一方面是基於若干文件進行總結歸納出簡短摘要的能力,一方面是直接生成準確答案的能力。

線上應用了基於汽車之家垂類資料訓練的6B引數大模型,答案輸出採用流式輸出的方式,能有效減少使用者等待時間,目前V100S顯示卡上第一個token返回時間約30ms,輸出速度約25tokens/s。流程圖如下圖所示。


虛擬主播技術在智慧問答中的應用


3.2

 面部表情生成系統 

由於智慧問答系統的實時性要求,技術團隊選擇了推理時間較短的經典音訊影像生成網路Wav2Lip,其模型結構如下圖所示。
Wav2Lip模型使用了SyncNet的判別器和LipGAN的生成器,模型訓練採用了兩階段的方式。在第一階段,訓練了一個用於判斷嘴唇與聲音是否同步的判別器;在第二階段,採用編碼-解碼架構訓練了一個生成器和兩個判別器,其中一個判別器是第一階段預訓好的用於判斷嘴唇與聲音是否同步的判別器,生成器由一個身份編碼器、一個語音編碼器和一個人臉解碼器組成,針對生成的嘴唇區域影像模糊問題,引入了另外一個影像質量判別器。
經過技術團隊兩個月的最佳化,Nvidia V100s顯示卡上單幀影像生成時間達到10ms,峰值視訊記憶體佔用3GB,綜合考慮TTS及前後處理時間,最終FPS約為25,達到了實時互動的目標。此外,由於線上顯示卡資源有限,為了儘可能滿足高併發需要,之家雲部署的一個例項可以支援2個使用者,線上一塊Nvidia V100~16G顯示卡可以部署5個例項,支援10個使用者併發,考慮實際併發使用者量低於線上使用者總量,上線之後每塊顯示卡可支援>10個使用者。


虛擬主播技術在智慧問答中的應用

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027824/viewspace-2999096/,如需轉載,請註明出處,否則將追究法律責任。

相關文章