CVPR(IEEE Conference on Computer Vision and Pattern Recognition)作為計算機視覺和模式識別領域的頂級會議,在全球具有極高的權威性。目前在中國計算機學會推薦國際學術會議的排名中,CVPR為人工智慧領域的A類會議 。
憑藉在人臉生成領域的紮實積累和前沿創新,阿里雲視訊雲與香港科技大學合作的最新研究成果《基於生成對抗網路的深度感知人臉重演演算法》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被CVPR2022接收。
而最新一屆CVPR 2022也將於2022年6月19日-24日在美國路易斯安那州新奧爾良舉行。
近年來,人臉重演(face reenactment/talking head)受到了越來越廣泛的關注,現有的人臉重演方法嚴重依賴於從輸入影像中學習到的2D表徵,而很少引入3D幾何資訊進行指導和約束 ,導致生成人臉的結構、姿態和表情不夠準確,泛化性較差,難以大規模應用於實際場景中 。
阿里雲視訊雲技術團隊與香港科技大學聯合提出一種具有深度感知的人臉重演演算法。該演算法的出現,是人臉重演領域的重大創新,其學術和應用價值是值得期待的。尤其是在視訊雲領域,該演算法的應用有望使得音視訊編解碼的效率有著極大的突破。
演算法使用一種自監督的深度估計模型,無需任何3D標註,即可從視訊中獲得畫素級深度圖,進而指導人臉關鍵點的檢測和運動場的合成。在人臉生成階段,利用該深度圖可以學習得到跨模態注意力圖,以捕捉更多動作細節並修正人臉結構。
因此,該項技術為在特定場景下的視訊編解碼提供了新的解決方案。例如在視訊會議場景中,我們的模型學習使用一張包含目標人物外觀的源影像和一段驅動視訊來合成人物頭部說話的視訊。我們的運動是基於一種新的關鍵點表標註進行編碼的,我們緊湊的關鍵點標註使視訊會議系統能夠實現與商業 H.264 標準相同的視覺質量,同時僅使用十分之一的頻寬。即大幅度降低頻寬要求時,仍可實現較高畫質和低延遲。
除此之外,該項技術可廣泛應用於會議、直播場景或者元宇宙、虛擬人等互動娛樂場景中,可滿足各場景中圖片視訊化的需求。即按照預想動作,驅動各類風格的人臉圖片獲得對應的視訊。可見,利用該技術路徑的突破,靈活地應用到熱點行業的業務路徑中,將收穫一股不可估量的助力。
「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。