展現完美的自己 英偉達AI演算法提升視訊會議體驗
受新冠疫情的影響,加速了各行業企業移動化辦公的需求,這期間,有大量的使用者和企業選擇了線上視訊會議。那麼,我們如何在視訊會議中展現更完美的自己呢?
近日,2021年國際計算機視覺與模式識別會議(CVPR 2021)正式召開。基於GAN研究的NVIDIA Maxine雲AI影片流SDK現已在CVPR 2021上展出。讓我們看一看GAN研究是如何重塑視訊會議的呢?
起床、啟動膝上型電腦、開啟網路攝像頭——得益於NVIDIA研究人員開發的AI技術,每次都能在視訊通話中展現完美的自己。
Vid2Vid Cameo是用於視訊會議的NVIDIA Maxine SDK背後的深度學習模型之一,它藉助生成式對抗網路(GAN),僅用一張人物2D影像即可合成逼真的人臉說話影片。
要使用該模型,參與者需要在加入視訊通話之前提交一張參照影像(真實照片或卡通頭像)。在會議期間,AI模型將捕捉每個人的實時動作,並將其應用於之前上傳的靜態影像。
也就是說,上傳一張穿著正裝的照片之後,與會人員即使頭髮凌亂、穿著睡衣,也能在通話中以穿著得體工作服裝的形象出現,因為AI可以將使用者的面部動作對映到參照照片上。如果主體向左轉,則技術可以調整視角,以便參與者看上去是直接面對攝像頭的。
除了可以幫助與會者展現出色狀態外,這項AI技術還可將視訊會議所需的頻寬降低10倍,從而避免抖動和延遲。它很快將在NVIDIA Video Codec SDK中作為AI Face Codec推出。
NVIDIA研究人員兼專案的聯合創作者Ming-Yu Liu表示:“許多人的網際網路頻寬有限,但仍然希望與朋友和家人進行流暢的視訊通話。這項基礎技術除了可以為他們提供幫助外,還可用於協助動畫師、照片編輯師和遊戲開發者的工作。”
Vid2Vid Cameo本週發表於著名的國際計算機視覺與模式識別會議,這是NVIDIA在本次虛擬會議上發表的28篇論文之一。此外,它還在AI Playground上推出,在此所有人均可親身體驗我們的研究演示。
AI大出風頭
在一部經典盜賊電影(同時也是Netflix的熱門節目)的致謝中,NVIDIA研究人員將他們的人臉說話GAN模型迅速用於虛擬會議。演示重點介紹Vid2Vid Cameo的主要功能,包括面部重定向、動畫頭像和資料壓縮。
這些功能即將登陸NVIDIA Maxine SDK,為開發者提供經過最佳化的預訓練模型,以便在視訊會議和直播中實現影片、音訊和擴增實境效果。
開發者已經能採用Maxine AI效果,包括智慧除噪、影片升取樣和人體姿態估計。SDK支援免費下載,還可與NVIDIA Jarvis平臺搭配用於對話式AI應用,包括轉錄和翻譯。
來自AI的問候
Vid2Vid Cameo只需兩個元素,即可為視訊會議打造逼真的AI人臉說話動態,這兩個元素分別是一張人物外貌照片和一段影片流,它們決定了如何對影像進行動畫處理。
模型基於NVIDIA DGX系統開發,使用包含18萬個高質量人臉說話影片的資料集進行訓練。網路已掌握識別20個關鍵點,這些關鍵點可用於在沒有人工標註的情況下對面部動作進行建模。這些點對特徵(包括眼睛、嘴和鼻子)的位置進行編碼。
然後,它會從通話主導者的參照影像中提取這些關鍵點,這些關鍵點可以提前傳送給其他的視訊會議參與者,也可以重新用於之前的會議。這樣一來,視訊會議平臺只需傳送演講者面部關鍵點的移動情況資料,無需將某參與者的大量直播影片流推送給其他人。
對於接收者一端,GAN模型會使用此資訊,模擬參照影像的外觀以合成一個影片。
透過僅來回壓縮及傳送頭部位置和關鍵點,而不是完整的影片流,此技術將視訊會議所需的頻寬降低10倍,從而提供更流暢的使用者體驗。該模型可以進行調整,傳輸不同數量的關鍵點,以實現在不影響視覺質量的條件下,適應不同的頻寬環境。
此外,還可以自由調整所生成的人臉說話影片的視角,可以從側邊輪廓或筆直角度,也可以從較低或較高的攝像頭角度來顯示使用者。處理靜態影像的照片編輯者也可以使用此功能。
NVIDIA研究人員發現,無論是參照影像和影片來自同一個人,還是AI負責將某個人的動作轉移到另一個人的參照影像,Vid2Vid Cameo均能生成更逼真、更清晰的結果,優於先進的模型。
後一項功能可將演講者的面部動作,應用於視訊會議中的數字頭像動畫,甚至可以應用於製作影片遊戲或卡通角色的逼真形象和動作。
Vid2Vid Cameo論文由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫。NVIDIA研究團隊在全球擁有超過200名科學家,專注於AI、計算機視覺、自動駕駛汽車、機器人和圖形等領域。
我們要感謝演員Edan Moses ,他在Netflix上的《紙鈔屋》中擔任教授的英語配音,感謝他在以上我們最新AI研究的介紹影片中做出的貢獻。
寫在最後,視訊會議現已經成為人們日常生活的一部分,能夠幫助數百萬人工作、學習、娛樂,甚至就醫。NVIDIA Maxine整合了先進的影片、音訊和對話式AI功能,給那些幫助我們保持聯絡的視訊會議平臺帶來效率突破。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2778242/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 英偉達的AI晶片霸主之路!AI晶片
- 英偉達 GTC 大會不僅有 AI 晶片,還有 AI for ScienceAI晶片
- 英偉達 RTX 4090/4080/4070 GPU型號、視訊記憶體、功耗曝光GPU記憶體
- 英偉達推出 RTX 6000:效能提升 2~4 倍,配備48GB GDDR6 ECC視訊記憶體記憶體
- GTC大會開完一個月,英偉達的Omniverse Cloud API正在快速落地CloudAPI
- 華為AI晶片真能幹掉英偉達,顛覆現有格局?AI晶片
- AI晶片混戰,誰能挑戰英偉達?AI晶片
- 英偉達與AI晶片的未來之戰AI晶片
- 英偉達 RTX 4050 移動 GPU 或將配備 6GB 視訊記憶體GPU記憶體
- 英偉達 RTX 4070 Ti 顯示卡爆料:7680CUDA + 12 GB 視訊記憶體記憶體
- 英偉達首個AI NPC入駐遊戲,國產大作,4B模型只需2G視訊記憶體AI遊戲模型記憶體
- 特斯拉自研AI晶片,要和英偉達說再見?AI晶片
- 英偉達在CES上推出AI處理平臺AI
- 動視暴雪退出英偉達Geforce Now雲服務
- 英偉達RTX 5090功耗高達600W,32G視訊記憶體,核心比5080多一倍記憶體
- 超算“猛將”英偉達
- 英偉達VR:GPU的發展還需要一個20年VRGPU
- 論PS的功力,英偉達的AI這次誰也不服AI
- 英偉達下代RTX 50系列顯示卡規格被洩露,旗艦5090視訊記憶體達32GB記憶體
- 英偉達釋出全球最大GPU:效能提升10倍,售價250萬GPU
- 英偉達GPU加速Cloudera資料平臺提升欺詐檢測能力GPUCloud
- 視訊會議的實現方式有哪些?
- 神經渲染與AI生成框架結合,5倍提升遊戲速度,英偉達是這樣做的AI框架遊戲
- 英偉達新一代 RTX A6000 顯示卡即將上市:48GB 視訊記憶體記憶體
- 英偉達財報:2020年英偉 達淨利潤23.74億美元 同比增長282%
- 沒有英偉達CUDA,深度學習的發展將延遲?深度學習
- AI新利器,英偉達推出新一代超強GPUAIGPU
- 英偉達AI:修圖軟體千千萬,效果最牛的還是我這款AI
- 1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍AI晶片
- 英偉達財報:2025財年Q3英偉達營收351億美元創新高營收
- 英偉達財報:2022年Q1英偉達收入82.9億美元 同比增長46%
- 英偉達財報:2024財年Q4英偉達營收達221億美元 同比增長265%營收
- 英偉達控制皮膚沒有顯示設定 英偉達顯示設定不可用
- HPE和英偉達如何為企業AI提供一條龍服務?AI
- AMD釋出最強AI晶片,對標英偉達Blackwell,2025年上市AI晶片
- 巨量AI模型,為何微軟、浪潮、英偉達們都盯著它?AI模型微軟
- 英偉達RTX 5090評測解禁,天賦都點在了 AI 上AI
- 有英偉達新卡的安裝