2D頭像生成3D虛擬人開影片會,谷歌新作讓人難繃

机器之心發表於2024-05-31
未來人與人的交流,難道是這個樣?

開影片遠端會議的時候,很多人都不喜歡開啟攝像頭。即使開了,在介面上大家也都被框在不同的視窗裡。雖然這種形式操作起來很方便,但總是缺乏點臨場感。

最近,谷歌提出了一項研究旨在解決這個問題,這個名叫 ChatDirector 的技術可以使用靜態的 2D 頭像生成 3D 虛擬人,讓大家一同「坐在會議室裡」開會,只是看起來樣子有點誇張:

2D頭像生成3D虛擬人開影片會,谷歌新作讓人難繃 ChatDirector 透過空間化影片頭像、虛擬環境和自動佈局轉換,構建了一個擬真的虛擬環境。

雖說只是早期研究,虛擬人物口型也能準確對上,但總覺得有一點喜劇效果。對此大片評論表示繃不住了:這或許能給線上會議創造出輕鬆的氣氛。

圖片

ChatDirector 是一個研究原型,它將傳統的視訊會議轉變為使用 3D 影片頭像、共享 3D 場景和自動佈局轉換。

此前,谷歌展示的 Visual Captions 和開源的 ARChat,以促進實時視覺效果的口頭交流為目標。在 CHI 2024 上展示的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》中,谷歌介紹了一種新原型,透過在空間感知共享會議環境中為所有參與者提供語音驅動的視覺輔助,增強了傳統的基於 2D 螢幕的視訊會議體驗。

圖片

設計思考

谷歌研究人員邀請了來自公司內部不同崗位的十位參與者,包括軟體工程師、研究人員和 UX 設計師,共同討論影響虛擬會議質量的因素,分析視訊會議系統和麵對面互動的特點,最後將建議提煉為原型系統的五個基本考慮因素:

  • DC1、透過空間感知視覺化增強虛擬會議環境。處於同一個空間對於改善視訊會議體驗來說至關重要。好用的系統應採用典型的面對面會議形式,將與會者安排在指定座位的桌子周圍,構建切實的共同存在感和空間定位感。
  • DC2、不能簡單複製現實會議,而需要提供語音驅動的協助。鑑於小組對話中發言人頻繁更換、話題快速轉換,系統應提供額外的數字功能,讓參與者跟進對話流程並積極參與會議。
  • DC3、重現面對面互動的視覺效果。在開虛擬會議時,參與者通常在電腦前保持靜止。系統應增強他們在螢幕上的動作,以模仿頭部轉動和眼神接觸等動態身體動作,這些動作可作為更有效地跟進對話的提示。
  • DC4、儘量減少認知負荷。系統應避免同時顯示過多資訊,或要求使用者頻繁操作。這種方法有助於防止分心,並允許參與者更有效地專注於傾聽和說話。
  • DC5、確保相容性和可擴充套件性。系統應與標準視訊會議裝置(如帶攝像頭的膝上型電腦)相容,以促進廣泛採用。這種相容性還將促進其他生產力功能和工具(如螢幕共享和其他應用程式)的無縫整合,以增強系統的整體效用。

空間感知的場景渲染 pipeline

為了解決 DC1(透過空間感知視覺化增強虛擬會議環境)和 DC5(確保相容性和可擴充套件性),谷歌首先設計了一個渲染 pipeline,以將人的視覺呈現重建為 3D 肖像頭像。

谷歌在輕量級深度推理神經網路 U-Net 上構建了此 pipeline,並結合了自定義渲染方法,該方法將 RGB 和深度影像作為輸入並輸出 3D 肖像頭像網格。

該 pipeline 從深度學習 (DL) 網路開始,利用該網路從實時 RGB 網路攝像頭影片中推斷深度。接著使用 MediaPipe 自拍分割模型分割前景,並將處理後的影像饋送到 U-Net 神經網路

其中,編碼器逐漸縮小影像,而解碼器將特徵解析度提高回原始解析度。來自編碼器的 DL 特徵連線到具有相同解析度的相應層,以幫助恢復幾何細節,例如深度邊界和薄結構。

圖片

下圖所示的自定義渲染方法將 RGB 和深度影像作為輸入,並重建 3D 肖像頭像。

圖片

研究團隊開發了一個空間感知的視訊會議環境,可以在 3D 會議環境中顯示遠端參與者的 3D 肖像化身。

在每個本地使用者的裝置上,ChatDirector 會產生:

  1. 附帶由 Web Speech API 識別的語音文字的音訊輸入
  2. 由 U-Net 神經網路推斷的 RGB 影像和深度影像。

同時,當系統接收到每個遠端使用者的資料後,會重建 3D 肖像化身,並在本地使用者的螢幕上顯示出來。

為了實現視差效果,該團隊根據使用 MediaPipe 人臉檢測所檢測到的本地使用者的頭部移動來調整虛擬渲染攝像機。音訊會被用作輸入到下一節中將要解釋的語音驅動佈局轉換演算法。

資料通訊則透過 WebRTC 實現。

圖片 ChatDirector 的系統架構。

圖片 一個本地使用者對具有 3D 肖像頭像的空間感知視訊會議環境的視角。

語音驅動的佈局轉換演算法

為了解決 DC2(提供超越簡單複製現實世界聚會的語音驅動輔助)和 DC3(重現面對面互動的視覺線索),研究者開發了一個決策樹演算法。

該演算法根據正在進行的對話調整渲染場景的佈局和化身的行為,允許使用者透過接收自動視覺輔助來跟隨這些對話,從而不需要在 DC4(最小化認知負荷)上額外浪費精力。

對於演算法的輸入,他們將群組聊天建模為一系列語音輪轉。

在每個時刻,每個與會者都將處於三種語音狀態之一:

  1. 靜默:與會者正在聽取他人發言;
  2. 與某人交談(Talk-to):與會者正在與特定人交談;具體來說,透過偵測參與者的姓名(當他們加入會議室時所輸入的結果)來檢測使用是否在與某人交談。
  3. 宣佈(Announce):與會者正在向所有人發言。透過使用關鍵詞檢測(如「everybody」、「ok, everybody」),Web 語音 API 來進行識別此種型別的語音狀態。

該演算法產生了兩個增強視覺輔助的關鍵輸出(DC3)。第一個元件是佈局狀態,它決定了會議場景的整體視覺化。

這包括幾種模式:

  • 「一對一(One-on-One」,僅顯示一個遠端參與者,以便與本地使用者進行直接互動;
  • 「兩兩對話(Pairwise)」,將兩個遠端參與者並排排列,表示他們的一對一對話;
  • 「全景(Full-view)」,預設設定顯示所有參與者,表示一般討論。

圖片 ChatDirector 的佈局轉換演算法。圖片 演算法輸出:佈局狀態。從左至右分別為:一對一(One-on-One)語音狀態,兩兩對話(Pairwise)語音狀態,全景(Full-view)語音狀態。

網路影片開會這下更逼真了,領導和你可以交換眼神了。

研究團隊基於 3D 肖像化化身渲染能力,透過操縱遠端化身的行為來模擬類似於面對面會議中的眼神交流。

他們透過將化身狀態(Avatar State)設立為演算法的附加輸出,以控制每個化身的方向。

在這種設定中,每個化身可以處於兩種狀態之一:「本地」狀態,其中化身旋轉面向本地使用者,和「遠端」狀態,其中化身旋轉與另一個遠端參與者互動。2D頭像生成3D虛擬人開影片會,谷歌新作讓人難繃
演算法輸出:化身(聊天室中代表使用者的形象)狀態。當左側使用者與右側使用者交談時,化身狀態從「本地」狀態轉變為「遠端」狀態,此時左側化身會轉向右側化身。

定性表現評估:使用者研究
為了評估基於語音的佈局轉換演算法的效能以及空間感知會議場景的整體有效性,研究團隊進行了一項實驗室研究,涉及 16 名參與者,分成四個團隊。

與作為基準的傳統視訊會議相比,研究發現 ChatDirector 顯著改善了與語音處理相關的問題,這表現在使用者對注意力轉移輔助的積極評價上。

此外,該團隊對調查結果還進行了威爾科克森符號秩檢驗(Wilcoxon Signed-Rank Test )。

圖片 會議環境的空間感知和語音驅動佈局轉換演算法的使用者研究結果(N=16)。( *:p<.05, **: p<.01, *** :p< .001)

此外,根據 Temple Presence Inventory(TPI)評分,與標準的基於 2D 的視訊會議系統相比,它提升了共存感和參與度。

圖片 Temple Presence Inventory(TPI)結果顯示了 ChatDirector 系統的社交存在評級(N=16)。( *:p<.05, **: p<.01, *** :p< .001)

由於 ChatDirector 基於視訊會議室使用者的肖像化身,肖像安全的問題將成為未來研究發展的重中之重。

研究團隊在最後表示,希望 ChatDirector 能夠激發在利用先進的感知和互動技術來增加共同在場的感受和參與度日常計算平臺上的持續創新。

研究人員同時指出,解決負責任的 AI 考慮及其數字相似性的含義是極其重要的。因為以這種方式轉換「使用者的影片」可能會引發關於他們對自身肖像控制的問題,所以需要進一步的研究和仔細考慮。

當這類工具部署時,至關重要的是需要基於使用者的同意並遵守相關道德準則。

該團隊還提供了一個 ChatDirector 的互動技術演示,在影片內容裡展示了更多的 3D 影片示例。

影片連結:https://youtu.be/mO2rZL48C1Y
參考連結:https://research.google/blog/chatdirector-enhancing-video-conferencing-with-space-aware-scene-rendering-and-speech-driven-layout-transition/

相關文章