讓機器準確「看懂」手物互動動作,清華大學等提出GeneOH Diffusion方法

机器之心發表於2024-05-07
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

機器學習計算機視覺中,讓機器準確地識別和理解手和物體之間的互動動作,那是相當費勁。

要麼拿個杯子半天抓不到杯把:
圖片
要麼開啟一個盒子手部跟觸電了似的:
圖片
抑或是各種稀奇古怪的手部「畸變」:
圖片
這都是因為手物互動動作中噪聲干擾,比如手和物體的遮擋等,導致機器難以獲得準確的資訊。那麼,如何解決這些「討厭」的噪聲呢?

近日,清華大學、上海人工智慧實驗室和上海期智研究院釋出了一篇名為《 GeneOH Diffusion:Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion》的論文,提出了一種新的去噪方法 ——GeneOH Diffusion。該研究已被ICLR 2024接收。
圖片
  • 論文:
    https://arxiv.org/abs/2402.14810
  • 程式碼地址:
    https://github.com/Meowuu7/GeneOH-Diffusion
  • 專案網站:
    https://meowuu7.github.io/GeneOH-Diffusion/
  • YouTube 影片:
    https://youtu.be/ySwkFPJVhHY
  • Hugging Face Demo:
    https://huggingface.co/spaces/xymeow7/gene-hoi-denoising

GeneOH Diffusion 主要用於改善手和物體互動(Hand-Object Interaction, HOI)過程中的噪聲問題。簡單來說,就是當機器或者計算機視覺系統嘗試追蹤和理解手和物體之間的互動時,經常會因為各種原因(比如遮擋、光線變化等)出現誤差。這篇論文提出的技術就是用來減少這些誤差,使得機器能夠更準確地理解和模擬手與物體之間的互動。
圖片
研究動機

乾淨的手物互動資料在很多下游任務,如 AR、VR 和 Robotics 中都有廣闊的應用前景,但如何以一種可擴充套件的方式獲取自然真實的手物互動資料是一個極具挑戰性的問題。研究者無論是採用資料採集的策略,設計演算法從其他資料模態中獲得手物互動序列,還是藉助生成模型的強大生成能力,所得到的資料都不可避免地被各種各樣無法預測的噪聲干擾(圖 1)。這些噪聲可能來源於採集裝置有限的精度或者相關演算法的誤差。

一種能夠從含有噪聲的資料中恢復出清晰、真實手物互動序列的方法,構成了連線低成本手物互動資料來源和高質、實用資料之間的橋樑。正是在這一過程中,手物互動去噪模型的獨特價值和重要性得以凸顯。
圖片
圖 1:手物互動序列中多樣且複雜的噪聲型別

從含有噪聲的互動序列中恢復出真實的資料,這是一個本質上困難的重構問題。在實際的去噪應用場景中,由於輸入資料的物體、互動動作和噪聲特徵都具有不可預測性,同時去噪模型的訓練資料又受到限制,因此模型的泛化能力變得尤為關鍵,同時也是設計去噪模型時最具挑戰性的地方。

儘管互動序列去噪問題並非一個全新的研究領域,但在以往的工作中,無論是採用基於規則的方法還是資料驅動的方法,「如何在訓練資料有限的情況下,構建一個具有高度泛化能力的模型」這一問題並未得到充分的重視和深入研究。而正是在這樣的背景下,GeneOH Diffusion(如圖 2 所示)旨在探索和實現可泛化的手物互動去噪技術。
圖片
圖 2:透過在有限的資料上進行訓練,GeneOH Diffusion 可以很好地泛化到新穎的帶有複雜噪聲特徵的互動序列上(圖 a),並可以從一段輸入中恢復出多樣且自然的互動序列(圖 b),且是一個實用的工具(圖 c)。

GeneOH Diffusion:可泛化的手物互動序列去噪方法

GeneOH Diffusion 重新思考了設計資料驅動的去噪模型的兩個關鍵問題 ——「什麼是易於泛化的手物互動序列表示方法」和 「什麼是對噪聲特徵不敏感,且易於在不同型別噪聲資料上泛化的去噪方法」,並透過兩個關鍵性的設計來增強去噪模型的泛化性。

首先,為了有效增加模型對新穎物體和手物互動動作的可泛化性,GeneOH Diffusion 透過在區域性接觸區域引數化互動資訊,來對齊各種各樣的手物互動序列。

具體來講,GeneOH Diffusion 設計了一套以廣義接觸點為中心的、包含手物時空互動資訊的序列表徵,名為 GeneOH。GeneOH 包括 位姿標準化後的手物軌跡、以廣義接觸點為中心的手物空間關係表徵、以及以廣義接觸點為中心的手物時間關係表徵。(圖 3)
圖片
圖 3:可泛化的手物互動序列表徵 GeneOH

為了增加去噪模型泛化到新噪聲分佈上的能力,GeneOH Diffusion 摒棄了前人確定性對映的去噪方法,提出使用擴散模型刻畫手物互動資訊的分佈,並透過先擴散 — 後去噪的方式,極大地提高了模型對具有沒見過的複雜噪聲特徵的資料的泛化能力。

具體而言,GeneOH Diffusion 先將輸入的有噪聲的資料透過前向擴散的方式對齊到一個統一的噪聲空間,之後對擴散的資料進行去噪。最後,為了去除複雜多樣的手物互動序列中的噪聲,GeneOH Diffusion 設計了一種有效的層級式去噪方法,透過對不自然的手型、有噪聲的手物空間關係和有噪聲的手物時間關係進行逐步去噪,最終恢復出一段自然真實的手物互動序列(圖 4)。
圖片
圖 4:層級式去噪和易於在不同噪聲型別之間泛化的先擴散 - 後去噪的去噪正規化

可泛化去噪結果展示

GeneOH Diffusion 僅在有限的 GRAB 資料集上進行訓練,儘管它只接觸過有限的互動序列和簡單的擴散模型中的高斯噪聲,但它仍然能夠有效地泛化到新的互動序列上。這些新序列不僅包含了未見過的物體,還涵蓋了創新的互動動作,並且帶有複雜的、真實世界中的噪聲特徵(見圖 5)
圖片
圖 5:在 GRAB,GRAB(Beta),HOI4D 和 ARCTIC 上的去噪結果部分展示

最令人驚訝的是,GeneOH Diffusion 僅僅在包含剛性物體互動資料上進行了訓練,但它依然能夠近乎完美地復原出一段自然真實的人開啟剪刀的序列(見圖 6)。即便輸入資料未能提供有效的接觸資訊,並且包含了由視覺演算法錯誤導致的異常噪聲,經過 GeneOH Diffusion 去噪處理後的序列仍然展現出了合理的接觸點、自然的手部運動軌跡,以及手物運動一致的操控動作。
圖片
圖 6:泛化到非常困難的、具有複雜的真實的噪聲特徵序列上的動畫示例

基於生成模型,GeneOH Diffusion 具備隨機去噪的能力,這與去噪過程中所面臨的一對多的問題特質相吻合(見圖 7)。
圖片
圖 7:隨機去噪結果展示

同時 GeneOH Diffusion 具有廣闊的應用價值。它可以修正從影片中預測的手物互動序列,去除運動重定向所產生的噪聲,並可以提高生成模型所生成的資料的質量(圖 8)。
圖片
圖 8:應用場景

相關文章