讓智慧體像孩子一樣觀察別人學習動作,跨視角技能學習資料集EgoExoLearn來了
机器之心發表於2024-04-06
在探索人工智慧邊界時,我們時常驚歎於人類孩童的學習能力 —— 可以輕易地將他人的動作對映到自己的視角,進而模仿並創新。當我們追求更高階的人工智慧的時候,無非是希望賦予機器這種與生俱來的天賦。由上海人工智慧實驗室,南京大學,中科院深圳先進技術研究院牽頭,聯合東京大學,復旦大學,浙江大學,中國科學技術大學等高校的學生和研究者,共同公佈了跨視角技能學習資料集EgoExoLearn,為機器人賦予了透過觀察他人學習新動作的能力。- 論文連結:https://arxiv.org/abs/2403.16182
- 程式碼與資料集連結:https://github.com/OpenGVLab/EgoExoLearn
EgoExoLearn 資料集獨闢蹊徑,採集了第一視角與第三視角的影片素材。第一視角影片捕捉了人們學習第三視角演示動作的全過程,這種視角的轉換與融合,為機器模擬人類學習模式提供了寶貴的資料資源。資料集的構建不僅涵蓋了日常生活的瑣碎場景,更延伸到了專業實驗室的複雜操作。EgoExoLearn 精心收錄了總計 120 小時的視角與示範影片,旨在讓機器在多種環境下都能有效學習。除影片外,研究者還記錄了高質量的注視資料,並輔以詳盡的多模態標註。這些資料與標註的結合,構建了一個全面模擬人類學習過程的平臺,有助於解決機器在不同視角下對非同步動作過程的建模難題。為了全面評估 EgoExoLearn 資料集的價值,研究者提出了一系列基準測試,如跨視角關聯、跨視角行動規劃及跨視角參考技能評估等,並進行了深入的分析。展望未來,EgoExoLearn 將成為跨視角行動橋接的重要基石,為機器人無縫學習真實世界中的人類行為提供堅實支撐。期待 EgoExoLearn 資料集能助力 AI 技術的進一步突破,推動機器人從單純的模仿走向真正的智慧,實現與人類社會的和諧共存與共同發展。從孩童時期開始,人類就具備觀察他人行為並將其對映到自己視角的能力,這種能力在進行高試錯成本的實際操作(如危險化學實驗)時尤為有益。隨著人工智慧系統的最新進展,下一代 AI 智慧體將會在更通用的場景中執行任務。然而,與人類不同,訓練這些 AI 智慧體通常需要在類似環境中拍攝的演示影片作為訓練資料,這些影片的視角還必須與 AI 智慧體一致(例如,第一視角)。儘管有很多工作嘗試了在不同場景中收集此類資料,對於 AI 智慧體來說,直接從不同地點和不同視角拍攝的演示影片中學習仍然至關重要。實現這一能力可以充分利用大規模公開教學影片資料的潛力,並且在人機合作場景中尤其是在新環境中有巨大作用。目前朝這個目標努力的工作大致可以分為兩個方向。一種是在模擬環境中學習模型,但這些模型在現實世界中的泛化仍然很困難。另一個方向是從現實世界中的人類活動中學習。然而,直接結合現有的多視角資料集的嘗試通常會產生質量或規模較差的資料集。同時,目前這個方向的少數現有資料集只記錄了在同一環境和時間同步方式下拍攝的自我中心和外部中心視角影片。在現實中,跟隨演示時,通常需要橋接在不同地點和不同時間執行的一系列程式性動作。目前還沒有可用於探索如何在現實的自我中心和外部中心視角中橋接非同步程式性活動的資料集。為了解決資料集缺乏問題,研究者提出了 EgoExoLearn,這是一個大規模資料集,包含演示影片和相應的第一視角跟做影片。其中攝像機佩戴者跟隨演示影片中的動作,並在不同環境中執行相同任務。針對日常生活輔助和專業技能輔助這兩個潛在應用,EgoExoLearn 包含了 747 個影片序列,總時長達 120 小時,涵蓋場景包括日常食物製作和專業實驗室實驗。值得注意的是,EgoExoLearn 中的第一視角影片包含了顯示人類執行任務時視覺注意力的眼動訊號。這為更好地連線第一視角和第三視角中的行動提供了寶貴的線索。更進一步,研究者分析了人類的跨視角理解能力,並相應地引入了新的任務和基準,希望這些可以對開發具有類似能力的下一代具身 AI 智慧體起到重要幫助。當人類執行一個動作時,他 / 她可以將自我中心視角中正在進行的動作與演示中相應的動作聯絡起來並進行描述。透過演示影片中的知識,人類可以知道所需的動作步驟,並預測下一步應該是什麼。此外,透過與演示的比較,人類還可以評估自己的技能水平。基於上述分析,研究者設計了以下新任務:1) 跨視角關聯,2) 跨視角動作理解,3) 跨視角參考技能評估,以及 4) 跨視角參考影片字幕。每個基準都經過精心定義、標註,並具體實現了相應模型。此外,研究者還首次探索了眼動在這些任務中的作用。研究者希望這個資料集能夠為未來連結不同視角中的非同步程式性動作的工作提供資源,從而激發設計擅長從現實世界人類演示中學習並將程式性動作對映到機器人中心視角的 AI 智慧體。研究者考慮了程式性的目標導向任務,這些任務涵蓋了從日常的食物製作到專業的實驗室實驗。這種選擇基於它們所體現的兩個未來體現性 AI 代理需要能夠橋接自我 - 外部活動的潛在領域:日常生活輔助和專業支援。具體來說,EgoExoLearn 包含了 5 種日常任務(例如烹飪)和 3 種專業實驗室任務(例如固相肽合成)。研究者在 4 個不同的廚房和 3 個不同的實驗室中錄製了自我中心視角的影片。下表顯示了每個任務的影片數量以及平均影片長度。在每次收集開始之前,參與者需要完成一份問卷,收集基本的人口統計資訊以及他們自我評估的執行指定任務的專長。然後在每次錄製中,參與者將被要求從提供的列表中選擇一個或幾個外部中心視角的演示影片,並仔細學習詳細的程式。一旦準備好了,他們將戴上 Pupil Invisible Glasses,完成眼動校準,並開始複製演示影片中執行的任務。雖然不鼓勵,但參與者在錄製過程中被允許重新觀看演示影片。在每次錄製之後,參與者被要求重新進行眼動校準,以確保眼動資料的準確性。對於 5 個日常任務,外部中心演示影片是手動從 YouTube 等線上影片平臺策劃的。對於實驗室實驗,外部中心演示影片是由資深實驗室成員錄製的教程。為了促進本文資料集在開發能夠有效彌合自我和外部視角之間差距的演算法方面,研究者提供了詳細的多模態人類標註。粗略級別的語言標註、細緻級別的語言標註、翻譯與解析、技能水平標註。據瞭解,目前還沒有與本文設定相同、可以直接比較的資料集。因此,研究者在下表中列舉了本文資料集的各個方面,並與相關資料集進行了比較分析。EgoExoLearn 以其「視覺演示跟隨」設定獨特地豐富了該領域。除了這一獨特設定之外,它還是第一個包括時間限定的語言字幕、標註的跨視角關聯和多標籤影片片段的自我中心資料集。同其他第一視角影片資料集的對比如下:為了評估連線非同步的第一視角 - 第三視角程式性動作的能力,研究者引入了 4 個新的基準 benchmark,如下圖所示:1) 跨視角關聯 (cross-view association),探究模型有沒有將不同視角的相同動作聯絡起來的能力,分為 Ego2Exo 和 Exo2Ego 兩個設定。在(ego2exo)的情況下,給定一個自我中心影片,模型需要從一組候選的外部中心樣本中預測出執行相同動作的相應外部中心影片。這裡考驗了模型對單一視角動作的理解能力,還考驗了模型在跨視角情境下的泛化能力和預測準確性。基線模型與結果如下:2) 跨視角動作理解 (cross-view action understanding),細分為三個子任務:跨視角動作預測、跨視角動作規劃和跨視角動作分割。此外,研究者還探索了注視點(gaze)在協助這些任務中的作用。下圖是四種訓練設定與基線模型效能:3) 跨視角參考技能評估 (cross-view referenced skill assessment) 主要目標是評估第一視角操作者的技能水準。研究者引入了第三視角的專家操作影片作為參考,透過與參考影片的對比,技能評估可以變得更加準確。基線模型與結果如下圖所示:4) 跨視角參考影片描述 (cross-view referenced captioning)。使用另一個視角的影片作為參考,此項任務旨在提高模型利用跨視角參考而更好的進行影片描述的能力。模型設計和基線效能如下:對於下一代具身智慧在現實世界中執行復雜任務而言,能夠連線第一和第三視角中的非同步程式性動作的能力是必不可少的。作為一個基礎步驟,EgoExoLearn 包含了豐富的第一視角影片,其中每個影片都是在跟隨第三視角演示影片的程式時拍攝的。這種現實的設定,結合多模態人工高質量標註,能夠構建 4 個新穎的基準測試。而這些基準作為一個多功能的平臺,可以被用於研究如何橋接跨視角的非同步活動。EgoExoLearn 還可以促進新的研究方向,例如如何更好地利用注視和與手相關的標註。基準測試的結果表明,當前模型在連線第一和第三視角的非同步活動方面尚有不足,未來還有顯著的改進空間。