李飛飛團隊「具身智慧」最新研究:機器人接手所有家務

机器之心發表於2025-03-11
李飛飛「具身智慧」又出新研究了。

「機器人學習領域中的一個『聖盃』級挑戰是執行通用的日常家庭移動操作任務。藉助一款新型雙臂移動機器人,我們的最新成果 ——BEHAVIOR Robot Suite(簡稱 BRS)正在嘗試攻克這一極為困難且尚未解決的難題!」
image.png李飛飛團隊「具身智慧」最新研究:機器人接手所有家務
在日常生活中,你有沒有想過這樣一個問題,即機器人究竟需要具備哪些能力才能真正幫助人類完成家務任務?BRS 就是為了解決這項任務而誕生的 —— 簡單來講,BRS 就是一個綜合性框架,用於掌握機器人多樣化家庭任務中移動全身操作。無論是倒垃圾、擺放衣物還是清潔馬桶,BRS 都能讓機器人應對這些日常實用活動。

例如,基於 BRS 的機器人可以幫助使用者撿垃圾:
圖片
將扔在地上的物體重新放在架子上:
圖片
還能幫你清潔馬桶,看起來是一個任勞任怨的機器人:
圖片
Party 過後幫你收拾桌子:
圖片
還能幫你去衣櫃拿衣服:
圖片
這麼全能的機器人是如何實現的呢?我們接著往下看。

方法介紹
image.png
論文主頁:https://behavior-robot-suite.github.io/

機器人需要具備哪些關鍵能力才能有效執行日常家務?

透過分析,研究團隊確定了成功執行這些任務所必需的三項全身控制能力:雙手協調、穩定精確的導航以及廣泛的末端執行器可達性。

例如,搬運大型重物需要雙手操作,而在房屋中檢索工具則依賴於穩定精確的導航。複雜任務 —— 如一邊拿著雜貨一邊開門,需要協調運用這兩種能力。此外,日常物品分佈在不同位置和高度,這要求機器人能夠相應地調整其觸及範圍。
image.png
經過精心設計的機器人硬體,配備雙臂、移動底座和靈活軀幹,是實現全身操作的關鍵。

然而,這類複雜設計給策略學習方法帶來了重大挑戰,尤其是在資料採集規模化和全身協調動作方面。

為應對這些挑戰,研究團隊推出了 BRS,旨在透過全身操作技術解決各種真實家庭任務。

BRS 有兩項關鍵創新,兩者協同解決機器人硬體和學習方面的挑戰。
  • JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);

  • WB-VIMA(Whole-Body VisuoMotor Attention)。

image.png
JoyLo李飛飛團隊「具身智慧」最新研究:機器人接手所有家務
為實現對高自由度移動機械臂的流暢控制,同時便於為後續策略學習收集資料,研究團隊推出了 JoyLo —— 一種構建經濟實惠的全身遠端操作介面的通用框架。
圖片
研究團隊在 R1 機器人上實現了 JoyLo,設計目標如下:
  • 高效的全身協調控制系統,實現複雜動作的流暢銜接;

  • 豐富的使用者反饋機制,帶來直觀的遠端操作體驗;

  • 確保高質量的示範動作,提升策略學習效果;

  • 低成本實現方案,大幅提高系統可及性;

  • 實時、便捷的控制器設計,確保操作無縫順暢。

專案還提到,JoyLo 的成本總共不到 500 美元,團隊還貢獻了物料清單和組裝說明。
  • 物料清單地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom

  • 組裝說明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html

WB-VIMA 策略
圖片
WB-VIMA 是一種模仿學習演算法,旨在透過利用機器人的固有運動學層次結構來建模全身動作。

WB-VIMA 的一個關鍵見解是,機器人關節之間存在強烈的相互依賴關係 —— 上游連結(例如軀幹)的小幅移動可能會導致下游連結(例如末端執行器)的大幅位移。為了確保所有關節之間的精確協調,WB-VIMA 將下游元件的動作預測條件化於上游元件的預測,從而實現更同步的全身運動。

此外,WB-VIMA 透過自注意力動態聚合多模態觀察,使其能夠學習表現力強的策略,同時減輕對本體感知輸入的過擬合。

實驗

實驗探討了以下問題:
  • Q1:BRS 支援哪些型別的家庭任務?

  • Q2:JoyLo 與其他方法相比表現如何?

  • Q3:WB-VIMA 是否優於基線方法?

  • Q4:哪些元件促成了 WB-VIMA 的有效性?

對於問題 1:BRS 適用於各種家庭任務,比如扔垃圾:

機器人先是導航到客廳中的垃圾袋旁邊,將其撿起(子任務 1),然後將垃圾攜帶到一扇關閉的門前(子任務 2),開啟門(子任務 3),移動到室外,並將垃圾袋放入垃圾桶(子任務 4)。李飛飛團隊「具身智慧」最新研究:機器人接手所有家務又比如,機器人打掃餐桌。機器人從客廳出發,導航到廚房的洗碗機(子任務 1)並開啟洗碗機(子任務 2)。然後,它移動到遊戲桌(子任務 3)收集碗(子任務 4)。最後,機器人返回洗碗機(子任務 5),將碗放入洗碗機內並關閉洗碗機(子任務 6)。穩定且精確的導航是完成這一任務的最關鍵能力。 李飛飛團隊「具身智慧」最新研究:機器人接手所有家務
對於問題 2:JoyLo 能夠為策略學習提供高質量的資料

研究團隊對 10 名參與者進行了全面的使用者研究,以評估 JoyLo 的效果及其收集資料對策略學習的適用性。下圖為將 JoyLo 與 VR 控制器和 Apple Vision Pro 進行比較。
圖片
效率優勢:
  • JoyLo 整體任務成功率是 VR 控制器的 5 倍(Apple Vision Pro 無人完成全任務);

  • 中位完成時間較 VR 控制器縮短 23%;

  • 在鉸接物體操作等精細任務中表現突出。

image.png
使用者研究結果(10 名參與者)。

使用者體驗:
  • 所有參與者最終評價 JoyLo 為最友好互動;

  • 70% 使用者最初認為 IK 更直觀,但實操後偏好逆轉;

  • 使用者反饋 IK 方法在移動底座 / 軀幹控制上存在顯著困難。

image.png
使用者研究參與者的人口統計資料和調查結果。

對於問題 3:WB-VIMA 始終優於基線方法

實驗顯示,WB-VIMA 在所有任務中全面超越基準方法:端到端任務成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任務表現分別優於 DP3(1.6 倍)和 RGB-DP(3.4 倍)。
image.png
五項代表性家庭活動的成功率。「ET」表示整個任務,「ST」表示子任務。
image.png
評估期間的安全違規情況。WB-VIMA 與環境物體的碰撞極少,且幾乎不會因施加過度力量而導致電機失去動力。

對於問題 4:WB-VIMA 元件對任務效能的影響

研究團隊針對 WB-VIMA 展開消融實驗,分別移除自迴歸全身動作去噪和多模態觀察注意力機制模組。實驗表明,任一元件缺失均導致效能顯著下降:在「將物品放上架子」及「整理衣物」任務的「開啟衣櫃」子任務中,移除自迴歸去噪模組使成功率驟降 53%;而多模態注意力機制缺失則全面削弱各任務表現。
image.png
「放置物品到架子上」和「鋪展衣物」任務的消融實驗結果。

最後,研究團隊還展示了幾個失敗案例。包括:

1) 儘管機器人已經抓住把手,但未能完全開啟洗碗機;
2) 未能按下衝水按鈕;
3) 未能從地板上拾起垃圾袋;
4) 未能抬起地上的箱子;
5) 未能關閉衣櫃門。
圖片
瞭解更多內容,請檢視原論文。

相關文章