自動駕駛界秋名山車神!CoRL傑出論文讓自駕車學會漂移,機器人整出新活

机器之心發表於2024-11-13

今年的機器人頂會 CoRL 傑出論文,竟然幫自動駕駛車穩穩地完成了漂移。

先來個甜甜圈漂移熱個身:自動駕駛界秋名山車神!CoRL傑出論文讓自駕車學會漂移,機器人整出新活然後,上點難度,來個「8 字」: 自動駕駛界秋名山車神!CoRL傑出論文讓自駕車學會漂移,機器人整出新活

最後來個蛇形繞樁(Slalom,這次沒有實體的樁)。可以聽見,在繞到一半的時候,工作人員忍不住歡呼了一下。自動駕駛界秋名山車神!CoRL傑出論文讓自駕車學會漂移,機器人整出新活即使地面溼滑,自動駕駛汽車的發揮也不受影響。 自動駕駛界秋名山車神!CoRL傑出論文讓自駕車學會漂移,機器人整出新活

這些動作都是由一個安裝了自動駕駛系統的雷克薩斯 LC 500 汽車來完成的,同樣一套系統安裝到豐田 Supra 上也可以安全執行。這得益於研究者們在 CoRL 一篇傑出論文中提出的方法,該方法可以提高自動駕駛在極限操控(如漂移)條件下的安全性和可靠性。

另外一篇獲獎論文則有關機器人導航。作者藉助強化學習對導航智慧體進行了端到端大規模訓練,結果可以很好地泛化到現實世界。其中,論文一作 Kuo-Hao Zeng 是一位華人學者,目前就職於艾倫人工智慧研究院。他本科畢業於中山大學,在清華大學拿到了碩士學位,去年在美國華盛頓大學拿到了博士學位。

圖片

在頒獎典禮現場,獲獎者拿到了一個神秘的大盒子。據透露,裡面裝的是看起來很美味的零食:

圖片

CoRL 是面向機器人學習研究的會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。自 2017 年首次舉辦以來,CoRL 已經成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。

除了兩篇傑出論文,還有四篇論文拿到了今年的傑出論文提名,比如 ALOHA 團隊主要成員的新工作 —— 人形機器人 HumanPlus,史丹佛提出的首個開源視覺語言動作大模型 OpenVLA 等。

以下是關於獲獎論文和提名論文的詳細介紹。

傑出論文獎獲獎論文

論文一:One Model to Drift Them All

圖片

  • 作者:Franck Djeumou, Thomas Jonathan Lew, Nan Ding, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits
  • 機構:豐田研究院、美國倫斯勒理工學院
  • 論文連結:https://openreview.net/pdf?id=0gDbaEtVrd

讓自動駕駛汽車在極限操控狀態下 —— 也就是輪胎抓地力達到最大時 —— 安全執行是一個非常重要的問題,尤其是在緊急避障或惡劣天氣等情況下。不過,要實現這樣的能力並不容易,因為這項任務本身變化多端,而且對道路、車輛特性以及它們之間的相互作用的不確定性非常敏感。

為了克服這些難題,作者提出了一個新的方案:利用一個包含多種車輛在多樣環境下行駛軌跡的未標記資料集,來訓練一個高效能車輛控制的條件擴散模型。他們設計的這個擴散模型能夠透過一個基於物理資訊的資料驅動動態模型的引數多模態分佈,來捕捉複雜資料集中的軌跡分佈。

透過將線上測量資料作為生成過程的條件,作者將這個擴散模型融入到實時模型預測控制框架中,用於極限駕駛。

在豐田 Supra 和雷克薩斯 LC 500 上進行的大量實驗表明,在不同路況下使用不同輪胎時,單一擴散模型可使兩輛車實現可靠的自動漂移。該模型與特定任務專家模型的效能相匹配,同時在對未知條件的泛化方面優於專家模型,為在極限操控條件下采用通用、可靠的自動駕駛方法鋪平了道路。

圖片

左:條件擴散模型在兩輛車上執行漂移軌跡的示例。右:控制器結構概述和線上模型引數生成過程。

論文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

圖片

  • 作者:Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
  • 機構:艾倫人工智慧研究所 PRIOR(Perceptual Reasoning and Interaction Research)團隊
  • 專案連結:https://poliformer.allen.ai/
  • 論文連結:https://arxiv.org/pdf/2406.20083

PoliFormer 是 Policy Transformer 的縮寫。這是一種純 RGB 室內導航智慧體,它透過強化學習進行端到端大規模訓練。儘管純粹是在模擬中訓練,但訓練結果無需調整即可泛化到現實世界。

PoliFormer 使用基礎視覺 transformer 編碼器和因果 transformer 解碼器來實現長期記憶和推理。它在不同的環境中進行了數億次互動訓練,利用並行化、多機擴充套件實現了高吞吐量的高效訓練。

PoliFormer 是一個優秀的導航器,在 LoCoBot 和 Stretch RE-1 機器人這兩種不同的具身智慧方案和四項導航基準測試中均取得了 SOTA 成績。它突破了以往工作的瓶頸,在 CHORES-S 基準上實現了前所未有的 85.5% 的目標導航成功率,絕對值提高了 28.5%。

PoliFormer 還可輕鬆擴充套件到各種下游應用,如目標跟蹤、多目標導航和開放詞彙導航,無需進行微調。

以下是一些利用 PoliFormer 進行導航的機器人示例:

1、穿過佈滿障礙的長走廊找到蘋果(LoCoBot):

圖片

2、找到一本名為「人類」的書(Stretch RE-1)

圖片

3、一次尋找多個物品 —— 沙發、書本、廁所和室內植物(Stretch RE-1)

圖片

傑出論文提名

論文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

圖片

  • 機構:史丹佛大學、UC 伯克利
  • 作者:Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh
  • 論文地址:https://arxiv.org/abs/2408.14037

為了訓練機器人基礎模型,研究領域正在構建越來越多的模仿學習(imitation learning)資料集。然而,資料選擇在視覺和自然語言處理中已經被認為是至關重要的,但在機器人技術領域,模型實際上應該使用哪些資料進行訓練還是個懸而未決的問題。

基於此,該研究探索瞭如何權衡機器人資料集的不同子集或「域」以進行機器人基礎模型預訓練。

具體來說,該研究使用分散式魯棒最佳化(DRO)來最大化所有可能的下游域最壞情況效能,提出方法 Re-Mix。Re-Mix 解決了將 DRO 應用於機器人資料集時出現的廣泛挑戰。Re-Mix 採用提前終止訓練(Early Stopping)、動作歸一化和離散化來解決這些問題。

透過在最大的開源機器人運算元據集 Open X-Embodiment 上進行廣泛的實驗,該研究證明資料管理可以對下游效能產生巨大的影響。

論文 2:Equivariant Diffusion Policy

圖片

  • 作者:Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
  • 機構:東北大學、波士頓動力
  • 論文地址:https://arxiv.org/abs/2407.01812

最近一些研究表明:擴散模型是學習行為克隆中演示資料所產生的多模態分佈的有效方法。然而,這種方法的一個缺點是需要學習去噪函式,這比學習顯式策略要複雜得多。

基於此,該研究提出了一種新型擴散策略學習方法 —— 等變擴散策略(Equivariant Diffusion Policy),利用域對稱性來獲得更好的樣本效率和去噪函式的泛化能力。
圖片
該研究從理論上分析了全 6-DoF 控制的 SO (2) 對稱性,並描述了擴散模型何時是 SO (2) 等變的。該研究進一步在 MimicGen 中的一組 12 個模擬任務上對該方法進行了實驗評估,結果表明該方法的成功率平均比基線擴散策略高 21.9%。

該研究還在現實系統上評估了該方法,結果表明可以使用相對較少的訓練樣本來學習有效的策略。

圖片

論文 3:HumanPlus: Humanoid Shadowing and Imitation from Humans
圖片
  • 作者:Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn
  • 機構:史丹佛大學
  • 論文地址:https://arxiv.org/pdf/2406.10454

說起史丹佛開源的 Mobile ALOHA 全能家務機器人,大家肯定印象深刻,ALOHA 做起家務活來那是有模有樣:滑蛋蝦仁、蠔油生菜、干貝燒雞,一會兒功夫速成大餐:
圖片
這款人形 HumanPlus,也是 ALOHA 團隊主要成員的工作。HumanPlus 和 ALOHA 都在探索模仿學習對機器人帶來怎樣的增益。HumanPlus 更關注設計一套資料處理流程,讓人形機器人可以自主學習技能。

該研究首先基於 40 小時的人體運動資料集,透過強化學習在模擬環境中訓練低階策略。然後將這一策略遷移到現實世界中,使人形機器人僅使用 RGB 相機即可實時跟蹤人體和手部運動,形成 Shadowing 系統。
圖片
人類操作員可以透過 Shadowing 系統遠端控制人形機器人,收集其全身運動資料,以便在現實環境中學習各種任務。基於這些資料,研究人員採用有監督的行為克隆方法,再對機器人進行訓練。
圖片
只需 40 次演示,搭載 Shadowing 系統的機器人就可以可以自主完成諸如穿鞋站立和行走,從倉庫貨架上解除安裝物品,疊衣服,重新排列物品,打字以及與另一個機器人打招呼等任務,成功率為 60-100%。
圖片
更多詳情,請參看機器之心之前的報導:《從 ALOHA 邁向 Humanplus,史丹佛開源人形機器人,「高配版人類」上線》

論文 4:OpenVLA: An Open-Source Vision-Language-Action Model
圖片
  • 機構:史丹佛大學、UC 伯克利、豐田研究院、Google Deepmind 等
  • 作者:Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
  • 論文地址:https://arxiv.org/abs/2406.09246
  • 專案地址:https://github.com/openvla/openvla

機器人技術視覺語言動作(VLA)的廣泛採用一直面臨挑戰,因為:

  • 現有的 VLA 基本上是封閉的,無法開放訪問;
  • 之前的工作未能探索針對新任務有效微調 VLA 的方法。

為了解決上述挑戰,史丹佛提出首個開源 VLA 大模型 ——OpenVLA(7B 引數),經過 97 萬個真實機器人演示的多樣化資料集進行訓練。OpenVLA 以 Llama 2 語言模型為基礎,結合視覺編碼器,融合了 DINOv2 和 SigLIP 的預訓練特徵。

作為增加資料多樣性和新模型元件的產物,OpenVLA 在通用操作方面展示了強大的結果,在 29 個任務上任務成功率比 RT-2-X (55B) 等封閉模型高出 16.5%,引數減少為 1/7。
圖片
該研究進一步表明,可以針對新設定有效地微調 OpenVLA,在涉及多個物件和強大語言基礎能力的多工環境中具有特別強的泛化結果。
圖片
在計算效率方面,該研究表明 OpenVLA 可以透過低秩適應(LoRA)方法在消費級 GPU 上進行微調,並透過量化有效地提供服務,而不會影響下游的成功率。

參考連結:https://www.corl.org/program/awards

相關文章