今年的機器人頂會 CoRL 傑出論文,竟然幫自動駕駛車穩穩地完成了漂移。
先來個甜甜圈漂移熱個身:然後,上點難度,來個「8 字」:
最後來個蛇形繞樁(Slalom,這次沒有實體的樁)。可以聽見,在繞到一半的時候,工作人員忍不住歡呼了一下。即使地面溼滑,自動駕駛汽車的發揮也不受影響。
這些動作都是由一個安裝了自動駕駛系統的雷克薩斯 LC 500 汽車來完成的,同樣一套系統安裝到豐田 Supra 上也可以安全執行。這得益於研究者們在 CoRL 一篇傑出論文中提出的方法,該方法可以提高自動駕駛在極限操控(如漂移)條件下的安全性和可靠性。
另外一篇獲獎論文則有關機器人導航。作者藉助強化學習對導航智慧體進行了端到端大規模訓練,結果可以很好地泛化到現實世界。其中,論文一作 Kuo-Hao Zeng 是一位華人學者,目前就職於艾倫人工智慧研究院。他本科畢業於中山大學,在清華大學拿到了碩士學位,去年在美國華盛頓大學拿到了博士學位。
在頒獎典禮現場,獲獎者拿到了一個神秘的大盒子。據透露,裡面裝的是看起來很美味的零食:
CoRL 是面向機器人學習研究的會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。自 2017 年首次舉辦以來,CoRL 已經成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。
除了兩篇傑出論文,還有四篇論文拿到了今年的傑出論文提名,比如 ALOHA 團隊主要成員的新工作 —— 人形機器人 HumanPlus,史丹佛提出的首個開源視覺語言動作大模型 OpenVLA 等。
以下是關於獲獎論文和提名論文的詳細介紹。
傑出論文獎獲獎論文
論文一:One Model to Drift Them All
作者:Franck Djeumou, Thomas Jonathan Lew, Nan Ding, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits 機構:豐田研究院、美國倫斯勒理工學院 論文連結:https://openreview.net/pdf?id=0gDbaEtVrd
讓自動駕駛汽車在極限操控狀態下 —— 也就是輪胎抓地力達到最大時 —— 安全執行是一個非常重要的問題,尤其是在緊急避障或惡劣天氣等情況下。不過,要實現這樣的能力並不容易,因為這項任務本身變化多端,而且對道路、車輛特性以及它們之間的相互作用的不確定性非常敏感。
為了克服這些難題,作者提出了一個新的方案:利用一個包含多種車輛在多樣環境下行駛軌跡的未標記資料集,來訓練一個高效能車輛控制的條件擴散模型。他們設計的這個擴散模型能夠透過一個基於物理資訊的資料驅動動態模型的引數多模態分佈,來捕捉複雜資料集中的軌跡分佈。
透過將線上測量資料作為生成過程的條件,作者將這個擴散模型融入到實時模型預測控制框架中,用於極限駕駛。
在豐田 Supra 和雷克薩斯 LC 500 上進行的大量實驗表明,在不同路況下使用不同輪胎時,單一擴散模型可使兩輛車實現可靠的自動漂移。該模型與特定任務專家模型的效能相匹配,同時在對未知條件的泛化方面優於專家模型,為在極限操控條件下采用通用、可靠的自動駕駛方法鋪平了道路。
左:條件擴散模型在兩輛車上執行漂移軌跡的示例。右:控制器結構概述和線上模型引數生成過程。
論文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
作者:Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs 機構:艾倫人工智慧研究所 PRIOR(Perceptual Reasoning and Interaction Research)團隊 專案連結:https://poliformer.allen.ai/ 論文連結:https://arxiv.org/pdf/2406.20083
PoliFormer 是 Policy Transformer 的縮寫。這是一種純 RGB 室內導航智慧體,它透過強化學習進行端到端大規模訓練。儘管純粹是在模擬中訓練,但訓練結果無需調整即可泛化到現實世界。
PoliFormer 使用基礎視覺 transformer 編碼器和因果 transformer 解碼器來實現長期記憶和推理。它在不同的環境中進行了數億次互動訓練,利用並行化、多機擴充套件實現了高吞吐量的高效訓練。
PoliFormer 是一個優秀的導航器,在 LoCoBot 和 Stretch RE-1 機器人這兩種不同的具身智慧方案和四項導航基準測試中均取得了 SOTA 成績。它突破了以往工作的瓶頸,在 CHORES-S 基準上實現了前所未有的 85.5% 的目標導航成功率,絕對值提高了 28.5%。
PoliFormer 還可輕鬆擴充套件到各種下游應用,如目標跟蹤、多目標導航和開放詞彙導航,無需進行微調。
以下是一些利用 PoliFormer 進行導航的機器人示例:
1、穿過佈滿障礙的長走廊找到蘋果(LoCoBot):
2、找到一本名為「人類」的書(Stretch RE-1)
3、一次尋找多個物品 —— 沙發、書本、廁所和室內植物(Stretch RE-1)
傑出論文提名
論文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning
機構:史丹佛大學、UC 伯克利 作者:Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh 論文地址:https://arxiv.org/abs/2408.14037
為了訓練機器人基礎模型,研究領域正在構建越來越多的模仿學習(imitation learning)資料集。然而,資料選擇在視覺和自然語言處理中已經被認為是至關重要的,但在機器人技術領域,模型實際上應該使用哪些資料進行訓練還是個懸而未決的問題。
基於此,該研究探索瞭如何權衡機器人資料集的不同子集或「域」以進行機器人基礎模型預訓練。
具體來說,該研究使用分散式魯棒最佳化(DRO)來最大化所有可能的下游域最壞情況效能,提出方法 Re-Mix。Re-Mix 解決了將 DRO 應用於機器人資料集時出現的廣泛挑戰。Re-Mix 採用提前終止訓練(Early Stopping)、動作歸一化和離散化來解決這些問題。
透過在最大的開源機器人運算元據集 Open X-Embodiment 上進行廣泛的實驗,該研究證明資料管理可以對下游效能產生巨大的影響。
論文 2:Equivariant Diffusion Policy
作者:Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt 機構:東北大學、波士頓動力 論文地址:https://arxiv.org/abs/2407.01812
作者:Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn 機構:史丹佛大學 論文地址:https://arxiv.org/pdf/2406.10454
機構:史丹佛大學、UC 伯克利、豐田研究院、Google Deepmind 等 作者:Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn 論文地址:https://arxiv.org/abs/2406.09246 專案地址:https://github.com/openvla/openvla
現有的 VLA 基本上是封閉的,無法開放訪問; 之前的工作未能探索針對新任務有效微調 VLA 的方法。