在機器人頂會 RSS 2024 上,中國的人形機器人研究斬獲最佳論文獎

机器之心發表於2024-07-22

近日,機器人領域著名會議 RSS(Robotics: Science and Systems) 2024 在荷蘭代爾夫特理工大學圓滿落幕。

儘管會議規模與 NeurIPS、CVPR 等 AI 頂會無法比肩,但 RSS 在過去幾年中取得了長足的發展,今年的參會人數接近 900 人。圖片

在大會的最後一天,最佳論文、最佳學生論文、最佳系統論文、最佳 Demo 論文等多個獎項同時出爐。此外,大會還評選出了「早期職業 Spotlight 獎」和「時間檢驗獎」。

值得注意的是,來自清華大學和北京星動紀元科技有限公司的人形機器人研究獲得了最佳論文獎,華人學者 Ji Zhang 獲得了本次時間檢驗獎。

以下是獲獎論文資訊介紹:

最佳 Demo 論文獎

圖片

  • 論文標題:Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints

  • 作者:Arun Narenthiran Sivakumar, Mateus Valverde Gasparino, Michael McGuire, Vitor Akihiro Hisano Higuti, M. Ugur Akcal, Girish Chowdhary

  • 機構:UIUC、Earth Sense

  • 論文連結:https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p023.pdf

在這篇論文中,研究者提出了一種基於經驗的魯棒性視覺導航系統,用於使用語義關鍵點的作物冠下農業機器人。

由於作物行間距較小(∼ 0.75 米)、多徑誤差導致 RTK-GPS 精度下降以及雜波過多導致鐳射雷達測量產生噪聲,作物冠下的自主導航具有挑戰性。早期名為 CropFollow 的工作透過提出一種基於學習的端到端感知視覺導航系統來應對這些挑戰。然而,這種方法存在以下侷限性:缺乏可解釋的表徵,以及由於置信度不夠缺乏在遮擋期間對離群預測的敏感性。

本文系統 CropFollow++ 引入了模組化感知架構和學習的語義關鍵點表示法。與 CropFollow 相比,CropFollow++ 的模組化程度更高、可解釋性更強,並提供了檢測閉塞的置信度。CropFollow++ 在具有挑戰性的晚季田間測試中的表現明顯優於 CropFollow,每個田間測試跨度達 1.9 千米,所需的碰撞次數為 13 次對 33 次。研究者還在不同的田間條件下,將 CropFollow++ 大規模部署在多個作物冠下覆蓋作物種植機器人中(總長 25 公里),並討論了從中汲取的主要經驗教訓。

圖片

  • 論文標題:Demonstrating Agile Flight from Pixels without State Estimation

  • 作者:smail Geles, Leonard Bauersfeld, Angel Romero, Jiaxu Xing, Davide Scaramuzza

  • 論文連結:https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p082.pdf

四旋翼無人機是最敏捷的飛行機器人之一。儘管最近的一些研究在基於學習的控制和計算機視覺方面取得了進步,但自主無人機仍然依賴於明確的狀態估計。另一方面,人類飛行員只能依靠無人機機載攝像頭提供的第一人稱視角的影片流將平臺推向極限,並在看不見的環境中穩健飛行。

本文展示了首個基於視覺的四旋翼無人機系統,該系統可在直接將畫素對映到控制指令的同時,自主高速透過一連串門。與專業的無人機賽車手一樣,該系統不使用明確的狀態估計,而是利用與人類相同的控制指令(集體推力和身體速率)。研究者展示了速度高達 40km/h 且加速度高達 2g 的敏捷飛行。這是透過強化學習(RL)訓練基於視覺的策略實現的。使用非對稱的 Actor-Critic 可以獲取特權資訊,為訓練提供便利。為了克服基於影像的 RL 訓練過程中的計算複雜性,研究者使用門的內邊緣作為感測器抽象。在訓練過程中,無需渲染影像就能模擬這種簡單而強大的任務相關表示法。在部署過程中,研究者使用了基於 Swin Transformer 的門檢測器。

本文方法可以利用標準的、現成的硬體實現自主敏捷飛行。雖然演示側重於無人機競賽,但該方法的影響已經超出了競賽範圍,可以作為未來研究結構化環境中真實世界應用的基礎。

最佳系統論文獎

圖片

  • 論文標題:Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

  • Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song

  • 機構:史丹佛大學、哥倫比亞大學、豐田研究院

  • 論文連結:https://arxiv.org/pdf/2402.10329

本文介紹了通用操縱介面(UMI),一種資料收集和策略學習框架,可將野外人類演示的技能直接轉移到可部署的機器人策略中。UMI 採用手持式抓手和精心的介面設計,可為具有挑戰性的雙臂和動態操縱演示提供行動式、低成本和資訊豐富的資料收集。為了促進可部署的策略學習,UMI 採用了精心設計的策略介面,具有推理時間延遲匹配和相對軌跡動作表示功能。學習到的策略與硬體無關,可在多個機器人平臺上部署。有了這些功能,UMI 框架就能釋放新的機器人操縱能力,只需改變每個任務的訓練資料,就能實現零樣本泛化動態、雙臂、精確和長視野行為。研究者透過全面的真實世界實驗證明了 UMI 的多功能性和有效性,在這些實驗中,透過 UMI 零射頻學習到的策略在不同的人類演示訓練中可泛化到新的環境和物體。

圖片

  • 論文標題:Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments

  • 作者:Lukas Schmid, Marcus Abate, Yun Chang, Luca Carlone

  • 論文連結:https://arxiv.org/pdf/2402.13817

感知和理解高度動態和不斷變化的環境是機器人自主性的關鍵能力。雖然在開發能準確估計機器人姿態的動態 SLAM 方法方面取得了長足進步,但在構建密集的機器人環境時空表徵方面卻重視不夠。詳細瞭解場景及其隨時間的演變對於機器人的長期自主性至關重要,對於需要長期推理的任務也至關重要,例如在與人類和其他 Agent 共享的環境中有效執行,因此會受到短期和長期動態變化的影響。

為了應對這一挑戰,這項研究定義了時空度量 - 語義 SLAM(SMS)問題,並提出了一個有效分解和解決該問題的框架。研究表明,所提出的因子化建議了一種時空感知系統的自然組織形式,其中一個快速程序跟蹤活動時間視窗中的短期動態,而另一個慢速程序則利用因子圖表述對環境中的長期變化進行推理。研究者提供了一種高效的時空感知方法 Khronos,並證明它統一了對短期和長期動態的現有解釋,能夠實時構建密集的時空地圖。

論文提供的模擬和實際結果表明,Khronos 構建的時空地圖能夠準確反映三維場景的時間變化,而且 Khronos 在多個指標上都優於基線。

最佳學生論文獎

圖片

  • 論文標題:Dynamic On-Palm Manipulation via Controlled Sliding

  • 作者:William Yang, Michael Posa

  • 機構:賓夕法尼亞大學

  • 論文連結:https://arxiv.org/pdf/2405.08731

當前,對機器人執行非抓取性動作的研究主要集中在靜態接觸上,以規避滑動可能帶來的問題。但是,如果根本上消除了「手滑」的問題,即能控制接觸時的滑動,這將為機器人能做的動作開闢新領域。

在這篇論文中,研究者提出了一項挑戰性的動態非抓取操作任務,該任務需要綜合考慮各種混合接觸模式。研究者採用了最新的隱式接觸模型預測控制(MPC)技術,幫助機器人進行多模式規劃,以完成各項任務。論文詳細探討了如何將用於 MPC 的簡化模型與低階跟蹤控制器相整合,以及如何使隱式接觸 MPC 適應於動態任務的需求。

圖片

令人印象深刻的是,儘管眾所周知,摩擦和剛性接觸模型往往不準確,但這篇論文的方法能夠對這些不準確性做出靈敏反應,同時快速完成任務。而且,研究者沒有使用於常見的輔助工具,例如參考軌跡或運動基元輔助機器人完成任務,這進一步凸顯了該方法的通用性。這是隱式接觸 MPC 技術首次被應用於三維空間中的動態操作任務。

圖片

  • 論文標題:Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

  • 作者:Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi

  • 機構:CMU、瑞士蘇黎世聯邦理工學院

  • 論文連結:https://arxiv.org/pdf/2401.17583

四足機器人在雜亂的環境中穿行時,需要同時具備靈活性和安全性。它們需要既能夠敏捷地完成任務,又要避免與人或障礙物相撞。不過,現有的研究往往只注重其中一方面:要麼是為了安全而設計速度不超過 1.0 米 / 秒的保守控制器,要麼是追求靈活性卻忽視了可能致命的碰撞問題。

這篇論文提出了一種名為「既敏捷又安全」的控制框架。這個框架讓四足機器人在保持靈活性的同時,也能安全地避開障礙物和人,實現無碰撞的行走。

ABS 包括兩套策略:一套是教機器人如何在障礙物之間靈活敏捷地穿梭,另一套則是萬一遇到問題,如何快速恢復,保證機器人不會摔倒或者撞到東西。兩套策略互相配合。

在 ABS 系統中,策略的切換由一個基於學習型控制理論的避碰價值網路來控制。這個網路不僅決定了何時切換策略,還為恢復策略提供了一個目標函式,確保機器人在閉環控制系統中始終保持安全。透過這種方式,機器人能夠在複雜環境中靈活應對各種情況。

為了訓練這些策略和網路,研究者們在模擬環境中進行了大量訓練,包括敏捷策略、避碰價值網路、恢復策略,以及外部感知表示網路等等。這些經過訓練的模組可以直接應用到現實世界中,配合機器人自身的感知和計算能力,無論機器人是在室內還是受限的室外空間,無論是面對不會動的還是能動的障礙物,都能在 ABS 框架下快速、安全地行動。

想了解更多細節,可以參考此前機器之心對這篇論文的介紹。在機器人頂會 RSS 2024 上,中國的人形機器人研究斬獲最佳論文獎

圖片

  • 論文標題:ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection

  • 作者:Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín

  • 機構:得克薩斯大學奧斯汀分校

  • 論文連結:https://arxiv.org/pdf/2405.03666

如果要教一個機器人如何用兩隻手同時做某件事情,比如同時開啟一個盒子,實際上很困難。因為機器人需要同時控制很多關節,還要確保兩隻手的動作協調一致。對於人類,人們會透過觀察別人,學會新的動作,再自己嘗試並不斷改進。在這篇論文中,研究者參考人類學習的方法,讓機器人也能透過看影片學習新技能,並且在實踐中提高。

研究者們從心理學和生物力學的研究中得到靈感,他們把兩隻手的動作想象成一種特殊的鏈條,這種鏈條可以像螺絲一樣旋轉,稱之為「螺旋動作」。基於此,他們開發了一個名為 ScrewMimic 的系統。這個系統可以幫助機器人更好地理解人類的演示,並透過自我監督來改進動作。透過實驗,研究者們發現 ScrewMimic 系統能幫助機器人從一段影片中學習到複雜的雙手操作技能,並在效能上超越了那些直接在原始動作空間中進行學習和改進的系統。

圖片

ScrewMimic 的方法示意圖

最佳論文獎

圖片

  • 論文標題:Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning

  • 作者:Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen

  • 機構:北京星動紀元科技有限公司、清華大學

  • 論文連結:https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p058.pdf

當前技術只能讓人形機器人在平坦地面,此類簡單的地形上行走。然而,讓它們在複雜環境,如真實的戶外場景中自如行動,仍很困難。在這篇論文中,研究者們提出了一種名為去噪世界模型學習(DWL)的新方法。

DWL 是一個用於人形機器人的運動控制的端到端的強化學習框架。這一框架使機器人能夠適應各種不平坦且具有挑戰性的地形,例如雪地、斜坡和樓梯。值得一提的是,這些機器人僅需一次學習過程,無需額外的特別訓練,便能在現實世界中自如應對多樣化的地形挑戰。

圖片

這項研究由北京星動紀元科技有限公司和清華大學聯合完成。星動紀元成立於 2023 年,是一家由清華大學交叉資訊研究院孵化,研發具身智慧以及通用人形機器人技術和產品的科技公司,創始人為清華大學交叉資訊研究院助理教授、博導陳建宇,聚焦於通用人工智慧 (AGI) 前沿應用,致力於研發適應寬領域、多情景、高智慧的通用人形機器人。

圖片

  • 論文標題:Real-Time Anomaly Detection and Reactive Planning with Large Language Models

  • 作者:Rohan Sinha, Amine Elhafsi, Christopher Agia, Matt Foutter, Edward Schmerling, Marco Pavone

  • 機構:史丹佛大學

  • 論文連結:https://arxiv.org/pdf/2407.08735

大型語言模型(LLM),具有零樣本的泛化能力,這使得它們有希望成為檢測和排除機器人系統分佈外故障的技術。然而,想讓大型語言模型真正發揮作用,需要解決兩個難題:首先,LLM 需要很多計算資源才能線上應用;其次,需要讓 LLM 的判斷能夠融入到機器人的安全控制系統中。

在這篇論文中,研究者提出了一個兩階段的推理框架:對於第一階段,他們設計了一個快速的異常檢測器,它能在 LLM 的理解空間裡迅速分析對機器人的觀察結果;如果發現問題,就會進入下一個備選選擇階段。在這個階段,將採用 LLM 的推理能力,進行更深入的分析。

進入哪個階段對應於模型預測控制策略中的分支點,這個策略能夠同時跟蹤並評估不同的備選計劃,以解決慢速推理器的延遲問題。一旦系統檢測到任何異常或問題,這個策略會立即啟動,確保機器人的行動是安全的。

這篇論文中的快速異常分類器在效能上超越了使用最先進的 GPT 模型的自迴歸推理,即使在使用相對較小的語言模型時也是如此。這使得論文中提出的實時監控器能夠在有限的資源和時間下,例如四旋翼無人機和無人駕駛汽車中,提高動態機器人的可靠性。

圖片

圖片

  • 論文題目:Configuration Space Distance Fields for Manipulation Planning

  • 作者:Yiming Li, Xuemin Chi, Amirreza Razmjoo, Sylvain Calinon

  • 機構:瑞士 IDIAP 研究所、瑞士洛桑聯邦理工學院、浙江大學

  • 論文連結:https://arxiv.org/pdf/2406.01137

符號距離場(SDF)是機器人學中一種流行的隱式形狀表示,它提供了關於物體和障礙物的幾何資訊,並且可以很容易地與控制、最佳化和學習技術結合起來。SDF 一般被用於表示任務空間中的距離,這與人類在 3D 世界中感知的距離概念相對應。

在機器人領域中,SDF 往往用來表示機器人每個關節的角度。研究者通常知道在機器人的關節角度空間中,哪些區域是安全的,也就是說,機器人的各個關節可以轉動到這些區域而不會發生碰撞。但是,他們不經常用距離場的形式來表達這些安全區域。

在這篇論文中,研究者們提出了用 SDF 最佳化機器人配置空間的潛力,他們稱之為配置空間距離場(簡稱為 CDF)。與使用 SDF 類似,CDF 提供了高效的關節角度距離查詢和直接訪問導數(關節角速度)。通常,機器人規劃會分成兩步:先在任務空間裡看看動作離目標有多遠,再用逆運動學算出關節怎麼轉。但 CDF 讓這兩步合成一步,直接在機器人的關節空間裡解決問題,這樣更簡單,效率也更高。研究者在論文中提出了一種高效的演算法來計算和融合 CDF,可以推廣到任意場景。

他們還提出了一種使用多層感知器(MLPs)的相應神經 CDF 表示,用以獲得緊湊且連續的表示,提高了計算效率。論文中提供了一些具體示例來展示 CDF 的效果,比如讓機器人避開平面上的障礙物,一級讓一個 7 軸的機器人 Franka 完成一些動作規劃任務。這些示例都說明了 CDF 的有效性。

圖片

應用 CDF 方法的機械臂做抬盒子任務

早期職業 Spotlight

大會還評選出了早期職業 Spotlight 獎,本次獲獎者為 Stefan Leutenegger,他的研究重點是機器人在潛在未知環境中的導航。

圖片

Stefan Leutenegger 是慕尼黑工業大學(TUM)計算、資訊與技術學院(CIT)助理教授(終身教職),並與慕尼黑機器人與機器智慧研究所(MIRMI)、慕尼黑資料科學研究所(MDSI)和慕尼黑機器學習中心(MCML)有所關聯,曾是戴森機器人實驗室的成員。他領導的智慧機器人實驗室(SRL)致力於感知移動機器人無人機機器學習的交叉研究。此外,Stefan 還是倫敦帝國理工學院計算機系的客座講師。

他參與創辦了 SLAMcore 公司,這是一家以機器人和無人機的定位和繪圖解決方案的商業化為目標的衍生公司。Stefan 獲得了蘇黎世聯邦理工學院機械工程學士學位和碩士學位,並在 2014 年獲得了博士學位,學位論文主題為《無人太陽能飛機:高效穩健自主執行的設計與演算法》。

時間檢驗獎

RSS 時間考驗獎授予至少十年前在 RSS 上發表的影響力最大的論文(也可能是其期刊版本)。影響力可以從三個方面理解:比如改變了人們對問題或機器人設計的思考方式,使新問題引起了社群的注意,或者是開創了機器人設計或問題解決的新方法。

透過這個獎項,RSS 希望促進對本領域長期發展的討論。今年的時間檢驗獎頒給了 Ji Zhang 和 Sanjiv Singh 的研究《LOAM:鐳射雷達測距和實時測繪》。

圖片

論文連結:https://www.ri.cmu.edu/pub_files/2014/7/Ji_LidarMapping_RSS2014_v8.pdf

這篇十年前的論文提出了一種利用以 6-DOF 運動的雙軸鐳射雷達的測距資料進行里程測量和繪圖的實時方法。這個問題難以解決的原因是測距資料是在不同時間接收到的,而運動估計中的誤差會導致所得到的點雲的錯誤配準。相干的三維地圖可以透過離線批處理方法建立,通常使用閉環來校正隨時間的漂移。而本文方法無需高精度測距或慣性測量,即可實現低漂移和低計算複雜度。

獲得這種效能水平的關鍵在於將複雜的同步定位和測繪問題分為兩種演算法,以同時最佳化大量變數。一種演算法以高頻率但低保真的方式進行測距,以估算鐳射雷達的速度;另一種演算法以低一個數量級的頻率執行,用於點雲的精細匹配和註冊。這兩種演算法的結合使該方法能夠實時繪圖。研究者透過大量實驗以及 KITTI 測速基準進行了評估,結果表明該方法可以達到離線批次方法的 SOTA 精度水平。

更多大會及獎項資訊,可參考官網內容:https://roboticsconference.org/

相關文章