AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在春晚上扭秧歌的機器人,現在也能跑跳自如了?還能在室內室外打一套拳擊,看這兩步跳的,害怕嗎? 它還能彎腰搬箱子:
來自上海交通大學和上海AI Lab的研究團隊提出了一套通用的人形機器人控制器 HugWBC,讓人形機器人可以同時掌握多達四種步態,以及可以自主組合、用於精細化調整機器人行為的 8 種命令!
專案主頁:https://hugwbc.github.io 論文地址:https://arxiv.org/abs/2502.03206
儘管此前的人形機器人在運動上取得了很多令人驚歎的結果,但離人類還差的多!人類在運動中具有令人驚歎的細粒度調整能力!比如,人類可以輕易實現多種步態,例如跑步、雙腳跳躍、甚至單腳跳躍。此外,人類還能調整步伐的大小、頻率、身體的姿態,同時也能保證上身各種動作的穩定。因此,研究者提出思考,這種通用的控制能力,是否應該被機器人的底層控制模組所掌握?
和此前控制器只跟蹤速度指令、或是關鍵點不同,HugWBC 的研究團隊提出了一套擴充套件的指令空間,包含任務指令(即速度跟蹤)和行為指令,後者包括姿態、腳步和步態,以提供細粒度的運動控制,從而極大發揮人形機器人的硬體潛能。在預設情況下,HugWBC 是一套全身控制器,同時控制上肢和下肢用於高動態運動;與此同時,HugWBC 也提供了上肢的外部控制器介入,用於支援進一步的遙操和精細控制,和實現後續的移動操作類任務。為了達到這一目標,研究者們結合了控制理論和強化學習,進行了紮實的方案設計。
擴充套件的指令空間和步態獎勵
HugWBC 框架
HugWBC 引入的擴充套件指令空間包括 1)任務指令,在本工作中主要是移動的速度指令;2)行為指令,包括腳步、姿態和步態指令。此外,控制器策略還接收機器人本體感知觀測和上肢介入訊號,如無上肢介入,則控制器預設控制全部關節,實現自然的擺動。
具體來說,腳步指令包括步頻和最大擺動高度;姿態指令包括機器人高度、前傾角和腰部轉動角;步態指令則是產生不同型別步態的關鍵,主要由雙腳的相位變數(即雙腳在步態週期內的進度)、相位差(即雙腳在步態週期內的進度差)和佔空比(即足部騰空時間佔步態週期的比例)。透過組合這些指令即可以產生豐富多樣、且細粒度的步態。
為了引導機器人能根據指令學習到細粒度的步態,研究者在跟蹤獎勵的基礎之上,提出了兩種額外的步態獎勵:
即接觸 - 擺動獎勵和足端擺動獎勵,用於引導機器人產生對應的步態週期和足端軌跡。
對稱獎勵
自然對稱的運動行為可以最小化能量消耗的效率,並透過後天學習逐漸被人類掌握。具有高度仿生機制的人形機器人也具有對稱的結構特徵。然而,如果沒有先驗知識,對稱形態資訊很難被策略探索,尤其是對於產生多樣化行為的策略。這使得最初的探索變得更加困難,使得策略很容易陷入區域性最優,導致不自然的運動。為了利用這種形態對稱的優勢,研究者為人形機器人提出了映象函式 F (・) 和對應的損失函式,以鼓勵策略產生對稱和自然的運動。
上身介入的魯棒性課程訓練
HugWBC 將自己定位為基礎人形控制器,因此需要支援上半身的外部控制介入,可用於遙操等資料採集。研究者們透過設計上肢的噪聲課程來促使機器人學習到這一點。
最後,整套訓練框架使用非對稱的強化學習演算法在模擬環境裡訓練,實現真實場景的部署。
評估:指令跟蹤誤差和魯棒性測試
在跟蹤性誤差實驗分析中,研究人員首先分析了在四種步態下單個指令的跟蹤誤差,如表 3 所示,其中行走(Walking)和站立(Standing)步態的跟蹤誤差明顯小於雙腳跳躍(Jumping)和單腳跳躍(Hopping),每種步態的跟蹤精度與該步態在模擬中的訓練難度一致。例如,行走和站立的模式可以在訓練中先學習,而跳躍和跳躍的步態出現較晚,需要較長的訓練時間才能熟練掌握。且低速下的運動技能更容易掌握,高速下機器人的動態穩定性下降,會導致跟蹤精度的下降。
此後,研究人員評估了不同介入訓練方法對於策略在上肢介入情況下的有效性,如表 4 所示,HugWBC 在三類測試中均取得了最好的跟蹤表現,表明 HugWBC 的噪聲課程干預策略使控制策略能夠處理大範圍的手臂運動,使其可以有效的支援複雜的移動操作任務。而僅學習 AMASS 資料或無介入訓練的策略則在訓練分佈外的測試中出現了跟蹤精度的災難性下降。
為了進一步說明 HugWBC 對於操作任務的支援,研究人員評估了站立狀態下指令跟蹤的平均足端移動距離,如表 5 所示,HugWBC 足端移動距離最小,在站立狀態下調整姿勢引入了對穩定性的額外要求,因為機器人透過踱步來保持平衡可能會增加完成需要站立不動的操作,實驗結果表明 HugWBC 在站立的各種姿態下可以支援精細的操作任務任務的難度。
隨後,研究人員分析了介入訓練對策略魯棒性的提升。如圖 2 所示,HugWBC 在兩項干擾測試中的表現明顯優於未經過介入訓練的基線方法。其原因在於,干預使機器人能夠有效應對來自上身的各種擾動,在訓練過程中幾乎涵蓋了所有極端情況,從而顯著提高了策略的魯棒性。
指令的組合分析
研究者分還分析了組合指令對控制器表現的影響,使用熱力圖矩陣來高效地視覺化了不同指令在對應範圍內的跟蹤精度。以步行狀態為例,
可以看到,在較小的速度範圍內,前向線速度、角速度、身體高度、轉腰角度都不會明顯的相互干擾,一旦速度超過 1.5m/s,控制器會犧牲跟蹤精度來保持動態的平衡與穩定。橫向速度、抬腳高度與身體俯仰角則常受到明顯的干擾。頻率則是需要在合適區間內才能使表現更好。抬腳高度與頻率、身體俯仰角與身體高度這兩組指令則有明顯的關聯性。