從零開始自主「起身站立」,上海AI Lab釋出最新控制演算法,機器人:起猛了

机器之心發表於2025-02-25

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近日,上海 AI Lab 具身智慧中心研究團隊在機器人控制領域取得了最新突破,提出的 HoST(Humanoid Standing-up Control)演算法,成功讓人形機器人在多種複雜環境中實現了自主站起,並展現出強大的抗干擾能力。

這一創新不僅解決了機器人從坐姿到站姿的轉換難題,還為未來人形機器人在家庭、醫療、救援等場景中的廣泛應用奠定了基礎。

透過強化學習框架和多項技術最佳化,HoST 演算法在模擬和真實環境中均表現出色,為人形機器人應對實際環境中的失衡恢復、動態平衡等挑戰提供了創新解決方案,進一步推動具身智慧技術的實用化程序。從零開始自主「起身站立」,上海AI Lab釋出最新控制演算法,機器人:起猛了起猛了,人形機器人竟在上海黃浦江畔平地坐起看日出? 從零開始自主「起身站立」,上海AI Lab釋出最新控制演算法,機器人:起猛了也能像牛頓一樣坐在「蘋果樹」旁,起身看看天上掉下了啥。 從零開始自主「起身站立」,上海AI Lab釋出最新控制演算法,機器人:起猛了在負重、強干擾情況下,也能自如起身。 從零開始自主「起身站立」,上海AI Lab釋出最新控制演算法,機器人:起猛了
圖片
  • 專案主頁:https://taohuang13.github.io/humanoid-standingup.github.io/
  • 論文地址:https://arxiv.org/abs/2502.08378

設想人形機器人能否做到:從沙發上站起,走向桌子,拿起一杯咖啡。儘管最近的工作賦予了它們強大的運動和操作能力,但是沙發上站起這一環節,相對而言缺乏了研究。

大多數工作假設機器人從一個預定義好的站立姿勢開始,執行後續任務。研究者認為,學會人形機器人站起控制能夠應對上述坐立姿態轉換,或是跌倒後站起等場景,有助於進一步提升人形機器人的落地場景。

和此前依賴於預定義軌跡或是忽視真機硬體限制的控制演算法不同,HoST 的研究團隊提出了一套從零開始、不依賴預定於軌跡的強化學習框架,能夠在模擬環境中學會從多種姿勢下成功站起,並且能夠直接部署到真實機器人上。
圖片
核心技術
圖片
HoST 演算法框架

獎勵函式設計與策略最佳化

不同於行走與操作,站起這一控制任務動態性更強,對上下半身的動態性要求更高。特別的,對於強化學習演算法而言,需要克服隨時間變化的接觸點、多階段技能學習、精確的身體角動量控制,無疑對獎勵函式的設計與策略最佳化帶來了極大的困難。

為此,研究者們設計了多種獎勵函式,並將其歸類到了四種獎勵組:任務獎勵、風格獎勵、約束獎勵與後任務獎勵。
圖片
為了能更好的平衡各個獎勵函式,研究者們緊接著採用了多評論家技術,對每一個獎勵函式組分別進行彙報估計,並對每個獎勵函式組賦予不同權重,來最終最佳化控制策略。
圖片
探索策略

即使有了合理的獎勵函式設計,研究者們依舊觀測到了強化學習在探索上遇到的困難。

研究團隊從科學家對嬰兒的研究中發現,外界的幫助有助於嬰兒學習許多動作技能。受此啟發,研究者們設計了基於課程的輔助力探索策略。

在訓練初期,基於機器人額外的向上的輔助力,幫助其更容易的站起,探索到高質量的學習樣本。隨著機器人逐步掌握站起能力,這一輔助力會逐步減小至零,使得機器人最終學習到無輔助力幫助下的站起控制。這一設計極大的加快了學習效率。

運動約束

研究者們觀測到機器人容易學到劇烈的站起策略,為了克服這一問題,他們引入了動作縮放係數(動作界限),該縮放係數決定了 PD 控制器中的目標關節角與當前關節角的最大偏差,從而隱式的約束關節最大的力矩與速度該縮放係數初始被設定為 1。隨著學習的進行,該縮放係數逐漸減弱至 0.25。
圖片
此外,研究者們還觀測到了站起過程中的行為抖動。為了避免這個問題,他們在值函式網路和策略網路最佳化時採用了平滑約束方法(L2C2)。
圖片
真機策略遷移

為了模擬真實世界中可能見到的初始姿勢,研究者們在模擬訓練中設計了四種地形:平地、平臺、斜坡和靠牆,以模擬真實世界中常見到的環境。

另外,為了減小物理模擬與現實中的物理引數差異,研究者們還採用了域隨機化(domain randomization)的技術,在模擬中給予某些物理引數一些隨機噪聲,例如質心的偏移、base 重力等。

實驗評估

模擬環境站起動作質量

為了更好的評估站起動作,研究人員首先提出了四個量化指標:成功率、雙腳移動距離、動作平滑度和消耗能量。基於此,他們首先對 HoST 與其消融版本在模擬中進行了比較。結果如下表顯示,多評論家、輔助力探索、運動約束均對策略學習有著顯著的影響。

例如,機器人在缺少前兩者的情況下,無法在大多數地形上成功學到站起技能;缺少運動約束會使得站起動作不夠平滑。這些驗證了上述技術設計的重要性。
圖片
真實環境站起動作質量

接著,研究者們將控制策略直接部署到機器人 Unitree G1 上,並且在室內外多種場景進行了測試。如下圖所示,在多種地形上均實現了成功站起,包括木質平臺、草地、平臺、斜坡、靠樹、石子路等。
圖片
其中,在室內場景下,研究者還對比了平滑約束對真機表現的影響。如下圖所示,平滑約束顯著提升了站起動作的平滑度與其成功率。
圖片
圖片
魯棒性測試

在負重、外部衝擊力、軟質地面障礙物以及隨機扭矩丟失等複雜外部干擾條件下,HoST 依然能夠保持穩定站立、從摔倒中迅速恢復,並維持動態平衡。
圖片
圖片

相關文章