3倍提速!現在你跑不過機器狗了,限制波士頓動力機器狗的竟然是電池功率?
机器之心發表於2025-02-23
當 Scaling Law 在觸頂邊界徘徊之時,強化學習為構建更強大的大模型開闢出了一條新正規化。這隻上過好幾次全網熱搜的機器狗 Spot,想必大家都不陌生。在原來的文章中,無論 Spot 做了什麼高難度動作,哪怕是邊噴火邊跳踢踏舞,後臺總有留言,「為什麼波士頓動力不把機器人的腳做成輪式的?」這是因為 Spot 總是優雅地、小心翼翼地踏著小碎步,沒辦法大步行走,相較於腳踩風火輪的輪式機器狗,不僅速度跟不上,也更容易受到地形限制。士別三日,當刮目相看。幾個月不見,Spot 的「小步舞曲」已經成為過往,看看現在 Spot 大步流星的樣子,迅速敏捷,你和它賽跑都追不上了:Spot 出廠時最快速度只有 1.6 米 / 秒。幾周前與波士頓動力官宣合作的 RAI 研究所帶來了最新突破,Spot 的跑步速度提升了近 3 倍,達到了時速 18.7 千米。一隻小型犬的平均奔跑速度大概是 20 千米 / 時,這兩個數字已經很接近了。在傳統觀念中,大家可能認為機器人的速度主要受限於馬達效能。但當研究團隊用強化學習對機器狗的電機和動力裝置建模之後,發現了一個出人意料的事實。 在模擬環境中,可以並行訓練幾臺 Spot 機器人(甚至幾百臺),以實現強大的現實世界效能。「真正限制 Spot 速度的,竟然是電池供電能力!」RAI 研究所的機器人專家 Farbod Farshidian 說道,「這個發現讓我們都很驚訝,因為之前都以為機器人的運動速度提不上去是在馬達的功率或扭矩之類的問題。」Spot 的電力系統相當複雜,仍有進一步最佳化的空間。Farshidian 指出,阻止他們將 Spot 的最高速度推過 5.2 米 / 秒的唯一原因是他們無法訪問電池電壓,無法將這些實際資料納入他們的 RL 模型。這意味著,如果能設計出更強勁的電池,Spot 的還能跑得更快。有趣的是,當 Spot 以這個速度奔跑時,它的動作看起來和真實的狗完全不同。Farshidian 解釋說:「這個奔跑姿態確實不像生物,但這很正常 ——Spot 的驅動器和關節結構都和真狗不一樣,為什麼要用生物的方式來跑呢?」Spot 的執行器不同於肌肉,運動學特性也不同,適合狗快速奔跑的步態不一定適合機器狗。Spot 提速的關鍵在於,研究人員在小跑步態的基礎上,增加了一個四隻腳同時離地的飛行階段。小步和飛行銜接起來,從技術上就變成了奔跑。Farshidian 說:「這個飛行階段是必要的,因為機器人需要這段時間快速向前移動腳步來維持速度。」研究人員給機器人了「自主發現的空間」,因為這時,程式設計程式所要求的不是「奔跑」,而是去找到最高效的快速移動方式。傳統的機器人控制使用模型預測控制(MPC)方法,就像給機器人一本詳細的「動作指南」。這種方法很可靠,但也很保守。這由於要求計算機要在事件發生後立即響應,一旦沒有在短時間內完成複雜的運動規劃和控制,反映到機器人這裡就是動作遲緩或出錯了。而強化學習則完全不同。它就像讓機器人在「虛擬道場」中不斷練習,找到最優的動作方案。一旦學會了,這些技能就能直接應用到現實中。強化學習不僅能最大化機器人的效能,還能使其表現更加可靠。RAI 研究所一直在實驗一款全新的機器人 —— 一輛名為 UMV 的腳踏車。它採用了與 Spot 高速奔跑時基本相同的強化學習 RL 流程,用於平衡和駕駛訓練,併成功學會了跑酷動作。更值得注意的是,UMV 沒有配備任何平衡陀螺儀,而是完全依靠 AI 來保持平衡的。「強化學習的關鍵在於發現新的行為,並在那些難以建模的複雜條件下使其變得穩健和可靠。這正是強化學習真正大放異彩的地方。」RAI 研究所蘇黎世辦公室主任 Marco Hutter 表示,「一方面,強化學習幫助 UMV 在各種情況下保持穩定的駕駛能力;另一方面,它讓我們理解機器人的動態,更好地實現一些新動作,比如跳上比它本身還高的桌子。」雖然 UMV 已經能很熟練地做各種特技動作了,但對於它來說,完成一些看似簡單的動作甚至更難,比如倒車。「UMV 倒車時很不穩定」,Hutter 解釋說,「使用經典的模型預測控制(MPC)控制器很難做到這個動作,尤其是地形崎嶇或有干擾的情況下。」目前,RAI 研究所還在努力讓 UMV 走出實驗室,在複雜地形上來一場真正的腳踏車跑酷表演。RAI 研究所表示,重點不在於這個某個特定的硬體能做什麼,而在於任何機器人透過 RL 和其他基於學習的方法能做什麼。機器人的硬體在理論上可以實現比用經典控制演算法更多的功能。關鍵的問題是如何理解這些硬體系統中的隱藏限制,不斷突破控制的邊界。