將家務全部交給機器人的那一天,或許會比想象中更快到來。
還記得會炒菜的史丹佛 ALOHA 機器人嗎?現在,中國的初創公司自變數機器人(X Square)展示了同樣令人驚豔的能力,甚至更進一步。在該公司最新展示的 Demo 中,完全基於大模型自主推理的雙臂機器人,利用低成本硬體即實現對不規則物體的精細操作(如抓握、拾取、切割等),以及摺疊衣服、沖泡飲料等複雜任務,展現出相當程度的泛化效能。摺疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個 manipulation 領域的難題,需要高度靈活的操作和精細的動作協調。
切火腿(2 倍速播放):複雜的摩擦和阻力,難以用傳統方法快速建模,需要精確的力度控制與物體定位。
切黃瓜,2 倍速播放:在一種物體上習得的能力直接泛化到不同物體的操作上。
用海綿擦掉案板上的汙漬(2 倍速播放):自修正的 close loop 控制能力,在不同壓力和表面條件下的精細力度控制,實時檢測並調整擦拭動作,確保徹底清潔汙漬。
用勺子從罐子裡取出適量的果汁粉(3 倍速播放):使用工具的過程中,處理複雜的摩擦一直以來都是極大難點。
衝果汁,舉起水壺往杯中倒入適量的水(3 倍速播放):流體引入大量的隨機性,準確操作非常困難。這家去年底成立的公司,匯聚了來自世界著名人工智慧 / 機器人學實驗室以及國內外頂尖高校的優秀人才,擁有雄厚的科研背景。公司的目標是「將人類從無意義的體力勞動中解放出來」,專注於機器人領域的基礎模型(foundation model)研發。目前,團隊正在構建一個具備從感知到行動的端到端能力的通用機器人大模型(“中樞神經”),目標是能夠控制低成本硬體(如數千元的機械臂),完成包括烹飪、打掃衛生在內的日常家務,並在未來擴充套件到照顧老人和小孩等更復雜的家庭護理工作,以及完成其他達到人類水平的通用操作任務。儘管機器人管家是人類對智慧未來最具代表性的暢想,但在現實生活中,能夠勝任家務勞動的通用服務機器人幾十年來的發展一直困難重重。家庭環境的多樣性和不可預測性要求機器人具備高度複雜的感知能力、靈活精確的機械操作、智慧的決策和規劃,以及有效的人機互動能力。此外,技術的整合、機器人的安全性、續航能力、成本等,也是必須克服的重要障礙。傳統的機器人通常採用基於規則和單一任務環境的方式,很難根據環境變化自主調整策略,從長遠看也幾乎不可能規模化。大語言模型(LLM)等人工智慧技術的突破,為機器人領域帶來了新的曙光。谷歌的 RT-2 系統將視覺-語言-動作模型與機器人技術相結合,使機器人能夠處理複雜場景,並響應人類的指令。DeepMind 的 AutoRT 系統則使用視覺-語言模型(VLM),幫助機器人適應未知環境,並利用 LLM 來為機器人提供指令。大模型在知識遷移和泛化方面的這些優勢,有望幫助機器人逼近甚至超越人類的水平。X Square 認為,目前機器人領域正處於技術的代際更迭之際。史丹佛 ALOHA 等專案表明,通用機器人發展的瓶頸在於智慧而非硬體。事實上,機器人領域長期以來面臨的兩大困難,一是如何在複雜環境中精確感知並做出精細的操作(low level 智慧),二是缺乏類似人類的推理、規劃、互動等高階認知能力(high level 智慧)。從感知到行動,機器人的智慧可以被視為一個從 high level 逐步到 low level 的決策過程。大模型的出現為解決上述難題帶來了新思路。運用 LLM 或 VLM 來進行高階推理與規劃、與人互動,已經成為業界公認的發展方向。但是,直接用單一的大模型來驅動端到端的機器人 manipulation,目前嘗試的團隊還不多。X Square 的獨特之處便在於此,團隊基於過往在模型、演算法、系統、硬體等方面的科研成果積累,集合所有技能訓練「機器人 Large Manipulation Model」,從手部操作切入,基於具身大模型來構建可以精細操作的通用機器人。團隊希望結合 high-level 的推理規劃模型與 low-level 的操作控制模型,打造一個類似「機器人大腦-小腦」的通用作業系統。「我們公司名為 X Square,寓意要同時在 high level 推理和 low level 控制這兩個維度做大模型,並把兩者有機結合。目前我們在兩個方向都已有不錯的基礎,有信心在一年內從追趕到超越目前的世界領先水平。」X Square 指出:「與腿的移動能力相比,手的操作能力包含了更豐富和複雜的動作,要求更高階別的控制精度。人類手部的精細操作是我們智慧的根本表現。」不同於很多人形機器人公司關注對人體形態的模仿,X Square 更關注實現接近人類的功能。「採用輪式移動底盤搭配雙臂,可以大幅降低成本,2-3 年內整體硬體成本有望降至 1 萬美元以下,我們認為放棄 5% 的人形功能來換取數量級的成本優勢是值得的。」軟硬體一體,驅動資料飛輪
「我們希望模型擁有怎樣的能力,就需要提供給模型什麼樣的資料。是資料,而非演算法或結構決定了模型的能力,這是當今時代的核心方法論。」
機器人的特殊性在於,它是一個具有前所未有複合性的綜合系統。相比純軟體的 LLM 和多模態大模型,具身智慧大模型雖然在規模上暫時無法與之相比,但在工程上難度要高出許多,它必須在海量的真實和模擬場景中不斷實踐、學習。因此,能否找準技術方向,在降低開發成本和提高迭代效率的同時,打造高質量的資料採集能力,控制試錯成本,最終實現規模化,是決定成敗的關鍵因素。
這對團隊軟硬一體的能力提出了很高的要求,因為是否具有足夠的軟硬結合能力,在機器人這一多模態集中融合的領域直接關係到迭代速度與資料質量。軟硬體一體發展,是 X Square 的核心理念。無論是機器人本體的形態設計,還是資料採集系統,都是為機器人「中樞神經系統」的開發在服務。
在模型演算法設計上,X square 也有自己獨特的理解和創新。「除了需要有專門的資料,還需要針對性的結構設計和訓練方法,不能單純套用其他領域的大模型經驗,因為它必須直接面對複雜的真實世界,要在真實世界中不斷實踐、迭代。」
同時,由於大模型與傳統 deep learning for robotics 具有相當的 gap,是否真正具備足夠的大模型訓練落地經驗,決定了能否快速構建通用具身智慧大模型。這也正是 X Square 的優勢所在。
「目前語言大模型的訓練預測架構在機器人上不完全work,以 Transformer 為底座演算法模型不能很好地支援因果關係的推理,而因果性在機器人所在的物理世界中大量出現,並在機器人操作中起關鍵作用。為了處理因果性,目前有很多 world model 的嘗試。但當前的世界模型要麼完全集中在影像 / 影片重建上(如 Sora),要麼完全集中在高層語義理解上,缺乏適合機器人的形態。」
X Square 篤定機器人大模型這個方向,一方面是基於團隊成員親歷深度學習從被質疑到一統江湖,以及 LLM 從默默無聞到大放異彩的技術浪潮,另一方面,也是看好中國作為全球硬體中心,擁有得天獨厚的產業鏈優勢,也有利於快速縮短機器人的研發週期。
團隊在不到 3 個月的時間裡,就完成了技術架構的搭建和早期模型的訓練,展現出驚人的成長速度和卓越的工程能力。
「在現階段,我們也積極尋求與上下游合作伙伴的協作,實現智慧的迭代升級。未來,隨著具身智慧大模型技術的日益成熟,我們會更聚焦於特定應用場景,推出自己的機器人產品,例如能完成做飯、打掃等複雜家務的機器人保姆,甚至進行老年人康養護理等服務。」X Square 表示。