人形機器人發展應該回歸“常識”,建立“共識”

新闻助手發表於2025-03-03

毋庸置疑,人形機器人是目前最火的產業和技術話題,人們期望著人形機器人能儘快走進千家萬戶,解決人類危險或重複的工作、家政服務、養老陪伴等需求。人形機器人企業也受到了各地政府和產業界的密集關注,產業政策紛紛出臺、資本市場風湧雲動,產業鏈上下游整裝待發,整個行業迎來了颶風。作為一個在機器人行業從業了近十年的老兵,也不得不提出一些擔憂和看法,供諸君參考。

不管人形機器人有多火,不可否認的是人形機器人在國內的發展週期也就是兩三年的時間。一個幾乎是一夜爆火的高技術產業,即便有一些泛AI或機器人的技術體系可以複用與融合,但能夠立刻帶來人類文明顛覆性的變化是不符合事物的發展客觀規律的。無論DS、GPT的智慧水平多麼讓人驚喜,但目前依舊只是LLM(大語言)模型,離完全理解物理世界還有很大的距離,無論馬斯克多麼激進的宣稱要快速實現人形機器人量產,Optimus的近幾次公開秀依舊離不開遙操作,技術的不確定性引起特斯拉的股價動盪下跌。因此,在筆者看來,人形機器人的技術和產業發展,依舊需要擁有常識和建立共識,這不是對行業的唱衰和技術保守,反而是希望行業能夠健康長期的快速發展。

AGI的物理終極形態未必是足式人形,泛人形更有價值

國內頭部的人形機器人公司,釋出的產品按形態大致可分為兩類,一類是對標Optimus的雙足式的,如宇樹、雲深處、眾擎等,這類機器人公司基本由原先的四足類機器人公司迭代升級,有很好的技術繼承和成熟的開發體系,迭代很快,尤其在下肢的運動控制能力進展驚人。另一類則是以輪式作為機器人的底座,著重開發大腦和雙臂這些上半身軟硬體能力的,以院校和海歸類技術團隊為主,如銀河通用、星海圖(智元機器人足式、輪式皆有)。很明顯當前第一類企業更出圈,其表現出的越來越強的能跑能跳的姿態運動控制能力,很顯性,很讓人看著興奮。

人形機器人發展的最大底層邏輯是其是實現AGI(通用人工智慧)的最佳載體,人形機器人概念的提出,讓整個機器人行業看到了一套硬體打天下的可能。但這裡需要討論的是,足式的下半身到底是不是最優解?AGI的實現到底更需要上半身能力還是下半身?我想這在行業內遠未形成共識。

就穩定性、能效、行走速度、靜謐性而言,輪式結構的優越性顯而易見,人類的進化未能形成輪結構,但輪式的確是比足式更優的行走幾何結構,是實現AGI的物理最優解。以目前大家需求的應用場景思考,輪式、輪足式、履帶式底座的泛人形的更具通用性。反而純足式行走,只適合特殊的且對連續作業及靜謐性要求不高的場景,比如需要低成本上下樓梯或跨越臺階且沒有電梯、坡道輔助的場景。

位姿運動控制很重要,但更重要的是空間智慧和決策智慧

目前刷屏的人形機器人跑步、跳舞、打拳動作絲滑流暢,機器人本體結構運動能力進化很快。但需要理性的是,對機器人本體的位姿協調控制,和機器人決策、執行人類工作任務是兩個層面的智慧要求。簡單的說,雙腿運動控制和雙臂作業控制是小腦能力和大腦能力的區別,是低等生物和高等智慧生物的區別,獵豹可以跑的很快,但不可能被訓練完成人類的複雜工作,馬戲團裡的娛樂表演有動物就行,但目前進工廠工作和家政服務的還必須是人。

大模型未來的能力被寄期望於幫助人形機器人實現具身智慧,但目前看來還在早期階段,甚至目前基於scaling law的LLM大模型開發是否是實現AI智慧體的終極技術路徑,也是不確定的。人類的智慧水平是一種生物智慧的表現,其有當下算力智慧遠不及的端側效率、多模態感知和實時建模能力、自學習推理和感性意識決策能力,而目前語言大模型的不可解釋性和幻覺,對物理空間的弱理解、以及對能耗、算力的要求,都遠達不到支撐端側人形機器人的作業泛化能力。

空間智慧應該是人形機器人泛化應用的基礎,人形機器人很難在不理解物理世界的情況下能夠準確掌握人類意圖並完成作業任務。24年AI教母李飛飛教授創業的空間智慧方向讓人驚喜,這或許是未來AI+機器人發展的元要素。

便如此,在空間智慧的基礎上,人形機器人應用的終極還面臨決策智慧的挑戰,這是更高維度的任務層處理機制,無人駕駛這樣的單任務系統都還未實現,人形機器人可能面對的是廣域的多工複雜系統,具身智慧實現又談何容易?

人形機器人的硬體沒有顛覆性創新,人形機器人廠家首先應該是一家AI公司

人形機器人從底層硬體架構看,實際並沒有顛覆性突破,也是驅控、電機、感測器、電池、算力等模組的匹配選型和重新組合,因此人形機器人企業在硬體上實質上也是一種類整合,當然,也有部分人形廠家在底層自研電機、驅控和感測器等,但人形機器人可以說是當今技術下的最精密的複雜系統,不可能由企業一家包打天下,就像中國的新能源汽車賽道一樣,短短十年可以彎道超車,首先得益於中國汽車供應鏈的完善。當下人形賽道異常火爆,也帶動了產業鏈上下游企業的關注和配套研發投入,這一點非常關鍵,甚至是未來人形機器人產業能否在全球市場持續領先的基礎。

未來的產業分工,人形機器人的整機廠家更應該是一家AI驅動和場景驅動的公司,按照產業發展規律,在供應鏈趨於同質化的背景下,強AI能力才是人形機器人企業的定位和未來競爭的核心點。

To C看似容錯性高容易落地,但實則技術泛化能力要求更高

人形機器人規模化落地場景的順序,to C一定是晚於to B落地的。就像新材料的應用,很多是在航天、軍工等特種行業成熟應用後,才逐漸民用化。先不說上一節討論的成本問題,就機器人AI能力的訓練和適配來看,B端的一些場景也要比C端更容易實現。以控制理論看,C端場景是一個完全無約束的系統,而且存在大量的擾動量和未知關聯變數,被控物件的重複性和一致性也很弱,這無疑是最難的,即便現在的AI大模型端到端訓練具有黑箱化的特點,可以忽略傳統控制理論 的內在邏輯,但越是這種不可解釋性,其與機器人物理結構耦合後的執行結果越不可預測。

反之,工業場景內,無論是物理空間還是被操作物件,都相對標準化,需要完成的任務作業也都有流程體系支撐(例如標準程式檔案、作業指導書等),這是對人形機器人的任務決策能力是一種降維要求。就像交通法規很大程度上支撐了無人駕駛的rule-base。因此,如果現在的人形機器人研發目標直接錨定在家政服務、養老服務這些C端場景,短期內落地的可能性極小,當然如果只是片段化作業能力的要求,也未嘗不可,比如掃地這件事,目前機器人就可以基本實現,但問題是,如果這樣定義場景需求,人形這樣的通用形態還有意義嗎?

現階段的競爭不應該是成本,還應該all in場景功能的實現

不是人形機器人的成本控制不重要,但拿著國內供應鏈的整合優勢,在全球市場現階段希望靠低價取得人形機器人產業的未來勝利,顯然是違背產業規律的。現階段的人形機器人競爭依舊還在高技術層級的競爭,如前述,大規模量產階段還遠未到來,還有諸多的核心技術門檻有待攻克。

所以與其現階段追求人形機器人的極致降本,不如先全力擴充人形的落地場景,把最先進的材料、最高效能的晶片、最高階的驅控和電機、最前沿的感測器、最強的演算法都應用上去,先驗證技術場景落地的可行性,先做加法,再做減法,把降本這件事留到真正規模化之後再去做。按照中國的硬體製造能力,高階通用人形機器人(宇樹H1是65萬元)未來的售價絕對不會比一輛家用轎車貴,一旦機器人作業能力的拐點實現,走進千家萬戶是遲早的事。

謂的規模量產的標準是成功交付,而不是生產出來

目前人形機器人廠家動則宣佈千臺級別的量產,實在是讓人笑而不語,這種帶節奏的說法點動了上下游產業鏈和資本市場的熱情,但有多少是真正交付到使用者手裡的應用現場,可能只有這些廠家冷暖自知了。反觀近日網傳的小鵬汽車何小鵬在朋友圈發表的對人形機器人L1-L5技術分級和落地階段的判斷、以及高盛釋出的一篇行研,才算是人間清醒。目前,人形機器人真正的落地場景依舊主要是科研教育和娛樂表演,但這個階段似乎和某國內人形上市的先驅企業數年前的主戰場並沒有太大區別,只是換成形態更像人和更大的plus版,24年該企業紅紅火火的宣佈其人形機器人進入某頭部新能源汽車品牌的生產線打螺絲,時至今日,即便是特斯拉,其Optimus也只是在區域性工藝流程測試。

可以說,目前的人形機器人廠家基本都還在本體開發和場景驗證階段,雖然現在的科研教育和娛樂表演市場的需求也足夠個別人形頭部企業吃飽,但和現在國內過百家的人形機器人企業的研發和融資體量比,真的是杯水車薪,當下談“量產”的拐點還為時尚早,整個行業都要更耐心、更理性的扎扎實蹚出應用場景和規模量產的路。

結束語

人形機器人的發展絕不會像當前大家期望的一樣一路順風,甚至要準備迎接技術瓶頸期和冰河期,人形機器人需要長期主義,需要資本、生態、人才等諸多發展要素共同作用,甚至需要個別天才帶來的技術拐點,但過早的透支了人形機器人的發展預期,導致行業資源大量的浪費,在目前技術底座還不完善的情況下,難免讓人擔心不會是空中樓閣,大量的低水平、同質化的人形機器人企業,甚至是花費大量財政資金支援的整合創新而非具有底層研發或者產業化能力的企業,導致整個行業被反噬。

希望人形機器人這個行業越來越好,可以儘快的造福人類,再一次的解放生產力,但這樣一個集當代技術大成的智慧產業,應該是科學大家和技術極客們的長期專注耕耘,而不應該成為像現在一樣被過度娛樂化、情緒化。

相關文章