人工智慧的卓越發展
源於對技術與產業本質的洞察
機器之心影片欄目「智者訪談」
邀請領域專家,洞悉核心趨勢
深化行業認知,激發創新思考
與智者同行,共創 AI 未來
2024 年,人形機器人領域迎來爆發式增長。特斯拉 Optimus 的持續迭代、OpenAI 對 1X 的戰略投資,眾多初創公司異軍突起,以及包括 Mobile ALOHA 在內學術界的不斷創新,共同描繪出一幅激動人心的未來圖景。技術進步的浪潮固然令人振奮,但保持清醒和冷靜,在開放探索的基礎上,審慎選擇最符合時代需求和技術發展規律的路徑,才是引領人形機器人走向成熟的關鍵。本期機器之心《智者訪談》邀請到清華大學自動化系研究員、機器人控制實驗室主任趙明國教授,從運動控制的視角看人形機器人發展。趙明國教授在機器人控制領域有二十多年的研究與實踐,他認為當前人形機器人領域呈現出如春秋戰國般多元化的發展態勢,這既是蓬勃發展的象徵,也潛藏著方向迷失的風險。趙明國教授強調,「智慧人形機器人」不能只是「智慧」和「人形機器人」的簡單疊加,而應當是一個全新的研究主題和技術範疇,需要機器人學和人工智慧兩個領域更深層次的融合,製造能夠在複雜環境中自主適應和學習的智慧體。對大模型技術在機器人控制領域的應用,趙教授認為單純依賴「大腦」解決運動控制問題並不合理。人類的運動控制是一個複雜的多層次系統,涉及本體反射、中樞控制和大腦控制等多個層面。我們需要更深入地研究生物系統的運動控制機理,重新思考機器人控制系統的架構,並探索更有效的學習和最佳化方法。趙教授主張技術的先進性並不等同於實用性,只有與時代需求和經濟發展相匹配的技術,才能真正落地生根,開花結果。例如,維納控制論中的很多思想因為過於超前而未能對早期的計算機和人工智慧起到重大的推動作用。那麼,究竟什麼樣的技術路線才能最終勝出?人形機器人的未來又將如何演變?點選觀看影片,讓我們一同探索。機器之心:趙明國教授好,非常高興您做客機器之心的《智者訪談》。近年來,隨著具身智慧和大語言模型的迅速發展,公眾對於如何實現智慧機器人的討論熱度空前。今天我們很高興能與您從運動控制的視角探討人形機器人的發展前景。談及人形機器人,人們往往會聯想到幾家著名企業,比如專注於機器人運動控制和硬體設計的波士頓動力,以及憑藉在人工智慧和大資料方面的優勢進軍人形機器人領域的特斯拉。趙明國:事實上,在波士頓動力之前,日本本田公司就已經在人形機器人領域做出了開創性的貢獻。波士頓動力主要專注於提升機器人的運動控制能力,而特斯拉則依託其在自動駕駛技術和先進器件方面的優勢,更多從製造業和供應鏈的角度切入,為人形機器人的發展帶來了全新的思路。這種方法讓許多人認為,如果未來機器人要實現大規模應用,特斯拉的路線可能更符合當前技術發展的趨勢,因此也有不少企業選擇追隨特斯拉的發展路徑。然而,這並不意味著波士頓動力或本田的技術路線就失去了重要性。我認為這些不同路線都有其價值,因為技術的進步是一個漸進的過程,需要一代又一代的積累和發展。除了企業的努力,學術界也在不斷提出新的理論和方法。目前,許多公司,包括一些創業團隊,正在嘗試將學術界的研究成果與本田、波士頓動力和特斯拉等公司的技術應用相結合,探索新的發展方向。當前人形機器人領域的發展狀況,可以比作春秋戰國時期,雖然存在幾個主流的技術路線,但更多呈現出百花齊放的局面。機器之心:眾所周知,運動控制是建立在明確的運動學和力學原理基礎之上,在數學和工程方面具有嚴謹性。相比之下,人工智慧具備自適應和自學習能力,尤其在處理複雜問題時,AI 常能發現人類難以想到的解決方案。然而,這種特性也帶來了可解釋性的挑戰。波士頓動力的機器人在運動控制方面表現卓越,同時也展現了高度的智慧。例如,配備機械臂的 Spot 機器人在物體識別和抓取方面表現出色。另一方面,以 AI 技術見長的特斯拉在硬體領域也投入了大量資源。您一直強調將運動控制與人工智慧相結合的重要性,在發展人形機器人方面,我們可以從這些公司的實踐中獲得哪些啟示?趙明國:人形機器人與人工智慧的結合可以採取多種方式。其中一種是兩個領域各自發展,然後將各自的優勢整合。但除此之外,還存在其他途徑。以波士頓動力為例,他們曾強調專注於運動控制而不涉足人工智慧,但實際上他們也運用了一些智慧的方法。不過,他們的核心在於解決運動控制問題,如行走、奔跑和跳躍等,只不過在解決這些問題時,他們採用的方法可以是傳統的運動控制技術,也可以是智慧的方法。同樣,專注於人工智慧的公司在解決智慧問題時,也會使用機器人作為載體。例如,進行對話互動時,可以選擇人形機器人,也可以選擇智慧音響,這對智慧本身的影響並不顯著,核心問題在於能否實現順暢的人機互動。然而,要將人工智慧與人形機器人真正深度融合,就像「白馬非馬」這個哲學命題一樣,需要創造出一個全新的事物。智慧人形機器人必然不同於傳統意義上的智慧系統,也不同於常規的人形機器人,而是一個更深層次融合後的獨立存在。我認為「具身智慧」這個概念較為貼合這種場景。在這種情況下,我們期望機器人能展現出行為層面的智慧,不僅能夠在各種複雜地形上行走,還能在面對干擾時完成任務,表現出智慧化的行為。例如,機器人應該能夠避開障礙物,在動態環境中規劃路徑,比如開門這個典型案例,包括應對不同形狀、不同型別的門,同時能制定策略繞過中間的障礙物,或者在有其他人同時開門時做出規避或讓步等行為。在手部操作方面,這樣的例子更為豐富,因為人類大部分操作都是透過手來完成的。這是一個全新的研究主題——如何讓機器人展現智慧。這需要機器人學和人工智慧兩個領域進行更深層次的融合,而不僅僅是一個領域借用另一個領域的技術來提升自身。我們需要將兩者有機結合,創造出一個全新的技術範疇。機器之心:您的觀點非常具有啟發性,但似乎目前很少有人從這個角度來探討這個問題。趙明國:這實際上取決於不同的視角,我只是試圖將問題闡述得更加清晰。無論採用何種方法,要開發出這種新型機器人,我們需要考慮幾個關鍵。首先是腿部的智慧;其次是手部的智慧,包括手指和手臂的智慧,手臂負責運動,手指負責實際的抓取和操作。在進行手部操作時,腿部通常也在運動,這需要手足協調。除此之外,還有一些全身性的智慧,如騎腳踏車、攀巖,以及前面提到的開門,這些活動強調全身的協調。從運動能力的角度來看,有些智慧機器人可能更側重於腿部功能,有些更注重手部功能,還有一些可能側重全身運動,也可能是這三個領域的不同組合。在早期階段,我認為可以為這三個領域分別選取一些典型案例作為代表,用它們來推動技術發展,並作為標準測試平臺。如果一個機器人能夠完成特定任務,就意味著相關技術已經取得突破,能夠實現某些功能了。我們可以從一個領域開始,逐步擴充套件到兩個,最終實現三個領域的突破,然後再考慮實際應用。當然,也有團隊選擇直接從應用需求出發,透過反向推導來進行開發。目前業界還沒有形成共識,各種方法都有人在嘗試。但從最基本的邏輯看,無非就是這三個領域的不同組合。機器之心:您在仿人機器人雙足步態控制領域擁有 20 餘年的研究實踐和經驗,見證了技術的幾代變遷。雙足控制一直是機器人研究中的一個難點,您認為目前該領域面臨的主要技術瓶頸是什麼?趙明國:這個領域確實經歷了一個漫長的發展過程。傳統上,研究者傾向於從仿生角度來解決這個問題,但由於仿生機理尚未完全掌握,最初出現的是一些簡化模型。這些模型雖與人體某些運動相關,但並不完全相同,它們借鑑了人體生理學的某些特徵,如倒立擺模型。這些簡化模型雖然維度較低,但在當時的計算機水平下能夠實時完成計算,因此在那個時期是較為有效的選擇。我們現在使用的許多方法,如模型預測控制(Model-Predictive Control,MPC)和全身控制(Whole-Body Control,WBC),都源自上世紀。我認為真正的突破在於 MPC,它引入了對未來進行預測這一非常重要的概念。這一點在人工智慧領域也很重要,即基於某些知識對未來進行預測,兩個領域在這一點上是共通的。近期,由於強化學習的突破,我們能夠在模擬環境中進行強化學習,然後將獲得的策略遷移到實體機器人上。這一路徑已被證明是可行的,我認為這是一個相當重要的貢獻。現在透過強化學習方法,大多數初創團隊能在幾個月內讓機器人完成多種複雜任務,比如運動恢復和粗糙地面行走,這些任務在過去需要大量時間和資源才能攻克。目前的模擬技術能夠支援大部分運動學和動力學的模擬。然而,對於視覺和其他多種感測器的模擬,還無法達到與人類感知相媲美的真實程度。對環境的模擬,尤其是彈性物體的模擬,仍有待改進。如果這些方面能夠得到顯著提升,這些工具將大大加速整個研發過程。就人形機器人而言,如果僅關注運動能力,資料獲取可能不是特別困難,或者說運動類資料具有其特殊性。我個人認為,小規模資料集可能已經足夠。但現在面臨的挑戰是,究竟需要什麼樣的小規模資料集?這個問題每個研究者的看法都不盡相同,我認為這在很大程度上取決於具體的任務需求。2024 年初引發廣泛關注的 Mobile ALOHA 專案,沒有使用模擬,而是透過遙操作來獲取真實場景資料,直接解決了對齊和許多中間環節的技術問題。在這個方向上,研究者會開發出多種方法來快速有效地獲取資料,這是一個非常明確的發展趨勢。另一種可能的方向是利用積累的大量影片資源。如果能直接從影片中獲得機器人運動控制所需的資料,將會是非常有價值的。舉例來說,中學生學習打籃球時,很多人會模仿喬丹或科比,他們透過觀看影片來學習,儘管喬丹和科比並未親自指導他們,他們也沒有這些球星的任何詳細資料。然而,由於機器的能力水平還無法像人類那樣從影片中學習,我們不得不透過模擬或遙操作來獲取資料。不過,對於完成人形機器人的某些複雜運動來說,遙操作方法可能與完成簡單任務(如刷盤子)還有所不同,需要綜合考慮視覺等多個方面。機器之心:您提到機器的能力還無法像人類那樣從影片中學習,具體是指哪些能力呢?趙明國:我主要指的是處理資料的能力。目前,機器的視覺分析能力還不足以從單目相機拍攝的普通影片中直接分析出人的準確三維座標,或者將其轉換為所需的資料格式。在人形機器人領域,目前的重點依然是從模擬中獲取資料。在模擬的潛力沒有被完全挖掘或達到瓶頸之前,研究者肯定會集中精力在模擬方面深入探索。但是,當任務發生變化時,模擬的侷限性就會顯現出來,而目前又無法直接從影片中獲取所需的資料。在這種情況下,像 Mobile ALOHA 使用的方法就非常巧妙,因為它解決了資料獲取的難題。然而,如果要讓機器人完成諸如踢足球、打籃球或攀巖等複雜運動,遙操作的方法可能就不太適用了。隨著研究的不斷深入,我相信還會出現許多新的技術手段,最終很可能會發展到能夠直接利用影片資料。體育院校積累了大量運動資料,如何有效利用這些資料也是一個值得探討的問題。我認為這在很大程度上受到資料採集和分析手段以及演算法的影響。但最終的核心問題仍然是如何獲得高質量的資料,以及如何有效利用這些資料。這兩個問題都在不斷髮展,但核心邏輯仍然是進行學習和訓練,獲取資料,然後利用資料進行訓練,這兩個基本步驟沒有改變,但在具體實施細節上會發生許多技術上的變革。目前,技術發展速度非常快,甚至在一週之內就可能產生一些新的突破性結果。機器之心:您曾提到過工程師在面對資料問題時的思維方式——資料不足就增加感測器,成本受限就減少感測器,這與傳統 AI 研究人員的思考方式有很大不同。趙明國:傳統上,運動控制主要依賴於確定性的控制方法,與人工智慧的關聯並不緊密。然而,當機器人被置於動態環境中時,單純的控制方法往往難以應對複雜情況。例如,線上的傳統控制方法可能不符合生物系統的某些特性。在這種情況下,一個可能的解決方案是引入人工智慧,或將人工智慧與控制方法相結合。儘管如此,具體的融合方式仍有待探索。傳統上,我們習慣將系統劃分為規劃、感知和控制等幾個模組。近來,端到端網路逐漸流行,這種方法可能實現我們所需的效果。然而,端到端方法下,系統的內部結構可能與我們常規認知中的模組劃分不同。儘管它可能依舊包含類似規劃、感知、控制的功能,但其劃分方式可能與傳統方法大相徑庭。我認為不應強求 AI 系統的內部結構必須符合傳統認知或經驗,關鍵在於它能否有效地解決問題。我們正處於一個關鍵的技術變革時期,眾多新的技術和方法正在誕生。這些新事物的最終形態以及哪些會得到廣泛認可和普及,目前尚難定論。但可以肯定,一些新的關於機器人控制系統的結構必將出現。這可能需要一個互動式的學習過程:一方面,機器在不斷學習和進化;另一方面,人類也在觀察和學習機器如何解決問題。我們需要學習總結機器的這些方法,並將其提升到方法論的層面,這很可能是一個反覆迭代的過程。然而,有一點是比較明確的:如果要在傳統方法的基礎上實現突破,你會發現傳統方法已經充分利用了可獲得的資訊。許多現有的解決方案已被證明是最優的,如果不引入更多的感測器,本質上很難超越原有方法的效果,因為這些方法已經達到了極致,並無明顯缺陷。除非你改變了問題的定義,在這種情況下,你並非是將原問題解決得更好,而是改變了問題本身。趙明國:確實如此。許多頂級期刊也在討論最佳化控制與學習方法產生的效果之間的差異。結論表明,在某一個確定的問題上,學習的方法並不會比最佳化方法更好,因為最佳化是針對一個它可以解決的目標,它一定是做得最好或者最好的之一,但是學習可以構建一個比它更好的最佳化問題。對於最佳化方法而言,你必須明確定義成本函式和約束條件,而且這些條件必須滿足特定要求才能求解,因此最佳化方法的適用範圍相對有限。相比之下,學習方法所能學到的策略範圍更為廣泛。我認為硬體本身應該引入更多的感測器。我常舉的一個典型例子是按開關。在整個過程的前期階段,這個動作主要依賴視覺,視覺在相當長的一段時間內佔據重要地位。但當接近開關時,即使視覺精確到 0.1 毫米也無濟於事,此時主要依賴的是觸覺。當觸覺將開關按到一定程度後,觸覺的重要性也隨之降低。最終判斷開關是否啟動,可能需要依靠聽覺(聽到開關的聲響),同時還需要視覺確認燈光的變化。需要指出,這裡所需的視覺能力是對光線瞬間變化的感知,與之前在軌跡規劃過程中使用的視覺能力有所不同。因此,對於按開關這樣一個看似簡單的任務,在整個過程中,涉及各種不同的感官訊號,而且其權重是動態變化的。開始階段主要依賴運動和視覺,中間階段更多依賴觸覺,最後階段則可能綜合運用聽覺和另一種形式的視覺感知。這種動態權重分配的機制與人工智慧領域的注意力機制有一定相似之處。目前的控制方法難以處理如此複雜的邏輯。雖然 Transformer 等模型在某種程度上實現了類似的機制,但它們能否在機器人控制領域同樣發揮這種作用仍存疑問,這是因為人類的實際操作與機器人的操作之間存在本質差異。目前大多數機器人系統實現的動作都只是對人類一些基本動作的模擬,而且模擬的範圍還比較有限。像 ALOHA 這樣的系統很可能是在視覺層面模仿了人類動作的前半部分,在最後階段還難以做到精確控制。這也是為什麼某些看似簡單的任務,比如疊衣服,實際上非常具有挑戰性,因為它不僅需要視覺資訊,還需要觸覺和其他感官輸入。此外,還需要對「什麼狀態下衣服算是疊好了」有準確的認知。僅僅依靠手上的攝像頭是無法獲取所有這些必要資訊的。當前的技術發展主要聚焦於初級階段,因為仍有 90% 的廣闊領域和眾多新興領域尚待開發。但隨著研究深入和產業發展,最後那 5% 的難點會變得至關重要。我相信這些硬骨頭問題終將浮出水面,而研究人員將逐一解決。不過,諸如刺繡等精細操作,或者將金屬加工到極致精密的程度,需要投入更多的精力和成本,但在實際應用中不會立即產生顯著回報。因此,短期內這些問題不會特別受關注。然而,一旦主流技術領域發展遇到瓶頸,這些精細化的問題可能迅速成為研究熱點,並有可能引發新一輪的技術突破。機器之心:大模型的出現引發了人工智慧界的極大熱情,特別是使用 Transformer 架構統一表示文字、音訊和影像等不同模態的資料。這種統一框架的思路是否也適用於人形機器人?例如,是否有可能將疊衣服、洗碗、切菜、炒菜等日常任務,以及跑步、踢足球、跨欄、跑酷等運動技能,都整合到一個統一的框架中進行訓練?趙明國:人工智慧,尤其是大語言模型和視覺模型,更多是在解決類似於大腦中的思考問題,在邏輯分析和認知規劃方面表現出色。雖然將這種邏輯應用於運動控制確實可以解決一些問題,但根據我們對生物學和控制理論的理解,這種方法並不完全適用,也無法全面覆蓋。舉例來說,大語言模型基於預先規劃所有步驟然後執行的邏輯,這實際上是控制領域上一代的思路。早期的仿生學將仿生系統劃分為感知、反饋、規劃和決策幾個部分。然而,現代生理學研究表明,生物的神經系統在運動控制上具有複雜的層次結構,而目前的大語言模型並未充分反映這一點。我認為,運動控制可能需要一套獨有的結構:從硬體層面看,控制頻率極高,需要訊號處理和控制領域的專業知識支援;中間層次,如小腦,其頻率處於中等水平;而大腦的多模態認知部分頻率相對較慢。如何有效地結合這三個層次是一個複雜的問題。簡單地將它們拼接在一起是不恰當的。有人提出使用一個大模型模擬大腦,再用另一個大模型模擬小腦,我認為這種方法過於簡單化。人類的神經系統及其他靈長類動物的神經系統都不是這樣構建的。如果只透過大腦來控制,效率必然低下。人類的運動控制包括本體反射、中樞控制和大腦控制,而且大部分運動更多依賴於本體和中樞。儘管我們對這方面的認知仍然有限,但基於現有知識,很難認為僅靠大腦模型就能很好地完成所有任務。因此,在神經系統的仿生領域或控制系統架構方面,未來可能會出現更先進的理論或模型,這是非常值得期待的。作為一名機器人研究者,我特別不希望看到機器人技術被完全否定,而將所有工作都轉移到人工智慧領域。這樣做不僅無法促進機器人技術本身的發展,最終結果也不會令人滿意。如果人工智慧技術僅僅是滲透到機器人領域,推動機器人產業發展,但機器人行業本身的模式不發生變化,這對機器人領域來說並非好訊息。從產業角度來看,這實際上是一種降級。要實現真正的升級,機器人領域應該結合人工智慧的發展,將其作為一種新的模式,同時提高自身的技術水平,進行升級換代,使其與人工智慧的發展相匹配。只有這樣,才能產生理想的效果,機器人領域的專家才能為人形機器人的發展做出真正的貢獻。機器之心:在構建智慧機器人時,我們需要同時考慮底層的運動控制和上層的規劃與決策。您認為應如何權衡這兩者?趙明國:現有的技術往往機械地將運動控制和認知決策劃分為底層和上層兩部分。從機器人研究的角度來看,我們知道人體的神經系統分為大腦、小腦和脊髓三個主要部分,這三部分具有截然不同的功能,並且有明確的功能分割槽。大腦不僅包含運動神經系統,還有負責整個神經系統訓練的學習功能區。例如,像走路這樣的日常動作,實際上並不需要大腦的直接參與。人體在脊髓中有一個稱為中樞神經的部分,構成了中樞神經系統。這個系統透過各個關節之間的震盪和相互激勵,完成走路等節律性運動。這些節律性運動甚至不需要小腦的大量參與,在脊髓層面就可以完成,而且控制效果相當出色。然而,當遇到路面障礙物時,視覺系統就需要介入。視覺訊號會激發控制系統,引導身體繞開障礙物。生物體能夠很好地解決這種既能產生節律性運動,又能產生非節律性受控運動的複雜任務,而現有的機器人系統尚未具備這種能力。我們要麼是針對節律性運動進行訓練,要麼針對非節律性運動進行訓練,而且通常以大腦的參與為主,對真實生物系統中的整合過程是完全缺失的。例如本體反射,當你被火燙到時,感覺系統會立即感知到高溫,這種感覺透過脊髓迅速傳遞給相應的肌肉,導致肌肉立即收縮。肌肉收縮的訊號又刺激到相應的關節,使手臂迅速縮回。這種反射不需要經過大腦,動作非常迅速且協調。換言之,在大腦意識到之前,你的手就已經本能地做出了反應。當然,最初的反應可能是朝火源靠近,但經過生物進化,最終形成了遠離危險源的反應。隨後,這個訊號會繼續傳遞到小腦和大腦。大腦意識到燙傷後,如果附近有水源,會指揮手部進行有目的的運動,比如將手浸入水中。這種動作既不屬於本體反射,也不是節律性運動,而是大腦發出的有意識決策。人體經過漫長的進化,形成了自己獨特的機制。目前我們對人體生物系統的模擬還很片面,往往是分別模擬各個部分的功能,然後試圖將它們整合在一起,這就導致了整體效果顯得生硬且難以協調。我認為,如果能更多地向仿生方向靠攏,依據生理學原理來設計控制系統,可能會有所突破。然而,這需要生理學專家能夠更清晰地闡釋這些機制,然後我們按照這些原理去實現,這本身就是一個極具挑戰性的任務。即便機制被完全闡明,實現起來也並非易事。機器之心:包括機器人的感測器設計也是一個重大挑戰。趙明國:確實如此,感測器的設計也不一定能完全按照人體的方式來實現。我個人傾向於認為,工程師應該把握最基本的機理。首先,有一條上行的訊號通道,訊號從末梢感測器向上傳遞到脊髓、小腦和大腦,這個過程需要一定的時間延遲,形成一個動態系統。其次,有一條下行的訊號通道,訊號在神經系統做出決策後向下傳遞,這同樣是一個動力學系統,兩條訊號通道都存在一定的時間延遲。同時,相鄰的神經系統需要形成區域性的迴路,包括脊髓迴路、小腦回路和大腦回路。這三個迴路的特徵在目前的控制系統中很少得到完整體現。不過,隨著人工智慧和神經網路技術的進步,以及硬體裝置的發展,有可能出現更符合仿生特點的系統。目前有許多研究,如類腦控制、類腦 SLAM 等,都在嘗試這一方向。雖然這些方法並沒有完全按照生物系統的原貌去實現,但它們把握了核心機理,可以利用現有的電子和機電器件,按照訊號處理的方式重新構建整個系統,實現全新的架構。我認為在仿生這個方向上還有很大的創新空間,從長遠來看,在仿生領域繼續深入研究是很有價值的。機器之心:這個方向與具身智慧結合起來,應該能夠開拓出廣闊的研究空間。趙明國:沒錯,這可以作為具身智慧研究的一個分支,因為智慧本身就包含仿生的方向。我們可以按照現有的技術路線繼續深入研究,將細節做得更加深入和透徹。但是,單純依靠堆積資料和算力是否就足夠了?只要能夠取得很好的結果,這種方法也並非不可行。我認為研究人員可以從不同角度展開研究,而不是片面否定或過度依賴某一種方法。這就像從不同角度登山,最終都有可能到達山頂。機器之心:關於人形機器人,目前還沒有明確的應用場景。您認為哪些領域或者行業可能率先看到人形機器人走向實際應用?趙明國:人形機器人應用場景的話題其實已經討論多年了。不過,我們要區分願景和現實。就像手機電池,理想情況下大家當然希望不需要充電,但實際購買時還是要考慮成本等多種因素。現在討論人形機器人的時候,很多人沒有明確區分願景和現實。就應用場景而言,我認為可能包括工廠、養老、家庭服務、餐飲、接待、危險作業等。但目前還沒有哪個場景能夠保證立即實現。大家普遍的思路是用機器人替代人類完成現有工作,這自然是必要的。但除此之外,如果人形機器人能夠創造新的應用場景,包括那些原本不被重視或並非剛需的場景,因為人形機器人的出現而成為可能,我認為這對人形機器人的發展可能會起到關鍵作用。實際上,這個問題可以分為科學問題、技術問題、產品問題和商品問題。人形機器人可能還處於技術問題甚至科學問題階段,很多基礎的問題仍未解決,比如我們前面談過的智慧控制系統架構究竟如何實現,技術還在不停演變和發展,有些問題的解決方案相對明顯,但大多數還不明朗,大家都在嘗試的過程中。這時候討論技術路線該如何實現,是使用 A 路線 B 路線還是 C 路線,或者很多人已經做到商品化,要大規模賣。我覺得我們還處於混沌的狀況。機器之心:在機器人的發展歷程中,您能舉例說明技術和應用場景是如何相互影響的嗎?趙明國:電機就是一個很好的例子。早期機器人使用的電機與現在有很大不同,例如在 ASIMO 那個時代,典型的電機是空心杯,火星車也用的是空心杯電機,它形狀細長,效率很高,佔用空間小。隨著機器人技術向更高精度、更復雜控制和更高效能的發展,空心杯電機逐漸被無刷直流電機等型別所取代。電機的設計也在不斷變化。例如永磁力矩電機,以前是內轉子的,現在用外轉子,因為後者氣息更大,力鉅密度更大,對人形機器人這種移動體來說更實用,而且它還可以把關節做到扁平。這種電機最近幾年很多人在做,但其實這些種類早就有,只是應用領域不一樣。外轉子電機最早用於四旋翼飛行器,後來被應用到人形機器人上,大家突然發現,這其實是明擺著的道理,就應該這樣。這就是技術和產業相匹配的結果,大家會找到一個平衡點。感測器和驅動器也在朝著高度整合的方向發展。這背後有經濟規律支援,產業需求和技術在特定時間點一定是匹配的,誰匹配得好,誰就能獲得發展,匹配不上的就得不到發展。這一點在計算機領域的體現更為明顯。馮諾依曼架構之所以長期主導,很大程度上是因為它作為一種線性結構,最容易大規模生產,尤其在當時生產製造水平較低的情況下。雖然現在也有很多新的架構出現,但要完全取代馮諾依曼架構依舊困難。機器人領域目前也處於百花齊放的階段,要實現大一統,讓大家公認某一條路線還很難,但可以肯定的是:誰迎合了社會的需求、生產力的需求,誰就能勝出,而非基於主觀願望,比如「我認為未來人形機器人能進工廠,能進家庭」,但並不是大家都認可現在做就一定能夠成功。我覺得這取決於市場,國家政策也可能起到推動作用,但技術的突破存在不確定性,科學家也無法保證只要給我多少條件,就一定能把技術突破。有的認知,可能是在形成的過程中,先把戰術做起來,最後才會形成戰略,並不是說先把所有戰略都想清楚了。但是,這背後一定是有規律的。我個人覺得一方面要勇於實幹,在市場上積極嘗試,另一方面,如果明顯在邏輯上有漏洞的東西,可能就少做,或者重要性別放那麼高,優先做的一定是你認為更符合邏輯,或者是更容易實現的。這跟時間點也有關,比如說現在大資料、大算力,如今市場環境這些更容易獲得,在這上面投入自然更容易出成果。但這時候如果你非要從事仿生,可能最終仿生就是正確的,但仿生學在 20 年以後勝利,並不意味著現在做仿生就能取得成功,現在從事仿生學研究可能連經費都拿不到,更不用說做出典型案例了。歷史上有一個很好的例子,維納在 MIT 找了兩個年輕人,由於計算機最終採用了馮諾依曼架構而非他們的方案,這兩個年輕人都鬱鬱而終,三十幾歲就去世了,對此維納也無能為力。這並非他們的想法有問題,回過頭看,你會發現如今很多概念,比如具身智慧、存算一體,智慧控制等,維納在《控制論》中都有提及,除了控制論,他的思想還啟發了資訊理論、系統論。機器之心:我在《維納傳》裡有讀到,確實令人惋惜,時代沒有準備好。趙明國:沒錯,關鍵在於時間點不對,太過超前了,當時的技術無法支撐,或者說社會還沒有相應的需要,因此無法產生經濟效益。並不是說這些想法從科學角度看存在問題,而是從應用角度看,它們還不適合當時的環境。我認為可以從不同視角來看。以維納為例,在科學方面,他毫無疑問是頂級大師,但在產業方面,維納對產業有啟發和引領作用,但他並非實踐者。相比之下,馮諾依曼在這兩方面都有極高造詣,他未必沒有認識到維納的這些想法,只是他選擇了更能產生實際應用的方案。機器之心:現在仿生學的時代沒有到,您認為其中的關鍵原因是什麼?趙明國:我覺得主要有兩方面,一是對生物機理的認知尚不充分,二是相關器件的水平尚未達到要求。仿生學高度依賴物理器件和感測器的水平。當前,我們可以進行仿生學研究,但不應拘泥於完全仿生。現階段的工程實踐可以沿用堆積算力、資料等資源的思路,這是可行的,我也不質疑。不過,我們也可以適度融入一些仿生學的思想,因為生物經過長期自然進化,其結構和功能必然有其合理性和優勢。我們要持續深化對這些特性的認知。就現有的技術手段而言,我認為應該循序漸進。人形機器人是一個長遠目標。不能否認,這是人類的終極目標之一。無論是具體的工作還是智慧本身,都是我們最終需要解決的問題。但當前能做什麼,這是一個技術問題。從現實出發,我的建議是:大型企業和國家隊需要攻克這些難題,朝著最終目標邁進。要進入工業應用場景,就需要組建合適的團隊。這種大型團隊能夠在長期內持續進行復雜的規模化的系統性研究。對於較小的團隊,很難在整個系統層面開展複雜的研究。他們可以選擇純學術,或者鑽研具體的問題。例如,可以聚焦某個科學問題或工程問題,比如改進電機、最佳化感測器,或者革新演算法。一旦取得突破,大型團隊就可以將這些成果整合到他們的系統中發揮重要作用。我認為小型團隊沒有必要執著於解決工廠機器人或家庭機器人這些宏大課題,甚至說立即將產品推向市場,這可能不符合邏輯。技術的發展不能脫離社會經濟的發展。技術先進並不意味著一定要立即應用,只要技術符合當前需求,就可以投入使用。至於哪種技術能夠得到更廣泛的應用,取決於總體效益,這與經濟規律有關,也可能與人的認知水平有關。歷史上,由於某個時期人類認知的侷限,可能會犯一些區域性性錯誤,這種情況並不罕見。但從長遠看,更先進的技術終將勝出,這符合歷史進步的規律。嘉賓簡介
趙明國,清華大學自動化系研究員、機器人控制實驗室主任、清華大學無人系統中心類腦機器人中心主任。發表百餘篇論文,授權國家發明專利 10 餘項。在人形機器人領域,提出了虛擬斜坡行走方法、廣義模型預測控制、全身控制等方法,研究成果獲得 RoboCup 人形組亞軍等多項國際獎項。在類腦計算領域,利用神經形態技術建立了高效能、高能效的機器人控制系統,成果發表於 Nature 封面,獲得 2019 年度中國科學十大進展及「科技創新 2030」計劃的資助。
- 北大王立威:理論視角看大模型,湧現、泛化、可解釋性與數理應用
- 開源生態專家黃之鵬:技術發展中,巨頭博弈下的 AI 開源
- 上海交大盧策吾:關於具身智慧,Scaling Law 和大模型