具身智慧最佳形態是什麼?它是通往AGI必由之路?八位頭部玩家、學者現身說法

机器之心發表於2024-04-30

ChatGPT-4 被認為是人工智慧技術發展的重要節點,語言大模型之後的多模態大模型初步顯現了世界模型的影子。大模型最終將透過硬體與物理世界產生互動。人工智慧的應用實現從數字世界到物理世界的擴充套件,具身智慧是非常關鍵的技術方向。

那麼,具身智慧應該依循何種發展路徑,當前的技術水平處在什麼階段,發展過程中遇到了哪些瓶頸和難題,在應用場景上如何切入,離未來規模應用還有多遠,身處在技術變革浪潮中的我們又該何去何從?

圖片

4 月 27 日,北京智源人工智慧研究院院長王仲遠在中關村論壇年會未來「人工智慧先鋒論壇」上,和七位具身智慧領域的企業創始人、技術負責人和專家展開了一場關於具身智慧的深度對話。

這七位嘉賓分別是星動紀元創始人陳建宇,傅利葉智慧創始人兼 CEO 顧捷,智元機器人聯合創始人、上海人工智慧研究院院長宋海濤,銀河通用機器人創始人、智源具身智慧研究中心負責人王鶴,宇樹科技創始人兼 CEO 王興興,小米機器人團隊負責人許多,ACM 會士李航。他們打造了目前中國具身智慧領域最具有代表性的技術和產品。

具身智慧最佳形態是什麼?它是通往AGI必由之路?八位頭部玩家、學者現身說法
十個問題,十次思辨。關於具身智慧的現在與未來,躍然眼前。

01 AGI 必須透過具身智慧實現嗎?

王仲遠:過去一年大模型技術的發展讓我相信 AGI 很可能會到來,有觀點認為,當然也包括我,AGI 很可能在未來 5-20 年實現。那麼,AGI 必須透過具身智慧才能實現嗎?

李航我們定義 AGI 的通用能力,往往是功能角度。通用人工智慧一定會實現是有前提的,也就是要有任務和相應的評測標準。在這樣的條件下我們一定能開發出,無論是軟體還是硬體,達到或者超過人的能力的人工智慧

人類智慧至少有三個重要的特點是 AGI 未必能涵蓋的,也就是情感、創造力和自有意志

具身智慧,硬體、軟體結合,未來的發展空間非常大。能夠瞄準 AGI 方向,完成更多的不僅是數字空間,還有物理世界的任務,相信未來能夠達到或超過人的能力。

具身智慧有三個重要的特點。第一,機器人或者智慧體有自主性;第二,能夠根據環境的互動積累經驗,每個機器人、智慧體,基於不同資料構建不同的模型,產生不同的智慧,在完成任務上更加智慧。第三,進入物理世界一定是多模態的,人有五觀有五感,未來具身智慧機器人應該能夠結合多模態技術不斷演進、完成智慧性任務。

陳建宇:我認為透過具身智慧實現 AGI 非常可能。AGI 具身智慧不光具備語言能力,還有影像處理能力,控制身體的能力。人類身體,本身對促進智慧發育有重要的意義。基於身體與社會的各種互動實現對世界的探索和認知。

王鶴:具身智慧與非具身智慧非常互補,他們的全集才是 AGI。中國老話說「讀萬卷書、行萬里路」。現在,網際網路海量的圖文資訊,本質是讀萬卷書的過程。但讀萬卷書無法替代行萬里路,人在真實世界勞作不可能透過讀書、看圖、看影片而替代。具身智慧賦予與物理世界的互動能力,這個能力是透過看書、看圖數字世界的典型資料模態和經驗無法獲得的

宋海濤:我認為通往 AGI 的道路非常漫長,因為人類文明史記載五千年,這需要全社會進行大模型語料庫的建設,進行千億、萬億級訓練。建立各行各業的大模型以後,逐步邁向具身智慧,這是漫長的過程

02 具身智慧一定是人形機器人嗎?

王仲遠:具身智慧一定透過人形機器人來實現嗎?或者具身智慧本體必須是雙足嗎?

顧捷:在矽谷已有共識,具身智慧的最終形態就是人形,但是高矮胖瘦,用什麼驅動很難統一,人的形態已開始做收斂,在朝這個方向努力。

王興興:對於具身智慧或者 AGI,機器人的形態不是特別重要,但是人形機器人是社會公認比較理想的形態。如果做資料採集,它可以去人生活的各種地方,跟人做一樣的動作,比如開車、散步、跟人互動,採集更多資料,這樣跟機器人對話、互動,更加接近真實人類交流的水平。當下做具身智慧人形機器人是相對最適合的路徑,但不是唯一路徑。最適合的路徑可能是效率比較高的方法

許多:機器人最終可用,要做到四個可達。第一,移動可達,想讓它去哪裡就去哪裡,包括避障;第二,操作可達,能抓什麼就可以抓什麼,或者把一個物品放在指定位置。第三,語義可達,比如拿蘋果是為了榨汁。第四,價值和智慧可達。當我們把四個目標擺到一起,就會發現人形機器人是我們可以想象到的不多的選擇。我個人堅信 AGI 可以實現,其本質是能量的轉移、儲存、發散,而人類生命也一套是能量系統,能量系統是可以實現的,只是多久的問題。

03 先發展硬體還是軟體?

王仲遠:具身智慧是系統的工程,既涉及硬體也涉及軟體,目前硬體和軟體發展速度上顯然有一些不匹配。大模型能思考,但是指揮不動本體,指揮不動硬體。這是先有雞還是先有蛋的問題,我們到底是先讓硬體達到一定水平才能迎來具身智慧的蓬勃發展,還是脫離本體獨立分開發展具身智慧?

顧捷:這好比先有 APP 還是先有智慧手機。先讓智慧手機打電話,有開放平臺、開放介面,收集資料,再做 AI。對具身智慧來說,本身身體還不夠結實,能完成的任務很少,在這個基礎上做具身智慧開發相對難度比較大。當然本體和大腦是互相制約的,本體開發很好,大腦沒有達到水準,應用場景也會受到制約。先從本體迭代切入點,再加入基本應用,達到一定程度後,本體做比較大的收斂,然後應用才會開始蓬勃發展

王興興:我認為有實體的具身智慧是實現 AGI 的唯一途徑,目前脫離實體的大語言模型對物理世界的理解是不夠的,這也是為什麼很多頂尖 AI 學者提出要做世界模型。特斯拉無人駕駛也是採集真實資料訓練,而不是使用虛擬資料,因為虛擬資料中實時與物理世界互動的資料太少。我覺得本體反而是實現 AGI 非常重要的渠道,AGI 很可能誕生在機器人公司

04 資料先行還是能力先行?

王仲遠:現在大模型技術路線還是依靠海量的資料,像 ChatGPT3.5、ChatGPT4,基本把人類所有資料讀了一遍,資料在具身智慧裡毋庸置疑非常關鍵的,是資料先行,還是先有本體,有能力完成具體工作?

李航需要迭代,先有硬體,然後有資料,建模型形成閉環,促進智慧體機器人的發展。從行業來說,某一個階段應該軟體硬體一起往前推進最佳化,PC、手機發展的歷史也是這樣。從研究層面,團隊有不同的側重,可能聚焦軟體方面,也可能聚焦硬體方面,也可能兩方面都做,是未來若干年能夠看到的一個趨勢。

05 真實資料 or 模擬資料

王仲遠:具身智慧和無人駕駛不同之處在於無人駕駛整體上是特定的場景,但是具身智慧尤其具身機器人要解決的場景數特別多,比如有家庭的場景、流水線的場景,場景的數量多到一定程度之後,資料採集是否容易成為現實,現在研究上有很多基於模擬資料進行模型訓練、機器人訓練。怎麼看真實資料和模擬資料兩條技術路線?

王鶴:當今資料是智慧的重要推動力,具身智慧最大的瓶頸就是缺乏資料。自動駕駛以特斯拉 FSD 為代表的技術,充分利用特斯拉百萬車主上億小時的駕駛資料進行模仿學習。人形機器人是否存在這樣的資料呢?非常可惜不存在。因為不可能有上百萬群眾自發願意買一個沒有什麼功能的機器人到家裡,用搖控器指揮機器人幹事情。所以,在這個階段具身智慧資料需要零到一的突破,這個零到一的突破靠我們遙控顯然有點遠水解不了近渴。

現在最實際的方式透過物理模擬,把現實世界物理規律透過圖形學的引擎,真實模擬摩擦力、接觸力、還有光線追蹤渲染等,製造一個模擬真實世界訓練的數字訓練世界,這也是英偉達系列工作背後的初衷。

我的看法是,具身智慧從零到一,很有可能完全靠模擬資料驅動。今天很多人形機器人的強化學習,也是主要在模擬世界進行的,但是未來當這樣機器人充分在我們世界中存在,有車這樣的存量的時候,形成了在真實世界互動的資料閉環,最終將成為具身智慧的源頭活水,真正釋放出更多能力。

陳建宇:模擬的優勢是非常快,靠英偉達的 GPU,如果做得好,一天的時間採集的資料可能相當於真實世界的上百萬年的資料。但模擬難以非常準確地搭建很複雜的場景。在真實的世界採集資料,可以比較方便搭出複雜的場景,但是受限於採集資料的速率,無法倍速。在前期智慧性還不足以解決非常複雜場景的時候,可以先透過模擬做簡單的場景,快速地獲取資料,讓機器人具備一些能力。當機器人的能力逐步增進能夠做複雜場景時,就需要更多地往真實世界採集資料

06 短期高估與長期低估

王仲遠:過去這一段時間,具身智慧這個話題確實特別熱,產業界也逐步進入到具身智慧更大的領域。我們有時候會高估一年達到技術的突破,但是又低估 10 年技術達到的高度。怎麼看具身智慧在短期和長期的一些可能性?

宋海濤:我們一直推崇前端研發過程中的三個真實:一是基於真實的場景;二是基於真實的重大工程問題;三是基於真實的資料

在具身智慧這個方向,我們認為未來 3-5 年是一個逐步的滲透期。但是大規模的商業上量取決於幾個核心因素:一是資料,無論是家居、生產、裝備製造,還是智元探索的汽車工廠、3C、生物試驗室,這些高質量的資料集和語料庫是大量缺失的,當然我們大量一線的科研人員已經帶著感測器在很多的整車廠積累真實場景和資料,但是需要一定的週期和時間;二是數字基座,在整個構建過程當中,需要一個新興的數字基礎底座,尤其是算力 + 基礎的訓練框架。未來 5-8 年之後會有一個快速的上量的過程

許多:有一個觀點我非常贊同,就是今天真正存在的問題是硬體的問題。今天機器人在移動空間的可達精度大概是 10 釐米,小車好一點,可達精度大概在 5 釐米。10 釐米的精度會導致移動抓取物體的時候,相對位置關係定位不準。5 釐米和 10 釐米,對上肢的要求完全不一樣。上肢的精度現在大概在釐米級,而工業臂處在 0.01 毫米級別,兩者差距還是非常大。

硬體在移動空間可達怎麼做到 1 釐米?手眼協調的空間可達怎麼做到 0.1 毫米級別?這個精度實現以後,上層的大模型或者具身智慧就能在移動機械臂上大規模收集資料了。現在資料閉環收集的效率太低。短期需要看硬體的突破,遠期看是整個資料閉環工程效率的提升

相信隨著大家批次性、集中性在硬體上的投入和改進,短期的發展或許會超過預期。我們在自動駕駛領域也看到了,資料閉環工程的發展週期比我們想得要長。自動駕駛投入這麼多年,今年才在 SFD 上看到一些突破性的進展。我認為硬體的進步會超出想象,但是資料閉環、工程的進步速度或許會比想得要慢

07 自動駕駛與具身智慧

王仲遠:我在過去一段時間的調研發現,不少做具身智慧的專家學者是從自動駕駛這個領域轉過來的,從現有的功能模組來看,確實兩者有非常相似的地方,都包含環境的感知規劃決策以及最終的控制幾個模組。但是我們也看到,特斯拉透過電動車收集的海量駕駛資料之後,開始訓練了端到端的自動駕駛大模型,使得它很有可能實現真正意義上的 L4,甚至更高層級的無人駕駛水平。對這個問題怎麼看?

陳建宇:我從 2015 年開始做自動駕駛,當時最主要的是兩個問題。第一,直接開始做 L4,認為 2-3 年能解決,但實際遠比想象的要困難。第二,當時的 AI 還沒發展到一個階段,大模型都沒出現,關於決策、執行和控制也都是用相對傳統的方法。這導致自動駕駛的發展經歷了一段時間的曲折。現在自動駕駛領域,特斯拉應該是最好的一個標杆。特斯拉成功避開了這兩個問題,採取的是 L2、L3、L4 漸進式發展。

具身智慧也一樣,不要一上來就做家用機器人走進千家萬戶,而是考慮先從工廠這種容易的場景任務開始。另外,要堅定地擁抱 AI,擁抱具身智慧的方法

08 網際網路大廠 VS 創業公司

王仲遠:在整個具身智慧的發展過程中,是大廠會更具有優勢?還是創業企業更具有優勢?

許多:大家的起點都是一樣的,沒有誰有所謂的優勢,取決於目標選擇。比如,小米做硬體比較多,所以我們的目標選擇本質上是偏底層,解決移動空間可達和操作空間的可達。我們的目標是移動空間可達 1 釐米,操作的空間可達 0.1 毫米級別。我們在上層的目標會稍微放慢一點。加上上層目標之後,會瞄準複雜長序列任務的處置閉環,包括資料流格式、訓練和模型管理方法,會把這一整套都建立起來,這是我們的路徑。大家站的起點一樣,就看目標和方式選擇,能堅持多久,這最終決定了能走多遠

王興興:大家的起點差不多,AI 的世界還是非常平等的。具身智慧這個領域還沒有突破臨界點,雖然每天、每個月都有明顯的進步。在這種前沿的領域,大家都在做,可能有一個天才帶領小團隊做出來,也可能美國的網際網路大公司做出來,都有可能。

李航我同意大家的觀點,大公司和創業公司各有自己的特點,優勢和劣勢也都有,那些都相對不重要,更重要的是團隊和整體技術

09 具身智慧未來預測

王仲遠:具身智慧最有可能落地的場景以及可能的時間點是什麼?

陳建宇:會先在一些偏工業類的場景落地,因為可以排除人這個最大的不確定性因素。如何應對與人交流過程中的不確定性以及在這種情況下保證安全,對於現在來說非常困難。工業類的場景,可以在一個相對受限的結構和可預測的場景發揮能力,3-5 年可以有比較規模化的狀態。如果是跟人比較密集的接觸,不管是各種服務還有家庭機器人,可能需要更長的時間

顧捷:人形機器人要完成真正意義上的通用型任務。舉個例子,開門。門可能就有一萬種,推的、拉的、玻璃的、捲簾的,各種各樣的門。如果能夠產生泛化性,人形機器人或者具身形態的機器人會出現一個突破點的飆升,從一個細分的市場成為一個通用的大場景

很難預測是什麼時候,在這個之前可能還是一些比較細分的窄的市場。比如,康復醫院做治療師,輔助人類做康復訓練,在養老院做陪護,或者在一些危險的地方巡邏,這些比較細分的領域。

宋海濤:我們最近在工業製造、3C 特種領域都開始了一些真實的資料和場景的實測。真正的商用有三個特點:一是,大規模商用要具備一個容錯度較高的環境;二是,公眾的感知度比較強;三是,最終的場景買單能力比較強,這些才能提供下一步的重點爆發

王鶴:這個問題可以從機器人有哪些能力,產品到底賣多少錢,客戶付費意願三個角度思考。從能力的角度來講,基於合成大資料,我判斷在今年或者明年將會出現能做拿、取、放的通用大模型。這樣的能力其實在很多行業裡都有,那麼,我們的機器人要賣多少錢市場才能接受?現在判斷,短期內用輪式底盤,不需要雙腿,一個最廉價的機器人形態,成本要低於一個勞動力一年的工資。我們目前與某些車廠和商超環境在推進合作,預計 1-2 年能夠起量

王興興:目前公認的工業領域落地更加方便,主要是場景相對固定,付費能力較高。一臺裝置哪怕幾十萬,只要真正能幹活,市場也能接受。另外,我們現在做的是通用 AI 或者通用具身智慧,如果能在很多工廠做一些生產裝配,那麼,基本可以複製到家庭。因為我一直覺得,生產裝配跟洗衣做飯或者燒菜沒有本質差別,泛用性還是非常強的。

許多:我建議從兩個角度考慮,一是精度,二是語義的富集程度先是低語義富集程度、低精度的場景落地,比如To G 的純粹引導機器人,慢慢到中高精度、語義富集程度的工業場景,最後向更高的服務場景邁進

服務場景最大的難點是語義太富集了,比如,機器人幫我換一個燈泡,燈泡在哪裡,找燈泡可能就需要找 1-2 個小時,根本就無法完成服務閉環。

李航未來還是先在 To B 工業這種場景落地,終極目標是 To C 希望能進家庭。To B 工業場景中簡單、重複性的工作比較多,適合在技術演進過程中先落地,產生商業價值,然後推動整個行業發展。To C 家庭場景中很多的具體任務,重複性不高,且多樣性非常大,帶來的價值相對來說反而不高,結果價格還非常高,商業化比較困難。所以一步步來,從工業界開始做起是一個好的整個行業發展的路徑。

10 青年寄語

王仲遠:具身智慧是具有劃時代意義的一個技術方向,但是一個行業的發展需要越來越多的人加入,才能把這個行業做大。因此,對所有有志於從事具身智慧的青年學生、青年學者或者工程師有哪些寄語?

李航有人說 20 世紀是計算機的時代,21 世紀很有可能就是人工智慧的時代。其中,具身智慧應該是這個時代裡最具代表性的技術領域。整個 21 世紀,具身智慧至少佔其中一半,AGI 離不開身體。大家如果感興趣從事這個行業各個方面的工作,非常好。

許多:我就是一句話,找準切入點,勇敢加入,和大家一塊 Go,因為剛剛開始!

王興興:AI 是目前最激動人心的時代,回望過去人類的幾千年或者幾百年歷史,當下真的是非常好的時間點,資源、關注度、財力、人員、技術,已經快突破臨界點,真的非常激動人心。我非常鼓勵所有的人學 AI,去程式設計,去嘗試!

王鶴:非具身的大模型,比如 GPT-4、Sora 是千億的市場,現在的具身大模型,唯一有的 Robotaix,是幾千億的自動駕駛市場,替代的是司機的行為,能替代人的具身大模型應當是多大的市場?萬億以上。歡迎大家加入。

宋海濤:全球 80 億人口,核心的生產力創造還是來自於我們的智慧群體,僅僅是完成全球的生產力創造,我們至少需要 100 億臺人形機器人。馬斯克講的,征服浩瀚宇宙,一千億臺人形機器人在等著我們。這個市場空間足夠大,我們能做的就是仰望星空,但是腳踏實地,未來已來,等待大家一起去協作創造!

顧捷:人形機器人、AGI 都需要有信仰,現在大量的人才有機會投身於這個行業,非常激動人心,呼籲更多的人參與。20 年前做機器人比賽的時候喜歡這件事情,但是現在是最好的時刻。

陳建宇:未來一定會迎來非常大的具身智慧和機器人的時代,它會影響千行百業。在這個基礎之上,大家有兩個選擇,一是直接投身做具身智慧,二是所在的行業擁抱具身智慧

可以看到,具身智慧是一個具有劃時代意義的技術,大幕剛剛開啟,讓我們共同期待具身智慧的無限未來,相約 6 月 14 日智源大會,繼續關注具身智慧的技術討論與成果分享。

相關文章