跟騎手學習送外賣,這傢俱身智慧公司的機器人已經上崗掙錢了

机器之心發表於2024-06-24

你點過無人機送的外賣嗎?

在深圳、上海等一線城市,讓無人機給自己送個外賣已經不是什麼新鮮事。但它送的方式可能和你想的不太一樣。

想象中的無人機送外賣 be like:

圖片

而現實中的無人機送外賣 be like:

圖片

也就是說,它不會把外賣直接送到你家陽臺,而是和你家有一段距離的外賣櫃。你需要下樓走一段距離才能拿到。於是,有些網友發出靈魂追問:「你猜我為什麼點外賣?」

所以,現在問題就變成了:從家到外賣櫃這段距離怎麼辦?解決思路也很簡單:讓一個送貨機器人幫你送完這段路。跟騎手學習送外賣,這傢俱身智慧公司的機器人已經上崗掙錢了

這是具身智慧機器人公司推行科技(Infermove)最近放出來的一段影片。從中可以看出,在無人機到達指定地點後,送貨機器人可以把貨「拿」過來,放到自己的「肚子」裡,然後再送到指定小區、寫字樓的指定樓層,實現無縫接駁。

其實,除了幫無人機送剩下的路程,它還能自己 cover 全程。在過去的 18 個月裡,推行科技的機器人已經幫山姆會員店等商家送了幾萬單貨。要知道,這些店鋪和目的地之間往往隔了幾條街,因此機器人需要在非機動車道上和人、腳踏車、電動車一起穿行、過馬路,還要自己進小區、坐電梯,把外賣、商品送到使用者手裡。為了適應接駁無人機等更復雜的工作,推行科技給這些機器人安上了手臂,這樣它們就能完成拿取包裝袋、按電梯、推拉門等需要上肢才能完成的任務。

難得的是,在和人類騎手一致的考核制度下,這些機器人的履約率(按時送達的百分比)已達 98.5%,因此拿到的報酬已經可以覆蓋自身的成本,做到了單個機器人盈虧平衡。這在還沒進入大規模落地階段的具身智慧領域是非常稀有的。

為了瞭解這個機器人背後的技術和創業思路,機器之心推行科技創始人盧鷹翔、龍禹含展開了深入對談。他們指出,讓機器人在充滿變數的開放物理世界中穿行並不是一件簡單的事。為了克服其中的困難,他們走了一條類似於特斯拉的資料驅動路線,利用自研的「騎手影子系統」在短時間內獲取了大量高質量資料,因此機器人的表現才能如此出色。未來,他們還將在自然語言、多模態等方向持續迭代,讓這個機器人更加實用。

走進開放物理世界,機器人如何工作?

機器之心:能否簡單介紹一下,公司現在在做一件什麼事,長期願景是什麼?

盧鷹翔我們希望以資料驅動的方式,打造出可以在開放物理世界中自主移動的機器人。具體而言,我們是透過利用人類駕駛的兩輪電瓶車、電動輪椅等產生的駕駛資料,用模仿學習強化學習的方法,來逐步實現一款能夠應對開放物理世界的硬體無關(hardware-agnostic)的具身智慧產品。

我們開始行動的第一步就是解決「資料從哪來」的問題。21 年創業之初我們先是搭建了一套基於輪椅平臺的「端到端」演算法架構,利用輪椅駕駛資料訓練末端移動機器人,並在矽谷進行了 8 公里的路測。後來我們意識到末端物流場景是更高效的資料來源,於是開始打造「騎手影子系統」,利用末端物流場景下的騎手騎行資料和機器人產品落地資料構建雙資料閉環

目前我們在末端物流場景已經落地了 18 個月,比如給蘇州、深圳的山姆會員店等前置倉做物流配送。我們的機器人和公路無人配送車有一個很顯著的區別。無人配送車只完成運輸任務的中間一段,不會進入小區、商場、寫字樓等場所,如果用來進行外賣、商超等本地生活類配送,兩端都需要有人參與。相比之下,我們的物流機器人以做到「門到門」的配送為設計目標。比如對於我們合作的奶茶門店,我們的機器人會開進商場,停在櫃檯前等待裝單,裝單之後離開商場,跨過兩條街,駛入寫字樓或小區,然後自己找到電梯、坐電梯上到具體的樓層,把貨物送達指定地點。這在許多場景下已經非常貼近騎手的服務能力。所以我們做的事情更多的是屬於具身智慧這個範疇。跟騎手學習送外賣,這傢俱身智慧公司的機器人已經上崗掙錢了

到了去年底、今年初這個時間,我們發現落地環境給我們提出了一些更高的要求。一是特定場所進一步的通達,像操作按鈕或開關、按電梯。二是外賣等常見商品的抓取、撿拾。三是開啟有把手的推拉門等互動場景。

在這些需求的驅動下,我們開始有針對性地研發上肢能力。這和其他具身智慧領域的公司可能有所不同,他們有些會去最佳化做菜、疊衣服等上肢能力,而我們是根據常見的客戶需求有針對性地去解決上述幾個問題。

機器之心:利用您提到的上肢能力,你們研發了什麼產品?

盧鷹翔:今年 618,我們落地了一款具備上肢操作能力的物流機器人。它的下半身是一個帶有裝載能力的移動機器人本體,上半身支援三維世界的單臂互動能力。

這個機器人首先用於支援無人機的外賣配送接駁。無人機的降落地點通常和顧客還有一段距離,這個機器人首先要能夠把無人機卸下來的貨物裝進自己的貨倉,然後至少要坐一次電梯。有些電梯可能沒有梯控,需要手動按按鈕。機器人的上肢就是在這些場景中發揮作用。

無人機接駁是個新場景,其實在目前已有的場景中,我們也可以利用這個上肢去幹兩件事情。一是我們會在它的上面整合一個 RFID(射頻識別)晶片,讓機器人自己刷卡進小區,而不是依賴保安手動操作。二是在取貨人遲遲不來的情況下,讓機器人主動把貨物從「肚子」裡拿出來,放到架子、門口等指定地點,就像騎手放外賣一樣。這樣可以省去大量的等待時間,提高配送效率。

機器之心:這個機器人可以上臺階嗎?它是不是隻能送一些設施比較好的小區?

盧鷹翔:這裡面其實涉及到三個問題。

第一個問題:能不能上臺階?我們現在的這款物流機器人是不能上臺階的,因為它下面是四個輪子。這是從經濟角度考慮做出的一個選擇,因為四輪底盤目前是最成熟、最常見的。不過這個輪子經過了特殊設計,有一定的越障能力,能跨越 7 釐米以內的單級臺階或凹陷。

此外,我剛才提到一個概念,叫硬體無關(hardware-agnostic)。其實我們這個系統也成功適配過一些異形底盤,比如四足、雙輪足,這些底盤是可以上樓梯的,但可能沒有那麼穩定。所以,要不要讓機器人上臺階其實是取決於我們客戶的需求,如果客戶想用四條腿的機器狗送外賣或快遞,而且願意接受它的價格,那麼我們在技術上是可以打磨的

第二個問題:我們的機器人可以到達什麼樣的環境?其實我們國家去年出臺了一部《無障礙環境建設法》,它對於公共場所提出的要求是:兩條腿能到的地方,輪椅都要能到。這部法律不僅要求所有增量的公共場所、建築物都要滿足無障礙要求,目前已有的存量場所也要逐漸完成合規改造。這對於我們來說是一個有利的環境,因為我們機器人的設計尺寸參照的是電動輪椅的國家標準,所以輪椅能到的地方,我們基本上都能到

第三個問題:到不了的地方怎麼辦?我們現在的應用場景本質上是人機混合,而不是有你無我的一種局面。就是說一個貨倉會部署一部分機器人,一部分騎手,大家一起接單。系統在派單的時候會進行一些目的地的篩選。而且這個篩選系統本就存在,不需要額外的開發成本。

從自動駕駛到具身智慧,挑戰升維

機器之心:公司現在的人才配置是怎樣的?這些人才搭建起了一個怎樣的技術棧?

盧鷹翔:我們的團隊其實是自動駕駛、機器人、機器學習、機械等各個專業背景的人組合起來的一個團隊。創始團隊成員之前都在矽谷做自動駕駛,就是 L4、Robotaxi 這些方向,之前我們負責研發的車型還拿到了加州政府發放的第二塊可以無安全員上路的 Robotaxi 牌照,第一塊發給了 Waymo。我們的思路是搭建一套資料驅動的技術棧,類似於美國的特斯拉和英國的 Wayve。受到他們的啟發,我們研發了一套「騎手影子系統」,利用騎手駕駛的兩輪電瓶車來獲取用於演算法迭代的訓練資料,目的是實現機器人在開放物理世界而不只是公路上的自主移動能力。這種演算法架構的好處是效能的天花板非常高,理論上可以無限擬人。跟騎手學習送外賣,這傢俱身智慧公司的機器人已經上崗掙錢了

機器之心:公司很多人才都是自動駕駛出身的,這和其他很多具身智慧公司的班底其實很相似。能否談一下,從單純做自動駕駛擴充套件到互動維度更高的具身智慧,你們遇到了哪些新的挑戰?

盧鷹翔:第一個挑戰是環境的不規律。與公路上的自動駕駛汽車相比,我們機器人面臨的物理環境是非結構化的,規律性更差。我們知道,公路是按照嚴格的國家標準來修築的,但當我們去解決一個開放物理世界中的自主移動問題的時候,這個有利的條件就不存在了。我們現在的落地環境主要是城市,尚有一些建築規範。但我們落地的其他場景,比如農村,規律性要更差。未來,我們可能還要擴充套件到野外。

第二個挑戰是規則的缺失。公路上有明確的交通規則,也有交警來維持秩序,這相當於人為地讓大家的行為變得有規律。這對於機器人來說是非常有利的一個客觀條件。但在具身智慧所面對的開放物理世界,交通參與者變得更加複雜,包括騎各種車的人甚至寵物,他們的行為要更加隨機。

第三個挑戰是輔助工具的缺失。公路交通有成熟的生態,所以有一些輔助工具被開發出來,比如百度地圖,它可以告訴你前方堵車或施工,請繞行。但開放的物理世界中就缺乏這樣的工具。

要解決前兩個問題,我們需要大量的訓練資料。但是這類資料是非常稀缺的。我們知道,ChatGPT 利用的是人類過去幾十年積攢下來的網際網路資料。物理世界的資料可能在有了自動駕駛這樣的行業之後才被系統地收集,這和網際網路資料完全不在一個量級。而我們想要的開放物理世界的訓練資料就更稀缺了。針對這個資料獲取難題,我們最初的想法是利用人駕駛的電動輪椅來獲取眾包資料。在接觸到末端物流場景和客戶之後,我們逐漸迭代成現在這種利用騎手載具,也就是騎手駕駛的電瓶車來獲取。

打破資料魔咒殺手鐧 ——「量大管飽」的騎手影子系統

機器之心:能否詳細介紹一下你們的資料獲取思路?

盧鷹翔:在資料獲取層面,市面上有幾種不同的思路,多數情況下這些思路是並存的。各家公司可能會以不同的比例去選擇一種組合方式。

首先說模擬資料。有一部分公司會比較認同模擬資料的價值,比如去年 Hinton 以顧問身份加入的 Vayu Robotics 機器人公司。我們也用模擬資料,有自己的模擬模擬器。但相比之下,我們更看重真實資料,我們認為真實資料的價值是無可替代的。模擬資料對於我們來說主要是在真實資料的基礎上降本增效。

真實資料的獲取也分為兩種,一種是 on policy 的,一種是 off policy 的。on policy 資料就是部署的機器人在每天使用過程中產生的資料。這種資料目前是非常稀缺且昂貴的,因為它要在機器人落地之後才會有,這就會變成一個「先有雞還是先有蛋」的問題。所以我們就要突破這個技術瓶頸,實現對 off policy 的資料的利用能力。

簡單來說就是,如果只是利用我們部署在山姆的一些機器人來獲取資料,它的效率非常低,成本也很高。但是,如果能利用騎手駕駛電瓶車產生的資料,還有一些電動輪椅產生的資料,我們的系統就能夠在短時間內獲取大量資料,而且這些資料的營養也很豐富。

作為一家看重模擬資料的公司,Vayu Robotics 也是認同真實資料的價值的。他們會在矽谷僱傭一些騎手,產生一些真實世界的資料,然後在這個基礎上利用模擬模擬器去訓練。

但這方面我們存在一些國情優勢。我國是一個非機動車大國,一方面,這意味著我們機器人的應用場景會比較大、比較豐富,覆蓋各個城市的大街小巷。另一方面,這也意味著我們的騎手產生的資料是量大管飽的。相比之下,美國的一些公司就不太容易大量獲取這類資料,需要請一些專業的人,以高昂的成本去採集。

機器之心:您說的「量大管飽」是怎樣一個概念?

盧鷹翔:我這裡有一些資料。中國騎手平均每人每天會跑 100 到 200 公里。我們在蘇州一個普通超市落地的前置倉,一般配備 15 到 20 個騎手。這些騎手一個月產生的資料輕輕鬆鬆就會超過 10 萬公里,一年肯定可以超過百萬公里,通常可以接近 200 萬公里。

作為對比,國內最頭部的做 Robotaxi 的 L4 公司,自成立以來積累的資料基本上也只有幾百萬公里,像 Waymo 這樣的全球頭部公司也就兩千萬公里。當然,里程數是一個比較簡單的維度。但在這個簡單的維度上,我們利用騎手影子系統僅在單一前置倉落地不到兩年所產生的資料量,就相當於一家國內頭部自動駕駛公司自成立以來的路測積累總和

我們還有一個對比物件,就是特斯拉。他們在 2014 年就推出了第一款搭載 Autopilot 軟硬體的車型,開始收集駕駛資料。截至今年初特斯拉推出V12.3,他們在過去十年間一共積累了將近20億公里人類駕駛資料用於智慧駕駛系統的訓練,在全球範圍內也稱得上遙遙領先。而對於中國的600萬活躍騎手群體而言,20億公里只是他們一兩天跑的量,我們叫「中國騎手一天,特斯拉汽車十年」。這就是所謂的量大管飽。可以說,騎手影子系統為我們迭代產品提供了非常可靠的資料保障。

但除了量大管飽,騎手影子系統產生的資料還有一些優勢。第一是成本。我們是讓騎手在送單的過程中積累資料,這對於他們來說沒有邊際成本,我們的成本也非常低。第二是資料的豐富度。騎手的資料是在真實的生產環境中產生的,而且越是經濟發達、人口密集、接近城市中心的地方,它產生的資料就越多。這些資料包含一年四季、各種天氣狀況。它本身的複雜度、代表度都很好,避免了高度同質化的情況。

所以,無論是從數量、質量還是成本來說,這個系統產生的資料都符合「好資料」的標準。目前,我們已經開始和一些銷售電動兩輪車的主機廠合作,打算在印度部署這個系統,這也是一個量大管飽的環境。

機器之心:能否詳細介紹一下「 騎手影子系統」的技術細節?

盧鷹翔:這個系統主要透過一套車載硬體採三種資料。一是環境資料,即透過攝像頭採集路況、障礙物等視覺資料。二是定位資料,透過比較便宜的 RTK 來採集。三是運算元據,即騎手在某種特定情況下進行了什麼樣的操作,比如踩油門、剎車或者左拐右拐。在採到這些資料後,我們就透過模仿學習強化學習的方式,讓模型去學習人類的行為,逐漸向人類行為靠攏。

機器之心:這個系統能讓機器人知道實時路況?

盧鷹翔:是的,因為末端道路的通行能力會非常頻繁地發生變化,解決機器人末端移動不僅要解決 AI 問題,還要解決情報問題。就像老司機也需要百度地圖來提示前方道路有堵車一樣。比如說,在非機動車道上,我們經常會遇到兩個攔路樁,它們將道路分成三條。通常中間的那條最好走。但如果臨時出現一個商販佔據了中間這條路,開始在那裡賣紅薯,這條路就走不通了。這個時候,機器人需要提前知道怎麼選擇最佳路線。而經過這裡的騎手自然會做出應變,比如他可能說「師傅能不能讓一讓」,如果商販讓開了,機器人就能知道這條路是可以通行的。如果不讓,騎手就會選擇一條次優路線,機器人也能知道。完成這些只需要騎手實時回傳 RTK 定位資料。這和百度地圖實時提醒前方堵車的原理是相似的。

不僅已落地,還能盈虧平衡

機器之心:剛才提到,去年,圖靈獎得主 Hinton 加入了一家名叫 Vayu Robotics 的機器人公司。在您看來,這家公司有哪些吸引 Hinton 的特點?

盧鷹翔:當時 Hinton 自己發了一個帖子來闡述他加入 Vayu 的原因,就是看中了末端物流這個場景的高安全性和可落地性。

我們知道,Hinton 非常關注 AI 安全。他在帖子裡提到,這個送貨機器人的動能只有汽車的 1%。拿我們這個機器人來說,它的極限動能也就 500 焦耳,這相當於一個 70 公斤的人從一把椅子高的地方跌落產生的能量。所以如果這個機器人不小心撞到人,它至多把人撞疼,不會撞傷,容錯率很高。

圖片

圖片

高安全性帶來的是高可落地性。我們知道,像 Waymo 這樣的公司在 Robotaxi 方面已經做得非常好了,平均五萬公里左右才接管一次,但距離大規模落地似乎還是遙遙無期。其中一個很大的原因就是它的場景容錯率太低了。而 Vayu 和我們選的都是一些高容錯率的場景。除了末端物流,其實我們還落地了一些類似場景,比如幫機場驅鳥、幫魚塘拋灑魚料。從技術路線上來講,大家都不約而同地看好這個路線。但相比之下,我們在資料上具備一定的國情優勢。

機器之心:你們的機器人盈虧情況如何?

盧鷹翔:我們可以達到單個機器人的盈虧平衡。

我們落地的末端物流主要是外賣和商超兩大塊,客戶分別是國內在這兩個場景市佔率最高的兩大平臺。

商超領域我們其實跑得挺成熟的,比如在蘇州,我們給山姆送了 18 個月,累計送了 3 萬多單。這 3 萬多單累計下來是盈虧平衡的。我可以分享幾個資料。第一個是平均效率,國內騎手平均每天送 35 到 40 單,我們的機器人平均每天可以送 20 單,相當於兩臺機器人可以幹一個人的活兒。第二個是履約率,即有多少單是按時、無損送達的,這個數值可能更有意義。通常來講,我們機器人的履約率可以達到 98.5%,按照達達對於騎手的考核標準,這可以達到 A 級(以 98% 為界)。在這個場景中,我們的機器人和騎手是在一個地方排隊的,不需要前置倉為它們配備額外的人力。考核標準也和騎手一樣。

外賣是一個比商超更有挑戰性的領域。它是多點對多點的配送,也要保證時效。在這個場景中,我們的機器人和人的考核標準也是一樣的,超時或出現其他問題也要扣錢。

在跟人類騎手進行平等的獎懲考核的情況下,機器人掙到的錢可以覆蓋它的成本,包括折舊、電費、維修費、管理員工資等等。在具身智慧產品還沒有大規模量產的當下,這種盈虧平衡的情況是非常稀有的。

未來迭代方向:上肢、自然語言和多模態

機器之心:現在,這個機器人擁有上肢了,互動變得更加複雜,你們遇到了哪些新的挑戰?

龍禹含:最大的一個挑戰還是資料問題。當機器人的能力擴充套件到上肢,它的資料是更加稀缺的,全球的科研機構、公司都在花很大的力氣去收集資料。但即便如此,資料的多樣性依然不足,實際訓練出來的模型泛化性也不是很強。比如谷歌的 RT 專案,在做廚房場景時,他們有一個機器人資料廚房,專門用來收集資料。但離開這個廚房進入到真實場景後,他們機器人的成功率還是會大幅下降。

不過,我們機器人的動作相對來說沒有那麼複雜,比如不用去學疊衣服等涉及柔性物體的動作,也不會像谷歌那樣有很多步驟。它的動作基本上可以拆解為一些子問題,比如操作電梯的按鈕、操作貨物包裝袋、拉開門讓底盤出去等。在拆解出這些子問題後,我們就可以專門去收集這些場景的資料,然後利用一些模仿學習的演算法去學習,讓這件事情跑起來。在跑起來之後,我們的機器人會看到一些成功的案例,也會看到一些失敗的案例。在看過各種各樣的包裝袋、門、電梯之後,它的能力就會逐步提升。

機器之心:現在具身智慧的一大方向是讓機器人聽懂自然語言,甚至基於多模態資訊來進行推理決策,推行科技在這方面有沒有一些計劃?

盧鷹翔讓機器人聽懂自然語言這件事情肯定會去做,而且已經在我們的規劃之中,下一代產品就會具備這樣一個能力。本身我們機器人產品的應用場景就比較貼近人的日常生活,直接用自然語言互動將是非常實用的一個功能。

龍禹含:關於多模態,其實我們的機器人現在已經在用多模態大模型了。即使是完成剛才提到的按電梯按鈕、取貨、開關門這樣的操作,如果想達到一個比較好的泛化能力,現在最穩定的路徑就是利用大模型的多模態能力。

目前我們機器人裡的多模態大模型主要用於解決一些視覺問題,比如物體識別、目標物估計。這有別於傳統的自動駕駛,後者只針對某些類別,比如汽車、行人、電動車,去做識別。我們的機器人要識別不同樣子、不同位置的電梯按鈕,不同形狀的紙袋、塑膠袋以及不同類別的門,它面對的要求更高了,所以我們用多模態大模型來解決這些問題。

機器之心:很多人認為,人形機器人會是具身智慧的最終形態,您怎麼看?推行科技是否有必要去做人形機器人?

盧鷹翔:說人形機器人會是具身智慧的最終形態,這背後的主要邏輯是:目前人類生存的物理世界,比如房子,本身是為人類軀體設計的,所以人形機器人會具備最廣泛的通用性。但我們認為,碳基智慧和矽基智慧之間有一個很大的區別。碳基智慧只能支援特定的軀體,比如一個人的大腦只能驅動一個人,一個狗的大腦只能驅動一隻狗。但矽基智慧可以同時支援多種形態,比如一套智慧駕駛系統可以裝在本田的車上,也可以裝到豐田的車上。所以矽基智慧本身不太受具體形態的限制

在認識到這個區別後,我們認為,具身智慧不一定非要定義一個最終形態,比如變成人形去適應人類的生存環境。反之,它可以是環境本身。也就是說,它不一定非要去一輛汽車、一幢房子、一條生產線上去工作,它可以是這個汽車、房子、生產線本身。它可以同時存在多種物理形態。

具體到產品開發思路上,我們不會跟風去做一個人形機器人,而是根據客戶、場景的需求來決定把機器人做成什麼樣子,比如它按電梯或者開門需要一隻手,我們就給它安一隻手。

龍禹含:我補充一下。其實在產品迭代的過程中,我們考慮過兩種方向,一種是比較貼近於人的方向,一種就是現在這種方向。我們之所以做出現在這種選擇,其實主要是考慮這個產品需要大規模在實際場景中落地。如果做成接近於人的形態,還要在非機動車道上達到接近騎手的速度,我們覺得是不適配的。而且還存在交規風險和居民、客戶接受度的風險。未來,我們還是會根據客戶的需求以及成本等因素來選擇合適的形態。

資料驅動貫穿始終

機器之心:前段時間,李飛飛教授創立了一個空間智慧公司,您如何看待這個方向?

盧鷹翔:在看到新聞後,我們也做了一些調研,就是研究李飛飛教授這個公司具體要做什麼。我們問了她實驗室的學生,結果學生暫時也不太清楚。考慮到李飛飛教授之前一個非常重要的貢獻是 ImageNet,而具身智慧領域現在既沒有特別好的訓練資料集,也沒有特別成熟的預訓練模型,所以我們猜測,她這個新公司可能會在資料方向做一些事情,比如三維場景中人和機器之間相互關係的資料的收集,然後用這些資料去輔助機器人基礎大模型的訓練。

機器之心李飛飛等具身智慧領域的研究者有沒有給你們的創業之路提供一些啟發?

龍禹含:資料魔咒已經成為當前具身智慧領域的一個共識。李飛飛等研究者給我們的啟發,就是要儘快去實際場景中獲得更多高質量的資料,而且是用商業化的方式低成本地去獲取,然後再反過來推動技術的進一步發展和落地。這是我們在創立推行科技之初就確立的思路。在具身智慧領域,這個思路已經被李飛飛教授這樣的業界前輩反覆印證。這讓我們在這個方向的努力變得更加堅定。

相關文章