解密機器人大模型RFM-1：Covariant創始人陳曦專訪

作者：王建明

來源：微信公眾號「石麻筆記」

2024年3月，在通用機器人的發展史上，絕對是值得紀念的一個月。3月11日，知名AI機器人創業公司Covariant推出了首個機器人基礎模型RFM-1（Robot Foundation Model-1），這是世界上首個基於真實任務資料訓練的機器人大模型，也是最接近於解決真實世界任務的機器人大模型；次日，Covariant創始人Pieter Abbeel的徒弟和徒孫Sergey Levine和Chelsea Finn宣佈創辦Pi（Physical Intelligence），一家旨在為不同形態的機器人裝置提供統一機器人大腦的AI機器人創業公司（對Pieter Abbeel，Sergey Levine和Chelsea Finn在當今AI機器人領域有多麼重要的存在，可以參考AI+Robotics華人圖譜）；緊接著，北美知名人形機器人公司Figure釋出Figure 01 demo，展示了基於GPT4V大模型在人類指令的引導下順滑地完成各類任務的能力，炸翻國內科技媒體。

不得不讓人感慨，機器人大模型的timing到了嗎？這個領域的進展，正在以天為單位重新整理人們的認知。

在2023年6月，我曾經寫過一篇關於Covariant的深度報導Covariant：三個華人小夥創辦的AI4Robot獨角獸，是當時中文網際網路資料裡關於這家公司最全面的一篇報導，我個人關於AI機器人領域的關注也源於Covariant。在上週Covariant釋出機器人大模型RFM-1之後，我非常榮幸邀請到Covariant的創始人陳曦（Peter Chen）進行專訪，解密世界上首個最接近於真實世界的機器人大模型RFM-1。

解密機器人大模型RFM-1：Covariant創始人陳曦專訪

1. Covariant RFM-1概覽

Covariant 成立於2017年，總部位於美國加州矽谷，致力於構建一種通用人工智慧，幫助機器人觀察、學習和與周圍的世界進行互動。創始團隊來自於 Open AI, 加州伯克利大學人工智慧實驗室 (BAIR)，四個創始人成員分別是UCB的AI機器人大佬Pieter Abbeel和他的三位博士生陳曦（Peter Chen），張天浩（Tianhao Zhang）和段巖（Rocky Duan）。關於Covariant更詳細的歷史可以參考Covariant：三個華人小夥創辦的AI4Robot獨角獸。

Covariant於2024年3月13日宣佈推出RFM-1，是一個基於一般網際網路資料以及富含物理真實世界互動資料訓練的機器人基礎模型，Tech Crunch將RFM-1稱為“ChatGPT for robots”。RFM-1不僅構建了機器人理解人類物理環境的世界模型，同時擁有基於人類語言、圖片等多模態與物理世界互動的能力，它的推出標誌著人類首次將大量真實機器人任務資料融入AI大模型，將AI向物理世界的探索推進了一步。

RFM-1 介紹影片（來源：Covariant官網）

影片連結：https://mp.weixin.qq.com/s/IFxGDZ0e2ra0rqDyOgyBMg

RFM-1是一個基於Transformer的大模型，它擁有80億引數，基於文字、圖片、影片、機器人動作、感測器資訊等多模態資料進行訓練的any to any序列模型。透過將所有模態tokenize為一個共同空間（common space），並用自迴歸預測下一個token，RFM-1利用其廣泛的輸入和輸出模態來實現多樣化的應用。例如，它可以執行影像到影像的學習，用於場景分析任務，如分割和識別。它可以將文字指令與影像觀察結合起來，生成所需的抓取動作或運動序列。它可以將場景影像與目標抓取影像配對，以預測影片的結果或模擬沿途可能發生的數值感測器讀數。關於any to any特性，我們在下文的專訪中會特別解釋。

Any to any介紹（來源：Covariant官網）

影片連結：https://mp.weixin.qq.com/s/IFxGDZ0e2ra0rqDyOgyBMg

2. 陳曦（Peter Chen）個人簡介

陳曦（Peter Chen）是Covariant.ai的執行長兼聯合創始人。Covariant是一家領先的AI機器人初創公司，已經融資超過2億美元。Covariant正在構建用於機器人學的基礎模型，使機器人可以對物理環境進行識別、推理和操作。在創辦Covariant之前，陳曦（Peter Chen）曾是OpenAI的研究科學家，也是加州大學伯克利分校人工智慧研究實驗室（BAIR Lab）的研究員，他專注於強化學習、元學習和無監督學習。他在領先的學術期刊上發表了30多篇論文，引用超過2萬次。

2. 解密RFM-1

RFM-1的由來

機器人基礎模型是我們創立Covariant時的一個核心想法。我們四位創始人中有三位來自OpenAI，包括我自己、CTO Rocky Duan和首席科學家Pieter Abbeel。我們創立Covariant的一個主要原因是意識到要在機器人領域實現通用型智慧，必須在現實世界中收集資料。因此，Covariant從一開始就努力將真實的機器人部署到客戶現場，並在實際環境中大規模收集資料。因此，從資料收集的角度來看，RFM-1的概念可以追溯到公司成立之初的思路。

談到具體的模型框架transformer，以及any to any的multi-model model，這是我們過去一年多來的嘗試。隨著LLM和多模態大模型的發展，我們最初的願景變得更加可能。因此，RFM-1是我們六年來一直夢寐以求的東西，只是最近一年我們確定了使用何種模型框架和方法來具體實現這一想法。

RFM-1是機器人的"ChatGPT時刻"嗎

這個問題的答案取決於對"ChatGPT時刻"的定義。如果我們指的是在接下來機器人領域是否會有迅速的發展，那答案肯定是肯定的。另外，如果我們考慮到機器人的進步是否會借鑑和採用像ChatGPT這樣的技術和方法，我認為答案也是肯定的。

但是，如果問現階段機器人智慧是否已經像ChatGPT那樣通用，我認為還沒有達到這個水平。不過，這種情況很快就會改變。

如何看待機器人大模型競爭

對於機器人大模型領域的競爭，我認為Pi（Physical Intelligence，文章開頭提過）的成立是一件令人激動的事情。機器人市場的潛力是非常巨大的，機器人大模型可以在數十億級別的規模上應用，即有數十億臺機器人由機器人基礎模型驅動。在這樣龐大的市場中，有更多具備能力的公司在這個領域取得成功對所有人都是件好事。

然而，就目前而言，Covariant擁有明顯的領先優勢。多場景和多硬體的適配能力對任何機器人大模型來說都是必不可少的。在Covariant的實踐中，我們已經積累了豐富的多硬體適配經驗。舉例來說，Chelsea Finn等人在離開Google之前建立了一個名為OpenX的資料集（對應RTX專案的資料集），他們聯合了全球20多個不同的機器人實驗室，收集了大約一百萬條資料，這些資料來自於22種不同的機器人硬體。而在實際的生產環境中，Covariant已經部署了超過30種不同型別的機器人，這意味著我們一家的機器人種類已經超過了OpenX整個資料集中包含的機器人種類。

因此，對於RFM-1模型而言，它的訓練資料不僅侷限於一種硬體和一種場景。要想打造出真正優秀的機器人基礎模型，它必須在不同的硬體、不同的任務和場景中適配，因此訓練資料集也必須包含不同的硬體和場景。

如何理解RFM-1模型結構

簡單來說，你可以將RFM-1視為一個大型語言模型，但它不僅僅預測語言的token。在RFM-1中，token不僅來自文字，還包括機器人的動作、感測器資料、圖片、影片等多種模態。針對這些不同的模態，有相應的tokenizer將它們全部轉換成token。最終，RFM-1實際上就是一個大型語言模型，但它的輸入和輸出預測不僅限於人類語言這一模態。這是對RFM-1在輸入和輸出預測方面的最簡單理解。

如何理解any to any

RFM-1之所以如此強大的原因之一就在於any to any。傳統的AI機器人通常是以影像作為輸入，輸出動作，或者以三維資料作為輸入，輸出動作，但這些模型存在著很大的侷限性。RFM-1的一個重大突破是，它可以作為一個世界模型，預測未來會發生什麼。對於這個模型來說，它最終都在進行下一個token的預測，而預測下一個動作、影像或影片只是不同的token而已。只要給出適當的提示，告訴它想要做什麼，它就可以進行相關的預測。這也是RFM-1如此強大的原因之一，我們可以讓它學習世界模型，從而理解物理世界，並基於這個理解做出更好的機器人動作。它對於物理世界的理解還可以用作模擬器，在模擬器中可以避免一些不良動作，進行規劃，類似於Alpha-Go的規劃方式。

你可以將RFM-1視為一個非常通用的模型，與傳統的AI機器人模型不同，它不是單一用途的，因此我們引入了any to any的概念，因為有太多的可能性。如果是文字到文字，那就是傳統的語言模型。如果是影像到機器人動作，那就比較容易理解，這是一種機器人策略。如果是文字到影像到策略，那就是人類透過語言與機器人溝通，機器人根據語言任務拆解和相關任務影像執行動作。甚至可以基於當前影像，告訴它目標影像，然後輸出動作。any to any的核心意思是它可以適應各種輸入模態和輸出模態。

但確實，any to any是一個比較抽象的概念，因此我們在部落格中提供了一些具體的例子來解釋，而當我們將RFM-1實際應用到客戶中時，我們將繼續釋出一些功能，讓大家對any to any有更直觀的理解！

RFM-1呼叫其他第三方語言模型嗎

沒有呼叫任何第三方的API，RFM-1它本身就是一個可以理解文字的多模態大模型，它也可以給出語言的反饋。甚至可以把它僅僅當成一個大語言模型來用，當然肯定沒有ChatGPT那麼好用，因為很多引數要分散在理解機器人的事情上面。

為何要輸出多模態

作為機器人大模型，RFM-1不僅僅滿足於輸出動作，而是輸出“any”多個模態，這是為了增強其通用性。

如果我們僅僅將RFM-1視為一個策略（policy），那它實際上是將不同的輸入對映到動作上，例如給予自然語言指令、目標，甚至是一個展示某項任務的影片，讓機器人學習並執行。作為通用模型，它應該能夠理解影片中發生的事情，並且能夠復現這些情景。沒錯，它的輸出本質上都是動作，從這個角度來看，它並沒有什麼特別之處。

但如果我希望這個模型能夠更好地理解影片，甚至學習到世界模型，一個非常好的方法就是給它影片的前半段，然後讓它預測影片的後半段會發生什麼。這就是所謂的“影片輸入和影片輸出”。只要進行大量的這種訓練，這個模型將會具有對影片和物理世界更深入的理解，這個理解也可以在執行動作時加以利用。另外一個用途是將這種世界模型作為模擬器來使用。

RFM-1使用了哪些資料

RFM-1使用了網際網路資料和Covariant部署在全世界客戶場景中的真實機器人資料。網際網路的資料能夠為模型提供文字或圖片的常識性理解，但對於一個世界模型來說，網際網路上的資料通常是不夠的。因為網際網路上的資料往往缺乏動作資訊。例如，假設你觀看一些公開的影片，通常影片中並沒有包含動作資訊，無論是人類行為還是機器人操作，你只是被動地觀察，而不知道其中的具體動作。在這方面，真實的機器人資料起到了至關重要的作用，因為它包含了大量的機器人動作和結果的資訊。在網際網路上，你無法獲取到這種關於動作的具體資訊，因為網際網路上的資料只提供了時間上的前後狀態，而無法捕獲其中的動作細節。

舉例來說，儘管你可以透過觀察一個人拿起物體來猜測他正在進行這個動作，但你無法知道他用了多大的力量、手指放在了什麼位置、以及具體是如何抓取物體的。這些細節資料在網際網路上是無法獲取的。

因此，儘管網際網路資料可以用於訓練影片、圖片或文字生成模型，但要學習一個完整的世界模型卻非常困難，因為缺乏動作資訊。Covariant部署的機器人硬體提供了大量的感測器和關節資料，可用於模型訓練。此外，我們還可以根據需要改變資料收集方式，因為我們可以控制硬體。例如，如果發現某種資料模態更有用，我們可以更新已有的機器人以收集相應的資料。

RFM-1和Figure01的路徑

背景資訊：Figure 01路徑涉及接入像GPT4v這樣的視覺語言模型，然後在此基礎上新增機器人動作模型；而RFM-1是一個更加端到端的模型，直接將多模態輸入對映到輸出動作。

我認為最終的關鍵在於，無論採用何種技術路線，只要能夠實現落地併產生效益，就是一條好路線。無論朝任何方向前進，都有可能取得成功。最終，機器人的成功與否取決於它是否能夠在生產環境中為客戶帶來效益，並且該技術是否可擴充套件，能否在多個場景下成功推廣。

對基於多模態大模型（比如GPT4v或Gemini）接動作模型的路線，你會發現它們在進行demo時毫無問題，但是，要使機器人從實驗室的demo變為可以在生產環境中使用的，其最大的差別在於穩定性和效能。就目前而言，市場上最優秀的多模態大模型GPT4v，其推理成本非常高，而且在可靠性方面存在問題。舉個例子，在相對密集的場景中，比如將十個蘋果放在一個籃子裡或將3、4件衣服揉在一起，然後詢問GPT4v統計圖片中的物品數量，測試結果顯示其成功率並不高。如果依賴GPT4v的上層決策出現錯誤，那麼後續的底層控制將無法實現所需的穩定性。

如何加速資料收集

首先，我們自身正在快速擴充套件規模，不僅僅是透過獲取新客戶，而且是透過我們已有客戶的訂單量增長。如果我們能夠處理所有這些訂單，我們的資料收集速度將提高一個數量級以上。

另一方面，隨著RFM -1的成熟，我們計劃將其開放給其他機器人公司，類似於OpenAI的GPT API模式。透過向更多人開放這一模型，我們將能夠加速資料收集的速度。

關於RFM-1 API

Covariant將在不久的將來推出面向公眾的RFM-1機器人大模型 API，傳統機器人或新創公司都適用。在LLM領域，當我想要進行自然語言處理時，我不會自己訓練一個獨立的模型，而是會使用OpenAI的API。我可能對它進行prompting、fine-tuning，或者進行retrieval和generation，然後基於這些構建我的新自然語言處理應用程式。

對Covariant來說，我們希望為未來數以百萬計、數以千萬計、數以億計甚至數十億的機器人提供大腦，它不僅僅是單一機器人應用，也不僅僅是硬體。未來將會有大量的機器人開發者和機器人公司，接我們的API，我們希望成為他們的GPT平臺。他們可以依賴我們來解決大部分困難且資料密集的智慧問題，但這並不意味著他們不需要做其他工作。他們仍然需要進行硬體開發、人機互動設計，並準確把握場景，我們希望能夠為他們提供支援。

作為世界模型的RFM-1

RFM-1是真正意義上的世界模型。Sora具備成為世界模型的潛力，但它目前還不是，因為它沒有動作資料。如果Sora模型只是在遊戲引擎中訓練，而沒有真實世界的影片資料，那麼它學到的物理模型將會存在偏差，因為遊戲引擎生成的影片中的物理規律通常與現實世界不一致。

如果Sora只是在YouTube上訓練，而且只用了真實影片作為全部訓練集，那它應該能夠理解一部分物理世界的執行規律。但Sora缺少的是什麼？Sora缺少的是中間的關鍵概念，即它沒有對動作進行理解，它只是擁有一些影片，然後我用GPT為它生成了一個長長的說明，但實際上我無法指出影片中的具體行為者。

比如我們看到他用拳頭砸向牆壁，但我們無法確定施加了多大的力。無論是他的拳頭受傷了，還是牆壁被砸壞了，他只能描述事件的發生過程。他只能說拳頭碰到了牆壁，然後牆壁壞了，但實際上他並不瞭解內在的動作過程。因此，Sora雖然具備成為世界模型的能力，但它缺乏對動作的理解，這使得它很難學習到動作結果的因果關係，儘管它應該能夠學到很多相關資訊，但這些資訊可能不夠準確。

具身創業，何去何從

大模型在所有領域都一樣的，就它最終應該只會有幾家跑贏出來。因此，如果你覺得自己無法成為那幾家大模型贏家之一，不論是在機器人領域還是其他領域，那就應該考慮去做應用層或工具鏈相關的事情，這方面是現在是投身到機器人非常好的時間。

隨著機器學習大模型的迅速成熟，這個領域的發展速度也會加快。無論其他人的進展如何，在我們這裡可以看到機器人大模型的進展非常非常快。另外，硬體技術的成熟速度都會非常快，例如，像Figure這樣的公司獲得的投資以及國內對人形機器人、移動機器人和機械臂的投資都在增加，這也將促進硬體技術的發展。隨著越來越多的產品推出和公關活動的開展，公眾對機器人的接受度也將迅速提高。因此，現在是一個非常好的時代來從事機器人應用的開發，以及是在構建基礎設施方面。將注意力放在這些領域都是非常明智的選擇。

具身投資，何去何從

現在這個時間點，可能最值得關注的還是機器人大模型和工具鏈基礎設施，但我覺得這種情況可能會在一年內迅速改變，一年之後可能會是機器人領域有很多機會的時間。

但從另外一個角度，如果現在能夠投資一家應用型公司，並且相信他們能夠度過最初一到兩年的學習階段，那可能是值得考慮的。因為我們可以看到，像Language space這樣的應用層面公司，比如Character.ai和Perplexity，他們在做應用層的時候都是在ChatGPT推出之前。那個時候，底層的基礎模型尚未完全成熟，他們快速迭代所，並獲得了怎麼基於不斷演進的基礎模型做應用的經驗，使得他們可以很快跑出來。所以，如果我們能夠放寬視野，從今年開始進行試錯和學習，我認為並不會太早。但如果團隊不能迅速取得商業上的成就，那可能會面臨融資困難。不過，如果團隊和市場都足夠好，我認為從今年開始進行應用層面的嘗試也是可行的。

4. 願景如願

在完成這次專訪之後，我重新看了一遍之前的文章Covariant：三個華人小夥創辦的AI4Robot獨角獸，驚訝地發現Covariant創始團隊在2018年創立公司伊始的初心和如今2024年RFM-1的推出是如此的一致。我再次將Pieter Abbeel說的這段話引用出來，作為本文結尾：

“推動人工智慧快速進展有兩個重要因素：一方面是提供給人工智慧學習的經驗，另一方面是人工智慧架構方面的研究突破。

經驗的關鍵：機器人必須在真實世界中進行學習，它們必須與人類相互作用的無限範圍的物體進行互動，並執行人類執行的無限數量的任務。

架構的關鍵：真實世界的資料比實驗室的資料要多樣性更高，我們需要建立根本性的新架構，以從這樣的資料中進行學習。
因此，在2018年初，我們開始了一段旅程，讓機器人接觸真實世界，並研究能夠吸納這些經驗的新型人工智慧架構（遠比典型實驗室經驗更豐富）。”

References：

https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/https://covariant.ai/insights/rfm-1-a-world-model-that-understands-physics/https://techcrunch.com/2024/03/11/covariant-is-building-chatgpt-for-robots/

相關文章