OpenAI押注的「1X」訓出專用世界模型，首證機器人Scaling Law

機器人能認出鏡子中的自己嗎？目前來看，依然做不到。

去年 3 月，OpenAI 領投了一傢俱身智慧公司「1X」。這是一家成立於 2014 年的挪威人形機器人公司，致力於研發雙足機器人 NEO 和商用輪式人形機器人 EVE。

本月初，1X 正式推出了專為家庭使用而設計的雙足人形機器人 NEO Beta，讓人們看到了大模型加持下活靈活現、超擬人機器人的不斷進步。

如今，1X 迎來了自己的世界模型。具體地， 基於影片生成（Sora）和自動駕駛世界模型（端到端自動駕駛，E2EAD）領域的進展，1X 訓練出了一個世界模型，作為自家機器人的虛擬模擬器。

1X 人工智慧副總裁 Eric Jang 表示，過去幾個月，1X 一直在開發通用機器人的學習模擬器，如今終於問世了。

1X 工程師 Daniel Ho 表示這是機器人世界模型的初步進展，模型可以理解接觸到的物理世界並生成高保真影片，使機器人可以在自己的神經空間中執行規劃、評估和模擬操作。並且，很多生成的影片片段很難與真實影片區分開來。

1X 創始人兼 CEO Bernt Bornich 表示，這是人形機器人資料顯著增強擴充套件定律的首個證據，「沒有勺子」。

各路網友也對這個機器人世界模型給予了很高評價。

世界模型加持下的 1X 人形機器人還讓一些人直呼《西部世界》重現。

從 1X 官方給出的 Demo 可以看到，從相同的起始影像序列開始，1X 的世界模型可以從不同的機器人（EVE）動作建議中想象出多種未來。

這個世界模型還能預測非平凡物體（如剛體）的相互作用、掉落物體的影響、部分可觀測性、可變形物體（窗簾、衣物）和鉸接物體（門、抽屜、窗簾、椅子）。

機器人的「ChatGPT 時刻」，同樣需要擴充套件定律

世界模型解決了構建通用機器人時一個非常實際、但經常被忽視的挑戰，即評估。如果你訓練的機器人可以執行 1000 項任務，與先前模型相比，我們也很難確定新模型用在機器人上，在這 1000 項任務上表現優越。由於周圍環境如光照細微的變化，即使模型權重相同，機器人也可能在幾天內經歷效能的快速下降。

^{此前 1X 訓練了一個模型，在 50 天的時間裡，機器人效能下降了}

如果環境隨著時間的推移不斷變化，那麼此前在該環境中達到的實驗效能很難復現，因為舊環境不存在了。如果你在不斷變化的環境（如家庭或辦公室）中評估多工系統，那麼這個問題將會變得更加糟糕。這一狀況使得在現實世界中進行機器人科學研究變得異常困難。

經過深入研究我們不禁會問，當資料、計算和模型規模增加時，機器人的能力將如何擴充套件？在大模型領域，擴充套件定律普遍得到大家的認同，如果機器人技術要迎來「ChatGPT 時刻」，必須首先建立它的擴充套件定律。

其他評估方法

基於物理的模擬（Bullet、Mujoco、Isaac Sim、Drake）是快速測試機器人策略的合理方法。這些方法可重置且可重現，這樣一來，研究人員能夠仔細比較不同控制演算法帶來的的差異。

然而，這些模擬器大多是為剛體動力學設計的，需要大量手工資產創作。

如何讓機器人開啟咖啡濾紙的紙盒、用刀切水果、擰開冷凍果醬罐或與人類等其他智慧體互動還是一個值得思考的問題。眾所周知，家庭環境中遇到的日常物體或者飼養的寵物很難模擬，因此機器人使用的模擬環境往往在視覺上很單調，缺乏現實世界用例的多樣性。對現實或模擬環境中有限數量任務的小規模評估無法泛化到對現實世界中的大規模評估。

世界模型

1X 正在採用一種全新的方法來評估通用機器人，即直接從原始感測器資料中學習模擬器，並使用模擬器來評估新策略。透過直接從真實資料中學習模擬器，你可以在不手動建立資產的情況下了解真實世界的複雜性。

在過去的一年裡，1X 收集的 1X 旗艦產品 EVE 機器人的資料高達數千小時，這些資料包括在家中和辦公室中執行各種移動操作任務以及與人互動的任務。研究人員將這些影片和動作資料結合起來，訓練了一個世界模型，該模型可以根據觀察和動作預測未來的影片。