高瓴、藍馳領投靈初智慧,強化學習開啟具身智慧初紀元

新闻助手發表於2024-11-13

近日,靈初智慧完成天使輪融資,本輪融資由高瓴創投(GL Ventures)和藍馳創投(Lanchi Ventures)領投。本輪融資完成後,靈初智慧將繼續推進基於強化學習演算法的機器人技能集訓練、場景化的資料生成及採集、端到端解決方案的研發及落地,打造業界領先的通用靈巧操作智慧體

靈初智慧創始人王啟斌博士在手機、智慧音響、機器人領域有近 20 年的成功操盤經驗,多次實現產品從定義、開發、到上市、再到全球化 0-1-N 的產業閉環,是一名深諳機器人商業化落地的 “老兵”。聯合創始人柴曉傑博士,在機器人及無人駕駛領域從業 15 年,擅長演算法、模擬、工程、全棧技術,有 L4 產品落地的資料閉環經驗,是量產經驗豐富的研發專家

靈初智慧還被稱為 “科學家密度最高” 的具身智慧公司。靈初與北京大學成立北大 - 靈初智慧具身靈巧操作聯合實驗室,由人工智慧研究院楊耀東博士擔任聯合實驗室專案負責人開展橫向課題合作。楊耀東博士是強化學習領域的知名青年學者,他博士畢業於 UCL, 是現代深度強化學習的發源地。楊耀東課題組在強化學習領域有系列重要成果,其中包括帶領華人團隊研發多體強化學習演算法首登 Nature 機器智慧子刊,帶領華人團隊獲得 NeurIPS 2022 具身靈巧操作冠軍等。

同時,北大 - 靈初聯合實驗室將和梁一韜博士就具身智慧體長程任務規劃開展課題合作,梁博士長期致力於如何將知識注入機器學習中以提高其效能和泛化性,在開放環境 MineCraft 中取得系列重要成果。他利用 LLM 實現複雜任務的拆解和規劃,讓大模型 “缸中之腦 “長出手腳,在具身場景中自主行動。

在靈初北大聯合實驗室之外,公司聯合創始人陳源培是一名痴迷機器人的 00 後天才少年,作為 Stanford 訪問學者,他師從 Karen Liu 和李飛飛教授,曾在全球首次實現利用強化學習在真實世界同時控制雙臂、雙手多技能操作。此外,來自上海交大人工智慧學院的溫穎副教授也是技術團隊關鍵成員,溫教授課題組曾推出多模態決策大模型 DB1,實現了對 DeepMind 通才決策 Gato 模型的超越,並引入了與現實世界相關的百餘個場景任務,為實際業務需求提供了有力工具。

由產品老兵帶隊,攜手密度最高的科學家團隊,靈初智慧組成了 7890 六邊形戰隊,團隊跨越了 70、80、90、00 的年齡梯度,是一支有技術、懂產品、能落地的全能團隊。就像他們擅長基於強化學習(RL)的具身智慧類人操作一樣,具有更領先的技術,更大的商業潛力,和更強的戰鬥力。

高泛化性、高靈巧性和高成功率是具身智慧的 “不可達三角”。高泛化性指機器人在變化環境對不同物體執行復雜任務,高靈巧性體現在執行任務的精確靈活(如搭樂高、雙手操作等),高成功率即機器人受干擾時穩定正確執行任務(產品驗證階段成功率 95%、規模化落地高於 99.9%)。

兼顧這三者極具挑戰。高泛化性需通用模型和注重資料多樣性的學習演算法,高靈巧性需要精細模型和關注精度細節的學習演算法及特定控制演算法,魯棒性也對控制演算法有要求。強化學習是提升具身智慧體這三方面效能的核心技術,能讓智慧體在模擬環境利用低成本合成資料訓練,實現自主探索、試錯學習最優解,提升靈巧性甚至超越人類上限,還能增強魯棒性。

靈初智慧早期一直深耕基於強化學習的全棧能力,從靈巧操作入手在具身智慧領域積累技術壁壘,後將擴充套件至通用泛化操作。其開發的分層端到端模型領先業界,包含 Psi-P0 規劃模型和 Psi-C0 控制模型。Psi-P0 藉助大模型互動推理理解行為對環境影響,拆解複雜任務以實現任務泛化;Psi-C0 模型為陳源培提出的雙層架構,結合人類運動資料和深度強化學習,上層用人類資料訓練參考軌跡生成器,下層用其生成軌跡指導強化學習訓練,解決泛化性和靈巧性難題,這也是世界首次利用強化學習在現實中控制雙臂雙手多技能操作。

Psi-C0 控制模型支援多個技能串聯作業的訓練難題。陳源培與史丹佛大學共同提出的 Sequential Dexterity 透過串聯多個靈巧操作策略來完成長程的任務。在真實世界的搭積木任務中,能將翻找、重定向、抓取和插入積木 4 個 skill 串聯起來提高整體的成功率。這也是世界上第一個基於強化學習實現了靈巧操作的長程任務,顯示了多技能組合的泛化性。

梁一韜博士開發的 Psi-P0 實現開放環境中複雜任務的任務拆解和規劃。其所支援的任務複雜度和準確度都超越同期 OpenAI(VPT)和 Nvidia 的工作(Minedojo)。如下面影片所示,我們可以進一步透過構建 memory 使具身模型具有 lifelong learning,即根據自身經歷自我提升的能力。

(在開放世界用不同工具進行類人的探索、建造和對抗)

在產品規劃上,靈初智慧將從 2B 服務業切入,以頭部客戶的高價值場景需求為指引,開發整合技能集,實現商業落地,並快速迭代硬體,演算法,資料系統,不斷提升具身智慧整體解決方案的泛化性,靈巧性和成功率,給出具身領域 “不可達三角” 的最優解。

靈初智慧創始人兼 CEO 王啟斌表示:“非常感謝投資人的鼎力支援。我們這支集合工業界老兵和高密度科學家的戰隊,擁有完整的技術棧,將在具身智慧的前沿打造軟硬一體的綜合解決方案,擴充在先進製造,商超物流及 2B 服務業等場景中的應用場景,快速實現資料閉環,商業化落地。在具身智慧賽道的初紀元,期待和我們的合作伙伴靈性成長,共同開創智慧未來。”

高瓴創投(GL Ventures)專案負責人表示:“作為人工智慧與現實世界的深度結合,具身智慧行業前景廣闊,且擁有引發各行各業深刻變革的巨大潛力。靈初智慧憑藉在強化學習和模仿學習方面的技術深耕和積累,在實現機器人靈巧性、泛化性和高成功率的‘不可達三角’挑戰上已取得顯著進展;創始團隊匯聚多領域頂尖人才,不僅有卓越的技術背景,還兼備強大的工程化能力以及深厚的商業化實戰經驗。我們相信,在創始人王啟斌博士帶領下,靈初智慧能夠為行業帶來革命性的應用與高效率的解決方案,實現技術突破與商業價值的共贏。”

藍馳創投(Lanchi Ventures)專案負責人表示:“具身智慧機器人市場潛力巨大,我們認為通用操作能力執行復雜任務是具身智慧落地的重要技術卡點。靈初團隊是全球範圍內在強化學習和具身模型方面頂尖的技術團隊。此外,團隊懂產業懂場景,具備底層技術架構能力和充分的產品落地經驗和供應鏈優勢。我們相信隨著具身智慧的技術逐步成熟、產業鏈與生態更加完善,具身智慧機器人市場將迎來高速發展期。我們非常看好具身機器人在全球市場的發展潛力。”

關於靈初智慧:

靈初智慧公司的英文全稱是 Proto-Sentient Intelligence,縮寫為 PsiBot。Proto 就是 “初”,有原初、先驅的意思,這和公司主打的以強化學習為優勢的具身智慧創新技術路線非常符合;Sentient 是 “靈”,有智識、靈性的意思,代表了能一點點自主完成對世界認知和互動的類人操作。正如它的名字,靈初智慧將憑藉最前沿創新的技術讓具身智慧應用擁有靈性,開啟機器人時代的初紀元。

相關文章