全球首篇!調研近400篇文獻,鵬城實驗室&中大深度解析具身智慧

机器之心發表於2024-07-26
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

具身智慧是實現通用人工智慧的必經之路,其核心是透過智慧體與數字空間和物理世界的互動來完成複雜任務。近年來,多模態大模型和機器人技術得到了長足發展,具身智慧成為全球科技和產業競爭的新焦點。然而,目前缺少一篇能夠全面解析具身智慧發展現狀的綜述。因此,鵬城實驗室多智慧體與具身智慧研究所聯合中山大學 HCP 實驗室的研究人員,對具身智慧的最新進展進行了全面解析,推出了多模態大模型時代的全球首篇具身智慧綜述。

該綜述調研了近 400 篇文獻,從多個維度對具身智慧的研究進行了全面解析。該綜述首先介紹了一些具有代表性的具身機器人和具身模擬平臺,深入分析了其研究重點和侷限性。接著,透徹解析了四個主要研究內容:1) 具身感知,2) 具身互動,3) 具身智慧體和 4) 虛擬到現實的遷移,這些研究內容涵蓋了最先進的方法、基本正規化和全面的資料集。此外,該綜述還探討了數字空間和物理世界中具身智慧體面臨的挑戰,強調其在動態數字和物理環境中主動互動的重要性。最後,該綜述總結了具身智慧的挑戰和侷限,並討論了其未來的潛在方向。本綜述希望能夠為具身智慧研究提供基礎性參考,並推動相關技術創新。此外,該綜述還在 Github 釋出了具身智慧 paper list,相關的論文和程式碼倉庫將持續更新,歡迎關注。

圖片

  • 論文地址: https://arxiv.org/pdf/2407.06886
  • 具身智慧 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 具身智慧的前世今生

具身智慧的概念最初由艾倫・圖靈在 1950 年建立的具身圖靈測試中提出,旨在確定智慧體是否能顯示出不僅限於解決虛擬環境(數字空間)中抽象問題的智慧(智慧體是具身智慧的基礎,存在於數字空間和物理世界中,並以各種實體的形式具象化,這些實體不僅包括機器人,還包括其他裝置。),還能應對物理世界的複雜性和不可預測性。因此,具身智慧的發展被視為一條實現通用人工智慧的基本途徑。深入探討具身智慧的複雜性、評估其當前的發展現狀並思考其未來的發展軌跡顯得尤為重要。如今,具身智慧涵蓋了計算機視覺自然語言處理機器人技術等多個關鍵技術,其中最具代表性的是具身感知、具身互動、具身智慧體和虛擬到現實的遷移。在具身任務中,具身智慧體必須充分理解語言指令中的人類意圖,積極主動探索周圍環境,全面感知來自虛擬和物理環境的多模態元素,並執行適當的操作以完成複雜任務。多模態模型的快速進展展示了在複雜環境中相較於傳統深度強化學習方法更強的多樣性、靈活性和泛化能力。最先進的視覺編碼器預訓練的視覺表示提供了對物體類別、姿態和幾何形狀的精確估計,使具身模型能夠全面感知複雜和動態的環境。強大的大語言模型使機器人更好地理解人類的語言指令併為具身機器人對齊視覺和語言表示提供了可行的方法。世界模型展示了顯著的模擬能力和對物理定律的良好理解,使具身模型能夠全面理解物理和真實環境。這些進展使具身智慧體能夠全面感知複雜環境,自然地與人類互動,並可靠地執行任務。下圖展示了具身智慧體的典型架構。

圖片

具身智慧體框架

在本綜述中,我們對具身智慧的當前進展進行了全面概述,包括:(1)具身機器人 —— 具身智慧在物理世界中的硬體方案;(2)具身模擬平臺 —— 高效且安全地訓練具身智慧體的數字空間;(3)具身感知 —— 主動感知 3D 空間並綜合多種感官模態;(4)具身互動 —— 有效合理地與環境進行互動甚至改變環境以完成指定任務;(5)具身智慧體 —— 利用多模態大模型理解抽象指令並將其拆分為一系列子任務再逐步完成;(6)虛擬到現實的遷移 —— 將數字空間中學習到的技能遷移泛化到物理世界中。下圖展示了具身智慧從數字空間到物理世界所涵蓋的體系框架。本綜述旨在提供具身智慧的全面背景知識、研究趨勢和技術見解。

圖片

本綜述整體架構

2. 具身機器人

具身智慧體積極與物理環境互動,涵蓋了廣泛的具身形態,包括機器人、智慧家電、智慧眼鏡和自動駕駛車輛等。其中,機器人作為最突出的具身形態之一,備受關注。根據不同的應用場景,機器人被設計成各種形式,以充分利用其硬體特性來完成特定任務。如下圖所示,具身機器人一般可分為:(1)固定基座型機器人,如機械臂,常應用在實驗室自動化合成、教育、工業等領域中;(2)輪式機器人,因高效的機動性而聞名,廣泛應用於物流、倉儲和安全檢查;(3)履帶機器人,具有強大的越野能力和機動性,在農業、建築和災難場景的應對方面顯示出潛力;(4)四足機器人,以其穩定性和適應性而聞名,非常適合複雜地形的探測、救援任務和軍事應用。(5)人形機器人,以其靈巧手為關鍵,在服務業、醫療保健和協作環境等領域廣泛應用。(6)仿生機器人,透過模擬自然生物的有效運動和功能,在複雜和動態的環境中執行任務。

圖片

不同形態的具身機器人

3. 具身智慧模擬平臺

具身智慧模擬平臺對於具身智慧至關重要,因為它們提供了成本效益高的實驗手段,能夠透過模擬潛在的危險場景來確保安全,具有在多樣環境中進行測試的可擴充套件性,具備快速原型設計能力,能夠為更廣泛的研究群體提供便利,提供用於精確研究的可控環境,生成用於訓練和評估的資料,並提供演算法比較的標準化基準。為了使智慧體能夠與環境互動,必須構建一個逼真的模擬環境。這需要考慮環境的物理特性、物件的屬性及其相互作用。如下圖所示,本綜述將對兩種模擬平臺進行分析:基於底層模擬的通用平臺和基於真實場景的模擬平臺。

圖片

通用模擬平臺

圖片

基於真實場景的模擬平臺

4. 具身感知

未來視覺感知的 “北極星” 是以具身為中心的視覺推理和社會智慧。如下圖所示,不同於僅僅識別影像中的物體,具有具身感知能力的智慧體必須在物理世界中移動並與環境互動,這需要對三維空間和動態環境有更透徹的理解。具身感知需要具備視覺感知和推理能力,理解場景中的三維關係,並基於視覺資訊預測和執行復雜任務。該綜述從主動視覺感知、3D 視覺定位、視覺語言導航、非視覺感知(觸覺感測器)等方面進行介紹。

圖片

主動視覺感知框架

5. 具身互動

具身互動指的是智慧體在物理或模擬空間中與人類和環境互動的場景。典型的具身互動任務包括具身問答和具身抓取。如下圖所示,在具身問答任務中,智慧體需要從第一人稱視角探索環境,以收集回答問題所需的資訊。具有自主探索和決策能力的智慧體不僅要考慮採取哪些行動來探索環境,還需決定何時停止探索以回答問題,如下圖所示。

圖片

具身問答框架

除了與人類進行問答互動外,具身互動還涉及基於人類指令執行操作,例如抓取和放置物體,從而完成智慧體、人類和物體之間的互動。如圖所示,具身抓取需要全面的語義理解、場景感知、決策和穩健的控制規劃。具身抓取方法將傳統的機器人運動學抓取與大型模型(如大語言模型和視覺語言基礎模型)相結合,使智慧體能夠在多感官感知下執行抓取任務,包括視覺主動感知、語言理解和推理。

圖片

語言引導的互動式抓取框架

6. 具身智慧體

智慧體被定義為能夠感知環境並採取行動以實現特定目標的自主實體。多模態大模型的最新進展進一步擴大了智慧體在實際場景中的應用。當這些基於多模態大模型的智慧體被具身化為物理實體時,它們能夠有效地將其能力從虛擬空間轉移到物理世界,從而成為具身智慧體。為了使具身智慧體在資訊豐富且複雜的現實世界中執行,它們已經被開發出強大的多模態感知、互動和規劃能力。如下圖所示,為了完成任務,具身智慧體通常涉及以下過程:

(1)將抽象而複雜的任務分解為具體的子任務,即高層次的具身任務規劃
(2)透過有效利用具身感知和具身互動模型,或利用基礎模型的策略功能,逐步實施這些子任務,這被稱為低層次的具身行動規劃

值得注意的是,任務規劃涉及在行動前進行思考,因此通常在數字空間中考慮。相比之下,行動規劃必須考慮與環境的有效互動,並將這些資訊反饋給任務規劃器以調整任務規劃。因此,對於具身智慧體來說,將其能力從數字空間對齊並推廣到物理世界至關重要。

圖片

基於多模態大模型的具身智慧體框架

7. 虛擬到現實的遷移

具身智慧中的虛擬到現實的遷移(Sim-to-Real adaptation)指的是將模擬環境(數字空間)中學習到的能力或行為轉移到現實世界(物理世界)中的過程。該過程包括驗證和改進在模擬中開發的演算法、模型和控制策略的有效性,以確保它們在物理環境中表現得穩定可靠。為了實現模擬到現實的適應,具身世界模型、資料收集與訓練方法以及具身控制演算法是三個關鍵要素,下圖展示了五種不同的 Sim-to-Real 正規化。

圖片

五種虛擬到現實的遷移方案

8. 挑戰與未來發展方向

儘管具身智慧發展迅速,但它面臨著一些挑戰,並呈現出令人興奮的未來方向:

(1)高質量機器人資料集。獲取足夠的真實世界機器人資料仍然是一個重大挑戰。收集這些資料既耗時又耗費資源。單純依靠模擬資料會加劇模擬到現實的差距問題。建立多樣化的真實世界機器人資料集需要各個機構之間緊密且廣泛的合作。此外,開發更真實和高效的模擬器對於提高模擬資料的質量至關重要。為了構建能夠在機器人領域實現跨場景和跨任務應用的通用具身模型,必須構建大規模資料集,利用高質量的模擬環境資料來輔助真實世界的資料。

(2)人類示範數據的有效利用。高效利用人類演示資料包括利用人類展示的動作和行為來訓練和改進機器人系統。這個過程包括收集、處理和從大規模、高質量的資料集中學習,其中人類執行機器人需要學習的任務。因此,重要的是有效利用大量非結構化、多標籤和多模態的人類演示資料結合動作標籤資料來訓練具身模型,使其能夠在相對較短的時間內學習各種任務。透過高效利用人類演示資料,機器人系統可以實現更高水平的效能和適應性,使其更能在動態環境中執行復雜任務。

(3)複雜環境認知。複雜環境認知是指具身智慧體在物理或虛擬環境中感知、理解和導航複雜現實世界環境的能力。對於非結構化的開放環境,目前的工作通常依賴預訓練的 LLM 的任務分解機制,利用廣泛的常識知識進行簡單任務規劃,但缺乏具體場景理解。增強知識轉移和在複雜環境中的泛化能力是至關重要的。一個真正多功能的機器人系統應該能夠理解並執行自然語言指令,跨越各種不同和未見過的場景。這需要開發適應性強且可擴充套件的具身智慧體架構。

(4)長程任務執行。執行單個指令通常涉及機器人執行長程任務,例如 “打掃廚房” 這樣的命令,包含重新排列物品、掃地、擦桌子等活動。成功完成這些任務需要機器人能夠規劃並執行一系列低階別動作,且持續較長時間。儘管當前的高階任務規劃器已顯示出初步的成功,但由於缺乏對具身任務的調整,它們在多樣化場景中往往顯得不足。解決這一挑戰需要開發具備強大感知能力和大量常識知識的高效規劃器。

(5)因果關係發現。現有的資料驅動的具身智慧體基於資料內部的相關性做出決策。然而,這種建模方法無法使模型真正理解知識、行為和環境之間的因果關係,導致策略存在偏差。這使得它們難以在現實世界環境中以可解釋、穩健和可靠的方式執行。因此,具身智慧體需要以世界知識為驅動,具備自主的因果推理能力。

(6)持續學習。在機器人應用中,持續學習對於在多樣化環境中部署機器人學習策略至關重要,但這一領域仍未被充分探索。雖然一些最新研究已經探討了持續學習的子主題,如增量學習、快速運動適應和人機互動學習,但這些解決方案通常針對單一任務或平臺設計,尚未考慮基礎模型。開放的研究問題和可行的方法包括:1) 在最新資料上進行微調時混合不同比例的先前資料分佈,以緩解災難性遺忘,2) 從先前分佈或課程中開發有效的原型,用於新任務的推理學習,3) 提高線上學習演算法的訓練穩定性和樣本效率,4) 確定將大容量模型無縫整合到控制框架中的原則性方法,可能透過分層學習或慢 - 快控制,實現實時推理。

(7)統一評估基準。儘管有許多基準用於評估低階控制策略,但它們在評估技能方面常常存在顯著差異。此外,這些基準中包含的物體和場景通常受到模擬器限制。為了全面評估具身模型,需要使用逼真的模擬器涵蓋多種技能的基準。在高階任務規劃方面,許多基準透過問答任務評估規劃能力。然而,更理想的方法是綜合評估高階任務規劃器和低階控制策略的執行能力,特別是在執行長時間任務和衡量成功率方面,而不僅僅依賴於對規劃器的單獨評估。這種綜合方法能夠更全面地評估具身智慧系統的能力。

總之,具身智慧使智慧體能夠感知、認知並與數字空間和物理世界中的各種物體互動,顯示了其在實現通用人工智慧方面的重要意義。本綜述全面回顧了具身機器人、具身模擬平臺、具身感知、具身互動、具身智慧體、虛擬到現實的機器人控制以及未來的研究方向,這對沿著促進具身智慧的發展具有重要意義。

關於鵬城實驗室多智慧體與具身智慧研究所

隸屬鵬城實驗室的多智慧體與具身智慧研究所匯聚了數十名智慧科學與機器人領域頂尖青年科學家,依託鵬城雲腦、中國算力網等自主可控 AI 基礎設施,致力於打造多智慧體協同與模擬訓練平臺、雲端協同具身多模態大模型等通用基礎平臺,賦能工業網際網路、社會治理與服務等重大應用需求。

相關文章