前段時間,多家媒體報導稱 ,著名 AI 學者、史丹佛大學教授李飛飛的創業公司 World Labs 在短短三個月內已經完成了兩輪融資,其中最新一輪融資中籌到了約 1 億美元,公司估值已超過 10 億美元,成為新晉獨角獸。 World Labs 的發展方向聚焦於「空間智慧」,即開發能夠理解三維物理世界的模型,模擬物體的物理特性、空間位置和功能。李飛飛認為「空間智慧」是 AI 發展的關鍵一環,她的團隊正在史丹佛大學實驗室裡訓練計算機和機器人在三維世界中採取行動,例如使用大型語言模型讓一個機械臂根據口頭指令執行開門、做三明治等任務。(詳情請參見《李飛飛解讀創業方向「空間智慧」,讓 AI 真正理解世界》)為了解釋「空間智慧」這一概念,李飛飛展示了一張貓伸出爪子將玻璃杯推向桌子邊緣的圖片。她表示,在一瞬間,人類大腦可以評估「這個玻璃杯的幾何形狀,它在三維空間中的位置,它與桌子、貓和所有其他東西的關係」,然後預測會發生什麼,並採取行動加以阻止。 其實,除了李飛飛,現在有很多研究團隊都在關注 3D 視覺 + 機器人這一方向。這些團隊認為,當前 AI 存在的很多侷限都是因為模型缺乏對於 3D 世界的深刻理解。如果要補全這一拼圖,勢必要在 3D 視覺方向投入更多的研究精力。此外,3D 視覺提供了對環境的深度感知和空間理解能力,這對於機器人在複雜三維世界中的導航、操作和決策至關重要。 那麼,有沒有一份系統的研究資料可以供這一方向的研究者參考呢?機器之心最近就找到了一份:專案連結:https://github.com/zubair-irshad/Awesome-Robotics-3D 這個名叫「Awesome-Robotics-3D」的 GitHub 儲存庫總共收集了 80 多篇「3D 視覺 + 機器人」方向的論文,大部分論文都給出了相應的論文、專案、程式碼連結。這些論文可以分為以下幾個主題:
論文 1:When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models
論文連結:https://arxiv.org/pdf/2405.10255
論文介紹:這篇論文全面概述了使 LLM 能夠處理、理解和生成 3D 資料的方法論,並強調了 LLM 的獨特優勢,例如 in-context learning、step-by-step 推理、開放詞彙能力和廣泛的世界知識,這些優勢有望顯著推進具身人工智慧系統中的空間理解和互動。研究涵蓋了從點雲到神經輻射場(NeRF)的各種 3D 資料表示方法,並考察了它們與 LLM 的整合,用於 3D 場景理解、描述生成、問答和對話,以及基於 LLM 的代理進行空間推理、規劃和導航等任務。此外,論文還簡要回顧了其他將 3D 和語言進行整合的方法。透過對這些研究的元分析,論文揭示了取得的顯著進展,並強調了開發新方法以充分利用 3D-LLM 潛力的必要性。 為了支援這項調查,作者建立了一個專案頁面,整理和列出了與主題相關的論文:https://github.com/ActiveVisionLab/Awesome-LLM-3D
論文 2:A Comprehensive Study of 3-D Vision-Based Robot Manipulation
論文連結:https://ieeexplore.ieee.org/document/9541299
論文介紹:這篇文章全面分析了 3D 視覺在機器人操控領域的最新進展,特別是在模仿人類智慧和賦予機器人更靈活工作能力方面。文章討論了傳統機器人操控通常依賴的 2D 視覺系統及其侷限性,指出了 3D 視覺系統在開放世界中面臨的挑戰,如在雜亂背景下的一般物體識別、遮擋估計以及類似人類的靈活操控。文章涵蓋了 3D 資料獲取與表示、機器人視覺校準、3D 物體檢測 / 識別、6 自由度姿態估計、抓取估計和運動規劃等關鍵技術。此外,還介紹了一些公開資料集、評估標準、比較分析以及當前面臨的挑戰。最後,文章探討了機器人操控的相關應用領域,並對未來的研究方向和開放問題進行了討論。 感興趣的讀者可以點選專案連結開始學習。