一句話爆改三維場景!史丹佛吳佳俊團隊新作:場景語言,智慧補全文字到3D的場景理解

机器之心發表於2024-11-13

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

從文字生成三維世界的場景有多難?

試想一下,如果我們要 “生成復活節島的摩艾石像”,AI 怎麼才能理解我們的需求,然後生成一個精美的三維場景?

史丹佛的研究團隊提出了一個創新性解決方案:就像人類使用自然語言(natural language)進行交流,三維場景的構建需要場景語言(Scene Language)

圖片
  • 專案主頁:https://ai.stanford.edu/~yzzhang/projects/scene-language/

  • 文章地址:https://arxiv.org/abs/2410.16770

這個新語言不僅能讓 AI 理解我們的需求,更讓它能夠細緻地將人類的描述轉化為三維世界的場景。同時,它還具備編輯功能,一句簡單指令就能改變場景中的元素!物體的位置、風格,現在都可以隨意調整。
圖片
智慧的場景理解

再比如,輸入 “初始狀態的國際象棋盤”,模型可以自動識別並生成如下特徵:

  • 64 個黑白相間的格子
  • 按規則排列的 32 個棋子
  • 每個棋子的獨特造型

最終生成的 3D 場景完美還原了這些細節。圖片
這個方法支援多種渲染方式,能適應不同的應用場景:圖片
更具吸引力的是其編輯能力:只需一句指令,就能調整場景中的元素:圖片
支援圖片輸入圖片
動態生成

不僅限於靜態,Scene Language 還能生成動態場景,讓 3D 世界生動起來。圖片
技術亮點
圖片Scene Language 的核心在於三大元件的融合:

1. 程式語言(program):用於精確描述場景結構,包括物體間的重複、層次關係;
2. 自然語言(word):定義場景中的物體類別,提供語義層面的資訊;
3. 神經網路表徵(embedding):捕捉物體的內在視覺細節。

這種組合就像給 AI 配備了一套完整的 “建築工具”,既能整體規劃,又能雕琢細節。

對比傳統方法的優勢

與現有技術相比,Scene Language 展現出顯著優勢:

  • 使用者偏好測試中獲得 85.65% 的偏好,相比現有方法提高了近 7 倍;
  • 在物體數量控制方面,測試集中的準確率達到 100%,而現有方法只有 11%。

這一研究展示了 AI 理解和創造 3D 世界的全新可能性,期待它在遊戲開發、建築設計等領域引領新一輪的創新!

作者簡介

該篇論文主要作者來自史丹佛大學吳佳俊團隊。

論文一作張蘊之,史丹佛大學博士生。主要研究為視覺表徵及生成。
圖片
吳佳俊,現任史丹佛大學助理教授。在麻省理工學院完成博士學位,本科畢業於清華大學姚班。
圖片

相關文章