剛剛,李飛飛創業首個專案引圍觀:單圖生成互動3D場景,空間智慧來了

机器之心發表於2024-12-03
這是空間智慧的第一步。

「無論怎樣理論化,我們還是很難用語言來描述與照片或句子生成的 3D 場景互動的體驗,」李飛飛說道。

北京時間今天凌晨,著名 AI 學者、史丹佛大學教授李飛飛公佈了她的第一個創業專案。這是一個能用單張圖片、一句話生成 3D 世界的神奇專案。

生成式 AI,從此進入了 3D 化、完全沉浸式的新時代。

圖片

只用一張圖生成的 3D 世界會有多精細?World Labs 表示,效果是這樣的:

圖片

這裡是更多效果展示:剛剛,李飛飛創業首個專案引圍觀:單圖生成互動3D場景,空間智慧來了

此前,我們已經見證了一系列會製作 2D 內容的生成式 AI 工具,它們可以輸出影像或影片。相比之下,生成 3D 內容的方法並不多見。直接生成 3D 內容可以提高對內容的控制力和一致性,這將改變我們製作電影、遊戲、模擬器和其他物理世界數字表現的方式。

網友紛紛看好 World Labs 的首個專案,認為它既看起來炫酷,又很有前景。

圖片

紐約大學助理教授謝賽寧表示,「想象是生成式的,控制是 3D 的。」

圖片

的確,當我們把 AI 生成的內容提升到 3D 物體層面上之後,「想象力」與可操作性終於得到了統一,這就為以後的無數應用開啟了大門。

在 World Labs 的部落格中,團隊展示了他們如何探索 3D 生成式世界,並在瀏覽器中實時呈現,包括相機效果、3D 效果和經典繪畫。剛剛,李飛飛創業首個專案引圍觀:單圖生成互動3D場景,空間智慧來了

探索世界

下面展示了由奇幻圖片和日常照片生成的 3D 世界一些官方示例。

圖片

圖片

圖片

相機效果

一旦場景生成完,之後會使用虛擬相機在瀏覽器中實時渲染。精確控制該相機可實現藝術攝影效果。

可以模擬景深,只有距離相機一定距離的物體才能聚焦:

圖片

圖片

還可以模擬滑動變焦,同時調整攝像機的位置和視野:

圖片

圖片

3D 效果

大多數生成模型預測畫素,但預測 3D 場景有很多優勢:

  • 持久現實:一旦生成一個世界,它就會一直存在。即使你移開視線再回來,場景也不會改變。
  • 實時控制:生成場景後,你可以在場景中實時移動。你可以停留在一朵花的細節上,也可以窺探角落裡的一舉一動。
  • 正確的幾何形狀:生成的世界符合三維幾何的基本物理規則。它們具有實體感和深度感,與某些人工智慧生成的影片的夢幻性質形成鮮明對比。

視覺化 3D 場景的最簡單方法是繪製深度圖,其中每個畫素都按其與攝像頭的距離著色:圖片

我們可以利用 3D 場景結構來構建互動效果:圖片

還可以構建特效,讓場景活躍起來:圖片

走進世界名畫

World generation 還有一個應用方式:體驗標誌性藝術作品。這裡是根據梵高、霍珀、修拉和康定斯基的最愛作品生成的,模型沒有生成原畫之外的任何東西。圖片

創意工作流

World Labs 讓 3D 世界生成自然地與其他 AI 工具組合在一起。這使得創作者可以使用他們已知的工具來實現新的體驗。

例如,可以透過首先使用文字到影像模型生成影像來從文字建立世界。不同的模型有自己的風格,World Labs 生成的 3D 世界可以繼承這些風格。

例如,使用不同的文字到影像模型生成同一場景的四個變體,全部使用相同的提示:

一間充滿活力的卡通風格的青少年臥室,裡面有一張鋪著彩色毯子的床,一張雜亂的桌子,上面有一臺電腦,牆上貼著海報,還有散落的運動裝備。一把吉他靠在牆上,中間是一張舒適的帶圖案的地毯。窗外的光線為房間增添了溫暖、年輕的氛圍。

圖片
圖片
World Labs 已經讓一些創作者提前瞭解了技術,開始嘗試 3D 原生生成 AI 工作流帶來的可能性。

Eric Solorio 展示了 World Labs 的模型如何填補其創意工作流中的空白,使場景中的角色輕鬆上演並指導精確的攝像機移動:剛剛,李飛飛創業首個專案引圍觀:單圖生成互動3D場景,空間智慧來了Brittani Natali 使用將 World Labs 技術與 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相結合的工作流程,在生成的世界中精心設計了攝像機路徑,以喚起三部短片的不同情緒: 剛剛,李飛飛創業首個專案引圍觀:單圖生成互動3D場景,空間智慧來了
最後,World Labs 表示這些結果是他們生成 3D 世界的第一個早期預覽。他們正在努力改善生成的世界的大小和保真度,並嘗試使用者與其互動的新方式。

對此,你怎麼看?

參考連結:https://www.worldlabs.ai/blog

相關文章