這是空間智慧的第一步。
「無論怎樣理論化,我們還是很難用語言來描述與照片或句子生成的 3D 場景互動的體驗,」李飛飛說道。
北京時間今天凌晨,著名 AI 學者、史丹佛大學教授李飛飛公佈了她的第一個創業專案。這是一個能用單張圖片、一句話生成 3D 世界的神奇專案。
生成式 AI,從此進入了 3D 化、完全沉浸式的新時代。
只用一張圖生成的 3D 世界會有多精細?World Labs 表示,效果是這樣的:
這裡是更多效果展示:
此前,我們已經見證了一系列會製作 2D 內容的生成式 AI 工具,它們可以輸出影像或影片。相比之下,生成 3D 內容的方法並不多見。直接生成 3D 內容可以提高對內容的控制力和一致性,這將改變我們製作電影、遊戲、模擬器和其他物理世界數字表現的方式。
網友紛紛看好 World Labs 的首個專案,認為它既看起來炫酷,又很有前景。
紐約大學助理教授謝賽寧表示,「想象是生成式的,控制是 3D 的。」
的確,當我們把 AI 生成的內容提升到 3D 物體層面上之後,「想象力」與可操作性終於得到了統一,這就為以後的無數應用開啟了大門。
在 World Labs 的部落格中,團隊展示了他們如何探索 3D 生成式世界,並在瀏覽器中實時呈現,包括相機效果、3D 效果和經典繪畫。
探索世界
下面展示了由奇幻圖片和日常照片生成的 3D 世界一些官方示例。
相機效果
一旦場景生成完,之後會使用虛擬相機在瀏覽器中實時渲染。精確控制該相機可實現藝術攝影效果。
可以模擬景深,只有距離相機一定距離的物體才能聚焦:
還可以模擬滑動變焦,同時調整攝像機的位置和視野:
3D 效果
大多數生成模型預測畫素,但預測 3D 場景有很多優勢:
持久現實:一旦生成一個世界,它就會一直存在。即使你移開視線再回來,場景也不會改變。 實時控制:生成場景後,你可以在場景中實時移動。你可以停留在一朵花的細節上,也可以窺探角落裡的一舉一動。 正確的幾何形狀:生成的世界符合三維幾何的基本物理規則。它們具有實體感和深度感,與某些人工智慧生成的影片的夢幻性質形成鮮明對比。
視覺化 3D 場景的最簡單方法是繪製深度圖,其中每個畫素都按其與攝像頭的距離著色:
我們可以利用 3D 場景結構來構建互動效果:
還可以構建特效,讓場景活躍起來:
走進世界名畫
World generation 還有一個應用方式:體驗標誌性藝術作品。這裡是根據梵高、霍珀、修拉和康定斯基的最愛作品生成的,模型沒有生成原畫之外的任何東西。
創意工作流
World Labs 讓 3D 世界生成自然地與其他 AI 工具組合在一起。這使得創作者可以使用他們已知的工具來實現新的體驗。
例如,可以透過首先使用文字到影像模型生成影像來從文字建立世界。不同的模型有自己的風格,World Labs 生成的 3D 世界可以繼承這些風格。
例如,使用不同的文字到影像模型生成同一場景的四個變體,全部使用相同的提示:
一間充滿活力的卡通風格的青少年臥室,裡面有一張鋪著彩色毯子的床,一張雜亂的桌子,上面有一臺電腦,牆上貼著海報,還有散落的運動裝備。一把吉他靠在牆上,中間是一張舒適的帶圖案的地毯。窗外的光線為房間增添了溫暖、年輕的氛圍。