出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資

机器之心發表於2024-12-20

世界模型正在爆發!

近段時間,世界模型的相關研究成果正如雨後春筍版不斷湧現,光是我們報導過的就已有南大周志華團隊的世界模型 WhaleYann LeCun 團隊的世界模型研究李飛飛 World Labs 的空間智慧研究谷歌的強大世界模型 Genie 2 以及剛剛開源的像是能模擬萬物的生成式物理引擎 Genesis

事實上,在 Genesis 開源釋出的差不多時間,一家名為 Odyssey 的創業公司也向世界介紹了他們的世界模型 Explorer。與此同時,他們還宣佈,皮克斯動畫工作室的創始人、圖靈獎得主 Ed Catmull 已加入該公司董事會並進行投資。在此之前的 11 月 13 日,該公司曾宣佈已經完成 1800 萬美元 A 輪融資。

圖片
據介紹,與 Genie 2 類似,Explorer 也能基於單張影像生成高質量 3D 世界。從該公司釋出的 demo 來看,其生成的世界的質量和細節確實都非常出色。出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
從 Odyssey 的部落格介紹來看,Explorer 是為 Odyssey 的目標或者說細分領域服務的:「我們(與皮克斯)有一個共同信念,那就是技術必須服務於故事和故事講述者。在這個 AI 時代,尤其如此。」簡而言之:故事為王(Story is king)。他們希望為「電影、遊戲和其他領域帶來下一個重大技術突破:生成式世界模型。」

和其它 demo 效果驚豔的生成模型一樣,Explorer 同樣也吸引了很多人的讚美。
圖片
Explorer:生成式世界模型

「最精彩的故事會帶我們進入新的世界。」在《玩具總動員》、《頭腦特工隊》、《星球大戰》、《沙丘》、《阿凡達》、《指環王》、《侏羅紀公園》、《荒野大鏢客》和《最後生還者》等傑作中,藝術家花費了數萬小時使用 3D 創作工具來以人工方式製作細節豐富的世界。這些世界中充滿了獨特的角色、風景和音樂。這些耗時的過程既是電影、遊戲等的主要推動因素,也是瓶頸。

而 Explorer 可以簡化這個過程。只需一張圖片,就能得到一個非常具有真實感和豐富細節的 3D 世界。

儘管 Explorer 還處於很早期的階段,但已經有望大幅提升電影和遊戲相容世界的建立速度,此外還可以實現全新的應用或娛樂形式。

Odyssey 在部落格中展示了大量示例,這裡我們也節選了一些給讀者評鑑。出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資 提示詞:An underground workshop with a muscle car covered in a white cloth 出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
提示詞:An office interior from the 2000s出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
提示詞:A Japanese garden, with rich, green foliage

Explorer 宣稱具備多項優勢。首先,其可以生成照片級真實度的世界,並且這也是該模型的核心優勢之一。出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
提示詞:A street in London. Brick wall

Explorer 也能生成運動的世界。該公司表示,儘管還處於研究早期,但生成式世界運動(generative world motion,全部為 3D)具有激動人心的前景,它可讓藝術家以新的、更逼真的方式生成和操縱運動,此外還能提供生成影片模型難以複製的精細控制。出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
提示詞:A family in the kitchen. Snowing出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
提示詞:A serene coral reef

Explorer 還能生成高斯濺射(gaussian splats)。在過去的 18 個月裡,世界上許多頂尖的計算機圖形和視覺研究人員都在關注高斯濺射。原因很容易理解,濺射能夠以令人難以置信的、幾乎難以察覺的真實細節重建場景。有不少人相信這可能成為一種主導的 3D 表示形式。Explorer 也採用了濺射作為世界表示的形式。出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
Explorer 生成的世界還可以進行進一步的人工編輯

創意工具提供商已經注意到高斯濺射的發展勢頭,並已在 Unreal、Houdini、Blender、Maya、3D Studio Max、After Effects 等工具中增加了對濺射視覺化和操作的早期支援。

這就意味著,可以使用這些工具來載入甚至編輯 Explorer 生成的世界。出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資 使用 Blender 編輯後的世界 出手即王炸?照片級真實度生成式世界模型,還獲得皮克斯和Jeff Dean投資
使用 Unreal 編輯後的世界

該公司表示,他們已經在生產流程中嘗試過 Explorer:「為了測試 Explorer 是否已經為生產用途做好準備,我們最近與倫敦的 Garden Studios 進行了合作。我們將 Explorer 生成的世界傳送到他們最先進的虛擬製作階段(用於錄製故事片、電視、商業廣告、音樂影片等),並很高興地確認我們生成的世界可以在當今的實際製作流程中使用。它們看起來非常棒。」

當然,Explorer 還處於早期階段,很多地方並不完美,該公司也指出了一些有待最佳化的地方:

  • Explorer 還不支援實時世界生成,目前平均要 10 分鐘才能完成一次生成。
  • 解析度和世界完整性還有待提升,他們希望未來能無縫地擴充套件生成以填補任何空白並建立完整的球形世界。
  • 透過影片到世界和世界到世界輸入,Explorer 的可控性有待進一步提升,其目標是能將真實世界中捕獲的高斯濺射作為輸入,並根據提示詞或其它指導對其進行增強。

目前,Explorer 並未公開上線,但感興趣的讀者可自行嘗試申請試用:
https://odyssey.systems/introducing-explorer

Odyssey:想用技術講故事的 AI 公司

Odyssey 顯然是一家早早就確立自己發展方向的創業公司。
圖片
該公司的創始人有兩位,分別是擔任 CEO 的 Oliver Cameron 和擔任 CTO 的 Jeff Hawke。
圖片
兩位創始人的 X 頭像

其中 Oliver Cameron 曾在 Cruise 和 Voyage 參與開發自動駕駛汽車,而 Jeff Hawke 曾在 Wayve 領導開發自動駕駛深度學習模型。而他們的團隊更是招募到了來自 Cruise、Waymo、Wayve、特斯拉、微軟、Meta 和英偉達的多位研究者,以及參與開發過《孢子》、《模擬城市》、《模擬人生》、《異形:隔離》和《湯姆・克蘭西》系列等影片遊戲的工程師,參與過《沙丘 2》、《哥斯拉》、《造物主》、《復仇者聯盟:奧創紀元》、《艾麗塔:戰鬥天使》和《侏羅紀世界:失落王國》等電影製作的技術藝術家。此外,該團隊的多名成員都曾獲得 BAFTA 獎。

圖片

可以看出,該公司有非常強的自動駕駛研發背景,他們在 11 月份的部落格中也提到了這一點:「事實上,我們 90% 以上的技術人員的大部分職業生涯都是在 Cruise、Wayve、Waymo 和特斯拉等公司從事自動駕駛汽車的開發工作。這種經歷讓我們對構建世界的模型的問題有了獨特的見解。」只不過,這一次,他們想要打造的不是在 3D 世界中導航的模型,而是生成世界的模型。

為此,他們首先考慮解決的問題是收集現實世界的資料。汽車可以完成其中一部分工作,但汽車也有去不到的地方,比如森林、洞穴、小徑、海灘、冰川、公園等等。最終,他們想到了一個解決方案:人體收集。
圖片
是的,你沒有看錯!具體來說,這會用到一款輕巧的揹包式計算機,其連線著解析度極高的多模態感測器。該裝置重 25 磅(約 11.3 kg),電池續航時間長,配備 6 個攝像頭、2 個鐳射雷達和一個 IMU。這些感測器結合起來,可以 360 度捕捉我們的世界,解析度為 13.5K,細節豐富,每次全景捕捉都包含物理精確的深度資訊。更重要的是,由於人類可以精確控制感測器,因此它們可以確保捕捉到他們的生成模型可能需要的每一個角度。

現在我們知道 Explorer 的照片級真實感是從何而來了。

據瞭解,Odyssey 在今年 7 月 12 日宣佈完成了種子輪融資,領投方是 Google Ventures。今年 11 月 13 日又宣佈了完成了 1800 萬美元 A 輪融資,領投方是 EQT Ventures。其官網也列出了一些投資者資訊,從中我們還能看到 Jeff Dean 的名字,此外還有一些來自 OpenAI、DeepMind 和 Midjourney 等 AI 公司的研究者參與投資。
圖片
你覺得 Explorer 這個生成式世界模型的表現如何?你期待用 Explorer 生成的世界製作的電影或遊戲嗎?

參考連結:
https://x.com/odysseyml/status/1869417873938219360
https://odyssey.systems/learning-from-our-world

相關文章