0.5秒,無需GPU,Stability AI與華人團隊VAST開源單圖生成3D模型TripoSR

机器之心發表於2024-03-05

最近,文生影片模型 Sora 掀起了新一輪生成式 AI 模型浪潮,模型的多模態能力引起廣泛關注。

現在,AI 模型在 3D 內容生成方面又有了新突破。

專長於視覺內容生成的 Stability AI 繼圖片生成(Stable Difussion 3 上線)、影片生成(Stable Video 上線)後緊接在 3D 領域發力,今天宣佈攜手華人團隊 VAST 開源單圖生成 3D 模型 TripoSR。

圖片

TripoSR 能夠在 0.5s 的時間內由單張圖片生成高質量的 3D 模型,甚至無需 GPU 即可執行。0.5秒,無需GPU,Stability AI與華人團隊VAST開源單圖生成3D模型TripoSR

  • TripoSR 模型程式碼:https://github.com/VAST-AI-Research/TripoSR

  • TripoSR 模型權重:https://huggingface.co/stabilityai/TripoSR

  • TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR

TripoSR 在 NVIDIA A100 上測試時,它能夠在大約 0.5 秒內生成草圖質量的帶紋理 3D 網格模型,效能超越了其他開源影像到 3D 模型,如 OpenLRM。除了速度之外,TripoSR 對有無 GPU 的使用者都完全可用。

TripoSR 的靈感來源於 2023 年 11 月 Adobe 提出的 LRM,這是一個用於圖生 3D 的大規模重建模型(Large Reconstruction Model,簡稱 LRM),可以基於任意單張輸入影像在數秒鐘得到影像對應的三維模型。

LRM 突破性地將圖生 3D 模型任務表述成了一個序列到序列的翻譯任務 —— 把輸入影像和輸出的 3D 模型分別想象成兩種不同的語言,圖生 3D 任務可以被理解為把影像語言翻譯成 3D 模型語言的過程。影像語言中的 “單詞”(類比語言模型的 token 和影片模型的 patch)是使用者輸入影像切分成的一個個小塊;而在 LRM 方法中,3D 模型語言的 “單詞” 是一種被稱為 “三平面(triplane)” 的三維表示中的一個個小塊,LRM 做的事情就是把影像語言中的 “單詞” 翻譯成 3D 模型語言中的 “單詞”,實現輸入影像輸出 3D 模型。

在 transformer 架構的支撐下,LRM 在一百餘萬公開三維資料上進行了訓練,展示出了現象級的圖生 3D 效果和效率,因此在學界、業界均引起了很大的轟動。然而其相關程式碼和模型均不開源,巨大的訓練代價(128 塊 A100 執行一週)也令小型研究組織望而生畏,這些因素極大阻礙了該項技術的平民化發展。

本次 Tripo AI 和 Stability AI 聯合共同推出了首個 LRM 的高質量開源實現 - TripoSR,可以幾乎實時根據使用者提供的影像生成高質量的三維模型,極大地填補了 3D 生成式人工智慧領域的一個關鍵空白。0.5秒,無需GPU,Stability AI與華人團隊VAST開源單圖生成3D模型TripoSR

根據 Stability 的部落格和技術報告,該模型基於 LRM 的原始演算法,透過精細篩選和渲染的 Objaverse 資料集子集以及一系列的模型和訓練改進,顯著提高了從有限訓練資料中泛化的能力,同時也增強了 3D 重建的保真度。直至 TripoSR 的出現,學術界和開源界一直缺少一個開放、快速、且具備強大泛化能力的 3D 生成基礎模型和框架。之前儘管存在如 threestudio 這樣受到廣泛關注的開源專案,但由於其依賴的技術(比如 score distillation sampling)需要較長的最佳化和計算時間,使得生成一個 3D 模型既緩慢又資源消耗巨大。Stability AI 此前在這一路線上釋出的 Stable Zero123 專案及其在 threestudio 中的整合嘗試,雖然取得了一定進展,但仍未能充分解決這些問題。

TripoSR 開源使全球的研究人員、開發者和創意工作者能夠訪問到最先進的 3D 生成 AI 模型,使各類公司能夠利用 3D 內容建立更復雜的產品和服務、探索 3D 行業新的創造可能性,促進一個更加活躍和有競爭力的市場。

圖片

圖表顯示了 3D 效能的 F-Score(越高越好)與推理時間(越低越好)的關係。

3D 內容生成技術在計算機圖形學和計算機視覺領域近年來經歷著穩步的發展。在過去一年多時間內,特別是隨著大規模公開 3D 資料集的出現以及 2D 影像影片領域強大生成模型的進步,3D 生成技術實現了巨大和快速的進步,引起了工業界廣泛關注。在這一背景下,諸如 DreamFusion(由 Google Research 團隊提出)等基於 score distillation sampling(SDS)的技術,雖然在多視角生成 3D 模型方面取得了突破,但在實際應用中仍面臨生成時間長、難以精細控制生成模型等限制。

與此相對,基於大規模 3D 資料集和大規模可擴充套件模型架構的生成技術方案,如此次釋出的 TripoSR,展現了在不同 3D 資料集上進行高效訓練的能力,其生成 3D 模型過程僅需快速前向推理,並能在生成過程中易於對 3D 模型結果進行精細控制。該類技術的出現,不僅為 3D 生成技術的快速發展開闢了新的道路,也為業界的更廣泛應用提供了新的可能性。

圖片

圖片

圖片和資料來源:TripoSR: Fast 3D Object Reconstruction from a Single Image

值得關注的是,Stability AI 此次與 Tripo AI 聯合開源。Tripo AI 背後的研究機構 VAST AI Research 作為 3D 內容生成領域的新銳研究團隊,從創立之初就致力於開源社群貢獻,相繼開源了 Wonder3D、CSD、TGS 等優質研究工作的程式碼和權重

Tripo 是 VAST 自 2023 年 12 月推出的通用 3D 生成模型(www.tripo3d.ai)。能實現 8 秒內透過文字或圖片生成 3D 網格模型,並透過 5 分鐘進行精細化生成,生成模型質量在幾何和材質層面都接近手工水平。

根據 VAST AI Research 的部落格,AI 在 3D 生成領域的長足發展需要採取一種 “通用方法”,跳出對人類經驗的依賴,透過更龐大的資料、更可擴充套件的模型和充分利用強大計算能力來 “學習”。這一 “通用方法” 應包含多種模態訓練資料的統一、多種模態控制條件的統一以及多種模態通用的生成模型基礎架構。

為實現這一目標,VAST 認為需要從表示、模型和資料三個方向進行工作。其中,“表示” 的選擇至關重要,需要尋找一種既靈活、又利於計算的 3D 表示形式,同時確保與現有圖形管線的相容性。此外,探索 “3D tokenizer” 也是一種有前景的方向,將 3D 表示轉化為類似於語言 token 的形式,有助於將現有的理解和生成模型應用於 3D 領域。

在 “模型” 層面,VAST 的研究旨在充分利用大模型在其他模態下的先驗知識、設計準則和訓練經驗,以增強模型對 3D 資料的學習能力。而 “資料” 層面的挑戰也不容忽視,優質、原生、多樣化的 3D 資料集資源的稀缺限制了模型的最終表現和泛化能力。

TripoSR 讓我們看到了生成式 AI 模型在 3D 方向的潛力,我們期待 2024 年 3D 生成領域將會有更多新的探索。

參考連結:

https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog

相關文章