不到60秒就能生成3D「手辦」,Meta發力3D生成,ChatGPT時刻要來了嗎?

机器之心發表於2024-07-04

3D 生成,一直在等待它的「ChatGPT時刻」。


一直以來,創作 3D 內容是設計和開發影片遊戲、擴增實境虛擬現實以及影視特效中最重要的部分。

然而,3D 生成具有獨特而艱鉅的挑戰,這是影像和影片等其他生成內容所不具備的。

  • 首先,3D 內容在藝術質量、生成速度、3D 網格結構和拓撲質量、UV 貼圖結構以及紋理清晰度和解析度方面具有嚴格的標準;
  • 其次,與其他研究相比,可用的資料量少。雖然該領域有數十億張影像和影片可供學習,但可用於訓練的 3D 內容數量要少三到四個數量級。因此,現階段的3D 生成還必須從非 3D 的影像和影片中學習,而且需要從部分 2D 觀察中推斷出 3D 資訊;
  • 傳統方法生成的3D 資源通常難以實現逼真的照明和材質屬性,從而限制了它們在專業工作流程中的實用性;
  • 3D生成是一個非常耗費算力的過程,主要因為它涉及到複雜的計算和大量的資料處理,如實時渲染、細節處理。並且由於算力不夠,可能會導致生成速度非常慢。

在生成式AI爆發的當下,很多研究者開始嘗試針對以上問題提出解決方案。

剛剛,Meta釋出了最新系統Meta 3D Gen (3DGen),其用不到一分鐘的時間,就能直接從文字生成3D資產。
圖片
  • 論文地址:https://ai.meta.com/research/publications/meta-3d-gen/?continueFlag=24428397aaeb0cc6751570d48a532d36

3DGen支援基於物理的渲染 (PBR),這是在實際應用中重新照明 3D 資產所必需的。此外,3DGen 還支援使用使用者提供的額外文字輸入對先前生成的(或藝術家建立的)3D 形狀進行重新紋理化。

比如下面所展示的,藉助3DGen,研究者渲染出了一隻金屬色的小狗:

圖片

未來感滿滿的機器人:

圖片

3DGen還能對生成的物件紋理進行進一步編輯和定製,同樣的方法也可以應用於藝術家建立的3D網格紋理而不需要修改。如下所示,3DGen將藝術家建立的3D資產渲染成彩色的蝴蝶。

圖片

蝴蝶「變身」為用粉色和綠色紗線編織的蝴蝶玩具。

圖片

透過展示可以看出,即使是複雜的文字提示,3DGen也能很好地遵循指令,生成的3D形狀和紋理質量也比較好。

以下是論文中的具體資訊。
Meta 3D Gen基本原理

Meta 3D Gen 是一種兩階段方法,包括兩個關鍵元件:用於建立 3D 網格的 Meta 3D AssetGen 和用於生成紋理的 Meta 3D TextureGen。

這些技術協同工作,可生成具有高解析度紋理和PBR材質的 3D 資產。Meta表示,該流程的速度是現有解決方案的 3 到 10 倍。

圖片

第一階段為3D 資產生成階段。在這一階段,根據使用者提供的文字提示,Meta 3D AssetGen(簡稱 AssetGen)建立初始 3D 資產。此步驟生成具有紋理和 PBR 材質貼圖的 3D 網格。推理時間約為 30 秒。

接下來是第二階段。給定第一階段生成的 3D 資產和用於生成的初始文字提示,第二階段將基於該資產和提示生成更高質量的紋理和 PBR 貼圖。第二階段用到了文字到紋理生成器 Meta 3D TextureGen(簡稱為 TextureGen)。推理時間約為 20 秒。

此外,給定一個無紋理的 3D 網格和描述其所需外觀的提示,第二階段還可用於從頭開始為該 3D 資產生成紋理(網格可以是先前生成的,也可以是藝術家建立的)。推理時間約為 20 秒。

下圖為第一階段和第二階段視覺化對比。後者往往具有更高的視覺美感,看起來更逼真,細節頻率更高。

圖片

我們不難發現,3DGen 以 AssetGen 和 TextureGen 為基礎,將3D 物件的三個關鍵資訊進行了很好的互補:檢視空間(物件的影像)、體積空間(3D 形狀和外觀)和 UV 空間(紋理)。

此過程從 AssetGen 開始,透過使用一個多視角和多通道的文字到影像生成器,生成關於物體的幾個相對一致的檢視。接著,AssetGen中的一個重建網路會在體積空間中提取出3D物件的第一個版本。此過程接著進行網格提取,建立物件的3D形狀和其紋理的初步版本,這一系列步驟構成了從文字描述到3D模型的轉換過程。最後,TextureGen 元件利用檢視空間和 UV 空間生成的組合來重新生成紋理,提高紋理質量和解析度,同時保持對初始提示的保真度。

實驗對比

執行時間和功能上的對比

論文將3DGen的效能與業界領先的文字到3D生成模型進行了比較,包括 CSM、Tripo3D、Rodin Gen-1 V0.5、Meshy v3等。
圖片
在時間上,stage1最快的是Tripo3D(經過筆者實測,Tripo3D線上版本目前stage1為10秒,stage2是2分鐘);stage2最快的是Meta 3D Gen,Tripo3D緊隨其後,Rodin Gen-1 V0.5排名第三,用了2-30分鐘完成。

在功能上,除了Rodin支援重拓撲之外,筆者實測Tripo3D也支援retopology。
定量評測指標

表2主要表現了不同模型遵循 prompt的結果。主要關注text-to-3D,實驗中用了來自2023 Google DreamFusion論文中的404個prompt,細分為物體(156)、角色(106) ,組合角色物體 (141),難度由低到高。定量對比部分全部是user study(使用者偏好)。
圖片
結果表明:在text-to-3D比較重要的prompt fidelity指標上:

  • 綜合排序為:Meta 3D Gen > Third-party T23D generator > Tripo3D > Meshy v3 > CSM Cube 2.0 > Rodin Gen-1 。其中前三名差距很小(3個點的差距,404個prompt中的12個)。CSM和Rodin相較其他方法有明顯差異,Rodin和3DGen相比,兩者相差 21.8個點。
  • 分項評測方面,最簡單的objects中表現最好的是Meshy v3。角色類和複雜組合概念的表現代表了技術水準,也是3D產業應用中最重要的部分,Meta在複雜組合上排名第一,Tripo3D則是難度越高表現越強,僅次於Meta,和第一名差距很小。

圖片

表3比較了Meta和其他方法的A/B win rate和loss rate結果,數字win rate越低代表所對比方法越強,loss rate越高代表所對比方法越強,可以得出:
  • Meshy v3紋理分最高、Rodin紋理分最低;
  • Rodin幾何分比較高;
  • 在綜合性一致性、整體質量方面,Rodin表現不佳;
  • All users和專業使用者打分標準可以看出略有不同,但排名趨勢是一樣的:對幾何和紋理的正確性給予了更多的權重

圖片

上圖橫座標是前面提到的prompt複雜度,縱座標是Meta win rate,低於50%說明對比方法比Meta好,折線越低說明方法越好。圖中比較了多個維度,包括prompt還原度、綜合視覺質量、幾何視覺質量、紋理細節、紋理瑕疵等指標。

Meta在論文中談到越複雜的prompt,他們的方法優勢越明顯,這個其實和前面Table 2中Tripo3D的趨勢和優勢是一致的。可以推測如果這裡加上Tripo3D,Tripo和Meta應該不分伯仲。
定性質量對比

在這篇論文中,Meta還給出了幾個模型的定性結果對比圖,我們可以從這些圖中看出一些差別。

圖片

從prompt遵循程度來看,3DGen表現優秀,比如對於第一行的羊駝雕塑,它可以把prompt中提到的logo文字寫上。但以第三行的case為例,CSM的語義理解較弱,Tripo則展現了其他模型都失敗的「被鍛造的錘子」,甚至還基於推理生成了3DGen沒有考慮到的炭火。

但綜合幾何細節和紋理細節來看,3DGen的紋理細節略顯粗糙,Meshy和Rodin的第一行幾乎沒什麼紋理,而Tripo3D的紋理結果則要好得多,幾何細節非常豐富,人、物也更保真,不像3DGen一樣有時候臉會垮掉。

圖片

圖7表現了同一場景下的比較結果,包括 Tripo3D 、Meshy v3 、以及 3DGen。綜合來看,Meshy方法生成的紋理瑕疵多一些、生成的幾何粗糙一些;放大來看,Tripo和3DGen效果不相上下,但Tripo生成結果更形象、靈動一些。

圖片

筆者用Tripo嘗試了測試集中的龍蛋效果

3D生成來到「ChatGPT時刻」前夜

3D生成賽道其實一直是資本市場的寵兒。A16Z接連對3D生成賽道出手,除了最近名聲大噪的Luma Labs之外,Meta論文中提到的CSM,Google系的Yellow,還有曾經爭議較大的Kaedim都是A16Z的被投明星企業。

在Meta論文中參與比較的工作中Meshy出自知名學者胡淵鳴的團隊,Tripo則出自之前和Stability AI釋出TripoSR的團隊VAST。

Meta此篇論文中引用了不少VAST團隊的論文,不僅包括TripoSR,也包括剛被ECCV收錄的UniDream、曾經爆火的Wonder3D、Triplane meets Gaussian splatting等等。

據筆者根據Tripo官方海外媒體資訊,全球開發者已經基於TRIPO生成了近四百萬個3D模型,TripoSR上線一週就在Github上拿到了3K+的star量。基於這種人氣,Tripo社群也推出了全球第一個AI 3D全球渲染大賽。不到60秒就能生成3D「手辦」,Meta發力3D生成,ChatGPT時刻要來了嗎?
據筆者調研,不管是CG還是3D列印領域都有許多目前的落地探索,不管是全球最大的3D素材交易網站CG模型網定向邀請創作者測試,還是3D列印龍頭開始探索AI,都體現出比想象中更快的商業化落地速度。
圖片

圖片

VAST上線Anycubic的模型社群網站Makeronline和CG模型網

Keadim則選擇和初創團隊Nakkara一起探索3D列印業務:
圖片
總體來看,3D生成技術在學術和行業落地層面都不斷取得突破性進展,我們有理由相信,3D大模型會釋放更多潛力。

擴充套件閱讀:

開創全新通用3D大模型,VAST將3D生成帶入「秒級」時代
0.5秒,無需GPU,Stability AI與華人團隊VAST開源單圖生成3D模型TripoSR
胡淵鳴創業公司Meshy產品升級:文字轉3D,25秒就能出預覽

相關文章