AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在當今數字化時代,3D 資產在元宇宙的建構、數字孿生的實現以及虛擬現實和擴增實境的應用中扮演著重要角色,促進了技術創新和使用者體驗的提升。
現有的 3D 資產生成方法通常利用生成式模型基於空間變化雙向反射分佈函式(SVBRDF, Spatially Varying Bidirectional Reflectance Distribution Function)在預設光照條件下推斷表面位置的材質屬性特徵。然而,這些方法很少考慮到人們對身邊常見物體的表面材質認知構建出的強大且豐富的先驗知識(如汽車輪胎應為外緣的橡膠胎面包裹住金屬的輪轂),且忽略了材質應該與物體本身的 RGB 色彩進行解耦。
因此,如何將人類對物體表面材質的先驗知識有效地融入到材質生成過程中,從而提高現有 3D 資產的整體質量,成為了當前研究的重要課題。
針對這一問題,近日,中國科學院自動化研究所、北京郵電大學及香港理工大學等京港兩地的研究團隊釋出了名為《MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets》的論文,構造了首個針對多種類複雜材質物體的 2D 材質分割資料集 MIO,其包含了多種語義類別下的、單一物體的、各個相機視角的畫素級材質標籤。該研究提出了一種能夠利用 2D 語義先驗在 UV 空間中推斷出 3D 資產表面材質的材質生成方案 ——MaterialSeg3D。
論文:https://arxiv.org/pdf/2404.13923
程式碼地址:https://github.com/PROPHETE-pro/MaterialSeg3D_
專案網站:https://materialseg3d.github.io/
因此,本文聚焦於如何將 2D 圖片中關於材質的先驗知識引入解決 3D 資產材質資訊定義的任務中。
MIO 資料集
這篇論文首先嚐試從現有 3D 資產資料集中提取材質分類的先驗知識,但由於資料集樣本過少且風格單一,分割模型難以學習到正確的先驗知識。
相比 3D 資產,2D 影像則更為廣泛地存在於公開網站或資料集上。然而,現有的帶註釋 2D 影像資料集與 3D 資產渲染圖的分佈存在較大差距,無法直接提供足夠的材質先驗知識。
因此,本文構建了一個定製資料集 MIO(Materialized Individual Objects),是目前最大的多類別單一複雜材質資產的 2D 材質分割資料集,包含了從各種相機角度取樣的影像,並由專業團隊精確註釋。
材質類註釋和 PBR 材質球體對映的視覺化示例。
在構造該資料集時,本文遵循以下規則:
每張取樣影像中只包含一個突出的前景物體
收集相似數量的真實場景 2D 圖片和 3D 資產渲染圖
收集各個相機角度的影像樣本,包括頂檢視和仰檢視等特殊視角
MIO 資料集的獨到之處在於,它不僅僅構造了每種材質類別的畫素級標籤,還單獨構建了每個材質類別與 PBR 材質取值間的一一對映關係。這些對映關係是由 9 名專業 3D 建模師經過討論後確定的。本文從公共材質庫收集了超過 1000 個真實的 PBR 材質球作為備選材質,並依據建模師的專業知識進行篩選與指定,最終確定了 14 個材質類別並將其與 PBR 材質的對映關係作為資料集的標註空間。
MIO 資料集共包含 23,062 張單個複雜物體的多視角影像,分為 5 個大的元類:傢俱、汽車、建築、樂器和植物,具體又可以分為 20 種具體的類別,特別值得一提的是,MIO 資料集中包含大約 4000 張俯檢視影像,提供了在現有 2D 資料集中很少出現的獨特視角。
MaterialSeg3D
有了 MIO 資料集作為可靠的材質資訊先驗知識來源,這篇論文隨後提出了名為 MaterialSeg3D 的全新 3D 資產表面材質預測新正規化,為給定的資產表面生成合理的 PBR 材質,從而能夠真實地模擬物體的物理特性,包括光照、陰影和反射,使 3D 物體在各種環境下都表現出高度的真實性和一致性,為現有 3D 資產缺乏材質資訊的問題提出有效解決方案。
MaterialSeg3D 整個處理流程中包括三個部分:3D 資產的多檢視渲染、多檢視下的材質預測和 3D 材質 UV 生成。在多檢視渲染階段,確定了俯檢視、側檢視和 12 個環繞角度的相機姿勢,以及隨機的俯仰角度,生成 2D 渲染影像。在材質預測階段,利用基於 MIO 資料集訓練的材質分割模型,對多視角渲染圖進行畫素級的材質標籤預測。在材質 UV 生成階段,將材質預測結果對映到臨時 UV 圖上,透過加權投票機制處理得到最終的材質標籤 UV,並轉化為 PBR 材質貼圖。
視覺化的效果與實驗
為評估 MaterialSeg3D 的有效性,本文進行了與近期相似工作的定量與定性實驗分析,重點關注單影像到 3D 資產的生成方法、紋理生成以及公共 3D 資產三個方面。對於單影像到 3D 資產的生成方法,與 Wonder3D、TripoSR 和 OpenLRM 進行了比較,這些方法將資產的某一參照檢視作為輸入,直接生成具有紋理特徵的 3D 物件。透過視覺化圖片觀察到,MaterialSeg3D 處理後的資產在渲染的真實性方面相較之前的工作有顯著改善。論文還比較了現有的紋理生成方法,如 Fantasia3D、Text2Tex 以及 Meshy 網站提供的線上功能,這些方法可以根據文字提示資訊生成紋理結果。
在此基礎上,MaterialSeg3D 在不同的光照條件下能夠生成精確的 PBR 材質資訊,使渲染效果更加真實。
定量實驗採用 CLIP Similarity、PSNR、SSIM 作為評價指標,選擇 Objaverse-1.0 資料集中的資產作為測試樣本,並隨機選擇三個相機角度作為新檢視。
這些實驗證明了 MaterialSeg3D 的有效性。其能夠生成公共 3D 資產缺失的 PBR 材質資訊,為建模師和後續的研究工作提供更多優質資產。
總結與展望
這篇論文針對 3D 資產表面材質生成問題進行了探索,構建了定製的 2D 材質分割資料集 MIO。在這一可靠資料集的支援下,提出了新的 3D 資產表面材質生成正規化 MaterialSeg3D,能夠為單個 3D 資產生成可解耦的獨立 PBR 材質資訊,顯著增強了現有 3D 資產在不同光照條件下的渲染真實性和合理性。
作者指出,未來的研究將專注於擴充套件資料集中物體元類的數量、透過生成偽標籤擴大資料集規模以及對材質分割模型進行自訓練,以便該生成正規化能夠直接應用於絕大多數種類的 3D 資產。