AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文第一作者為上海科技大學資訊學院碩士生徐京偉和憶生科技的王晨宇,指導老師為香港大學的馬毅教授和高盛華教授。王晨宇畢業於上海科技大學並獲得工學碩士學位。其所在的憶生科技由馬毅教授於 23 年底創立,致力於打造完整、自主、自洽的機器智慧系統。
該專案由憶生科技聯合香港大學、上海科技大學共同完成,是全球首個同時支援文字描述、影像、點雲等多模態輸入的計算機輔助設計(CAD)生成大模型。
計算機輔助設計(Computer-Aided Design,簡稱 CAD)軟體是工業軟體的重要分支,也是工業設計流程中的核心工具。然而,目前的 CAD 軟體普遍缺乏簡易的互動工具,這在一定程度上限制了未曾接觸過 CAD 的使用者嘗試和探索的可能性。對於 CAD 建模從業者而言,多模態大模型技術的快速發展尚未充分轉化為 CAD 領域實際應用的便利性和效率提升。如果能夠透過多模態互動工具有效最佳化建模流程,提升效率、節約時間與精力,不僅可以進一步釋放專業使用者的創造潛能,還將為相關產業的發展注入新的活力。
為應對這一挑戰,專案團隊構建了首個覆蓋文字、影像和點雲輸入的多模態 CAD 資料集 Omni-CAD。該資料集致力於賦能多模態大語言模型,使其能夠基於條件輸入生成高質量的 CAD 模型。與此同時,針對 CAD 模型的拓撲質量、空間封閉性等核心屬性,團隊還設計了一系列創新的評估指標,為模型效能提供更全面的衡量標準。藉助這一技術,使用者只需輸入簡單的文字指令,或上傳目標形狀的影像,即可快速生成符合要求的 CAD 模型。這一突破不僅降低了非專業使用者的使用門檻,激發了更多人參與 CAD 設計的興趣,還為 CAD 建模從業者提供了高效可靠的工具支援。
- 論文標題:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
- 論文地址:https://arxiv.org/pdf/2411.04954
- 專案主頁:https://cad-mllm.github.io/
研究背景計算機輔助設計(CAD)技術透過數字化工具,幫助設計師建立、修改和最佳化複雜物件,廣泛應用於工業設計與製造。但傳統的流程較為複雜,對專業知識有較高要求,導致非專業使用者難以參與設計。如何降低使用門檻,讓非專業人士透過簡單指令完成設計構想,已成為該領域亟待解決的挑戰之一。儘管之前一些工作已經在探索 CAD 的生成任務,但這些方法抑或難以滿足使用者對互動設計的需求,抑或只能針對特定的輸入進行生成,因此我們希望提供一個統一的框架能夠處理不同或多種輸入條件的 CAD 生成任務。而另一方面,儘管多模態大模型(MLLMs)展現了跨模態生成的潛力,但在 CAD 領域依然面臨挑戰。尤其是在如何高效表徵各種模態和 CAD 模型上,同時,資料集匱乏問題也一直是一大瓶頸。因此,我們提出了 CAD-MLLM,首個支援文字、影像和點雲三種模態及其組合模態輸入的以命令序列來表徵的引數化 CAD 大模型,並搭配構建了一個超過 45 萬條資料的多模態 CAD 資料集 Omni-CAD,推進該領域的研究。1. 首個支援多模態輸入的引數化 CAD 生成多模態大模型我們提出了一個能夠同時處理文字、影像和點雲,最多三種模態輸入資料的模型。影像和點雲輸入首先透過一個凍結的編碼器提取特徵,經投影層對齊到大語言模型(LLM)的特徵空間。隨後,將各種模態的特徵進行整合,並利用低秩適應(LoRA)對 LLM 進行微調,實現基於多模態輸入資料的精確 CAD 模型生成。為了支援模型訓練,我們設計了一套全面的資料構造和標註管道,構建了包含 45 萬條的多模態 CAD 模型資料集 Omni-CAD。每條資料包含對應的 CAD 模型構造命令序列,以及文字描述、8 個不同視角的影像(下圖隨機挑其中 4 個視角展示)以及點雲資料,極大地填補了 CAD 多模態資料資源的空白,也有助於推動 CAD 生成領域的進一步發展。在評估指標上,之前的工作更多聚焦在模型的重建質量和結構保真度上,而我們針對 CAD 模型的特性,基於最終生成的 CAD 模型的拓撲質量和空間封閉性,創新性地提出了四種量化指標。其中,Segment Error(SegE)檢測 CAD 模型節點連線分段的準確性,Dangling Edge Length (DangEL) 評估懸邊的比例來衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 檢測生成模型中的自相交面問題。而 Flux Enclosure Error (FluxEE) 則透過高斯散度原理,計算常向量場穿過生成表面的通量,評估模型的空間封閉性。我們與多個點雲重建或者基於點雲生成的基準工作進行比較,評測結果展示出我們的方法在重建精度上表現出色。而在拓撲完整性的評估上,我們模型生成的 CAD 模型大多數生成結果都能保持嚴格的流形結構,沒有出現懸邊,具有較高的拓撲完整性。相比之下,基準模型在重建結果中往往存在許多懸空邊緣(如圖中藍線所示)。在基於點雲生成 CAD 模型的比較實驗中,我們針對兩種受干擾的輸入資料的情況進行了測評:新增噪聲的點雲資料及部分點缺失的點雲資料。在從測試集中隨機挑選的 1000 個樣本上,使用 Chamfer Distance 來衡量生成結果,在兩種情況下,CAD-MLLM 的效能均優於基線工作,特別是在一些極端條件下,依然展現出了良好的效能。我們透過三個實際場景來展示多模態資料訓練對於模型生成能力的輔助提升,1)裁剪的點雲資料;2)帶有噪聲的點雲資料;3)雙視角影像輸入。以上三種情況,單一模態資料的訓練,會由於細節丟失或者視角限制使得輸入資訊的不準確,進而導致生成結果的不完整或者不精準,而加入完整的模型的文字描述,可有效彌補未觀測到的部分,生成更為完整、精確的 CAD 模型。