AAAI 2025 | CAD-GPT:面向工業CAD精準建模的多模態大模型
在現代制造業中,計算機輔助設計(CAD)工具已成為工業產品開發不可或缺的關鍵技術,廣泛應用于汽車、航空、電子、機械等多個核心行業。盡管 CAD 極大提升了設計的精度與效率,但其建模過程仍高度依賴人工操作與工程經驗,尤其在三維空間建模、結構組合、序列構建等環節對空間推理與幾何知識的要求極高。
受到多模態大語言模型(MLLM)技術突破的啟發,薦讀的論文提出了 CAD-GPT —— 一款具備空間推理增強能力的多模態生成模型,首次實現了從單張圖像或自然語言描述出發,直接合成結構合理、語義一致、精確的 CAD 構建序列。
該模型創新性地引入三維建模專用的空間定位機制,將復雜的三維坐標與方向信息映射為離散語言 Token,使語言模型能夠在統一的語言空間中表達和推理三維幾何結構。CAD-GPT 為工業 CAD 自動化建模提供了全新的技術范式,顯著推動了設計智能化與制造效率的提升。
大量實驗證明,CAD-GPT 在性能上顯著優于當前最先進的 CAD 模型生成方法:在圖像輸入條件下,CAD-GPT 的中位 Chamfer Distance(CD)降至 9.77,相較于最佳基線 HNC-CAD 降低了 48%,相比 GPT-4 更是降低了 84%。模型生成的有效率(Invalidity Ratio)僅為 1.61%,顯著優于其他方法。在文本輸入條件下,CAD-GPT 同樣展現出卓越表現,CD 距離僅為 28.33,IR 降至 7.43%,比 GPT-4 低 90%。同時在命令與參數準確率上分別達到了 98.73% 和 98.12%,全面領先主流多模態大模型。
解決方案:CAD-GPT 的提出
受到多模態大語言模型(MLLM)突破的啟發,團隊提出 CAD-GPT —— 一個具備空間推理能力的通用建模大模型。
主要特點:
1. 從圖像 / 語言出發,直接生成 CAD 構建序列
2. 引入空間Token機制:三維位置、角度、草圖等均離散為語言Token
3. 生成結果更精確,顯著優于 GPT-4、HNC-CAD 等主流方法
項目主頁與 Demo:https://OpenIWIN.github.io/CAD-GPT/
創新點一:統一建模生成范式
我們提出了一種基于多模態大語言模型(MLLM)的統一生成式范式——CAD-GPT,能夠從圖像或自然語言輸入中精準合成 CAD 建模序列。該范式首次將 CAD 構建任務納入多模態語言建模框架,通過構建結構化的建模語言空間,實現建模過程的語義統一與端到端表達。模型直接輸出符合工業規范的建模指令序列(如草圖、拉伸、布爾操作等),避免了傳統方法依賴中間表示(如點云、B-rep、潛變量編碼)的冗余步驟,顯著提升了自動建模的通用性與可控性。
創新點二:精確的空間感知與語言映射機制
為克服 MLLM 空間推理能力弱、3D參數難以編碼等挑戰,CAD-GPT 引入了一套面向三維建模的空間定位機制,通過空間離散化與 Token 化設計,將三維空間坐標、草圖法向角度、二維草圖幾何等高維參數轉換為可學習的語言 Token。該機制包括三類可插拔的空間 Token(Orientation Tokens、3D Localization Tokens、2D Sketch Tokens),配合可學習的位置嵌入模塊,使得模型能夠在統一語言空間內表達和推理建模幾何關系,有效增強了 MLLM 對三維空間的感知能力。
創新點三:在多模態輸入和小樣本條件下的卓越性能
實驗表明,CAD-GPT 在圖像和文本條件下均顯著優于現有主流方法:在圖像輸入任務中,模型的中位 Chamfer Distance 降至 9.77,比 GPT-4 降低 84%,無效模型比例僅為 1.61%;在文本輸入任務中,模型的命令與參數準確率分別達到 98.73% 和 98.12%,IR 僅為 7.43%。此外,在數據稀缺的條件下,CAD-GPT 依然展現出出色的建模能力,能夠在小樣本輸入場景下生成結構完整、語義合理的 CAD 構建序列,驗證了其生成式模型在跨模態建模任務中的魯棒性與遷移適應能力。

圖2. 論文圖
問題背景:CAD自動建模的挑戰
計算機輔助設計(CAD)是現代工業產品研發與制造流程中的核心工具,廣泛應用于機械、汽車、航空航天、電子等多個工程領域。CAD 模型不僅承載了產品結構與參數化信息,也是下游仿真分析、工藝規劃和智能制造的基礎。
在工業實踐中,設計人員通常通過繪制二維草圖并執行三維建模操作(如拉伸、切割、布爾運算等)構建復雜的 CAD 模型。然而,這一過程高度依賴專家經驗,建模門檻高、效率低,難以滿足當前工業對智能化、自動化設計的迫切需求。
當前主流的 CAD 建模自動化方法主要依賴三類路徑:
1. 基于點云的逆向建模
2. 基于潛空間編碼的生成模型(如VAE / VQ-VAE)
3. 基于語言或圖像的條件生成模型
這些方法在一定程度上推進了 CAD 自動建模的發展,但在實際工業場景中仍面臨諸多挑戰:
?輸入模態與建模需求的異構性工業設計任務來源多樣,有些來自設計圖紙或草圖圖像,有些來自工程人員的語言描述,但現有方法往往局限于單一模態(如點云或文本),難以適應真實場景中多源輸入的建模需求。
?三維空間表達能力的缺失大多數通用語言模型或多模態大模型缺乏建模所需的三維空間推理與表示能力,難以理解和生成精確的空間結構,導致模型重建誤差大、結構失真嚴重。
?缺乏具備泛化能力的基礎模型現有 CAD 建模模型多為特定架構下訓練,難以遷移到不同類別、不同復雜度的零件建模任務中,缺乏類似“語言模型基礎大腦”那樣可擴展的 CAD 構建基礎模型。
薦讀論文《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》正是為解決上述關鍵挑戰而提出。該研究提出了一個具備三維空間理解能力的多模態大語言模型,能夠在統一架構下從圖像或自然語言輸入生成結構合理、語義一致的 CAD 構建序列,推動了工業設計自動化范式的變革。
方法概述
(一)CAD-GPT 框架概述
CAD-GPT 引入了三維建模空間定位機制,將傳統 CAD 參數(如三維坐標、草圖法向角度、二維草圖控制點)映射為可學習的語言 Token(如 ??<An>???、??<Pk>???、??<SlX>?? 等),并配合視覺-語言對齊機制與多輪上下文理解能力,使模型能夠在統一語言空間中精準表達三維幾何關系。

圖1. CAD-GPT 模型架構示意圖
圖1右側展示了我們提出的空間離散化策略,它將連續的建模空間編碼為離散語言結構,從而實現對建模位置、方向和草圖內容的端到端控制。
(二)問題定義與理論貢獻
在工業 CAD 自動建模領域,現有方法往往:
? 僅支持特定輸入模態(如點云、草圖圖像或文本指令)
? 適配特定建模任務(如輪廓重建、參數提取)
因此,難以實現跨輸入形式、跨任務目標的統一建模流程。同時,由于三維空間信息的表達復雜、語義理解與幾何推理交織,現有模型普遍缺乏在多模態輸入下通用生成 CAD 序列的能力。
本研究的理論貢獻在于:
首次將“多模態基礎模型”范式引入工業 CAD 生成任務,構建了一個具有高度通用性、跨模態建模能力與空間推理能力的模型框架 —— CAD-GPT。
具體包括以下幾方面:
1. CAD 基礎模型定義
我們將 CAD 基礎模型定義為: 一個通用的多模態生成模型,能夠在圖像與自然語言等異構輸入條件下,通過統一的訓練流程與共享參數結構,輸出符合工業規范的 CAD 構建序列;該模型無需修改架構,即可支持不同輸入模態、建模復雜度和對象類別下的 CAD 建模任務。”
2. 統一輸入輸出建模機制
CAD 建模任務中,圖像、文本與建模序列存在高度的模態異構性與語義差異性。
為此,CAD-GPT:
? 引入空間離散化機制
? 將連續的三維建模參數(如草圖起點、方向角、空間位置)映射為離散 Token 序列
? 并統一接入語言模型的詞表,使其在語言生成范式下完成建模任務
在理論建模上,CAD-GPT 將建模過程形式化為一個條件序列生成問題,其輸出建模序列的生成概率建模為:

圖0.1. 公式1
其中可為圖像特征、文本指令或空間提示序列。在空間建模任務中,我們進一步將建模動作拆解為“空間定位序列”與“結構生成序列”,分別定義如下:

圖0.2. 公式2

自監督 + 多階段學習范式:CAD-GPT 采用以圖文配對為基礎的自監督訓練范式,先在大量圖像-CAD 對與文本-CAD 對上進行階段式預訓練(image2CAD → text2CAD),學習具備空間理解與建模能力的語言結構表示;隨后可在少量帶標簽的領域樣本上進行微調,以適配特定場景和任務目標。Prompt 學習與微調機制融合:模型支持通過插入建模指令提示 Token(Prompt Tokens)實現任務驅動的語義引導,同時兼容全參數微調與輕量級 Prompt 微調,具備良好的遷移能力與樣本效率,適應多樣化設計任務。
綜上,CAD-GPT 首次實現了**“跨模態輸入-建模任務統一-空間表達融合”的多模態基礎模型框架,為工業 CAD 建模從“特定模態+專家知識驅動”向“通用建模+語言生成驅動”轉變提供了明確的理論定義與技術路徑。
(三)CAD-GPT 的核心創新
統一的 CAD 建模生成范式:本文提出了一種基于語言生成范式的 CAD 建模新框架,首次實現了多模態輸入(圖像或自然語言)到結構化建模指令的統一映射。模型采用條件語言建模結構,將 CAD 構建任務形式化為自回歸生成過程,統一處理拉伸、草圖、布爾操作等核心建模指令,顯著提升工業建模系統的通用性和靈活性。
三維建模空間定位機制:為增強模型的三維空間感知與表達能力,本文設計了空間推理增強機制,提出三類建模專用 Token(空間位置 Token、方向角 Token、草圖幾何 Token),并引入可學習的位置嵌入以橋接連續空間與語言空間的差異。該機制將連續幾何信息離散化嵌入語言模型詞表,構建了統一可控的三維建模語言空間,從而實現從輸入到建模過程的全閉環生成。
在多模態輸入與小樣本條件下的統一建模性能表現:CAD-GPT 在圖像和文本輸入兩類任務中均顯著優于現有最先進(SOTA)模型。在圖像輸入任務中,模型的中位 Chamfer Distance 降至 9.77(相比 GPT-4 降低 84%),有效率 IR 降至 1.61%;在文本任務中準確率提升至 98.7%,IR 僅為 7.43%。此外,模型在小樣本建模任務中亦表現優異,僅憑少量示例即可完成結構一致性高的構建序列生成,體現出極強的遷移能力與泛化能力。

圖2. 空間建模定位機制
(四)實驗數據集與設置
1)數據集信息論文在多個精心構建的 CAD 建模數據集上對 CAD-GPT 框架進行了系統評估,涵蓋圖像建模(Image-to-CAD)和文本建模(Text-to-CAD)兩種任務設定:
? 圖像建模任務:基于 DeepCAD 原始模型,構建了 160,000 張單視角渲染圖像與對應 CAD 構建序列對,用于訓練圖像到建模序列的映射能力。圖像采用固定渲染視角,以確保視覺輸入的一致性。
? 文本建模任務:通過 GPT-4o 自動生成自然語言建模指令,并結合人工審核,最終篩選出 18,000 條高質量圖文對數據,用于訓練和評估從語言輸入到建模輸出的能力。
上述數據集涵蓋多種形狀類別(幾何圖形、機械零件、家具組件等),具有高度的結構多樣性與語言表達差異,是目前規模較大的多模態 CAD 生成基準資源。值得一提的是,此前從未有工作在統一框架下同時支持圖像與文本輸入建模任務,CAD-GPT 在多模態數據集上的表現具有代表性與開創性。
2)實驗配置所有實驗在配備 4 × NVIDIA RTX A800 GPU(每卡 80GB) 的服務器上運行。
?基礎語言模型:LLaVA-1.5(基于 Vicuna-7B)
?Transformer 層數:32(繼承 Vicuna 架構)
?視覺編碼器:ViT-L/14(336px)
訓練流程與策略如下:
?批量大小:8 / GPU × 4 GPU
?學習率:2.0 × 10??
?訓練輪數:72 小時(約 12 epoch)
(五)實驗結果與性能分析
1)主要實驗結果在構建的數據集上,我們對 CAD-GPT 進行了全面評估,涵蓋圖像建模(Image-to-CAD)與文本建模(Text-to-CAD)兩大任務,并與多種現有代表性方法進行了對比,包括 DeepCAD、SkexGen、HNC-CAD、GPT-4 以及 LLaMA-3.1。實驗結果表明,CAD-GPT 在所有評估任務中均顯著優于現有最先進算法,展現出卓越的生成精度與結構一致性。

圖3. 圖片生成效果
?圖像建模任務表現(Image-to-CAD):中位 Chamfer Distance(CD)為9.77,比 HNC-CAD(18.64)降低約48%,比 GPT-4(62.64)降低達84%;有效模型比例(Invalidity Ratio, IR)為1.61%,顯著優于 GPT-4(64.37%)和 SkexGen(22.32%);命令準確率(ACCcmd)為99.21%,參數準確率(ACCparam)為98.87%。

圖4. 一句話生成效果
? 文本建模任務表現(Text-to-CAD):中位 Chamfer Distance 為 28.33,比 GPT-4(187.52)降低約 83%;IR 僅為 7.43%,而 GPT-4 為 76.97%,LLaMA-3.1 達到 98.68%;ACCcmd 和 ACCparam 分別為 98.73% 和 98.12%,在精度與穩定性方面全面領先。

圖5. 性能指標
2)計算效率分析為驗證模型的實用性與部署能力,我們進一步評估了 CAD-GPT 的推理效率,并分析了關鍵模塊對計算復雜度的影響。
在標準配置下(引入空間 Token 機制與 Prompt 提示機制):
? 模型平均推理時間為7.12ms
? 總 FLOPs 約為85.6 GFLOPs
? 滿足大多數工業設計應用場景下的交互式響應需求
進一步分析顯示:
?移除三維空間 Token 編碼模塊后,推理時間下降至3.45ms,但生成模型的結構一致性與幾何精度顯著下降(CD 上升約2.5 倍)
?關閉 Prompt Token 模塊后,模型在圖文多樣輸入條件下的表現穩定性下降,IR 提升3.7 倍,說明該模塊對語義對齊與生成控制起到關鍵作用
總結與思考
薦讀的論文提出了 CAD-GPT —— 一個面向工業 CAD 自動建模任務的多模態生成式基礎模型。該模型首次在圖像與自然語言輸入條件下,通過統一架構生成結構化建模指令序列,顯著優于當前最先進(SOTA)方法,在多種評估指標上均展現出卓越的準確性、結構一致性與生成穩定性。
CAD-GPT 能夠高效處理來自不同模態的輸入形式(渲染圖、文本指令)、不同結構復雜度的 CAD 模型對象,以及不同類型建模序列的生成目標,充分驗證了統一建模方法在工業 CAD 場景中的可行性與實用性。
本研究是首次將基礎模型范式引入工業 CAD 構建任務的探索性嘗試,初步驗證了基礎模型在復雜幾何生成場景中,亦可如自然語言與視覺任務一樣,具備通用性、泛化性與低成本適應能力。論文不僅從理論上驗證了構建統一 CAD 建模模型的可行性,更在實踐中提出了一個可推廣、性能優越的模型框架,為未來工業智能建模系統的發展提供了重要的技術路徑與方法參考。
?? 論文鏈接??https://arxiv.org/abs/2412.19663??
本文轉載自???????????PaperAgent??

















