單張圖直接就能生成可編輯的 CAD 工程文件!來自魔芯科技、NTU 等的研究人員提出圖生 3D 新框架,名為 CADCrafter。
CADCrafter 和過去得到網(wǎng)格(Mesh)或 3D 高斯?jié)姙R(3DGS)的圖生 3D 方法大不相同。
不管是零件渲染圖,還是拍攝的 3D 打印零件,甚至是隨意拍攝的日常生活中的物體,CADCrafter 均能夠生成的對應(yīng)的原始 CAD 文件(以 CAD 指令的方式表示,包括表征每個幾何特征的指令和對應(yīng)參數(shù))。
并且通過 CAD 編譯器進行編譯,可得到直接生產(chǎn)加工的 3D 文件(如 STP 格式的文件)。用戶可以通過編輯 CAD 指令實現(xiàn)對物體的編輯(下圖右)。
實驗中,從落地實用性、表面質(zhì)量等特點來看,CADCrafter 相較于目前的圖生 3D 方法均有顯著提升。
這項研究的作者來自 KOKONI 3D(魔芯科技)、新加坡南洋理工大學(xué)、新加坡 A*STAR、西湖大學(xué)、德州大學(xué)奧斯汀分校和浙江大學(xué)。通訊作者為魔芯科技創(chuàng)始人 Tianrun Chen 和新加坡 A*STAR 研究科學(xué)家 Fayao Liu。論文已被 CVPR 2025 接收。
以下是更多細(xì)節(jié)。
從圖像到高質(zhì)量 CAD 模型的端到端生成流程在現(xiàn)實世界中,大多數(shù)人造物體最初都是通過計算機輔助設(shè)計(CAD)軟件以參數(shù)化的方式建模的。
然而,如今大熱的 3D AI 生成內(nèi)容(3D AIGC)技術(shù),例如 TRELLIS 等方法,大多仍依賴于“網(wǎng)格模型”(Mesh)作為基礎(chǔ)。
問題也隨之而來。
相比 CAD 的參數(shù)化設(shè)計,網(wǎng)格模型不僅難以理解,更難精確編輯。用戶想要修改一個小部件的尺寸?在 CAD 中只需調(diào)整參數(shù),在網(wǎng)格模型中卻可能要大動干戈。
而且,這些 AI 生成的網(wǎng)格模型表面常常不夠光滑,邊緣也不夠銳利,尤其是使用像 Marching Cubes 這樣的算法從隱式函數(shù)轉(zhuǎn)換生成網(wǎng)格時,幾何質(zhì)量更容易受到影響。
這種粗糙不清的表面,在需要高質(zhì)量渲染或動畫的應(yīng)用中,顯得格外捉襟見肘。
相比之下,CAD 的參數(shù)化模型則提供了極高的可控性和精度。它們允許用戶直接通過參數(shù)調(diào)整幾何形狀,實現(xiàn)快速且精準(zhǔn)的修改,大大提升了設(shè)計的靈活性與可解釋性。
CADCrafter 就率先嘗試了從 Image-to-Mesh 到 Image-to-CAD 的范式轉(zhuǎn)變。
方法概述如下:
CADCrafter 采用了一種結(jié)合 VAE 與擴散模型的兩階段生成架構(gòu)。
首先,團隊訓(xùn)練了一個變分自編碼器(VAE),將 CAD 指令序列映射到一個結(jié)構(gòu)化的隱空間。
接著,在該隱空間中引入條件擴散生成過程:基于 Diffusion Transformer(DiT)架構(gòu),訓(xùn)練一個擴散生成大模型,輸入條件為用戶提供的圖像,從而實現(xiàn)圖像引導(dǎo)下的 CAD 隱空間采樣與生成。
2. 蒸餾策略:從多視圖到單視圖的高效建模轉(zhuǎn)移考慮到從單張圖像重建 CAD 模型的挑戰(zhàn)性,團隊首先構(gòu)建了一個多視圖輸入的 DiT 生成模型,以更穩(wěn)定地學(xué)習(xí)圖像到 CAD 空間的映射關(guān)系。
隨后,通過引入蒸餾機制(使用 Ldistill 損失),將多視圖模型的知識遷移到單視圖模型中,從而實現(xiàn)了僅基于單張圖像進行高質(zhì)量 CAD 生成的能力。
3. 引入基于 DPO 的可編譯性代碼檢查機制在 CAD 生成過程中,CAD 指令還需經(jīng)過 CAD 內(nèi)核(CAD Kernel)解析,才能生成可視的 3D 模型。
然而,若生成指令存在語義錯誤,例如不閉合曲線等問題,模型構(gòu)建將直接失敗。
為解決這一關(guān)鍵挑戰(zhàn),作者設(shè)計了一個代碼合理性判別模塊,用于判斷生成的 CAD 代碼是否能夠被成功編譯。
作者進一步采用 DPO(Direct Preference Optimization)損失,引導(dǎo)模型傾向于生成更可編譯、幾何結(jié)構(gòu)完整的 CAD 指令,從而顯著提升最終 3D 模型生成的成功率與實用性。
渲染零件、拍攝的 3D 打印零件等均能重建研究團隊選取多個標(biāo)準(zhǔn) CAD 模型,使用 KOKONI SOTA 3D 打印機將其打印成實物,并通過拍照獲取圖像輸入。
實驗表明,CADCrafter 能夠基于單張圖像,準(zhǔn)確生成結(jié)構(gòu)清晰、符合幾何特征的 CAD 建模指令,其生成效果在細(xì)節(jié)還原度方面優(yōu)于現(xiàn)有方法。
拍攝日常生活中的物體,CADCrafter 也能直接生成其設(shè)計制造時可用的工程文件,其表面平面度、棱角等細(xì)節(jié)均符合物體被生產(chǎn)加工制造時的特點(良好表面、尺寸和幾何特征均可編輯)。
這一成果不僅展示了 CADCrafter 在建模精度上的突破,也展現(xiàn)了其在實際應(yīng)用場景中的可行性。
例如,在制造與維修領(lǐng)域,工程師可通過拍攝現(xiàn)有零件照片,快速生成可編輯的 CAD 模型,進而加速原型設(shè)計或零件重建流程。
團隊相信,CADCrafter 為 AI 輔助工業(yè)設(shè)計提供了新的解決方案,其從 Image-to-Mesh 到 Image-to-CAD 的范式轉(zhuǎn)變,有助于推動圖像驅(qū)動的 AI 3D 建模向真正可落地應(yīng)用邁出關(guān)鍵一步。
論文鏈接:https://arxiv.org/pdf/2504.04753
本文來自微信公眾號:量子位(ID:QbitAI),作者:CADCrafter 團隊,原標(biāo)題《單圖直出 CAD 工程文件!CVPR 2025 新研究解決 AI 生成 3D 模型“不可編輯”痛點|魔芯科技 NTU 等出品》
本文鏈接:http://www.www897cc.com/showinfo-45-12274-0.html單圖直出 CAD 工程文件,新研究解決 AI 生成 3D 模型“不可編輯”痛點
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 高德發(fā)布 AI 導(dǎo)航智能體:高速駕車場景下可感知車道級交通流變化、事件事故
下一篇: Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌,此前被質(zhì)疑刷榜作弊