大模型轉行土木工程！首個「打灰人」評估基準：檢驗讀、改工程圖紙能力

2025-07-18 10:08:17

首個工程自動化任務評估基準DrafterBench，可用于測試大語言模型在土木工程圖紙修改任務中的表現。通過模擬真實工程命令，全面考察模型的結構化數據理解、工具調用、指令跟隨和批判性推理能力，研究結果發現當前主流大模型雖有一定能力，但整體水平仍不足以滿足工程一線需求。

在AI競速的今天，大語言模型（LLM）早已不滿足只在象牙塔里「背書解題」。

當GPT-4o刷題通過物理奧賽、DeepSeek熟練搭建網站之后，LLM必須直面一個更現實的問題：

這些號稱「專家級」的大模型，能不能真的下工地？能不能幫工程打工人減負？在鋼筋水泥的圖紙世界里，它們是得力助手，還是紙上談兵？

答案尚未揭曉，但DrafterBench邁出了評估的第一步。

來自加拿大麥吉爾大學AIS實驗室的研究團隊與加州大學圣芭芭拉分校（UCSB）合作，正式推出面向工程自動化任務的大模型評估基準——DrafterBench。

這是首個針對「一線工程圖紙修改任務」設計的大規模評測套件，旨在驗證和揭示現有LLMs能否勝任土木工程等領域中真實的「打工任務」。

論文鏈接：https://arxiv.org/abs/2507.11527

代碼鏈接：https://github.com/Eason-Li-AIS/DrafterBench

數據鏈接：https://huggingface.co/datasets/Eason666/DrafterBench

為什么需要DrafterBench？

工程圖紙修改，是土木工程、建筑設計等領域最耗時間、最高頻的任務之一，也是自動化改造迫切程度極高的一環。

每天成千上萬的一線工程師、制圖員在重復地處理「改一根梁的位置」「把這根管道直徑加粗一點」「為這個構件增加標注」這類十分瑣碎但又關系重大的任務。

這類工作往往工作量大、標準高、容錯低，但技術門檻不高，對工作者在「任務理解、細節處理、任務鏈配合」方面的綜合執行力要求極強。

于是研究團隊提出問題：

如果大模型能讀懂圖紙指令，調用工具鏈，精確修改圖元，它就不只是「寫PPT的高手」，更是「工程打工人福音」。

DrafterBench怎么做的？

DrafterBench以圖紙修改為核心任務，在20個真實項目中收集并設計了1920個高質量任務，涵蓋12類指令類型，模擬了各種難度、不同風格的真實工程命令。

DrafterBench不僅讓模型「按部就班」，而是全面考察以下四大任務能力維度。

結構化數據理解能力：模型是否能從不同風格語句中準確提取出關鍵細節；

工具調用能力：模型能否組合多個工具形成有效的操作鏈，并正確調用順序與參數；

指令跟隨能力：面對一條包含多個修改目標的長指令，是否能做到任務不漏項、執行不斷鏈；

批判性推理能力：模型能否識別指令中的信息缺失、不合理內容，并嘗試補全模糊的細節、完成修正。

這不是紙面作文，是工程實戰。

DrafterBench如何評估模型？

在DrafterBench中，模型要以「代碼調用工具」的方式完成任務。

這些工具涵蓋圖元編輯、標注調整、繪圖邏輯等，彼此之間還有輸入輸出依賴，形成一個「工程任務鏈」。

但問題來了：

工具調用是否正確？是否合理組合？

中間步驟是否成功傳遞？是否使用了冗余或錯誤命令？

直接看圖紙輸出無法判斷。因此DrafterBench設計了一整套對偶工具系統（Dual function system）。

所有工具都有一份「替身」，不實際修改圖紙，但記錄調用順序、參數值、變量狀態，并以結構化JSON形式輸出，清晰還原模型「行動路徑」。

DrafterBench不只看模型有沒有答對，而是看它「為什么答錯，哪一步出錯，錯在哪里」。

模型表現如何? 喜憂參半！

DrafterBench評測了主流SOTA大語言模型，分別為：OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。

綜合來看，這些模型表現都達到一定水準，得分普遍超過65分。

其中，OpenAI o1以79.9的綜合分領跑，Claude3.5 Sonnet和Deepseek-V3-685B表現也非常接近，分別為73.79和73.09。

這說明當前主流大模型具備一定的工程任務處理能力，尤其在簡單指令執行上表現穩定。

但與此同時，模型整體水平仍遠未達到工業一線對執行精度、流程完整性的實際要求。

更重要的是，不同模型在四大能力維度上呈現出顯著差異。

比如，在結構化數據理解任務中，模型整體表現穩定，對語言風格的魯棒性較強。

但在工具調用方面，準確率波動明顯，平均可達9個百分點。對于指令跟隨能力，部分模型表現出較強的任務承載能力，如OpenAI o1和Claude3.5 Sonnet抗噪聲能力較好，能保持基本的任務完整性。

而在批判性推理任務中，模型間能力分化尤為顯著。

OpenAI o1在識別指令中信息缺失、篩選關鍵信息方面表現突出，而Qwen2.5則在細節補充上更具優勢。

其余模型則在這兩個維度中存在大幅度波動，表現不一。

研究團隊進一步使用自動化錯誤分析工具，對每一個任務的失敗原因進行結構化溯源。

結果表明，模型常見錯誤類型包括參數定義不清、變量傳遞失敗、函數調用結構錯亂、工具選擇偏差以及多工具組合邏輯混亂。

更關鍵的是，即便多個步驟執行正確，只要某一關鍵環節出現偏差，就會導致最終圖紙修改失敗。

這也解釋了為何多數模型的單項能力準確率維持在60%左右，但整體目標修改完成度卻顯著偏低，僅在40%左右。

結論與展望

這些評估結果說明，盡管當前的大模型已有一定能力拆解復雜任務結構、調用工程工具，但它們仍難以穩健掌握完整任務鏈的所有細節，對實際場景的適應能力尚不足以支撐工程一線需求。

如果說過去的大模型評測多數還停留在「會不會」，那么DrafterBench的貢獻在于首次讓模型接受了「干不干得好」的落地考核。

工程現場需要的是高容錯、強判斷、懂規則、能執行的助手，而DrafterBench正是在為這一目標提供數據支持與路徑驗證。

接下來，研究團隊還將擴展任務類型至圖紙校審、規范檢測、施工日志智能生成等更多工程應用場景，持續拓展模型能力邊界。

你有模型，DrafterBench有任務。

看看你的模型，能不能真在圖紙上動真格。

責任編輯：張燕妮來源：新智元

自動化 AI 大模型