精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型轉行土木工程!首個「打灰人」評估基準:檢驗讀、改工程圖紙能力

人工智能 新聞
首個工程自動化任務評估基準DrafterBench,可用于測試大語言模型在土木工程圖紙修改任務中的表現。通過模擬真實工程命令,全面考察模型的結構化數據理解、工具調用、指令跟隨和批判性推理能力,研究結果發現當前主流大模型雖有一定能力,但整體水平仍不足以滿足工程一線需求。

在AI競速的今天,大語言模型(LLM)早已不滿足只在象牙塔里「背書解題」。

當GPT-4o刷題通過物理奧賽、DeepSeek熟練搭建網站之后,LLM必須直面一個更現實的問題:

這些號稱「專家級」的大模型,能不能真的下工地?能不能幫工程打工人減負?在鋼筋水泥的圖紙世界里,它們是得力助手,還是紙上談兵?

答案尚未揭曉,但DrafterBench邁出了評估的第一步。

來自加拿大麥吉爾大學AIS實驗室的研究團隊與加州大學圣芭芭拉分校(UCSB)合作,正式推出面向工程自動化任務的大模型評估基準——DrafterBench

這是首個針對「一線工程圖紙修改任務」設計的大規模評測套件,旨在驗證和揭示現有LLMs能否勝任土木工程等領域中真實的「打工任務」。

圖片

論文鏈接:https://arxiv.org/abs/2507.11527

代碼鏈接:https://github.com/Eason-Li-AIS/DrafterBench

數據鏈接:https://huggingface.co/datasets/Eason666/DrafterBench

為什么需要DrafterBench?

工程圖紙修改,是土木工程、建筑設計等領域最耗時間、最高頻的任務之一,也是自動化改造迫切程度極高的一環。

每天成千上萬的一線工程師、制圖員在重復地處理「改一根梁的位置」「把這根管道直徑加粗一點」「為這個構件增加標注」這類十分瑣碎但又關系重大的任務。

圖片

這類工作往往工作量大、標準高、容錯低,但技術門檻不高,對工作者在「任務理解、細節處理、任務鏈配合」方面的綜合執行力要求極強。

于是研究團隊提出問題:

如果大模型能讀懂圖紙指令,調用工具鏈,精確修改圖元,它就不只是「寫PPT的高手」,更是「工程打工人福音」

DrafterBench怎么做的?

DrafterBench以圖紙修改為核心任務,在20個真實項目中收集并設計了1920個高質量任務,涵蓋12類指令類型,模擬了各種難度、不同風格的真實工程命令

圖片

DrafterBench不僅讓模型「按部就班」,而是全面考察以下四大任務能力維度。

結構化數據理解能力:模型是否能從不同風格語句中準確提取出關鍵細節;

工具調用能力:模型能否組合多個工具形成有效的操作鏈,并正確調用順序與參數;

指令跟隨能力:面對一條包含多個修改目標的長指令,是否能做到任務不漏項、執行不斷鏈;

批判性推理能力:模型能否識別指令中的信息缺失、不合理內容,并嘗試補全模糊的細節、完成修正。

這不是紙面作文,是工程實戰。

圖片

DrafterBench如何評估模型?

在DrafterBench中,模型要以「代碼調用工具」的方式完成任務。

這些工具涵蓋圖元編輯、標注調整、繪圖邏輯等,彼此之間還有輸入輸出依賴,形成一個「工程任務鏈」。

但問題來了:

工具調用是否正確?是否合理組合?

中間步驟是否成功傳遞?是否使用了冗余或錯誤命令?

直接看圖紙輸出無法判斷。因此DrafterBench設計了一整套對偶工具系統(Dual function system)。

所有工具都有一份「替身」,不實際修改圖紙,但記錄調用順序、參數值、變量狀態,并以結構化JSON形式輸出,清晰還原模型「行動路徑」。

DrafterBench不只看模型有沒有答對,而是看它「為什么答錯,哪一步出錯,錯在哪里」。

模型表現如何? 喜憂參半!

DrafterBench評測了主流SOTA大語言模型,分別為:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。

圖片

綜合來看,這些模型表現都達到一定水準,得分普遍超過65分

其中,OpenAI o1以79.9的綜合分領跑,Claude3.5 Sonnet和Deepseek-V3-685B表現也非常接近,分別為73.79和73.09。

這說明當前主流大模型具備一定的工程任務處理能力,尤其在簡單指令執行上表現穩定。

但與此同時,模型整體水平仍遠未達到工業一線對執行精度、流程完整性的實際要求。

更重要的是,不同模型在四大能力維度上呈現出顯著差異。

圖片

比如,在結構化數據理解任務中,模型整體表現穩定,對語言風格的魯棒性較強。

但在工具調用方面,準確率波動明顯,平均可達9個百分點。對于指令跟隨能力,部分模型表現出較強的任務承載能力,如OpenAI o1和Claude3.5 Sonnet抗噪聲能力較好,能保持基本的任務完整性。

而在批判性推理任務中,模型間能力分化尤為顯著。

OpenAI o1在識別指令中信息缺失、篩選關鍵信息方面表現突出,而Qwen2.5則在細節補充上更具優勢。

其余模型則在這兩個維度中存在大幅度波動,表現不一。

研究團隊進一步使用自動化錯誤分析工具,對每一個任務的失敗原因進行結構化溯源。

結果表明,模型常見錯誤類型包括參數定義不清、變量傳遞失敗、函數調用結構錯亂、工具選擇偏差以及多工具組合邏輯混亂。

更關鍵的是,即便多個步驟執行正確,只要某一關鍵環節出現偏差,就會導致最終圖紙修改失敗。

這也解釋了為何多數模型的單項能力準確率維持在60%左右,但整體目標修改完成度卻顯著偏低,僅在40%左右。

結論與展望

這些評估結果說明,盡管當前的大模型已有一定能力拆解復雜任務結構、調用工程工具,但它們仍難以穩健掌握完整任務鏈的所有細節,對實際場景的適應能力尚不足以支撐工程一線需求。

如果說過去的大模型評測多數還停留在「會不會」,那么DrafterBench的貢獻在于首次讓模型接受了「干不干得好」的落地考核。

工程現場需要的是高容錯、強判斷、懂規則、能執行的助手,而DrafterBench正是在為這一目標提供數據支持與路徑驗證。

接下來,研究團隊還將擴展任務類型至圖紙校審、規范檢測、施工日志智能生成等更多工程應用場景,持續拓展模型能力邊界。

你有模型,DrafterBench有任務。

看看你的模型,能不能真在圖紙上動真格。

責任編輯:張燕妮 來源: 新智元
相關推薦

2019-07-26 05:52:04

土木工程物聯網IOT

2011-09-08 14:33:15

HP大幅面打印機

2023-08-21 13:49:34

首席信息官CIO

2021-03-10 15:30:38

人工智能智能建筑服務機器人

2011-11-02 09:34:54

HP大幅面打印機

2021-05-26 05:38:55

人工智能AI地震預測

2025-04-28 14:04:03

Gemini模型AI

2025-02-19 13:50:00

明星編程軟件

2025-07-17 09:21:11

2011-03-24 09:57:28

PowerDesign逆向工程

2011-12-28 15:48:12

惠普大幅面打印機

2012-05-02 16:55:04

HP大幅面打印機

2011-10-20 13:40:04

惠普大幅面打印機

2011-10-07 17:12:18

惠普大幅面打印機

2023-11-05 15:09:35

模型AI

2024-04-11 14:12:53

2011-11-17 13:57:13

惠普大幅面打印機

2011-09-23 14:30:05

惠普大幅面打印機

2023-05-08 15:36:50

模型AI
點贊
收藏

51CTO技術棧公眾號

国产精品一区2区3区| 亚洲av无码一区二区三区dv| a日韩av网址| 337p粉嫩大胆色噜噜噜噜亚洲| 一区二区三区中文字幕精品精品 | 日本黄色中文字幕| 国内亚洲精品| 欧美日韩国产综合一区二区| 综合色婷婷一区二区亚洲欧美国产| 国产一区二区小视频| 中文字幕免费一区二区三区| 欧美精三区欧美精三区| 成年在线观看视频| 嫩草在线播放| 精品综合久久久久久8888| 久久最新资源网| 亚洲一级av无码毛片精品| 先锋欧美三级| 美女免费视频一区二区| 久久精品在线播放| 国产高清av片| 麻豆网站免费在线观看| 久久久久九九视频| 亚洲www在线观看| 国产精品9191| 精品视频在线观看免费观看| 婷婷久久综合九色国产成人 | 午夜精品无码一区二区三区| 亚洲经典视频在线观看| 中文字幕国产亚洲2019| 亚洲午夜久久久久久久久| 不卡福利视频| 亚洲制服丝袜av| 日韩欧美第二区在线观看| 国产黄色片av| 老司机午夜精品| 国语自产精品视频在线看一大j8 | 午夜欧洲一区| 精品视频全国免费看| 国产视频一视频二| 在线欧美三级| 国产精品久久久久久久久搜平片| 国产一区二区免费在线观看| 欧美 亚洲 另类 激情 另类| 亚洲一区二区动漫| 欧美国产日本高清在线 | 九色91在线视频| 国产男男gay体育生网站| 久久亚洲精品伦理| 性欧美激情精品| 欧美老熟妇一区二区三区| 国产亚洲一区二区手机在线观看| 一区二区三区中文字幕在线观看| 五月天色一区| 黄色美女网站在线观看| 成人一区二区三区视频| 99久久伊人精品影院| 在线观看免费视频一区| 日韩黄色小视频| 欧美肥婆姓交大片| 在线观看美女av| 日韩免费久久| 亚洲精品mp4| 中国xxxx性xxxx产国| 久久精品九色| 91精品在线一区二区| 自拍偷拍21p| 成人亚洲网站| 欧美性猛交xxxx乱大交退制版| www国产黄色| 正在播放日韩精品| 亚洲国产成人porn| 亚洲人成无码网站久久99热国产| 欧美人与性动交α欧美精品济南到 | 国产精品45p| 一区二区高清在线| 免费观看国产视频在线| 精品欧美色视频网站在线观看| 国产精品久久久久一区二区三区| 国产成人午夜精品影院观看视频| 5566日本婷婷色中文字幕97| 久久国产视频一区| 日本va欧美va瓶| 91深夜福利视频| 亚洲成人久久精品| 久久综合中文字幕| 无码免费一区二区三区免费播放 | 久久国产精品偷| 久久精品国产亚洲av无码娇色| 国产精品日本| 国产精品丝袜久久久久久高清 | 国产美女娇喘av呻吟久久| 成人黄视频免费| 国产免费永久在线观看| 久久av资源网| 官网99热精品| 浮生影视网在线观看免费| 一区二区三区中文字幕| 日韩精品一区二区三区不卡| 日韩欧美中文在线观看| 亚洲欧美一区二区三区四区| 色欲一区二区三区精品a片| 一区在线观看| 国产日韩欧美黄色| 色视频免费在线观看| 亚洲天堂av一区| 爱福利视频一区二区| 欧美影院精品| 在线观看日韩视频| 日韩欧美大片在线观看| 精品无人区卡一卡二卡三乱码免费卡| 国产一区再线| yellow91字幕网在线| 在线观看亚洲a| 日本道中文字幕| 亚洲精品成人影院| 国产成人精品一区二区在线| 欧美一级一区二区三区| 中文字幕一区av| 久久久久久久片| 久久资源综合| 色综合男人天堂| 91theporn国产在线观看| 26uuu国产日韩综合| 日韩一级特黄毛片| **欧美日韩在线| 国产一区二区激情| 亚洲免费在线观看av| 国产精品 欧美精品| 亚洲一区二区三区涩| 日韩国产激情| 日韩国产欧美精品一区二区三区| 久久久久久久国产视频| 国产美女娇喘av呻吟久久| 亚洲一区美女| 亚洲成av在线| 亚洲三级黄色在线观看| www.国产高清| 99精品视频免费在线观看| h无码动漫在线观看| 国产精品18| 久久影院模特热| 国产精品欧美综合亚洲| 成人欧美一区二区三区白人| 五月花丁香婷婷| 久久福利影院| 成人淫片在线看| 国产黄色小视频在线| 欧美卡1卡2卡| 久草福利资源在线| 狠狠色综合播放一区二区| 亚洲精品在线观看免费| 久久久精品一区二区毛片免费看| 中文字幕亚洲激情| 亚洲无码久久久久久久| 亚洲视频一区在线| 九色91porny| 激情丁香综合| 韩日午夜在线资源一区二区| 国产伦久视频在线观看| 精品视频—区二区三区免费| 国产精品视频一区在线观看| 国产日韩v精品一区二区| 性chinese极品按摩| 欧美顶级大胆免费视频| 亚洲aⅴ男人的天堂在线观看 | 午夜精品一区二区三区在线视频 | 自拍偷拍亚洲精品| 91丨porny丨在线中文 | 欧美一级黄视频| 国产精品久久夜| 制服下的诱惑暮生| 亚洲毛片播放| 日本一区二区精品| 中文成人在线| 91精品国产免费久久久久久| 国产资源在线观看| 51精品国自产在线| 日本熟伦人妇xxxx| 日本一区二区三区视频视频| 欧美特黄aaa| 亚洲人体大胆视频| 性刺激综合网| jizzjizzjizz欧美| 国产成人一区二区三区电影| 超碰在线免费播放| 日韩精品久久久久| 国产又黄又粗又猛又爽| 亚洲h动漫在线| av手机在线播放| 粉嫩av亚洲一区二区图片| 欧美黄色免费影院| 中文字幕人成人乱码| 欧美日韩精品久久久免费观看| 日韩黄色碟片| 5566成人精品视频免费| 91麻豆免费在线视频| 亚洲欧美国产日韩天堂区| 国产精品乱码久久久| 精品久久久久久久中文字幕| 国产午夜精品理论片| 91欧美一区二区| 特级黄色片视频| 久久国产高清| 国产精品v欧美精品∨日韩| 欧洲亚洲两性| 久久久久久久久久久国产| aaa日本高清在线播放免费观看| 精品三级在线观看| 亚洲一区二区人妻| 欧美性猛交xxxx免费看| 免费毛片在线播放免费 | 日韩午夜电影av| 加勒比在线一区| 香蕉成人伊视频在线观看| 久久av红桃一区二区禁漫| 91网站在线观看视频| 妖精视频在线观看| 日韩精品欧美成人高清一区二区| 黄页网站在线观看视频| 你懂的成人av| 亚洲午夜久久久影院伊人| 精品视频免费在线观看| 久久大香伊蕉在人线观看热2| 亚洲精品高潮| 91精品啪aⅴ在线观看国产| 成人啊v在线| 日本精品久久久久久久| 国模精品视频| 久久青草精品视频免费观看| av片在线观看网站| 久热99视频在线观看| 免费大片在线观看www| 中文字幕欧美国内| 黄色美女网站在线观看| 亚洲色无码播放| 黄色大片在线看| 一本色道久久综合狠狠躁篇怎么玩| 香港一级纯黄大片| 亚洲黄色av网站| 天天操天天插天天射| 精品福利二区三区| 人人妻人人澡人人爽精品日本 | 91免费欧美精品| 四虎视频在线精品免费网址| 国产精品嫩草影院一区二区| 国产韩日精品| 国产精品吴梦梦| 外国成人毛片| 3d动漫啪啪精品一区二区免费 | 中文字幕第28页| 亚洲图片欧美视频| 99免费在线观看| 午夜成人免费电影| 日本特级黄色片| 91福利国产精品| 一级片一区二区三区| 5858s免费视频成人| 亚洲国产精品成人久久蜜臀| 精品国精品自拍自在线| 视频二区在线观看| 99久久精品免费| 中文字幕欧美视频| 国产99久久久久久免费看农村| xxxx视频在线观看| thepron国产精品| 四虎永久免费在线观看| 欧美激情一区二区三区| 多男操一女视频| 亚洲午夜精品在线| av资源免费观看| 欧美日韩精品一区二区天天拍小说 | 在线不卡中文字幕| 国产成人三级在线播放| 欧美精品一区二区不卡| 色鬼7777久久| 日韩中文综合网| 福利成人导航| 国产精品白嫩美女在线观看 | 日韩欧美中文字幕一区| 手机av免费在线观看| 亚洲九九九在线观看| 日本在线观看视频| 97国产真实伦对白精彩视频8| 中国色在线日|韩| 91九色综合久久| 色狼人综合干| 男女激烈动态图| 午夜亚洲影视| 欧美视频亚洲图片| 91污在线观看| 东方av正在进入| 在线视频综合导航| 亚洲av无码国产综合专区| 亚洲人成绝费网站色www| a级毛片免费观看在线| 欧美在线www| 欧美一区一区| 亚洲激情一区二区| 亚洲欧洲综合| 亚洲av毛片在线观看| 久久久久成人黄色影片| 日韩黄色免费观看| 欧美偷拍一区二区| 无码精品人妻一区二区| 欧美成人免费播放| 亚洲国产尤物| 久久伦理网站| 国产一区日韩一区| 亚洲小视频网站| 久久久久国产精品厨房| 日本免费一二三区| 日韩色视频在线观看| 色影院视频在线| 日韩免费不卡av| 国产日韩三级| 日韩一级片一区二区| 久久丁香综合五月国产三级网站 | 日韩理论电影中文字幕| 国产一二三四五| 精品一区二区三区视频| 成人无码av片在线观看| 欧美午夜精品久久久久久浪潮| a级片在线播放| 久久婷婷国产麻豆91天堂| 日韩在线观看不卡| 欧美日韩成人一区二区三区| 亚洲精品资源| 人妖粗暴刺激videos呻吟| 亚洲欧美日韩一区二区三区在线观看| 中文永久免费观看| 亚洲欧美国产精品va在线观看| 男人天堂视频在线观看| 国产日韩久久| 亚洲免费激情| 性久久久久久久久久久| 亚洲成人免费视频| 色综合久久久久久| 97在线观看视频| 国产另类在线| 丰满少妇大力进入| 成人免费看的视频| 久久视频免费在线观看| 亚洲精品一区二区三区蜜桃下载| 欧美黄色视屏| 国产精品久久久久久久小唯西川 | 国产精品不卡在线观看| 中文字幕在线播放日韩| 伊人一区二区三区久久精品| 成人国产一区| 正在播放一区二区三区| 国内精品伊人久久久久影院对白| 免费黄色激情视频| 欧美一级黄色片| 欧洲中文在线| 蜜桃在线一区二区三区精品| 免费看亚洲片| 国产欧美一区二区三区在线观看视频| 欧美在线视频你懂得| 免费网站成人| 成人动漫视频在线观看免费| 国产日本精品| 成熟人妻av无码专区| 5566中文字幕一区二区电影| 黄页网站大全在线免费观看| 国新精品乱码一区二区三区18| 亚洲欧美春色| 久久免费手机视频| 欧美一区二区精品久久911| 国产在线xxx| 欧美日韩系列| 久久99久久精品| 精品处破女学生| 亚洲精品视频久久| 欧美另类激情| 欧美又粗又长又爽做受| 久久久影院官网| 一级黄色片免费| 国外成人在线播放| 成人羞羞网站入口| 欧美久久久久久久久久久| 欧美午夜精品久久久久久久| 免费在线你懂的| 国产一区二区免费在线观看| 美女久久久精品| 日本亚洲欧美在线| 原创国产精品91| 国产成人福利av| 午夜免费看视频| 亚洲不卡一区二区三区| www亚洲人| 国产一级精品aaaaa看| 蜜臀av一区二区在线免费观看| 精品深夜av无码一区二区老年| 亚洲人成电影在线观看天堂色| 99精品国产高清一区二区麻豆| 9久久婷婷国产综合精品性色| 亚洲国产精品自拍| 麻豆视频在线播放| 欧美国产一区二区在线|