許多 AI 智能體評測基準(zhǔn)并不可靠 原創(chuàng)
編者按: 當(dāng)我們對 AI 智能體進(jìn)行能力評估時(shí),是真的在測量它們的真實(shí)水平嗎?當(dāng)前廣泛使用的基準(zhǔn)測試是否如我們想象的那樣可靠和準(zhǔn)確?
我們今天為大家?guī)淼奈恼?,作者的核心觀點(diǎn)是:當(dāng)前許多 AI 智能體基準(zhǔn)測試存在嚴(yán)重缺陷,亟需建立更嚴(yán)謹(jǐn)?shù)脑u估框架。
本文提供了一套系統(tǒng)性的解決方案 —— AI 智能體基準(zhǔn)測試核查清單(ABC)。 這個(gè)包含 43 個(gè)檢查項(xiàng)目的創(chuàng)新框架,不僅能夠幫助開發(fā)者識別現(xiàn)有基準(zhǔn)測試的潛在陷阱,還能指導(dǎo)構(gòu)建真正可靠的評估體系。
本文系原作者觀點(diǎn),Baihai IDP 僅進(jìn)行編譯分享
作者 | Daniel Kang
編譯 | 岳揚(yáng)
基準(zhǔn)測試[1]是評估人工智能系統(tǒng)優(yōu)勢和局限性的基礎(chǔ),對研究指導(dǎo)[2]和行業(yè)發(fā)展[3]至關(guān)重要。隨著 AI 智能體從研究演示階段邁向關(guān)鍵任務(wù)應(yīng)用領(lǐng)域[4-6],研究人員和實(shí)踐者正著手開發(fā)相應(yīng)的基準(zhǔn)測試,以全面衡量其能力邊界與性能短板。這些 AI 智能體基準(zhǔn)測試在任務(wù)設(shè)定(例如,通常需要模擬現(xiàn)實(shí)場景)和評估方式(例如,缺少標(biāo)準(zhǔn)答案標(biāo)簽)上都比傳統(tǒng) AI 基準(zhǔn)測試復(fù)雜得多,因此需要付出更大的努力來確保其可靠性。
遺憾的是,當(dāng)前許多 AI 智能體基準(zhǔn)測試遠(yuǎn)稱不上可靠。 以 OpenAI[7] 等其他機(jī)構(gòu)用于評估 AI 智能體與網(wǎng)站交互能力的 WebArena[8] 為例。在一個(gè)計(jì)算路線耗時(shí)的任務(wù)中[9],某智能體回答“45 + 8 minutes”被 WebArena 判定為正確,而正確答案應(yīng)為“63 minutes”。此外,在 10 個(gè)流行的 AI 智能體基準(zhǔn)測試(如 SWE-bench、OSWorld、KernelBench 等)中,我們發(fā)現(xiàn)其中 8 個(gè)存在嚴(yán)重問題,導(dǎo)致在某些情況下對智能體能力的誤估率1高達(dá) 100%。
這些數(shù)據(jù)清楚地表明:要理解智能體的真實(shí)能力,我們必須以更嚴(yán)謹(jǐn)?shù)姆绞綐?gòu)建 AI 智能體基準(zhǔn)測試。
我們該如何構(gòu)建值得信賴的 AI 智能體基準(zhǔn)測試?在近期的研究中[10],我們剖析了當(dāng)前基準(zhǔn)測試中的一些常見的失效模式,并提出了一份檢查清單,以最大限度減少 AI 智能體基準(zhǔn)測試的“可作弊性”,并確保這些基準(zhǔn)測試能切實(shí)衡量他們聲稱要衡量的能力。在后續(xù)文章中,我們將提供關(guān)于創(chuàng)建可信 AI 智能體基準(zhǔn)測試的具體建議,并對特定的基準(zhǔn)測試展開深度分析!
01 當(dāng)前 AI 智能體基準(zhǔn)測試存在哪些缺陷?

AI 智能體評估涉及的具體實(shí)施步驟與概念框架。任務(wù)有效性與結(jié)果有效性對于確?;鶞?zhǔn)測試結(jié)果真實(shí)反映智能體的能力至關(guān)重要。
在 AI 智能體基準(zhǔn)測試中,智能體需端到端地完成任務(wù),例如修復(fù)大型代碼庫中的問題[11],或制定旅行計(jì)劃[8]。
這種高要求的目標(biāo)帶來了傳統(tǒng) AI 基準(zhǔn)測試鮮少面臨的兩大挑戰(zhàn):
1)仿真環(huán)境十分脆弱:評估任務(wù)通常在模擬的/容器化的網(wǎng)站、計(jì)算機(jī)或數(shù)據(jù)庫中運(yùn)行。若這些迷你世界存在漏洞或已經(jīng)過時(shí),智能體可能找到“捷徑”通過,或根本無法完成任務(wù)。
2)缺少簡單的標(biāo)準(zhǔn)答案:任務(wù)解決方案可能是代碼、API 調(diào)用或需要自然語言段落描述的非標(biāo)準(zhǔn)化解決方案,不適合用固定的答案模板評估。
基于這兩大挑戰(zhàn),我們特別針對 AI 智能體基準(zhǔn)測試提出了兩項(xiàng)關(guān)鍵的效度標(biāo)準(zhǔn):
1)任務(wù)有效性 (Task Validity) :一項(xiàng)任務(wù)是否僅在智能體具備目標(biāo)能力時(shí)才能被解決?
失效案例:τ-bench[12] 將一個(gè)“不懂訂票的智能體(do-nothing agent)”在 38% 的航空訂票任務(wù)中判定為正確,盡管這個(gè)簡易的智能體根本不懂訂票政策。
2)結(jié)果有效性 (Outcome Validity) :評估結(jié)果(如相關(guān)測試或相關(guān)檢查)是否能夠真實(shí)表明任務(wù)成功執(zhí)行?
失效案例:如前面的例子所示,WebArena[8] 部分依賴于易出錯(cuò)的 LLM-as-a-Judge【譯者注:直接使用大語言模型(如 GPT-5 等)作為評估 AI 智能體表現(xiàn)的裁判機(jī)制】,連“45+8≠63”這類簡單問題也未能正確判斷。
02 AI 智能體基準(zhǔn)測試核查清單 (AI Agent Benchmark Checklist - ABC)
我們編制了《AI 智能體基準(zhǔn)測試核查清單》(AI Agent Benchmark Checklist,簡稱 ABC)。該清單包含 43 個(gè)項(xiàng)目,基于領(lǐng)先的 AI 供應(yīng)商使用的 17 個(gè)智能體基準(zhǔn)測試構(gòu)建而成。ABC 由三部分組成:
- 結(jié)果有效性核查項(xiàng)
- 任務(wù)有效性核查項(xiàng)
- 針對難以實(shí)現(xiàn)(或無法實(shí)現(xiàn))完美有效性的場景而設(shè)立的基準(zhǔn)測試報(bào)告規(guī)范
完整的、可打印格式的核查清單已在線公開[13]。
??https://uiuc-kang-lab.github.io/agentic-benchmarks/assets/checklist.pdf??
03 通過 ABC 得出的研究結(jié)果概述
我們對十項(xiàng)熱門的 AI 智能體基準(zhǔn)測試應(yīng)用了 ABC 方法,包括 SWE-bench Verified、WebArena、OSWorld 等。

應(yīng)用 ABC 方法于十項(xiàng)廣泛使用的 AI 智能體基準(zhǔn)測試的結(jié)果
在這 10 項(xiàng)基準(zhǔn)測試中,我們發(fā)現(xiàn):
1)7/10 存在智能體可提供捷徑完成或不可能完成的任務(wù)。
2)7/10 未能滿足結(jié)果有效性。
3)8/10 未能披露已知問題。
以下是我們識別出的、用于評估前沿 AI 智能體系統(tǒng)(包括 Claude Code 和 OpenAI Operator)的基準(zhǔn)測試中發(fā)現(xiàn)的問題匯總。
SWE-bench 和 SWE-bench Verified 使用手動(dòng)編寫的單元測試來評估智能體生成的代碼補(bǔ)丁的正確性。如下圖所示,智能體生成的代碼補(bǔ)丁可能包含未被單元測試捕獲的缺陷。通過增強(qiáng)單元測試[14],我們觀察到排行榜上的排名發(fā)生了明顯的變化,影響 SWE-bench Lite 中 41% 的智能體和 SWE-bench Verified 中 24% 的智能體。

IBM SWE-1.0 智能體產(chǎn)生的錯(cuò)誤解決方案未被 SWE-bench 捕獲,原因是單元測試未能覆蓋紅色分支。
KernelBench 使用具有隨機(jī)數(shù)值的張量來評估智能體生成的 CUDA 內(nèi)核代碼的正確性。類似于 SWE-bench Verified,這些隨機(jī)數(shù)值張量可能無法捕獲生成的內(nèi)核代碼中的錯(cuò)誤,特別是對于與內(nèi)存(memory)或 shape 相關(guān)的問題。
τ-bench 使用子字符串匹配和數(shù)據(jù)庫狀態(tài)匹配來評估智能體,這使得一個(gè) do-nothing agent 能夠通過 38% 的任務(wù)。下面的示例演示了其中一項(xiàng)任務(wù)。

在 τ-bench 中的一個(gè)任務(wù)示例中,do-nothing agent 也能通過評估
WebArena 使用嚴(yán)格的字符串匹配和一個(gè)樸素的 LLM-judge 來評估智能體操作和輸出的正確性,這導(dǎo)致對智能體性能的誤判達(dá)到 1.6-5.2%。
OSWorld 部分的智能體評估基于過時(shí)的網(wǎng)站進(jìn)行,導(dǎo)致智能體性能被低估達(dá)到 28%。在以下示例中,與智能體進(jìn)行交互的網(wǎng)站中已經(jīng)移除了 CSS 類 search-date。由于評估程序仍依賴過時(shí)的選擇器(selector),它將智能體的正確操作標(biāo)注為錯(cuò)誤。

SWE-Lancer 未能安全存儲(chǔ)測試文件,導(dǎo)致智能體可通過覆蓋測試文件的方式偽造全部測試通過的結(jié)果。
04 ABC 的下一步行動(dòng)
我們將 ABC 構(gòu)建為可操作的框架,旨在幫助:
1)基準(zhǔn)測試開發(fā)者排查潛在問題或展示其全面、嚴(yán)謹(jǐn)?shù)墓ぷ鳌?/p>
2)智能體/模型開發(fā)者深入理解底層基準(zhǔn)測試,而非僅報(bào)告一個(gè)“state-of-the-art”數(shù)值。
詳情內(nèi)容請查看我們的論文[10]。完整的檢查清單、代碼示例及持續(xù)增加的已評估基準(zhǔn)測試庫均位于我們的 GitHub 倉庫[15]。若您希望為現(xiàn)有基準(zhǔn)測試添加漏洞利用方案(exploit)或修復(fù)補(bǔ)丁(fix patches),請向倉庫提交 PR!
我們誠邀內(nèi)容貢獻(xiàn)、issue 報(bào)告和 PR 提交! 若您有興趣使用或迭代改進(jìn) ABC,歡迎隨時(shí)聯(lián)系我們。
1 在我們評估的 10 個(gè) AI 智能體基準(zhǔn)測試中,對智能體能力的誤測幅度從 1.6% 至 100% 不等。
END
本期互動(dòng)內(nèi)容 ??
?在你的項(xiàng)目中,除了標(biāo)準(zhǔn)基準(zhǔn)測試,還用過哪些“土方法”來驗(yàn)證 AI 智能體的真實(shí)能力?
文中鏈接
[1]??https://dl.acm.org/doi/10.1145/2209249.2209271??
[2]??https://direct.mit.edu/daed/article/151/2/85/110602/Searching-for-Computer-Vision-North-Stars??
[3]??https://www.anthropic.com/news/claude-4??
[5]??https://openai.com/index/computer-using-agent/??
[6]??https://www.anthropic.com/claude-code??
[7]??https://openai.com/index/computer-using-agent/??
[9]??https://ibm-cuga.19pc1vtv090u.us-east.codeengine.appdomain.cloud/html/render_82.html??
[10]??https://arxiv.org/abs/2507.02825??
[11]??https://www.swebench.com/original.html??
[12]??https://sierra.ai/resources/research/tau-bench??
[13]??https://uiuc-kang-lab.github.io/agentic-benchmarks/assets/checklist.pdf??
[14]??https://arxiv.org/abs/2506.09289??
[15]??https://github.com/uiuc-kang-lab/agentic-benchmarks??
本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。
原文鏈接:
??https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken??

















