別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實經濟價值一目了然原創

發布于 2025-9-30 11:32

瀏覽

0收藏

“AI 到底進化到哪一步了？”

這個問題，你可能每天都在問。我們看過無數的跑分榜單，驚嘆于模型們在數學、代碼、歷史考試上的超人表現。但總感覺隔著一層紗——這些能力，到底能不能換算成我們日常工作中的生產力？

一個 AI 能寫出完美的十四行詩，但能幫我做一份合格的市場分析 PPT 嗎？它能通過法學院考試，但能幫律師起草一份滴水不漏的合同嗎？

長久以來，我們對 AI 的評價，有點像只看“高考成績”，而忽略了“職業技能”。

就在昨天，OpenAI 扔出了一顆重磅炸彈，徹底改變了游戲規則。他們發布了一個名為 GDPval 的全新 AI 評測體系。這個體系，不考數理化，不考腦筋急轉彎，它只干一件事：把 AI 拉到真實世界里，用 44 種真實職業的“行活兒”來狠狠拷問它。

這不只是一次評測，更像是一次對當前所有大模型的“職業技能大摸底”。結果，相當震撼。

1、告別“紙上談兵”，GDPval 到底是什么？

簡單來說，GDPval 是一個用來衡量 AI 在具有經濟價值的真實世界任務中表現如何的評估工具。

名字起得也很有意思，GDPval，直接對標“國內生產總值”（GDP），野心可見一斑——就是要衡量 AI 能否在構成經濟核心的行業里，真正地創造價值。

它和我們熟悉的 MMLU、SWE-Bench 這類學術榜單，有三個根本性的不同。

第一，考題來源：不是考卷，是“派活兒”。

傳統的 AI 評測，題目往往是標準化的選擇題、問答題。而 GDPval 的 1320 個任務，全部來自在一線摸爬滾打了平均 14 年的資深行業專家。

這些專家覆蓋了美國 GDP 貢獻最高的 9 大行業，包括醫療、金融、法律、制造、信息技術等，從中挑選了 44 個核心的知識工作崗位。比如：

專業服務業：律師、會計師、軟件開發人員
醫療保健業：注冊護士、執業護士
制造業：機械工程師、工業工程師
金融保險業：金融分析師、客戶服務代表
信息業：制片人、音視頻技術員、記者

每個任務，都是一個高度仿真的工作指令。

舉個例子，一個給“制造業工程師”的任務可能是這樣的：

“你是汽車裝配線的制造工程師，需要為一個電纜卷盤測試環節設計一個簡化操作的夾具。目前這個測試需要兩個人費力操作，還存在風險。請你用 3D 建模軟件設計一個初步的概念方案，并制作一個 PPT 簡報，將 3D 設計的截圖匯總成 PDF 文件提交。”

你看，這根本不是考試，這就是老板給你派的活兒。

第二，交付物：不看答案，看“成品”。

GDPval 不要求 AI 給出簡單的文本答案。它要求 AI 像一個真正的打工人一樣，交付出實實在在的“工作成果”。

這些成果五花八門，覆蓋了我們日常辦公的“全家桶”：

一份完整的PPT 演示文稿
一個帶公式和圖表的Excel 電子表格
一篇邏輯嚴謹的法律簡報
一張CAD 設計圖的快照
甚至是一段剪輯好的音頻或視頻

為了完成這些任務，AI 經常需要同時處理多個參考文件，比如需求文檔、數據表、設計草圖等等，這極大地考驗了大模型的多模態和多文件處理能力。

第三，閱卷人：不是機器，是“同行”。

誰來評判 AI 的工作成果？答案是：這個領域的其他專家。

OpenAI 采用了“盲審”+“同行配對比較”的模式。評分專家在不知道哪個是 AI 作品、哪個是人類專家作品的情況下，進行“二選一”或“三選一”的優劣評判。

這種方式，最大限度地排除了偏見，也讓評分標準更貼近真實世界對“好工作”的定義——不僅僅是信息準確，還包括格式、排版、邏輯、甚至審美。

可以說，GDPval 第一次為我們建立了一把真正衡量 AI “工作能力”的標尺。它不再問 AI“懂什么”，而是問 AI“能做什么”。

2、震撼的“體檢報告”：AI 離真人專家還有多遠？

那么，體檢結果如何？OpenAI 對目前市面上的主流大模型（包括 GPT-4o, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro 等）進行了一輪摸底測試，結果讓人倒吸一口涼氣。

首先，頂尖模型的表現，已經非常接近人類專家。

下面這張圖，展示了各大模型產出的成果，被專家評為“和人類專家一樣好（打平）”或“比人類專家更好（獲勝）”的比例。

(注：由于無法在此處生成圖表，我們用文字描述圖表核心信息)

GDPval 勝率/平局率（對比人類行業專家）

Claude Opus 4.1：勝率+平局率接近 50%
GPT-5 high：勝率+平局率達到 47.6%
o4-mini high：勝率+平局率達到 38.8%
Gemini 2.5 Pro：勝率+平局率達到 34.1%
Grok 4：勝率+平局率達到 27.9%
GPT-4o：勝率+平局率僅為 12.4%

別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實經濟價值一目了然-AI.x社區

解讀一下這張圖：

第一梯隊已經形成：最新的 Claude Opus 4.1 和GPT-5表現最為搶眼。在接近一半的真實世界任務中，它們的交付成果已經能與經驗豐富的人類專家相媲美，甚至超越。
各有千秋：報告特別提到，Claude Opus 4.1 在美學方面（如文檔格式、PPT 布局）表現突出，而GPT-5則在準確性上（如調用領域知識）更勝一籌。這說明不同模型已經開始出現“職業特長”分化。

其次，AI 的進化速度，呈現出一條陡峭的增長曲線。

如果說上面的結果是“空間”上的對比，那么下面這張關于 OpenAI 自身模型迭代的圖，則揭示了“時間”上的恐怖進化速度。

(注：由于無法在此處生成圖表，我們用文字描述圖表核心信息)

OpenAI 前沿模型在 GDPval 上的表現（隨時間變化）

GPT-4o (2024 年春)：勝率+平局率約 12%
o3-high (內部模型)：勝率+平局率約 25%
GPT-5-high (2025 年夏)：勝率+平局率約 48%

別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實經濟價值一目了然-AI.x社區

你沒看錯，從 2024 年春天的 GPT-4o 到 2025 年夏天的 GPT-5，僅僅一年多的時間，模型在 GDPval 評測體系中的表現翻了整整三倍！這種幾乎線性的、肉眼可見的增長趨勢，比任何抽象的性能參數都更具沖擊力。

最后，是成本和效率的顛覆性潛力。

報告指出，在純粹的任務執行層面，大模型完成這些任務的速度比人類專家快約 100 倍，API 調用成本也低約 100 倍。

當然，OpenAI 也特別強調，這個數字沒有計算人類監督、迭代修改和整合進工作流的時間。但在那些模型表現已經足夠好的任務上，先讓 AI “打個初稿”，無疑能極大地節省時間和金錢。

3、從跑分到打工：AI 評測的進化之路

GDPval 的出現并非偶然，它標志著 AI 評測 思維的一次關鍵躍遷。

我們可以清晰地看到一條進化路線：

學術基準時代 (Academic Benchmarks)：以 MMLU 為代表，像“高考”，測試 AI 的通識知識儲備和基礎推理能力。
應用技能時代 (Applied Skills)：以 SWE-Bench（軟件工程）、MLE-Bench（機器學習工程）為代表，像“職業資格考試”，測試 AI 在特定專業領域的技能。
市場價值時代 (Market-Based Value)：以 SWE-Lancer（模擬真實外包軟件項目）和今天的GDPval為代表，像“職場實戰”，直接衡量 AI 在真實商業環境中的交付能力和經濟價值。

這條路，是從“我知道”到“我能做”，再到“我做的東西值錢”的升級。

這背后，是 OpenAI 等頭部公司的一個清晰戰略：推動 AI 從實驗室走向千行百業。只有當 AI 的能力能被經濟價值所度量，它才能真正成為下一代生產力工具，引發廣泛的社會變革。

為此，OpenAI 還配套發布了兩個資源：

一個包含 220 個任務的“黃金”數據集，向所有研究者開放，讓大家都能在這個標準下測試自己的模型。
一個實驗性的“自動評分器”，雖然準確率（約 66%）還不能完全替代人類專家（人類互評一致性約 71%），但可以作為一個快速迭代的代理工具，大大降低了評測成本。

4、理性看待：GDPval 不是終點，而是起點

盡管 GDPval 意義重大，但 OpenAI 也非常坦誠地指出了它當前的局限性。

任務類型有限：目前 GDPval-v0 版本主要集中在計算機可以處理的“知識工作”，不涉及需要物理操作的勞動。
“一次性”任務：評測都是“一錘子買賣”，給好指令和資料，看輸出結果。它無法模擬真實工作中需要反復溝通、多次修改、逐步深入的交互式流程。
缺乏模糊性：任務指令都非常清晰明確。但在現實中，很多工作的第一步，恰恰是去定義那個模糊不清的問題。

這些局限性也為 AI 評測 的未來指明了方向。可以預見，未來的 GDPval v1、v2 版本，會引入更長的任務鏈條、更復雜的交互、以及需要 AI 自主處理模糊需求的能力。

寫在最后

GDPval 的發布，就像一聲發令槍。它宣告了 AI 評測 正式告別“唯分數論”的時代，進入了以“價值創造”為核心的下半場。

它給了我們一個更真實、更客觀的視角，去審視 AI 的能力邊界和發展速度。結果表明，AI 在許多知識工作領域的“動手能力”，可能比我們大多數人想象的要強得多，也進步得快得多。

這并不意味著大規模的“失業”，而是預示著一場深刻的“人機協同”變革。AI 將越來越多地承擔那些重復性、有明確規范的“任務”，而人類則能更專注于那些需要創造力、戰略思考和復雜情感判斷的“工作”。

我們每個人，都站在這場變革的浪潮之巔。

最后，想和你互動一下：

在你自己的工作中，你覺得哪些任務最有可能被今天這樣水平的 AI 接管？

本文轉載自??Halo咯咯?? 作者：基咯咯

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

OpenAI

GDPval

大模型

已于2025-9-30 11:32:15修改

贊

回復

舉報

社區頭條

回復

51CTO

51CTO博客

51CTO學堂

別只看跑分了！OpenAI 新出的 GDPval 評測，讓大模型的真實經濟價值一目了然原創