別只看跑分了!OpenAI 新出的 GDPval 評測,讓大模型的真實經濟價值一目了然 原創
“AI 到底進化到哪一步了?”
這個問題,你可能每天都在問。我們看過無數的跑分榜單,驚嘆于模型們在數學、代碼、歷史考試上的超人表現。但總感覺隔著一層紗——這些能力,到底能不能換算成我們日常工作中的生產力?
一個 AI 能寫出完美的十四行詩,但能幫我做一份合格的市場分析 PPT 嗎?它能通過法學院考試,但能幫律師起草一份滴水不漏的合同嗎?
長久以來,我們對 AI 的評價,有點像只看“高考成績”,而忽略了“職業技能”。
就在昨天,OpenAI 扔出了一顆重磅炸彈,徹底改變了游戲規則。他們發布了一個名為 GDPval 的全新 AI 評測體系。這個體系,不考數理化,不考腦筋急轉彎,它只干一件事:把 AI 拉到真實世界里,用 44 種真實職業的“行活兒”來狠狠拷問它。
這不只是一次評測,更像是一次對當前所有大模型的“職業技能大摸底”。結果,相當震撼。
1、告別“紙上談兵”,GDPval 到底是什么?
簡單來說,GDPval 是一個用來衡量 AI 在具有經濟價值的真實世界任務中表現如何的評估工具。
名字起得也很有意思,GDPval,直接對標“國內生產總值”(GDP),野心可見一斑——就是要衡量 AI 能否在構成經濟核心的行業里,真正地創造價值。
它和我們熟悉的 MMLU、SWE-Bench 這類學術榜單,有三個根本性的不同。
第一,考題來源:不是考卷,是“派活兒”。
傳統的 AI 評測,題目往往是標準化的選擇題、問答題。而 GDPval 的 1320 個任務,全部來自在一線摸爬滾打了平均 14 年的資深行業專家。
這些專家覆蓋了美國 GDP 貢獻最高的 9 大行業,包括醫療、金融、法律、制造、信息技術等,從中挑選了 44 個核心的知識工作崗位。比如:
- 專業服務業:律師、會計師、軟件開發人員
- 醫療保健業:注冊護士、執業護士
- 制造業:機械工程師、工業工程師
- 金融保險業:金融分析師、客戶服務代表
- 信息業:制片人、音視頻技術員、記者
每個任務,都是一個高度仿真的工作指令。
舉個例子,一個給“制造業工程師”的任務可能是這樣的:
“你是汽車裝配線的制造工程師,需要為一個電纜卷盤測試環節設計一個簡化操作的夾具。目前這個測試需要兩個人費力操作,還存在風險。請你用 3D 建模軟件設計一個初步的概念方案,并制作一個 PPT 簡報,將 3D 設計的截圖匯總成 PDF 文件提交。”
你看,這根本不是考試,這就是老板給你派的活兒。
第二,交付物:不看答案,看“成品”。
GDPval 不要求 AI 給出簡單的文本答案。它要求 AI 像一個真正的打工人一樣,交付出實實在在的“工作成果”。
這些成果五花八門,覆蓋了我們日常辦公的“全家桶”:
- 一份完整的PPT 演示文稿
- 一個帶公式和圖表的Excel 電子表格
- 一篇邏輯嚴謹的法律簡報
- 一張CAD 設計圖的快照
- 甚至是一段剪輯好的音頻或視頻
為了完成這些任務,AI 經常需要同時處理多個參考文件,比如需求文檔、數據表、設計草圖等等,這極大地考驗了大模型的多模態和多文件處理能力。
第三,閱卷人:不是機器,是“同行”。
誰來評判 AI 的工作成果?答案是:這個領域的其他專家。
OpenAI 采用了“盲審”+“同行配對比較”的模式。評分專家在不知道哪個是 AI 作品、哪個是人類專家作品的情況下,進行“二選一”或“三選一”的優劣評判。
這種方式,最大限度地排除了偏見,也讓評分標準更貼近真實世界對“好工作”的定義——不僅僅是信息準確,還包括格式、排版、邏輯、甚至審美。
可以說,GDPval 第一次為我們建立了一把真正衡量 AI “工作能力”的標尺。它不再問 AI“懂什么”,而是問 AI“能做什么”。
2、震撼的“體檢報告”:AI 離真人專家還有多遠?
那么,體檢結果如何?OpenAI 對目前市面上的主流大模型(包括 GPT-4o, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro 等)進行了一輪摸底測試,結果讓人倒吸一口涼氣。
首先,頂尖模型的表現,已經非常接近人類專家。
下面這張圖,展示了各大模型產出的成果,被專家評為“和人類專家一樣好(打平)”或“比人類專家更好(獲勝)”的比例。
(注:由于無法在此處生成圖表,我們用文字描述圖表核心信息)
GDPval 勝率/平局率(對比人類行業專家)
- Claude Opus 4.1:勝率+平局率接近 50%
- GPT-5 high:勝率+平局率達到 47.6%
- o4-mini high:勝率+平局率達到 38.8%
- Gemini 2.5 Pro:勝率+平局率達到 34.1%
- Grok 4:勝率+平局率達到 27.9%
- GPT-4o:勝率+平局率僅為 12.4%

解讀一下這張圖:
- 第一梯隊已經形成:最新的 Claude Opus 4.1 和GPT-5表現最為搶眼。在接近一半的真實世界任務中,它們的交付成果已經能與經驗豐富的人類專家相媲美,甚至超越。
- 各有千秋:報告特別提到,Claude Opus 4.1 在美學方面(如文檔格式、PPT 布局)表現突出,而GPT-5則在準確性上(如調用領域知識)更勝一籌。這說明不同模型已經開始出現“職業特長”分化。
其次,AI 的進化速度,呈現出一條陡峭的增長曲線。
如果說上面的結果是“空間”上的對比,那么下面這張關于 OpenAI 自身模型迭代的圖,則揭示了“時間”上的恐怖進化速度。
(注:由于無法在此處生成圖表,我們用文字描述圖表核心信息)
OpenAI 前沿模型在 GDPval 上的表現(隨時間變化)
- GPT-4o (2024 年春):勝率+平局率約 12%
- o3-high (內部模型):勝率+平局率約 25%
- GPT-5-high (2025 年夏):勝率+平局率約 48%

你沒看錯,從 2024 年春天的 GPT-4o 到 2025 年夏天的 GPT-5,僅僅一年多的時間,模型在 GDPval 評測體系中的表現翻了整整三倍!這種幾乎線性的、肉眼可見的增長趨勢,比任何抽象的性能參數都更具沖擊力。
最后,是成本和效率的顛覆性潛力。
報告指出,在純粹的任務執行層面,大模型完成這些任務的速度比人類專家快約 100 倍,API 調用成本也低約 100 倍。
當然,OpenAI 也特別強調,這個數字沒有計算人類監督、迭代修改和整合進工作流的時間。但在那些模型表現已經足夠好的任務上,先讓 AI “打個初稿”,無疑能極大地節省時間和金錢。
3、從跑分到打工:AI 評測的進化之路
GDPval 的出現并非偶然,它標志著 AI 評測 思維的一次關鍵躍遷。
我們可以清晰地看到一條進化路線:
- 學術基準時代 (Academic Benchmarks):以 MMLU 為代表,像“高考”,測試 AI 的通識知識儲備和基礎推理能力。
- 應用技能時代 (Applied Skills):以 SWE-Bench(軟件工程)、MLE-Bench(機器學習工程)為代表,像“職業資格考試”,測試 AI 在特定專業領域的技能。
- 市場價值時代 (Market-Based Value):以 SWE-Lancer(模擬真實外包軟件項目)和今天的GDPval為代表,像“職場實戰”,直接衡量 AI 在真實商業環境中的交付能力和經濟價值。
這條路,是從“我知道”到“我能做”,再到“我做的東西值錢”的升級。
這背后,是 OpenAI 等頭部公司的一個清晰戰略:推動 AI 從實驗室走向千行百業。只有當 AI 的能力能被經濟價值所度量,它才能真正成為下一代生產力工具,引發廣泛的社會變革。
為此,OpenAI 還配套發布了兩個資源:
- 一個包含 220 個任務的“黃金”數據集,向所有研究者開放,讓大家都能在這個標準下測試自己的模型。
- 一個實驗性的“自動評分器”,雖然準確率(約 66%)還不能完全替代人類專家(人類互評一致性約 71%),但可以作為一個快速迭代的代理工具,大大降低了評測成本。
4、理性看待:GDPval 不是終點,而是起點
盡管 GDPval 意義重大,但 OpenAI 也非常坦誠地指出了它當前的局限性。
- 任務類型有限:目前 GDPval-v0 版本主要集中在計算機可以處理的“知識工作”,不涉及需要物理操作的勞動。
- “一次性”任務:評測都是“一錘子買賣”,給好指令和資料,看輸出結果。它無法模擬真實工作中需要反復溝通、多次修改、逐步深入的交互式流程。
- 缺乏模糊性:任務指令都非常清晰明確。但在現實中,很多工作的第一步,恰恰是去定義那個模糊不清的問題。
這些局限性也為 AI 評測 的未來指明了方向。可以預見,未來的 GDPval v1、v2 版本,會引入更長的任務鏈條、更復雜的交互、以及需要 AI 自主處理模糊需求的能力。
寫在最后
GDPval 的發布,就像一聲發令槍。它宣告了 AI 評測 正式告別“唯分數論”的時代,進入了以“價值創造”為核心的下半場。
它給了我們一個更真實、更客觀的視角,去審視 AI 的能力邊界和發展速度。結果表明,AI 在許多知識工作領域的“動手能力”,可能比我們大多數人想象的要強得多,也進步得快得多。
這并不意味著大規模的“失業”,而是預示著一場深刻的“人機協同”變革。AI 將越來越多地承擔那些重復性、有明確規范的“任務”,而人類則能更專注于那些需要創造力、戰略思考和復雜情感判斷的“工作”。
我們每個人,都站在這場變革的浪潮之巔。
最后,想和你互動一下:
在你自己的工作中,你覺得哪些任務最有可能被今天這樣水平的 AI 接管?
本文轉載自??Halo咯咯?? 作者:基咯咯

















