精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架” 原創

發布于 2025-4-3 13:37
瀏覽
0收藏

編輯 | 李美涵

出品 | 51CTO技術棧(微信號:blog51cto)

深夜,OpenAI再次發力Agent領域,開源了一個全新的AI Agent評測基準—— PaperBench。

這是一個用于評估 AI 智能體復現最前沿 AI 研究能力的基準測試。智能體需從零開始復現 20 篇 ICML 2024 Spotlight 和 Oral 論文,包括理解論文貢獻、構建代碼庫并成功執行實驗。

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

看得出,OpenAI新的基準測試PaperBench,無疑是想將現在DeepResearch的功能更近一步,劍指AI科學家、甚至諾獎級AI。

那么AI搞科研的水平目前咋樣呢?

OpenAI也用這個最新基準測試了一把目前最頂尖的LLM,結果就是——人類并沒有一敗涂地!“頂尖的“人工智能博士”嘗試了 PaperBench 的一個子集,結果發現模型的性能尚未超過人類基線。”

有趣的是,在OpenAI家的基準上,表現最好的居然是死對頭Anthropic。使用開源 scaffolding 框架的 Claude 3.5 Sonnet(新版),其平均復現得分為 21.0%。

OpenAI指出,智能體的失敗顯示出當前模型在執行 長時間、多步驟任務 上的弱點。盡管它們能規劃多步驟計劃、寫出流程,卻很難真正一步步執行這些計劃。

OpenAI已經開源PaperBench代碼,旨在推動未來對 AI 智能體工程能力的研究:

開源地址:

??https://github.com/openai/preparedness/tree/main/project/paperbench??

論文閱讀:

??https://openai.com/index/paperbench/??

那么,我們來看看PaperBench究竟指明了Agent進化的那些方向,又是如何構成的?

1.PaperBench層級評分樹:包含 8,316可單獨評分的子任務

為實現客觀評估智能體能力,OpenAI整了一套“套娃式”的評分標準。

將每個復現任務按層次細分為多個小任務,并配有明確的評分標準。整個 PaperBench 共包含 8,316 個可單獨評分的子任務。這些評分標準專業到是由OpenAI成員和每篇 ICML 論文的作者共同開發,那真的是很權威了。

那怎么能方便地給每個智能體評分呢?——外包給AI,OpenAI開發了一個基于大語言模型(LLM)的自動評分系統,AI評估AI。

然后又套娃了一把:OpenAI又另外構建了一個專門的評分基準來評估該評分系統本身的性能,驗證下這個 LLM 評委到底靠不靠譜。

我們來看一下這個層級樹具體如何為AI打分:

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

 層級結構說明:
  • 頂層節點(例如圖中最上方 “.55”) 表示某個大的復現目標,比如“成功實現某個算法”。
  • 中間節點 表示這個目標的子目標,比如“能正確實現 Transformer 的結構”。
  • 底層葉子節點(藍色或紅色圓圈) 是可以直接打分的最小任務單元,比如“實現了 Attention 模塊”、“設置了正確的超參數”等。

圖中右邊的文字說明:

  • 每一層越往下,要求越具體(finer granularity)。
  • 所有的葉子節點都由評審(LLM)逐個打分(1 表示通過,0 表示失敗)。
  • 每個子任務都有一個權重(灰色數字),最終通過加權平均把得分向上傳遞,得出總得分。

以"測試時模型自適應"論文為例,其評分樹結構如下:

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖源:知乎@北方的郎

2.智能體搞科研:被發1000美元的OpenAI API額度,和一個工具箱

在OpenAI的論文中提到了測試環境:每個智能體都在一個 Ubuntu 24.04 的 Docker 容器中運行,該容器配備了一塊 A10 GPU。

智能體在容器內有一個本地工作目錄,其中包含:

  • 論文的 PDF 和 Markdown 格式版本,
  • 補充材料(addendum),
  • 以及一份指令文本文件。

Docker容器可以訪問互聯網,方便智能體:

  • 下載依賴包,
  • 瀏覽網頁查找資料等。

還為智能體提供了:

  • HuggingFace 和 OpenAI 的 API key,
  • 每個 key 預裝了 1000 美元額度,用于智能體在運行過程中調用這些服務(例如,如果某篇論文需要用到 OpenAI 的微調 API 來運行實驗)。

此外,OpenAI還使用了一個基于 Inspect AI 基礎智能體 的簡單智能體腳手架,稱為 BasicAgent,并用 nanoeval 來調度運行。

這個腳手架會循環調用各種工具,直到模型選擇自行終止,或時間用完為止。

在運行過程中,智能體還獲得了一個原始工具箱,可以調用幾種工具:

  • 一個 Bash shell 命令執行工具,
  • 一個 Python 代碼執行工具,
  • 一個網頁瀏覽器工具,
  • 一個分頁文件閱讀器(用于閱讀長文檔)。

3.人機對照:AI在前24小時表現優于人類,然后被反超

我們先來看看AI對戰的結果:

OpenAI在所有 20 篇論文上評估了以下模型,每篇論文運行 3 次:GPT-4o、 o1、  o3-mini、  DeepSeek-R1、  Claude 3.5 Sonnet(新版)、 Gemini 2.0 Flash參與了這次競賽。

OpenAI還報告說,原本也想評估 Claude 3.7 Sonnet,但由于 Anthropic API 的調用限制,未能完成實驗。小編想,如果測成了Anthropic的評分可能更高?

來看一下這個榜單,其中Claude 3.5 Sonnet 表現最亮眼,得分 21.0%;R1的表現也算不錯,在其中位列第三名。

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

通過手動查看了多個智能體的運行日志,OpenAI發現:

  • 智能體經常偷懶擺爛:除了 Claude 3.5 Sonnet 外,其他模型經常提前結束任務,說要么“已經完成了復現”,要么“遇到了無法解決的問題”。
  • 策略不合理:所有模型都沒有制定出 在有限時間內復現論文的合理策略。
  • 工具調用有問題:o3-mini 經常在工具使用上失敗。(這也是o3-mini慘敗的重要原因,只能動腦不能動手)

再來看這個基準上的人機對戰結果:

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

雖然人類三小時后取勝了,但是看看OpenAI招募的測試員,還是感覺一陣冷汗了:參與和頂尖智能體PK的 8 個人類,均為正在攻讀或已完成機器學習博士(PhD)的人來構建人類基線(human baseline)。(注:他們來自伯克利、劍橋、卡內基梅隆、哥倫比亞、康奈爾、普渡、維也納理工、麻省大學阿默斯特)

這次只在 4 篇論文上建立人類基線。每篇論文安排 3 次獨立的復現實驗,每次由參與者中最有信心復現該論文的人來執行。

與此同時,OpenAI也對 o1 模型(使用 IterativeAgent)進行了一個 36 小時擴展實驗,并在第 1、3、6、12、36 小時分別保存快照。

我們將這個 o1 的 36 小時版本與人類的表現隨時間變化進行了對比。發現:

  • 在復現初期,o1 模型表現超過人類基線;
  • 但在 24 小時后,人類的表現開始反超 AI。

這一趨勢與 Wijk 等人(2024)以前的研究一致:AI 初期輸出快、人類后勁更強。

特別值得注意的是,o1 的得分在第一小時后幾乎就停滯了,說明它雖然能迅速產出大量代碼,但難以在更長時間內有效策略性地優化方案。

相比之下,人類在初期得分提升緩慢,可能是因為他們花時間認真理解論文內容。

4.寫在最后:智能體離“又好又便宜”還差很遠

OpenAI 的 PaperBench,像是一場酣暢淋漓的機器學習界“神仙打架”——AI 和頂尖人類選手打得有來有回,而最終人類的反超,也像是武俠電影結尾中的神來一筆。

這次“AI 智能體 vs 滿級 PhD 工程師”的對決,既展現了智能體的潛力,也提醒我們:真正的科研復現,還遠不只是“寫出代碼”這么簡單。

而另一方面,智能體也遠不便宜。就在上周,負責維護 ARC-AGI 的 Arc Prize 基金會更新了 o3 的計算成本:該機構最初估計,在測試中表現最好的 o3 配置(即 o3 high)解決一道 ARC-AGI 題目的成本約為 3,000 美元。最近已經更正到高達 30,000 美元。而此前OpenAI 也被外媒曝出可能會為某些 AI Agent 收取每月 2 萬美元的企業級費用。更讓人警醒的是,o3 high 為了完美答對一道題,平均嘗試了 1024 次。

當下的 AI 模型也許足夠強,但想高效、可控地替代人類,還沒那么快。

本文轉載自??51CTO技術棧??,作者:李美涵

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
宅男在线精品国产免费观看| 国产美女精彩久久| 中文字幕一区二区三区人妻电影| 亚洲私拍视频| 亚洲欧洲国产专区| 国产麻豆日韩| 亚洲乱码国产乱码精品| 亚洲精品成人| 亚洲欧美一区二区三区四区| 欧美一级小视频| 97成人资源| 亚洲欧美乱综合| 日本一区二区三不卡| 国产黄色一区二区| 天堂一区二区在线免费观看| 欧美国产在线视频| 国产不卡在线观看视频| 精品在线网站观看| 3d动漫精品啪啪1区2区免费| 黄色网页免费在线观看| a天堂中文在线官网在线| 久久奇米777| av免费观看久久| 一级片aaaa| 日日摸夜夜添夜夜添亚洲女人| 欧美激情videos| 人妻人人澡人人添人人爽| 少妇精品久久久| 日韩不卡在线观看| 伦理片一区二区| 999精品视频在线观看| 色噜噜狠狠一区二区三区果冻| 少妇高潮大叫好爽喷水| av中文字幕在线| 2020国产精品自拍| 国产在线一区二| 国产免费黄色录像| 久久精品国产久精国产爱| 国产成人精品视频| 99久久久久久久久| 久久高清国产| 国产不卡在线观看| 黄色在线免费观看| 久久精品三级| 奇米4444一区二区三区| 天天操天天摸天天干| 亚洲黄网站黄| 久久久久久久爱| 日本熟妇毛耸耸xxxxxx| 亚洲视屏一区| 国内精品一区二区三区| 久久久综合久久| 精品96久久久久久中文字幕无| 欧美精品在线看| 激情五月婷婷在线| 欧美视频一区| 国语对白做受69| 午夜精品久久久久久久久久久久久蜜桃 | 久久电影一区| 国产精品v日韩精品| 午夜久久久久久久久久影院| 日韩精品一二三区| 国产精品黄视频| 亚洲天堂手机版| 国产一区二区美女| 国产精品污www一区二区三区| 日本激情一区二区| 26uuu另类欧美亚洲曰本| 欧美裸体网站| 1024视频在线| 亚洲激情六月丁香| 一二三四视频社区在线| 日本韩国欧美| 911国产精品| 欧美熟妇精品一区二区蜜桃视频| 欧美中文一区| 这里只有精品视频| 午夜精品一区二区三区视频| 亚洲午夜精品久久久久久app| 国内精品久久久久久久久| av网站中文字幕| 精品亚洲成a人在线观看| 99在线视频首页| 色吊丝在线永久观看最新版本| 国产欧美日韩综合精品一区二区| 中文字幕在线观看一区二区三区| 日本动漫同人动漫在线观看| 欧美午夜视频一区二区| 日本黄大片一区二区三区| 91成人噜噜噜在线播放| 国产午夜精品全部视频播放 | 午夜欧美理论片| 91精品国产高清自在线 | 久久草av在线| 国产一级特黄a大片99| 成人在线免费公开观看视频| 一个色综合av| 能看的毛片网站| 538任你躁精品视频网免费| 亚洲天堂开心观看| 免费在线观看日韩| 免费在线欧美视频| 丁香五月网久久综合| 撸视在线观看免费视频| 亚洲精品日日夜夜| 粉嫩虎白女毛片人体| 日本一区二区三区播放| 国产一区二区三区毛片| 日本视频www| 国产一区二区三区四区五区美女| 久久精品一区二区三区不卡免费视频| 日韩免费啪啪| 91福利精品视频| 伊人网综合视频| 亚洲激情中文| 国产精品一二区| 日本又骚又刺激的视频在线观看| 亚洲码国产岛国毛片在线| 国产淫片av片久久久久久| 99ri日韩精品视频| 久久久国产精彩视频美女艺术照福利| 久久精品无码av| 成人动漫精品一区二区| 免费成人进口网站| 九九九精品视频| 亚洲视频在线免费观看| 日韩精品一区三区| 成人一级视频在线观看| 久久久久久久久影视| 日韩成人综合网| 永久免费精品影视网站| 国产伦精品一区二区三区视频我| av在线不卡网| 日本手机在线视频| 99ri日韩精品视频| 欧美激情按摩在线| 亚洲精品一区二区三区不卡| 亚洲精品中文字幕在线观看| 一区二区在线免费看| 色婷婷一区二区三区| 国产精品成人免费电影| 免费在线稳定资源站| 日韩欧美在线免费| 日本高清www| 久久天天综合| 天天综合色天天综合色hd| av在线日韩| 亚洲视频在线观看视频| 亚洲色成人www永久网站| 国产亚洲制服色| av动漫免费看| 欧美日韩中字| 国产这里只有精品| av免费在线观| 欧美大片在线观看一区| 精品在线视频观看| 9人人澡人人爽人人精品| 国产在线精品91| 精品大片一区二区| 国产精品亚洲第一区| 成人看av片| 日韩精品一区二区三区在线观看 | 亚洲第一成人网站| 香蕉久久夜色精品| 亚洲v欧美v另类v综合v日韩v| 久久女人天堂| 色综合色综合网色综合| 天天综合天天色| 91福利视频在线| 三级av在线免费观看| 成人在线视频首页| 日本熟妇人妻中出| 99久久精品网站| 国产精品一区二区a| 久久r热视频| 久久黄色av网站| 人人妻人人澡人人爽久久av| 欧美性高潮床叫视频| 日本黄色录像视频| 成人在线视频一区| 在线免费观看视频黄| 欧美成人一品| 免费看污久久久| 成人激情久久| 欧美亚洲激情视频| 国产在线激情| 日韩av在线一区| 国产精品高潮呻吟久久久| 亚洲丰满少妇videoshd| av手机在线播放| 成人午夜精品一区二区三区| 国产v亚洲v天堂无码久久久| 欧美日韩少妇| 亚洲成人av动漫| 国产精品17p| 国产美女扒开尿口久久久| 182在线播放| 久久影视电视剧免费网站| 欧美伦理影视网| 日韩欧美中文字幕一区| 亚洲午夜无码久久久久| 亚洲国产你懂的| 国产性生活大片| 久久精品水蜜桃av综合天堂| 欧美成人精品一区二区综合免费| 日韩精品乱码av一区二区| 国产一级大片免费看| 日本欧美肥老太交大片| 久久99精品国产99久久| 亚洲精品福利| 成人精品在线视频| 日本欧美不卡| 91国产精品电影| 色婷婷视频在线观看| 色婷婷久久一区二区| 同心难改在线观看| 欧美精品一区二| 国产成人精品毛片| 欧美日韩国产美| 波多野结衣网站| 欧美日韩国产一区在线| 久久99久久98精品免观看软件| 国产精品久久毛片a| 亚洲日本精品视频| www精品美女久久久tv| 亚洲av成人精品一区二区三区 | 欧美亚洲动漫精品| 国产综合精品视频| 图片区小说区区亚洲影院| 久久机热这里只有精品| 一区二区三区在线观看国产| 国产又粗又硬又长又爽| 国产精品国模大尺度视频| 久久日免费视频| 亚洲国产精品ⅴa在线观看| 国产成人精品无码免费看夜聊软件| 成人av免费在线播放| 免费观看污网站| 成人高清免费观看| 欧美日韩人妻精品一区在线| 国产91高潮流白浆在线麻豆| 超碰人人cao| 国产精品一区二区视频| 白丝校花扒腿让我c| 高清不卡在线观看| 欧美久久久久久久久久久| 成人美女视频在线观看| 久久久高清视频| 99国产精品国产精品毛片| 国产精品久久无码| 337p粉嫩大胆噜噜噜噜噜91av| 亚洲一区二区三区综合| 久久色在线观看| 性猛交娇小69hd| 国产精品视频一二三| 极品色av影院| 亚洲自拍另类综合| 日韩免费不卡视频| 色综合色综合色综合 | 麻豆国产精品视频| 思思久久精品视频| 国产成人午夜视频| 人妻 日韩 欧美 综合 制服| 99精品欧美一区二区蜜桃免费 | 99日在线视频| 国产成人丝袜美腿| 成人性生活免费看| 中文欧美字幕免费| 欧美日韩在线视频免费| 午夜激情综合网| 成人黄色激情视频| 欧美一卡在线观看| 五月婷婷在线观看视频| 一区二区在线免费视频| 3d玉蒲团在线观看| 欧美野外猛男的大粗鳮| 日韩福利在线观看| 国产高清自拍99| 精品大片一区二区| 妞干网在线播放| 日韩激情中文字幕| 潘金莲一级淫片aaaaa| 2014亚洲片线观看视频免费| 少妇高潮在线观看| 欧美午夜丰满在线18影院| 亚洲天堂手机在线| 日韩电影中文字幕| 毛片网站在线免费观看| 97成人精品视频在线观看| 国产三级一区| 国产一区不卡在线观看| 日本不卡高清| 国产91对白刺激露脸在线观看| 精品亚洲国内自在自线福利| 免费成人蒂法网站| 亚洲欧美日韩久久精品| 色一情一乱一伦| 日韩欧美在线网站| 草碰在线视频| 91精品国产成人| 日韩成人视屏| 亚洲福利av| 一区二区三区国产在线| 黄色a级三级三级三级| 国产日韩欧美在线一区| 精品一级少妇久久久久久久| 7777精品久久久大香线蕉| 三级国产在线观看| 久久久久久久国产精品视频| 国内自拍亚洲| 欧美极品视频一区二区三区| 欧美午夜在线| 日韩欧美中文视频| 欧美激情一区二区三区蜜桃视频| 日韩视频免费观看高清| 日韩一区二区在线看片| 亚洲成人三级| 国产精品扒开腿做爽爽爽视频| 女同久久另类99精品国产| 99久久99久久精品| 激情欧美一区二区| 亚洲女人毛茸茸高潮| 在线免费观看一区| 可以在线观看的黄色| 91高清视频免费观看| 久久porn| 亚洲美免无码中文字幕在线| 国产aⅴ精品一区二区三区色成熟| 中文字幕第69页| 精品视频资源站| 懂色av中文在线| 国产精品国内视频| 精品国产视频| 精品少妇无遮挡毛片| 国产片一区二区| 日韩国产亚洲欧美| 亚洲午夜av电影| 成人看片网站| 香蕉久久免费影视| 男人的天堂久久精品| 成人免费视频入口| 精品污污网站免费看| 欧美日韩视频在线播放| 国产欧洲精品视频| 五月天激情综合网| 三上悠亚 电影| 亚洲一区二区偷拍精品| 蜜桃视频污在线观看| 国内精品久久久久| 先锋影音国产精品| 一级在线免费视频| 亚洲欧美综合色| а√中文在线资源库| 欧美激情videos| 亚洲国产欧美日韩在线观看第一区 | 五月婷婷六月香| 69精品人人人人| 欧美色图天堂| 精品国产综合区久久久久久| 性欧美暴力猛交另类hd| 无码人妻丰满熟妇啪啪欧美| 欧美日韩激情一区二区三区| 黄av在线播放| 国产伦精品一区二区三区高清| 亚洲免费大片| 免费在线观看a视频| 欧美精品久久天天躁| 免费在线播放电影| 免费国产一区| 国产综合一区二区| 日本熟伦人妇xxxx| 在线免费看av不卡| 日韩一区二区三区在线看| 日本少妇高潮喷水视频| 国产精品视频看| 国产高清精品软件丝瓜软件| 97av视频在线| 99久久视频| 亚洲一区二区乱码| 欧美另类高清zo欧美| 欧美videos另类精品| 日本一区美女| 国产成人超碰人人澡人人澡| 狠狠人妻久久久久久综合| 精品国内产的精品视频在线观看| 999国产精品一区| 香港日本韩国三级网站| 亚洲成人精品一区| 日本成人在线播放| 久久99九九| 国内成人自拍视频| 狠狠人妻久久久久久综合| 美女少妇精品视频| 精品福利久久久| 亚洲男女在线观看| 欧美男女性生活在线直播观看| 擼擼色在线看观看免费| 日韩视频在线免费播放| 久久你懂得1024| 黄色一级大片在线免费看国产一 |