精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?

發布于 2025-8-29 06:52
瀏覽
0收藏

今天分享一篇來自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research (PaperBench:評估AI復現AI研究的能力)。這篇文章提出了一個名為PaperBench的全新基準測試,旨在評估AI Agents(AI agents)從零開始復現頂尖AI研究論文的能力。這項任務極具挑戰性,要求AI Agents理解論文、從頭編寫代碼、并成功運行實驗以復現結果。

該方法的核心貢獻是:1)數據集:精選了20篇ICML 2024的Spotlight和Oral論文作為復現目標。2)評估框架:為每篇論文與原作者共同制定了層級化的、極其詳細的評估準則(Rubrics),總計包含8316個可獨立評分的任務點。3)自動化評估:開發了一個基于LLM的自動化“裁判”(LLM as Judge),用于對照評估準則為AI Agents的復現嘗試進行打分,解決了人工評估耗時巨大的難題。

實驗結果表明,當前最強的AI Agents(Claude 3.5 Sonnet)平均復現得分僅為21.0%,遠低于人類博士生的基線水平(41.4%),這凸顯了對于復雜AI研發任務,當前Agent系統還是有巨大挑戰的。

一、概述

?Title:PaperBench: Evaluating AI's Ability to Replicate AI Research

?URL:?? https://arxiv.org/abs/2504.01848??

?Authors:Giulio Starace, Oliver Jaffe, Dane Sherburn, 等 (OpenAI)

?Code:?? https://github.com/openai/preparedness/tree/main/project/paperbench??

1.Motivation

?衡量AI自主復現Paper能力:目前缺乏一個數據集和標準化的方法來衡量Agent復現AI論文的能力。

?現有基準任務相對簡單:現有的AI Agents基準(如CORE-Bench、MLE-bench)要么不要求從零開始復現(而是基于已有代碼庫),要么任務相對簡單(如Kaggle競賽),無法全面評估Agents在真實、復雜、長周期的科研任務中的綜合能力。

2.Methods

PaperBench是一個評估AI Agents復現AI研究論文能力的框架。其流程是:給AI Agents一篇ICML論文,讓它從零開始編寫代碼并提交一個包含??reproduce.sh??腳本的代碼庫。然后,在一個干凈的環境中運行此腳本,最后由一個LLM“裁判”根據與原作者共同制定的詳細評估準則(Rubric),對復現的完整性、代碼正確性和結果匹配度進行打分。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

詳細方法和步驟:

1. 任務定義 (Task):

輸入: AI Agents獲得一篇ICML 2024的頂會論文(PDF和Markdown格式)以及一份由原作者提供的澄清附錄(Addendum)。

?目標:Agents需要從零開始,編寫所有必要的代碼來復現論文中的核心實驗結果。

?輸出:提交一個Git代碼倉庫,其中必須包含一個名為??reproduce.sh??的入口腳本,該腳本應能自動完成所有復現步驟。

2. 復現驗證 (Reproduction):

? 為了保證評估的公正性,Agents提交的代碼庫會被復制到一個全新的虛擬機(Ubuntu 24.04 + A10 GPU)中。

? 在這個干凈的環境里執行??reproduce.sh??腳本,生成實驗結果、日志文件(??reproduce.log??)等。這個過程確保了結果是真實可復現的,而非Agents在開發過程中硬編碼的。

3. 評估準則 (Rubrics):

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

? 這是PaperBench最核心的部分。每篇論文都配有一個層級化的評估樹(tree of requirements)。

? 這個評估樹與論文原作者共同開發,確保了評估的準確性和現實性。它將“復現整篇論文”這個宏大目標,分解為成百上千個具體、細粒度、可被二元(通過/失敗)評判的葉子節點。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

image-20250820171131352

? 例如,根節點是“復現論文核心貢獻”,下一層可能是“復現實驗一”、“復現實驗二”,再下一層可能是“正確實現XX模型架構”、“成功運行YY數據集上的訓練”等。

? 整個基準包含20篇論文,共計8,316個可獨立評分的葉子節點。

4. 評分機制 (Grading):

?LLM裁判 (LLM-based Judge):由于人工評估一個復現嘗試需要數十小時,作者開發了一個基于LLM的自動化裁判(SimpleJudge)來擴展評估規模。評估的葉子節點分為三類:

Code Development:檢查源代碼是否正確實現了論文中的方法。

Execution:檢查??reproduce.sh??腳本運行時,特定步驟是否成功執行。

Result Match:檢查腳本生成的最終結果是否與原論文報告的結果相符。

Prompt如下:

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

?打分流程:LLM裁判逐一評估所有葉子節點,給出0分或1分。然后,根據預設的權重,將分數從葉子節點向上加權平均,最終得到根節點的總分,即為該次復現的Replication Score

?裁判的評估 (JudgeEval):為了驗證LLM裁判的可靠性,作者還創建了一個名為JudgeEval的輔助基準,通過與人類專家的評分進行對比,證明了其LLM裁判(基于o3-mini模型)能夠達到0.83的F1分數,是一個合理的替代方案。

JudgaEval細節

Q1: 評估整體流程是什么?最終實現的倉庫非常大,代碼比較多,如果來做評估?

答:先需要檢索出最相關的文件,然后再來進行評估,這里檢索是通過先輸入項目的tree structure,然后給予LLM挑選出最相關的文件。然后再進行評估。File Ranking的prompt如下:

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

Q2: 這篇文章的Agent是如何實現的?

答:基于基礎的Agent來實現(Inspect Ai's basic agent),利用 nanoeval for orchestration,提供各類基礎的Tools來實現代碼,包括websearch的tool,python執行tool,bash shell命令執行tool,文件讀取的tool。

Inspect AI Agentnanoeval

Agent的提示詞如下:

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

3 Conclusion

?當前AI能力有限:實驗評估了多個前沿模型(如Claude 3.5 Sonnet, OpenAI o1, GPT-4o等)。表現最好的Claude 3.5 Sonnet在PaperBench上的平均復現分數僅為21.0%,表明當前的AI Agents在獨立完成復雜的科研復現任務方面能力還很初級。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區


?與人類差距顯著:在一個包含3篇論文的子集上,人類機器學習博士生的基線表現(48小時工作后)達到了**41.4%**的復現分數,遠高于AI Agents在同一任務上的表現(26.6%)。AI在任務初期編碼速度快,但缺乏長期規劃和解決復雜問題的能力。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

?自動化評估是可行的:論文成功證明了使用LLM作為裁判來評估復雜、非結構化的代碼產出是可行的。開發的SimpleJudge在保證可接受的準確率(0.83 F1-score)的同時,極大地降低了評估成本和時間。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

4 Limitation

?數據集規模:目前基準只包含20篇論文,雖然評估點很多,但論文數量有限,未來需要進一步擴大以覆蓋更廣泛的AI研究領域。

?數據污染風險:盡管論文都是最新的,但未來模型可能會在預訓練中接觸到這些論文的官方代碼,導致評估分數虛高。作者通過黑名單機制禁止Agents訪問官方代碼庫,但這無法完全杜絕模型“內化”解決方案的可能。

?評估準則創建成本高:與原作者合作創建詳細的評估準則非常耗時耗力,每篇論文都需要數周時間。這使得其他人難以復刻或擴展該數據集。

?LLM裁判的局限性:盡管LLM裁判表現不錯,但它仍不如人類專家準確,并且其輸出具有不確定性。對于更復雜的任務,仍需進一步研究和改進自動化評估方法。

?評估成本高昂:運行一次完整的PaperBench評估(20篇論文)需要數千美元的API調用和計算資源,這限制了其廣泛應用。

二、詳細內容

1 人類與AI Agents在復現任務上的表現對比

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

?初期AI領先:在任務開始的最初幾個小時,AI(o1模型)的得分迅速攀升并超過人類,這表明AI在快速生成初始代碼框架方面具有優勢。

?后期人類反超:然而,AI的分數在幾小時后就基本停滯不前。而人類的得分則持續穩定增長,并在24小時后顯著超越AI。

?結論:當前AI Agents雖然具備一定的編碼能力,但缺乏長期規劃、策略調整和深入調試的復雜問題解決能力,而這些正是人類專家在科研工作中的核心優勢。

2 自動評估的準確率分析

不同LLM模型作為“裁判”在JudgeEval基準上的表現

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

? 結論:o3-mini`模型在F1分數(0.83)和成本($66/篇)之間取得了最佳平衡。

不同模型的復現成功率

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

? 結論:Claude 3.5 Sonnet以21.0%的得分遙遙領先,其次是OpenAI的o1(13.2%),而其他模型得分均低于10%。這清晰地呈現了當前各大模型在這一復雜任務上的能力排序。

三、總結

結論1: PaperBench為評估AI Agents復現復雜ML Paper提供了一個嚴謹且可擴展的基準。 通過將復現任務分解為細粒度的子任務,并結合LLM as Judge,該基準能夠提供客觀且高效的評估,填補了現有AI能力評估的空白。

結論2: 當前最先進的AI Agents(如Claude 3.5 Sonnet)在PaperBench上展現出初步能力,但其表現仍遠低于人類基線。 這凸顯了AI系統在處理長期、復雜研發任務(特別是需要從零開始構建代碼和成功執行實驗的任務)方面的顯著局限性,表明AI在實現完全自主的ML研究方面仍有很長的路要走。

產業應用價值:

?加速科學發現的“探路者”:雖然目前AI得分不高,但PaperBench指明了通往“AI科學家”的路徑和挑戰。未來在該基準上取得高分的模型,將有潛力在藥物發現、材料科學、氣候模擬等領域作為人類科學家的得力助手,極大加速科學探索的進程。

本文轉載自??????NLP PaperWeekly??????,作者:NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
亚洲精品在线观看91| 亚洲欧洲高清| 成人免费视频网站在线观看| 97人人爽人人喊人人模波多 | 91精品在线观看入口| 毛片av在线播放| 色综合成人av| 蜜桃一区二区三区在线| 久久6精品影院| 欧洲女同同性吃奶| 激情综合婷婷| 日韩欧美国产激情| 中文字幕第一页亚洲| 五月天激情开心网| 久久99国产精品久久99| 久久免费视频在线观看| 日韩毛片无码永久免费看| 9999精品免费视频| 欧美香蕉大胸在线视频观看| 伊人天天久久大香线蕉av色| 色欲久久久天天天综合网| 日本在线不卡一区| 久久久久久久成人| 国产一二三av| 性欧美xxxx免费岛国不卡电影| 欧美色网一区二区| 欧美成人高潮一二区在线看| 毛片av在线| 久久人人超碰精品| 不卡一区二区三区视频| 亚洲精品无码久久久久| 尹人成人综合网| 久久久国产一区二区三区| 亚洲精品视频大全| 在线精品国产亚洲| 欧美精品乱码久久久久久按摩| 国产熟女高潮视频| 牛牛在线精品视频| 亚洲欧洲av一区二区三区久久| 久久精品女人的天堂av| 欧美 日韩 国产 成人 在线| 久久69国产一区二区蜜臀| 欧美中文字幕在线观看| 精品视频久久久久| 欧美日韩亚洲一区二区三区在线| 色偷偷综合社区| 亚洲а∨天堂久久精品2021| 偷拍亚洲色图| 精品性高朝久久久久久久| 999热精品视频| 欧美性生活一级| 欧美日韩一区二区三区不卡| 毛片一区二区三区四区| 天堂中文av在线资源库| 精品欧美国产一区二区三区| 国产成人生活片| 黄色精品免费看| 国产精品丝袜在线| 亚洲欧美日韩另类精品一区二区三区 | 30一40一50老女人毛片| 国产精品天天看天天狠| 精品电影一区二区| 亚洲精品乱码久久久久久蜜桃欧美| 成人97精品毛片免费看| 欧美一区二区在线免费观看| 成人亚洲精品777777大片| 巨胸喷奶水www久久久免费动漫| 一本一道波多野结衣一区二区| 乱妇乱女熟妇熟女网站| 亚洲精品mv| 色香色香欲天天天影视综合网| 日本久久久精品视频| 台湾佬中文娱乐久久久| 在线观看欧美精品| 自拍偷拍21p| 国产精品3区| 日韩亚洲欧美高清| 国产综合内射日韩久| 日韩大胆成人| 亚洲人av在线影院| 超碰人人人人人人人| 图片区亚洲欧美小说区| 欧美日韩福利视频| 国产91精品一区| 秋霞影院一区二区| 成人午夜一级二级三级| 亚洲精品视频网| 91麻豆免费观看| 亚洲精品一区国产精品| 国产精品剧情一区二区在线观看| 一区二区在线观看视频在线观看| 欧美一级视频在线播放| 成人性生交大片免费观看网站| 在线视频你懂得一区二区三区| 日韩va在线观看| 国产另类在线| 在线观看欧美视频| 欧美色图一区二区| 免费日韩av片| 91中文字幕在线观看| 亚洲三级黄色片| ●精品国产综合乱码久久久久| 天堂а√在线中文在线| 免费成人直播| 日韩一区二区三区视频在线| 男生裸体视频网站| 99精品视频在线| 性欧美亚洲xxxx乳在线观看| 伊人成人在线观看| 99re这里都是精品| 国产系列第一页| 中文字幕在线直播| 日韩精品一区二区三区在线| 高潮毛片无遮挡| 欧美精品1区| 国产精品入口夜色视频大尺度| 国产夫妻在线观看| 国产欧美一二三区| 成人一区二区免费视频| 成人在线免费av| 日韩经典中文字幕| 青青草原在线免费观看视频| 人人超碰91尤物精品国产| 久久精精品视频| 欧美videossex| 欧美日韩精品二区第二页| 久久丫精品国产亚洲av不卡| 午夜天堂精品久久久久| 国产在线观看精品| 黄色在线小视频| 亚洲成a人片在线观看中文| 中文字幕一区二区在线观看视频| 国产影视精品一区二区三区| 午夜精品久久久99热福利| 国产伦子伦对白视频| 国产片一区二区三区| 少妇人妻在线视频| 99久久香蕉| 欧美成人精品在线| 91久久精品国产91性色69| 久久久久国产精品免费免费搜索| 蜜臀精品一区二区| 一区二区在线免费播放| 久久这里只有精品视频首页| 三级视频在线观看| 91影院在线观看| www精品久久| 超碰成人在线观看| 色在人av网站天堂精品| 99热这里只有精品在线观看| 一色桃子久久精品亚洲| mm131亚洲精品| 日韩电影一区| 国产有码一区二区| 免费a级人成a大片在线观看| 欧美精品自拍偷拍| 91麻豆精品成人一区二区| 国产一区视频网站| 麻豆一区二区三区在线观看| 精品精品视频| 欧美日韩国产成人| 丰满肉嫩西川结衣av| 亚洲在线观看免费视频| 亚洲成年人av| 国产农村妇女精品一二区| 免费一区二区三区| 日本h片久久| 久久精品99久久久久久久久| 99久久亚洲精品日本无码| 一区二区三区在线免费观看 | 中文字幕丰满人伦在线| 国产欧美一区视频| 中文字幕丰满乱码| 国产精品分类| 久久久精彩视频| 成人啊v在线| 久久久精品在线| 亚洲AV无码乱码国产精品牛牛 | 日韩人妻精品中文字幕| 国产肉丝袜一区二区| 日本高清久久久| 亚洲视频日本| 欧美日韩国产综合视频在线| 欧美日韩伦理一区二区| 久久99久久99精品中文字幕| 天堂а√在线8种子蜜桃视频 | 久久99高清| 91精品国产综合久久男男 | 欧洲精品在线视频| 秋霞a级毛片在线看| 精品国精品自拍自在线| 亚洲第一网站在线观看| 亚洲色图在线播放| 亚洲天堂成人av| 九一九一国产精品| 国产精品专区在线| 999精品在线| 精品国产电影| 四虎视频在线精品免费网址| 欧美激情亚洲激情| 1024免费在线视频| 亚洲国语精品自产拍在线观看| 日韩乱码一区二区三区| 亚洲自拍与偷拍| 69xxx免费| 91污片在线观看| 在线a免费观看| 日韩高清中文字幕一区| 国产美女主播在线| 久久在线视频| 乱色588欧美| 亚洲成人偷拍| 成人午夜在线观看| 日韩色淫视频| 青青久久av北条麻妃黑人 | 国产成+人+综合+亚洲欧美丁香花| 呦呦在线视频| 日韩视频精品在线| 国产大片在线免费观看 | av大片在线播放| 日韩高清a**址| 亚洲国产精品二区| 91精品久久久久久久91蜜桃 | av蜜臀在线| 色综合男人天堂| 蜜桃av在线免费观看| 国产亚洲精品美女久久久| 日本免费不卡视频| 精品久久一区二区| 国产丰满果冻videossex| 欧美色爱综合网| 日本视频网站在线观看| 亚洲一区二区在线免费看| 538任你躁在线精品视频网站| 国产视频一区在线观看| 香蕉视频污视频| 成人免费高清在线观看| 亚洲视频在线不卡| 免费观看日韩av| 国产小视频精品| 久久男女视频| 人妻熟妇乱又伦精品视频| 99精品欧美| 99国产精品白浆在线观看免费| 欧美好骚综合网| 国产精品国产三级国产专区53 | 韩国免费在线视频| 亚洲欧美在线一区| 天堂av2024| 精品国产91亚洲一区二区三区婷婷| 一级片在线免费观看视频| 欧美日韩一区高清| 中文字幕在线一| 精品视频在线看| 国产男男gay体育生白袜| 欧美日韩精品一区二区三区蜜桃| 无码人妻av一区二区三区波多野 | 精品国产美女在线| 3p视频在线观看| 精品国产一区二区三区久久| 在线激情网站| 色爱精品视频一区| 国产人成在线观看| 自拍偷拍亚洲在线| 阿v免费在线观看| 色一区av在线| av在线下载| 欧美日韩国产va另类| 狂野欧美性猛交xxxxx视频| 91国自产精品中文字幕亚洲| av资源中文在线| 欧美亚洲免费电影| 国产成人免费精品| 国产精品视频在线观看| 欧美91在线|欧美| 成人h视频在线| 欧美一区=区三区| 99一区二区| 高清精品xnxxcom| 日本在线观看一区二区| 日本午夜一区| 自拍另类欧美| 一本久久综合| 欧美亚洲日本在线观看| 美女视频一区二区三区| 中文字幕乱妇无码av在线| 不卡av电影在线播放| 老牛影视av老牛影视av| 国产调教视频一区| 国产一级做a爱免费视频| 欧美日韩在线第一页| 青草视频在线观看免费| 欧美群妇大交群中文字幕| 99久久一区二区| 日韩av在线不卡| 免费av毛片在线看| 国模私拍一区二区三区| 日韩高清在线| 国产精品一区av| 在线观看视频一区二区三区 | 激情综合网俺也去| 精品亚洲成a人| 黄色短视频在线观看| 国产精品网曝门| 日韩和一区二区| 在线不卡a资源高清| 少妇人妻偷人精品一区二区| 正在播放国产一区| 久草在线新免费首页资源站| 欧洲成人在线观看| 日韩三级网址| 亚洲成人蜜桃| 99国产精品久久久久久久成人热| 亚洲免费av一区二区三区| av亚洲精华国产精华精华| 国产精品视频在| 精品国产91久久久久久老师| 性网爆门事件集合av| 亚洲欧美综合精品久久成人| 91网在线看| 国产乱肥老妇国产一区二| 欧美在线导航| 麻豆传媒网站在线观看| 久久99久久精品欧美| 人妻丰满熟妇aⅴ无码| 亚洲情趣在线观看| 国产精品欧美综合亚洲| 亚洲日韩中文字幕在线播放| 最新国产在线拍揄自揄视频| 国产欧美日韩中文字幕| 要久久电视剧全集免费 | 日韩视频在线一区二区三区 | 日韩视频中午一区| 日本www在线观看| 国产精品mp4| 精品久久一区| 成年网站在线免费观看| 成人午夜免费电影| 精品无码人妻一区二区三区品| 欧美夫妻性生活| 日本在线视频1区| 欧美做爰性生交视频| 秋霞影院一区二区三区| 大陆av在线播放| 国产91丝袜在线观看| 91免费公开视频| 欧美一级欧美一级在线播放| 77777影视视频在线观看| 日韩暖暖在线视频| 欧美手机视频| 日本成人在线免费视频| 99久久久久久| 国产91精品一区| 亚洲精品乱码久久久久久金桔影视 | 久久亚洲综合网| 99国产精品视频免费观看一公开| 亚洲精品女人久久久| 亚洲va在线va天堂| 韩国av永久免费| 韩国三级日本三级少妇99| 加勒比久久高清| 国产精品一色哟哟| 99久久国产综合精品色伊| 久久夜靖品2区| 亚洲欧洲自拍偷拍| 日本欧美一区| 日韩精品国内| 国产麻豆精品视频| 欧美精品久久久久性色| 欧美精品色综合| 丁香花在线电影小说观看| 国产伦精品一区二区三区视频黑人| 日韩亚洲精品在线| 中文字幕国产综合| 久久99国产精品99久久| 激情不卡一区二区三区视频在线| 一级黄色片播放| 国内精品伊人久久久久av影院| 手机av在线不卡| 欧美视频一区二区三区在线观看| 激情在线视频| 国产欧美精品一区二区| 国产精品啊啊啊| 色呦呦一区二区| 色综合网站在线| 日韩在线免费电影| 91在线高清视频| 香蕉久久a毛片| 添女人荫蒂视频| 欧美日韩午夜剧场| 免费日本一区二区三区视频| 92看片淫黄大片看国产片| 国产精品乱看| eeuss中文字幕| 日韩美女视频一区二区在线观看| 超碰一区二区| 国产精品久久二区| 91桃色在线| 99re国产视频| 日韩—二三区免费观看av|