精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

人工智能
前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent(智能體)表現(xiàn)遠(yuǎn)超人類。但拐點(diǎn)過后,AI能力增速(在8小時(shí)內(nèi))卻始終追不上人類。

2小時(shí)內(nèi),Claude和o1就能超過人類專家平均科研水平。

甚至AI還會偷摸兒“作弊”(doge)。事情是這樣的——

人類 VS AI科研能力大比拼,也有新的評估基準(zhǔn)了。

代號“RE-Bench”,由非營利研究機(jī)構(gòu)METR推出,目的是搞清:當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。

注意看,一聲令下之后,AI和50多位人類專家開始暗自較勁:

前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent(智能體)表現(xiàn)遠(yuǎn)超人類。

但拐點(diǎn)過后,AI能力增速(在8小時(shí)內(nèi))卻始終追不上人類。

圖片

時(shí)間拉得更長(至32小時(shí))之后,研究得出結(jié)論,目前AI智能體更適合并行處理大量獨(dú)立短實(shí)驗(yàn)。

圖片

看完上述結(jié)果,知名預(yù)測師Eli Lifland認(rèn)為這“顯著縮短”了他關(guān)于AGI的時(shí)間表(連續(xù)兩年將2027年作為中位數(shù)),由此也在Reddit引起熱議。

圖片

??上也有人表示,AI自動(dòng)搞科研可能對推動(dòng)爆炸性經(jīng)濟(jì)增長至關(guān)重要。

圖片

甚至有人腦洞大開,開始美滋滋暢想躺著賺錢的生活(doge):

以后AI智能體來做科研,然后雇一群人類寫代碼……

圖片

AI更適合大量并行短時(shí)間任務(wù),長期科研還得靠人類

在RE-Bench上,研究對比了基于大語言模型構(gòu)建的Agent(目前主要公布了Claude 3.5 Sonnet、o1-preview)和50+人類專家的科研能力。

值得注意的是,這些專家都有強(qiáng)大機(jī)器學(xué)習(xí)背景,其中很多人在頂級行業(yè)實(shí)驗(yàn)室或機(jī)器學(xué)習(xí)博士項(xiàng)目中工作。

圖片

一番PK后,研究得出了以下主要結(jié)論:

  • 2小時(shí)內(nèi),Claude和o1表現(xiàn)遠(yuǎn)超人類專家。但隨著時(shí)間增加,人類專家的能力提升更顯著;
  • 在提交新解決方案的速度上,AI是人類專家的十倍以上,且偶爾能找到非常成功的解決方案;
  • 在編寫高效GPU內(nèi)核方面,AI表現(xiàn)超越所有人類;
  • AI的運(yùn)行成本遠(yuǎn)低于人類專家;
  • ……

總之一句話,不僅AI和人類各有所長,且不同AI都有自己最佳的科研節(jié)奏。

人類更適應(yīng)更復(fù)雜、更長時(shí)間的科研,AI更適應(yīng)大量并行短任務(wù)。

圖片

回到研究起點(diǎn),METR之所以提出RE-Bench主要是發(fā)現(xiàn):雖然很多政府和公司都在強(qiáng)調(diào),AI智能體能否自動(dòng)研發(fā)是一項(xiàng)關(guān)鍵能力。但問題是:

現(xiàn)有的評估往往側(cè)重于短期、狹窄的任務(wù),并且缺乏與人類專家的直接比較。

圖片

因此,RE-Bench想做的事兒,就是全面評估AI科研所需的技能。本次研究一共提出了7項(xiàng):

  • 高效編程:特別是在優(yōu)化算法和內(nèi)核函數(shù)(如GPU內(nèi)核)方面。
  • 機(jī)器學(xué)習(xí)理論與實(shí)踐:熟悉機(jī)器學(xué)習(xí)模型的訓(xùn)練、調(diào)優(yōu)和評估,包括神經(jīng)網(wǎng)絡(luò)架構(gòu)、超參數(shù)選擇和性能優(yōu)化;
  • 數(shù)據(jù)處理與分析。
  • 創(chuàng)新思維:能夠在面對復(fù)雜問題時(shí)提出新的方法和策略,以及跨領(lǐng)域思考。
  • 技術(shù)設(shè)計(jì):能夠設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜的系統(tǒng)和解決方案,包括軟件架構(gòu)和研究流程。
  • 問題解決。
  • 自動(dòng)化與工具開發(fā):能夠開發(fā)和使用自動(dòng)化工具來加速研究流程。

這些任務(wù)被設(shè)計(jì)在≤8小時(shí)內(nèi),以便人類專家可以使用合理的計(jì)算資源完成,從而實(shí)現(xiàn)人類與AI的直接比較。

圖片

而且主辦方特意提醒,要想獲得高分,就必須最大化利用計(jì)算資源來完成這些復(fù)雜任務(wù)。

圖片

通常來說,RE-Bench的運(yùn)行機(jī)制如下:

首先,7項(xiàng)任務(wù)都是一個(gè)獨(dú)立的評估環(huán)境,各自都有一個(gè)清晰的目標(biāo),比如優(yōu)化一個(gè)GPU內(nèi)核或者調(diào)整一個(gè)機(jī)器學(xué)習(xí)模型的超參數(shù)。

為了確保任務(wù)的可比性,每個(gè)環(huán)境都提供了一個(gè)參考解決方案,這個(gè)解決方案是有效的,但效率較低,為Agent和人類專家提供了一個(gè)基準(zhǔn)點(diǎn)。

AI和人類專家都可以訪問這些環(huán)境,并且都有權(quán)限使用所需的計(jì)算資源,如GPU。

然后,AI通過自然語言處理和編程能力來執(zhí)行任務(wù),而人類專家則通過編碼和實(shí)驗(yàn)來完成任務(wù)。

執(zhí)行結(jié)束后,每個(gè)環(huán)境都有一個(gè)評分函數(shù),用于衡量Agent或人類專家提交的解決方案的效果。

當(dāng)然,評分函數(shù)會根據(jù)解決方案的性能給出一個(gè)數(shù)值得分,這個(gè)得分隨后會被歸一化,以便于在不同環(huán)境之間進(jìn)行比較。

圖片

需要注意,過程中還涉及時(shí)間預(yù)算分配(time budget)。實(shí)際情況是,人類專家通常被分配8小時(shí)來完成任務(wù),而AI則根據(jù)實(shí)驗(yàn)設(shè)計(jì)在不同的時(shí)間限制下進(jìn)行評估。

舉個(gè)例子,對AI來說,8小時(shí)的預(yù)算可以用于一次8小時(shí)的嘗試,也可以分成16次、每次30分鐘的嘗試。

最后,由于在任務(wù)執(zhí)行過程中,研究會收集AI和人類專家的解決方案日志,以及它們的得分記錄。因此最終將根據(jù)這些記錄來評估不同參與者的進(jìn)步和表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,在2小時(shí)內(nèi),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的智能體表現(xiàn)遠(yuǎn)超人類。

圖片

更具體來看,如果不取多次運(yùn)行中的最佳結(jié)果(每個(gè)單獨(dú)繪制8小時(shí)運(yùn)行),AI最初比人類進(jìn)步更快,但提高分?jǐn)?shù)的速度較慢。

圖片

擴(kuò)大時(shí)間線來看,整體上人類專家在較少的長時(shí)間嘗試中表現(xiàn)更佳,而AI則從大量并行、獨(dú)立的短時(shí)間嘗試中受益。

圖片

令人印象深刻的是,盡管大多數(shù)AI只能輕微改進(jìn)參考解決方案,但一個(gè)o1-preview智能體在優(yōu)化Triton內(nèi)核運(yùn)行時(shí)間的任務(wù)中超越了人類專家的最佳解決方案。

圖片

與此同時(shí),評估過程中甚至發(fā)現(xiàn)了AI存在“作弊”行為。例如,o1-preview智能體在應(yīng)該減少訓(xùn)練腳本運(yùn)行時(shí)間的任務(wù)中,編寫了只是復(fù)制最終輸出的代碼。

圖片

來自非營利研究機(jī)構(gòu)METR

以上這項(xiàng)新的基準(zhǔn)出自METR,作為一家非營利研究機(jī)構(gòu),他們主要通過實(shí)證測試評估可能對社會造成災(zāi)難性危害的AI系統(tǒng)。

圖片

目前,RE-Bench只包含7項(xiàng)任務(wù),基準(zhǔn)的劣勢也很明顯:

圖片

而且還伴隨著一個(gè)老生常談的問題:

一旦7項(xiàng)任務(wù)公開,如何防止基準(zhǔn)測試數(shù)據(jù)污染問題?

圖片

對此,METR特別提出了幾項(xiàng)措施,來避免將這些任務(wù)包含在LLM訓(xùn)練數(shù)據(jù)中,并防止過擬合。

  • 用戶應(yīng)避免發(fā)布未受保護(hù)的解決方案,以減少過擬合的風(fēng)險(xiǎn)。
  • 用戶不應(yīng)將評估材料提供給可能用于訓(xùn)練的API或服務(wù)。
  • 評估材料不應(yīng)用于訓(xùn)練或提高前沿模型的能力,除非是為了開發(fā)或?qū)嵤┪kU(xiǎn)能力評估。

圖片

更多細(xì)節(jié)歡迎查閱原論文。

論文:https://metr.org/AI_R_D_Evaluation_Report.pdf。
博客:https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/。
GitHub:https://github.com/METR/ai-rd-tasks/tree/main。
實(shí)驗(yàn)詳細(xì)記錄:https://transcripts.metr.org/。

參考鏈接:
[1]https://twitter.com/METR_Evals/status/1860061711849652378。
[2]https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-12-10 07:00:00

2025-07-01 09:02:06

2025-07-22 10:22:02

2024-12-09 13:40:00

2024-12-26 17:13:17

AI模型訓(xùn)練

2025-02-10 08:37:04

2024-10-23 09:20:00

2025-11-06 01:45:00

2024-10-30 14:25:00

GitHub模型

2023-09-26 22:12:13

數(shù)據(jù)倉庫Doris

2017-06-09 11:20:47

高考AI教育

2025-02-03 14:17:27

2025-02-07 08:33:02

2025-02-19 15:40:00

OpenAI編程模型

2015-11-23 17:34:33

秒借

2018-03-12 21:31:24

區(qū)塊鏈

2017-03-16 08:46:57

延時(shí)消息環(huán)形隊(duì)列數(shù)據(jù)結(jié)構(gòu)

2024-09-18 08:40:00

智能模型AI

2017-05-18 11:11:20

Google谷歌開發(fā)者大會

2024-12-09 08:00:00

AI大模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

av大片免费观看| 国产美女视频免费观看下载软件| 97视频在线观看网站| 国产综合一区二区| 欧美激情综合色综合啪啪五月| 波多野结衣视频播放| 写真福利精品福利在线观看| 国产精品成人一区二区三区夜夜夜| 亚洲自拍欧美色图| 7799精品视频天天看| 一精品久久久| 亚洲一区二区久久久| 无人码人妻一区二区三区免费| 91九色porn在线资源| 国产精品久久久久久福利一牛影视| 国产高清在线精品一区二区三区| 波多野结衣在线观看一区| 你懂的国产精品| 有码中文亚洲精品| 老熟妇精品一区二区三区| 9999精品| 在线影院国内精品| 国产91xxx| 成人在线app| 国产免费成人在线视频| 国产精品国产精品国产专区不卡| 中文字幕在线播放av| 一区二区国产在线观看| 欧美另类老女人| 香蕉久久久久久久| 精品影片在线观看的网站| 精品国内二区三区| www.成人黄色| 99久久er| 欧美自拍偷拍午夜视频| 干日本少妇首页| www视频在线观看| 亚洲一区二区三区在线播放| 2021狠狠干| 天堂а√在线官网| 国产精品视频一二三区| 蜜桃麻豆www久久国产精品| 丰满肥臀噗嗤啊x99av| 国产在线精品一区二区夜色| 国产精品一区二区久久| а中文在线天堂| 日韩中文欧美在线| 国产91九色视频| 国产精品国产三级国产专区52| 亚洲黄色成人| 亚洲 日韩 国产第一| 国产午夜福利一区二区| 亚洲激情女人| 国内成人精品视频| 特黄视频免费看| 国产日韩1区| 日本成人激情视频| 中文字幕日本视频| 麻豆高清免费国产一区| 成人性生交大片免费看视频直播 | а√在线中文网新版地址在线| 亚洲三级电影全部在线观看高清| 天天在线免费视频| 天堂av中文在线| 亚洲一级二级在线| 成年人午夜视频在线观看| 黄在线观看免费网站ktv| 欧美日韩国产专区| 免费男同深夜夜行网站| 精品123区| 日韩亚洲欧美一区| a天堂视频在线观看| 婷婷成人在线| 色偷偷av一区二区三区乱| 欧美爱爱免费视频| 亚洲黄色视屏| 国产噜噜噜噜久久久久久久久| 国产精品毛片一区视频播| 国产精品一区二区不卡| 精品欧美一区二区三区久久久| 日韩a在线观看| 国产精品美女久久久久高潮| 天天想你在线观看完整版电影免费| free性欧美16hd| 欧美性高潮在线| 国产视频手机在线播放| 精品视频在线观看免费观看| 亚洲精品国产品国语在线| 性欧美精品男男| 欧美ab在线视频| 日本不卡视频在线播放| 999av视频| 久久综合狠狠综合久久激情 | 欧美日韩一区在线观看| 日本女人性视频| 免费看成人哺乳视频网站| 精品久久久av| 久久免费激情视频| 韩国成人在线视频| 九九九久久久| 黄网站app在线观看| 欧美性猛交xxxx免费看| 波多野结衣国产精品| 四虎影视精品| 久久影视电视剧免费网站清宫辞电视 | 国产精品欧美激情在线观看| 日日夜夜亚洲精品| 日韩成人中文字幕在线观看| 一区二区三区影视| 日本欧美一区二区| 麻豆av一区二区| 日本成人不卡| 欧美日韩二区三区| 国产精品扒开腿做爽爽| 极品尤物久久久av免费看| 国产女精品视频网站免费| 亚洲欧洲成人在线| 亚洲综合图片区| 在线观看免费视频污| av在线不卡顿| 国产a∨精品一区二区三区不卡| 亚洲精品国产一区二| 国产精品免费av| 人妻内射一区二区在线视频| 黄色成人美女网站| 欧美第一页在线| 国产免费av观看| 国产精品久久久久一区| 日韩av播放器| 蜜桃a∨噜噜一区二区三区| 久久久久亚洲精品国产| 国产三级小视频| 综合电影一区二区三区| 婷婷免费在线观看| 日韩在线看片| 国产精品日韩一区| 成人亚洲综合天堂| 91成人网在线| 性欧美精品中出| 欧美中文日韩| 日本亚洲导航| av在线不卡精品| 尤物九九久久国产精品的分类| 久久久黄色大片| 久久蜜桃香蕉精品一区二区三区| 成熟了的熟妇毛茸茸| 日韩电影不卡一区| 青草成人免费视频| 国产污视频在线| 欧美影院午夜播放| 黄色一级大片在线免费观看| 激情五月婷婷综合| 中国一级大黄大黄大色毛片| 99re91这里只有精品| 久久久影视精品| 欧美性孕妇孕交| 欧洲一区在线观看| 日本美女黄色一级片| 国产一区不卡精品| 久久av综合网| 啪啪亚洲精品| 国产欧美日韩精品丝袜高跟鞋| 精品国产白色丝袜高跟鞋| 日韩三区在线观看| 中日韩精品视频在线观看| 99久久精品久久久久久清纯| 女人另类性混交zo| 久久精品国产大片免费观看| 91精品在线影院| 77thz桃花论族在线观看| 亚洲精选一区二区| 在线亚洲欧美日韩| 一区二区三区日韩精品视频| 老司机免费视频| 日本不卡视频在线| 成人av在线播放观看| 日韩成人动漫在线观看| 国产日韩欧美在线| 97人澡人人添人人爽欧美| 亚洲天堂男人天堂| 国产夫妻性生活视频| 欧美日韩国产色| 美国美女黄色片| 成人综合激情网| 色一情一乱一伦一区二区三区日本| 欧美好骚综合网| 国产日韩欧美一区二区三区四区| 高清电影一区| 欧美高清电影在线看| 欧洲亚洲精品视频| 欧美大胆人体bbbb| 日韩中文字幕高清| 亚洲国产视频直播| 妖精视频在线观看免费| 成人亚洲精品久久久久软件| 男女男精品视频站| 亚洲精选久久| 色撸撸在线观看| 国产成人1区| 痴汉一区二区三区| 亚洲国产一区二区久久| 国产91对白在线播放| 在线观看免费视频你懂的| 亚洲色在线视频| 国产91免费在线观看| 8v天堂国产在线一区二区| 特级做a爱片免费69| 一区二区三区视频在线观看 | 亚洲精品午夜久久久| 久久久久久久毛片| 99久久久国产精品| 久草福利在线观看| 久久激情五月婷婷| av免费在线播放网站| 极品少妇一区二区三区| 精品一区二区三区毛片| 日韩aaaa| 日韩av电影免费播放| 欧美成a人免费观看久久| 亚洲最大福利网站| 视频欧美精品| 国产精品久久久久久婷婷天堂| 成年女人在线看片| 欧美乱大交xxxxx| www在线免费观看视频| 在线视频欧美日韩| 岛国最新视频免费在线观看| 日韩精品在线电影| 亚洲aaa在线观看| 日韩av在线高清| 五月天福利视频| 日韩精品高清视频| 四虎影视精品成人| 亚洲免费伊人电影在线观看av| 刘玥91精选国产在线观看| 欧美一级欧美三级| www.xxx国产| 精品伦理精品一区| 国产香蕉在线观看| 精品欧美乱码久久久久久1区2区| 亚洲国产剧情在线观看| 欧美大片免费久久精品三p | 国产91丝袜在线观看| av在线网址导航| 韩国一区二区三区| 成人在线短视频| 国产91对白在线观看九色| 精品国产免费久久久久久婷婷| 成人黄色大片在线观看| 在线xxxxx| 久久综合成人精品亚洲另类欧美 | 国产国语性生话播放| 972aa.com艺术欧美| 成年人网站免费看| 日本一区二区三区视频视频| 国产精品免费在线视频| 亚洲柠檬福利资源导航| 欧美人妻一区二区| 亚洲成人免费电影| 久久精品视频2| 欧美乱妇20p| www天堂在线| 日韩国产欧美精品一区二区三区| 免费在线国产| www.亚洲一区| 国产极品人妖在线观看| 热草久综合在线| 九九热这里有精品| 97se在线视频| 香蕉精品久久| 一区二区三区精品国产| 狠狠入ady亚洲精品| 九九九九免费视频| 麻豆国产精品官网| av2014天堂网| 国产精品天天看| 精品在线免费观看视频| 日本道色综合久久| 国产日本精品视频| 亚洲男人天堂古典| 二区三区在线观看| 日韩美女视频免费在线观看| 国产一区二区三区| 玛丽玛丽电影原版免费观看1977| 久久国产综合| 国产综合av在线| 精品一区二区三区视频在线观看| 秘密基地免费观看完整版中文 | 91亚洲精品久久久蜜桃| 久久精品国产亚洲AV成人婷婷| 亚洲一二三专区| 国产成人精品一区二区色戒| 精品盗摄一区二区三区| 永久免费在线观看视频| 97碰在线观看| 精品中文字幕一区二区三区四区| 久久天天狠狠| 欧美精品导航| 欧美成人福利在线观看| 99re热视频这里只精品 | 色综合天天视频在线观看 | 亚洲美女在线观看| 免费不卡av| 成人a免费视频| 九九热爱视频精品视频| 国产精品久久久久7777| 久久精品国产免费| 自拍偷拍视频亚洲| 偷拍一区二区三区| 亚洲第九十九页| 日韩在线免费视频| 91精品店在线| 欧洲在线视频一区| 国产精品久久国产愉拍| 国产亚洲精品成人a| 亚洲精品日韩专区silk| 91美女精品网站| 中文字幕在线成人| 一呦二呦三呦精品国产| 久久久影院一区二区三区| 在线免费高清一区二区三区| 国产探花在线观看视频| 国产精品久久久久久久浪潮网站| 亚洲男人天堂网址| 精品视频中文字幕| 2018av在线| 国产精品一区而去| 国内自拍视频一区二区三区 | 国内毛片久久| 男人天堂av片| 粉嫩一区二区三区性色av| 午夜免费激情视频| 91精品国产黑色紧身裤美女| 麻豆系列在线观看| 91久久久久久| 亚洲人体av| 9191在线视频| 亚洲国产精品综合小说图片区| 国产综合无码一区二区色蜜蜜| 欧美精品精品精品精品免费| eeuss国产一区二区三区四区| 久久久天堂国产精品| 国产精品一区二区在线观看不卡 | 日本亚洲一区二区| 69精品无码成人久久久久久| 一本大道久久a久久精二百| 免费一级毛片在线观看| 国产精品99免视看9| 第一会所亚洲原创| 午夜视频在线观| 亚洲综合久久久久| 网站黄在线观看| 国产精品99导航| 国产高清久久| 少妇熟女视频一区二区三区 | 成年网站免费在线观看| 亚洲视频一区在线| 亚洲av无码国产综合专区| 国内免费久久久久久久久久久| 欧美一区 二区| 欧美一级黄色影院| 亚洲色图.com| 五月婷婷六月丁香| 国产精品大片wwwwww| 国产韩日影视精品| 97中文字幕在线观看| 欧美色xxxx| 毛片av在线| 精品国产乱码久久久久久久软件 | 国产美女精品久久| 在线精品视频一区二区| av免费在线网站| 麻豆精品传媒视频| 国产一区二区三区av电影 | 九九热久久免费视频| 日韩三级视频在线观看| 午夜伦理福利在线| 尤物一区二区三区| gogogo免费视频观看亚洲一| 少妇无套内谢久久久久| 欧美激情国产日韩精品一区18| 妖精视频一区二区三区免费观看 | 特级西西444www高清大视频| 久久综合电影一区| 亚洲丁香日韩| 91视频免费入口| 色94色欧美sute亚洲线路一久| а天堂中文在线官网| 欧美第一黄网| 国产高清不卡二三区| 人人爽人人爽人人片av| 欧美日本国产在线| 成人精品久久| 欧美无人区码suv| 91精品国产综合久久久久久漫画| 国产精品迅雷| 97干在线视频| 亚洲日本欧美天堂| 成a人v在线播放| 欧美二区三区|