精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude 3.5兩小時暴虐50多名專家,編程10倍速飆升!但8小時曝出驚人短板

人工智能 新聞
AI自主研發會真的「失控」了嗎?最新研究顯示,Claude 3.5 Sonnet和o1-preview在2小時內的研發任務中,擊敗了50多位人類專家。但另一個耐人尋味的現象是,給予更長時間周期后,人類專家在8小時任務中優勢顯現。

AI智能體離自主研發,還有多遠?

Nature期刊的一篇研究曾證明了,GPT-4能自主設計并開展化學實驗,還能閱讀文檔學習如何使用實驗室設備。

圖片

另有Transformer作者之一研發的「世界首個AI科學家」,一口氣肝出10篇論文,完全不用人類插手。

如今,AI在研發領域的入侵速度,遠超人類預期。

圖片

來自非營利組織METR的最新研究稱:

同時給定2個小時,Claude 3.5 Sonnet和o1-preview在7項具有挑戰性研究工程中,擊敗了50多名人類專家。

圖片

論文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf

令人印象深刻的是,AI編程速度能以超越人類10倍速度生成并測試各種方案。

在一個需要編寫自定義內核以優化前綴和運算的任務中,o1-preview不僅完成了任務,還創造了驚人的成績:將運行時間壓縮到0.64毫秒,甚至超越了最優秀的人類專家解決方案(0.67毫秒)。

不過,當比賽時間延長至8小時,人類卻展現出了明顯的優勢。

由下可以看出,隨著時間逐漸拉長,Claude 3.5 Sonnet和o1-preview的性能提升逐漸趨于平緩。

圖片

有趣的是,為了獲得更高的分數,AI智能體居然會違反規則「作弊」。

原本針對一個任務,智能體應該減少訓練腳本運行時間,o1-preview直接復制了輸出的代碼。

頂級預測者看到這一結果驚嘆道,基于這個進步速度,AI達到高水平人類能力的時間可能會比之前預計的更短。

圖片

RE-Bench設計架構,遍歷七大任務

為了能夠快速迭代,并以合理的成本收集數據,研究人員設定了運行限制:人類專家的評估不超過8小時,且所有環境都只能使用8個或更少的H100 GPU運行。

在環境設計時,主要考慮最大化覆蓋前沿AI難題,同時確保人類專家與智能體能夠持續推進任務,不會遇到研究瓶頸或得分上限。

RE-Bench包含了七個精心設計的評估環境,其中每個環境都提出了一個獨特的機器學習優化問題,要取得高分需要大量的實驗、實現和高效使用計算資源。

圖片

每個評估環境包括三部分:

1、評分函數(scoring function),定義了環境的目標,智能體可以隨時運行該函數。每次運行評分函數時,都會在得分日志中添加一個帶時間戳的事項。智能體可以看到得分日志,并檢查評分函數的細節,有助于理解研究目標。

2、簡單但性能不佳的初始解決方案(starting solution),提供給智能體,以展示有效的解決方案是什么樣子,有助于說明環境設置,可以讓智能體更快地開始研究問題中更具挑戰性的部分。比如說,在「優化核函數」環境中,智能體的輸入為一個簡單但運行緩慢的Python解決方案。

3、由任務作者創建的參考解決方案(reference solution),得分很高。但該解決方案不會提供給智能體,只用于歸一化得分(normalize score),作為一個優秀解決方案的示例。下式中ys為初始方案得分,yr為參考方案得分,y為模型得分,yn為歸一化分數。

圖片

除了「Scaling Law Experiment」采用最終分數進行評估外,其他實驗都使用得分日志中的最高分。

8小時極限,人類專家吊打AI

研究人員使用開源的Vivaria平臺來設置安全的虛擬機,配備20-48個虛擬CPU、200-400 GB的RAM,以及0到6個H100 GPU,對比模型選擇了claude-3-5-sonnet-20241022以及o1-preview,框架選擇為METR和AIDE

時間限制下的性能

在相同時間下,可以看到,o1-preview和Claude 3.5 Sonnet在最初階段進展迅速,但在幾個小時后速度減慢;而人類專家起步較慢,但隨后迅速取得進展。

圖片

采樣限制下的性能

除了長時間運行外,研究人員還評估了模型是否能在更短的時間限制下取得更好的性能:對每個環境進行k次采樣,并選擇所有k次運行中取得的最高分數。

圖片

結果發現,模塊化框架中的智能體在30分鐘嘗試中表現得更好,而AIDE框架中的智能體則在2小時嘗試中表現最佳。

還可以發現,在AIDE框架中的o1-preview和在模塊化框架中的Claude 3.5 Sonnet總體上取得了最高的分數,分別達到了人類專家的第36和第37百分位。

隨著樣本數量的增加,最佳-k次分數(score@k)也會發生變化:Claude 3.5 Sonnet在30分鐘時,樣本數量增加,性能也穩步提高,但即使在k=128個樣本下,智能體的表現也遠遠落后于頂尖人類的表現。

圖片

圖片

總體而言,人類起步較慢,但改進軌跡更陡峭,即進步更快,并且在32小時的時間預算內達到了比任何智能體都更高的分數。

按環境評估

研究人員對比了兩個智能體(模塊化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小時內的最高性能分配與人類結果(四次8小時運行中的最佳表現)以匹配智能體的時間預算。

圖片

結果發現不同智能體在不同環境中的表現存在顯著差異:Claude 3.5 Sonnet智能體在「微調GPT-2進行問答」和「擴展法則實驗」環境中接近人類的表現,而o1-preview在這些環境中表現不佳;o1-preview在「優化核函數」環境中的表現超過了人類。

人類-AI差距之間定性分析

為了更好地了解人類專家在哪些條件下,比AI智能體做得更好或更差的原因,研究人員對智能體成績和解決方案進行了定性分析。

AI智能體:知識儲備大,嘗試頻率37次/h

雖然AI智能體通常無法找到與頂級人類專家相匹配的解決方案,但它們也取得了一些顯著的成功。

比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到「優化內核」的解決方案,運行速度約為參考解決方案的2倍。

如下圖所示,其中,o1-preview的解決方案甚至超過了9位人類專家。

這些都是復雜且新穎的算法,能有效繞過GPU通信限制,并使用一種缺少良好公開文檔的低資源編程語言(Triton)。

圖片

這個令人驚訝的結果可能部分歸因于,AI智能體和許多人類專家之間的專業知識差距,因為大多數人類專家并不具備編程GPU內核的專門知識。

這種情況在多個環境中都有體現:一些不太熟悉該領域的人類專家需要花費大量時間學習或復現標準方法(有時甚至完全失敗),而AI智能體憑借其廣泛的知識基礎往往能輕松完成。

AI智能體成功的另一個關鍵因素可能是,它們能比人類專家嘗試更多的解決方案。

平均而言,AIDE和模塊化智能體每小時分別運行36.8次和25.3次,而人類專家僅為3.4次。

這通常導致智能體找到高度優化的「局部最優」解決方案,僅通過調整初始解決方案的參數和代碼,就能實現顯著的改進。

例如,許多智能體在解決「優化內核」環境時,并非通過編寫成功的Triton解決方案(這很困難),而是通過仔細調整初始的Pytorch解決方案,使其運行速度顯著提高。

也就是說,它們能夠有效優化現有解決方案。

如下,是「微調GPT-2用于問答」最佳智能體解決方案中,Claude 3.5 Sonnet調整了初始解決方案的參數,并在訓練軌跡和評估中獲得了準確結果。

不過,這一高分有可能是對噪聲過度擬合的結果。

圖片

總而言之,AI智能體的成功在于能夠進行大量參數微調和代碼優化,偶爾還會提出創造性有效的解決方案,尤其是在評估成本低的環境在非常有效。

失敗因素

但在大多數環境中,智能體仍然沒有達到強大的人類專家的水平。

造成這種情況的原因之一是,AI智能體提出的解決方案缺乏多樣性。

例如,在「受限架構MLM」任務中,智能體在84%的情況下,都在嘗試使用稍作修改的Transformer架構。即使在不能使用除法和指數運算的情況下,仍固守這種方案。

另一個局限性是,持續性的指令理解錯誤,特別是在「受限架構MLM」和「優化LLM Foundry」任務中。

在某些情況下,這些對環境的誤讀可能導致智能體找到令人印象深刻且意想不到的漏洞,這些漏洞在自動評估中得分很高,但在人工檢查時明顯違反了環境規則。

圖片

縮小差距

基于以上的觀察,研究人員認為AI智能體在以下特征的環境中,會比人類表現更好:

- 短期且高保真循環反饋,可以讓AI智能體充分發揮嘗試多個解決方案的優勢

- 工程復雜度低,使得AI智能體通過幾個步驟就解決問題

- 需要專業知識的任務,AI智能體比人類專家具備更全的知識

- 環境中有顯著的噪聲,這種情況下AI智能體可以進行大量嘗試的優勢會超過人類專家較少的嘗試次數。

- 不易出現意外情況,不需要太多的探索和發現

Re-Bench局限性

評估環境的代表性不足

為了創建符合設計標準的高可靠性評估,研究人員需要努力確保指令和評分容易理解,8小時內可以取得顯著進展,并且提供所有必要的資源,還必須選擇易于構建和評估的環境。

這些限制使得評估環境不太能代表真實的研究,常見問題包括不明確的目標、糟糕的指令、慢反饋和無法解決的問題。

結果噪聲

由于環境數量較少,且智能體得分嚴重向右傾斜,大多數運行得分為0,只有少數得分非常高,所以結果評估對抽樣噪聲很敏感。

評估的成本和復雜性

使用H100 GPU運行智能體數小時需要相應的基礎設施和大量預算,對于普通研究人員來說壓力很大,運行大規模實驗來對比多個模型、框架和參數也更具挑戰性。

缺乏框架迭代

選擇不同的智能體框架或提示,有可能導致模型在相近的時間內,在基準測試上取得更好的成績。

研究人員的預期是,通過為智能體提供管理GPU資源的工具,或是通過并行探索解決方案來利用更多的token等來實現更好的性能。

覆蓋前沿研究的局限性

由于硬件訪問有限,并且前沿AI研究也大多是閉源的,評估所涵蓋的研究類型與推動前沿AI進步的研究類型之間可能存在差異。

方案可能過度擬合

除了「擴展法則實驗」之外,所有環境都向智能體提供了測試分數輸出,以最小化誤解或混淆的風險;在未來的迭代中,研究人員考慮只在大多數環境中向智能體提供驗證分數,把測試分數隱藏起來。

「擴展法則實驗」得分存在運氣成分

雖然良好的實驗可以幫助人類專家在環境中做出明智的預測,但智能體還是主要依賴猜測,更多是運氣而不是技巧的問題。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-05-20 12:44:53

編程軟件開發JavaScript

2015-10-26 11:53:36

OpenStackOpenStack部署RDO

2009-03-24 09:12:15

2021-08-08 11:17:58

谷歌Matt編程

2016-11-14 14:10:15

電信斷網寬帶網絡

2009-07-28 09:18:17

2023-07-02 14:47:26

AI速通效率

2025-05-23 09:01:00

2024-11-25 12:50:14

2024-10-28 22:28:21

2014-12-19 16:08:18

2009-03-09 09:27:16

Facebook社交網站健康

2010-12-24 10:09:04

2009-05-08 08:59:47

微軟Windows 7操作系統

2009-04-24 14:11:53

清理專家2.7殺毒金山

2011-10-25 15:49:57

VPN

2021-10-18 22:07:05

裝機顯卡硬件

2015-12-03 09:02:22

掌握新事物100小時

2022-06-08 10:01:23

性能優化慢查詢

2009-04-30 13:37:38

安全掛馬技術沙龍
點贊
收藏

51CTO技術棧公眾號

国产不卡精品在线| 亚洲精品一区二| 精品国产av无码一区二区三区| 97免费在线观看视频| 日韩深夜福利网站| 91女厕偷拍女厕偷拍高清| 久久久国产在线视频| 久草精品电影| 国产成人免费在线观看视频| 中文字幕在线播放网址| 狠狠做六月爱婷婷综合aⅴ| 亚洲图片自拍偷拍| 成人免费在线视频网站| 国产精品成人一区二区三区电影毛片 | 国产福利在线观看| 雨宫琴音一区二区在线| 91麻豆精品国产91久久久久久久久 | 男操女视频网站| 91精品导航| 亚洲精品水蜜桃| 成人h片在线播放免费网站| 久久久99精品| 久久亚洲精精品中文字幕| 国产精品美女久久久久久2018| 欧美一级大片在线免费观看| 屁屁影院国产第一页| 免费男女羞羞的视频网站在线观看| 韩日av一区二区| 久久福利视频网| 亚洲av毛片在线观看| 黄视频在线观看网站| 国产综合色在线视频区| 在线播放日韩精品| 邪恶网站在线观看| 色网站在线看| 精品一二三四在线| 日韩av片免费在线观看| 欧美波霸videosex极品| 青青青国产精品| 日韩欧美在线观看视频| 色播亚洲婷婷| 亚洲天堂自拍偷拍| 中文字幕乱码亚洲无线精品一区| 日韩欧美视频在线| 国产高清av在线播放| 日本人妖在线| 日本成人在线一区| 精品国产美女在线| 久久久男人的天堂| 精品91久久| 国产精品二三区| av成人在线电影| 午夜影院在线看| 欧美成人亚洲| 亚洲美女av黄| 亚洲黄色片免费| aa国产成人| 日本一区二区三区免费乱视频| 91九色国产社区在线观看| 久久视频免费在线观看| 国产伦精品一区二区三区视频| 亚洲国产欧美自拍| 免费涩涩18网站入口| 成人性生交大片免费网站| 欧美性xxxx在线播放| 麻豆传传媒久久久爱| 综合久久2019| 亚洲女厕所小便bbb| 国产精品久久成人免费观看| 天堂资源最新在线| 国内一区二区在线| 成人激情视频在线播放| 精品久久久久中文慕人妻| 亚洲免费影院| 色综合久综合久久综合久鬼88 | 日本精品一区二区| 国产一区二区三区视频免费观看 | 欧美日韩在线一| av片在线看| 99综合电影在线视频| 国产精品直播网红| 日韩精品视频播放| 米奇777在线欧美播放| 欧美大片第1页| 日韩手机在线观看| 日韩精品一级二级| 性色av一区二区三区免费| 疯狂撞击丝袜人妻| 欧美a级片一区| 2020久久国产精品| 中文字幕乱码中文字幕| 中日韩视频在线观看| 欧美巨大黑人极品精男| 天海翼一区二区| 日韩精品欧美成人高清一区二区| 国产在线精品自拍| 一级久久久久久| 激情成人午夜视频| 精品蜜桃一区二区三区| wwwxxxx国产| 91蜜桃传媒精品久久久一区二区| 小说区图片区图片区另类灬| 秋霞在线视频| 欧美午夜精品久久久久久孕妇| 国产成人无码a区在线观看视频| 国产精品亚洲d| 欧美性videos高清精品| 亚洲天堂伊人网| 亚洲黄页在线观看| 精品亚洲va在线va天堂资源站| 18禁一区二区三区| 亚洲经典视频| 国产亚洲精品久久久优势| 国产精品揄拍100视频| 偷拍亚洲精品| 亚洲精品网站在线播放gif| 国产精品视频看看| 国产精品美女| 日本成人在线视频网址| 9i精品福利一区二区三区| 先锋亚洲精品| 97人人模人人爽人人喊38tv| 精品国产无码AV| 亚洲国产成人一区二区三区| 亚洲一区三区电影在线观看| 亚洲精品传媒| 欧美日韩在线视频首页| 北条麻妃在线一区| 成人香蕉社区| 国产丝袜一区二区三区免费视频| 懂色av懂色av粉嫩av| 国产精品mv在线观看| 久久中文字幕国产| 国产一级久久久| 野花国产精品入口| 成人免费看片网站| 青青草av免费在线观看| 亚洲一区中文在线| 国产又粗又猛大又黄又爽| 欧美岛国激情| 久久全国免费视频| 日韩一级片中文字幕| 久草在线在线精品观看| 成人国产1314www色视频| 免费在线观看黄色| 亚洲高清免费在线| 无码日韩人妻精品久久蜜桃| 成人污版视频| 正在播放欧美视频| 久久久久无码国产精品不卡| 激情成人综合网| 日本黄色a视频| 黄色激情在线播放| 欧美日韩一级片在线观看| 欧美日韩一区二区区别是什么 | 在线观看成人免费| 国产精品高清一区二区| 按摩亚洲人久久| 国产精品无码天天爽视频| 懂色av一区二区夜夜嗨| 成人在线视频网址| 成年人在线观看网站| 亚洲国产日日夜夜| 中文在线观看免费视频| 日韩精品免费| 97视频在线免费观看| 蜜臀av中文字幕| 国产精品国产三级国产普通话蜜臀| 好男人www社区| 日韩欧美中字| 亚洲在线免费看| 国产专区综合网| 日本不卡123| 国产精品热视频| 国产免费一级视频| 久久久国产一区二区三区四区小说| 一本久道久久综合狠狠爱亚洲精品| av成人免费| 亚洲国产又黄又爽女人高潮的| 国产精品99re| 久久综合九色综合97_久久久| 亚洲一区综合| 秋霞午夜一区二区三区视频| 国产一区二区成人| 91中文字幕在线播放| 亚洲精品成a人| 国产九九在线观看| 综合伊思人在钱三区| 久久6免费高清热精品| 天天射天天操天天干| 一区二区三区中文字幕电影| 久久久久亚洲AV成人无码国产| 天天天综合网| 国产精品久久综合av爱欲tv| 97超碰在线公开在线看免费| 亚洲精品456在线播放狼人| 丰满熟女人妻一区二区三| 91在线观看高清| 2019日韩中文字幕mv| 国产一区二区三区不卡视频网站| 91系列在线播放| 最新中文字幕在线播放| 亚洲精品成人久久| 中文字幕人妻精品一区| 亚洲韩国一区二区三区| 极品蜜桃臀肥臀-x88av| 成人一区二区视频| 九九热免费精品视频| 国产影视精品一区二区三区| 444亚洲人体| 欧洲av一区二区| 国产亚洲精品久久久久动| 国产wwwxxx| 亚洲在线中文字幕| 国产艳妇疯狂做爰视频| 免费视频最近日韩| 一区二区视频国产| 国产精一区二区| 国产成人福利网站| www.91在线| 亚洲精品97久久| www.成人免费视频| 欧美日韩精品欧美日韩精品一 | 桥本有菜av在线| 日韩欧美在线精品| 成人免费在线看片| www.久久久.com| 操日韩av在线电影| 91精品专区| 亚洲欧美日韩天堂| 香蕉视频成人在线| 色94色欧美sute亚洲线路一久| 久久久久无码精品国产sm果冻 | 色欧美激情视频在线| 精品国产91洋老外米糕| 91蜜桃视频在线观看| 亚洲欧美福利一区二区| 国精产品一区一区| 国产精品亚洲第一| a在线视频观看| 黑人一区二区三区四区五区| 潘金莲一级淫片aaaaa免费看| 欧美亚洲在线日韩| 91久久久久久久| 国产资源一区| 国外成人免费在线播放 | **欧美日韩vr在线| jizz在线观看中文| 亚洲欧美日韩直播| 四虎影视2018在线播放alocalhost| 亚洲成av人乱码色午夜| 天天操中文字幕| 国产精品久久久久9999吃药| 久久久视频6r| 丰满白嫩尤物一区二区| 国产又粗又猛大又黄又爽| 国产精品一区二区在线观看网站| 91福利免费观看| 国产毛片一区二区| 欧美xxxx黑人| 久久先锋资源| 天堂av在线中文| 欧美日韩导航| 91久久嫩草影院一区二区| 亚瑟国产精品| 69174成人网| xxxx日韩| 久久99影院| 精品久久久久中文字幕小说| 痴汉一区二区三区| 精品一区二区男人吃奶| 国产精品视频白浆免费视频| 久久精品97| 97超碰最新| 婷婷精品在线| 一区二区三区免费看| 午夜国产欧美理论在线播放| 国产日韩欧美精品在线观看| 免费在线成人| 亚洲黄色片免费| 99r国产精品| 免费一级黄色录像| 亚洲美女精品一区| 国产一级特黄aaa大片| 色久综合一二码| 国产免费一区二区三区免费视频| 色香蕉成人二区免费| 国产精品1000| 色婷婷久久一区二区三区麻豆| 一区二区三区播放| 欧美精品一区二区三区蜜桃| 邻家有女韩剧在线观看国语| 亚洲国产第一页| 九色在线播放| 精品亚洲va在线va天堂资源站| 丝袜美腿美女被狂躁在线观看| 欧美精品成人91久久久久久久| 黄色动漫在线观看| 91精品国产成人| 99re久久| 国产一区二区中文字幕免费看| 国产精品久久久久久久久久辛辛| 精品国产福利| 97精品国产福利一区二区三区| 免费在线观看视频a| 久草中文综合在线| 强伦人妻一区二区三区| 亚洲欧美偷拍另类a∨色屁股| 日本成人精品视频| 欧美日韩亚洲一区二区三区| 国产伦精品一区二区三区四区| 亚洲电影在线看| 久久精品视频观看| 全亚洲最色的网站在线观看| 麻豆一区在线| 亚洲精品人成| 鲁大师成人一区二区三区| 中文字幕1区2区| 中文字幕亚洲在| 久久久久久亚洲av无码专区| 亚洲成人精品av| caoporn免费在线视频| 九色精品美女在线| 日韩精品一区二区三区av| 精品国产乱码久久久久久蜜柚| 亚洲最大av| 波多野结衣xxxx| 国产视频一区二区在线| 天美传媒免费在线观看| 欧美日韩久久久久| 黄频网站在线观看| 亚洲人成啪啪网站| 日本美女在线中文版| 国产成人一区三区| 小嫩嫩12欧美| 男人添女人下面高潮视频| 高清不卡在线观看av| 亚洲成人生活片| 777a∨成人精品桃花网| yw193.com尤物在线| 国产激情久久久| 在线日本制服中文欧美| 中文字幕日本最新乱码视频| 日韩—二三区免费观看av| 亚洲av无码一区二区三区观看| 亚洲国产日韩一级| 日本韩国在线观看| 久久久最新网址| 国偷自产视频一区二区久| 日韩久久精品一区二区三区| 性欧美69xoxoxoxo| 成人免费aaa| 99精品视频在线观看| 久热这里只有精品6| 日韩成人在线视频观看| 日本中文字幕在线视频| 国产精品羞羞答答| 91精品国产自产在线观看永久∴| 亚洲天堂国产视频| 99精品国产91久久久久久| 男人的天堂一区二区| 亚洲欧美日韩高清| 秋霞国产精品| 亚洲图片欧洲图片日韩av| 韩国v欧美v日本v亚洲v| 亚洲国产成人精品综合99| 日本久久精品电影| 91网在线播放| 亚洲综合自拍一区| 亚洲国产免费| 视频区 图片区 小说区| 一区二区三区在线免费播放| 少妇人妻偷人精品一区二区| 欧美在线视频播放| 成人精品天堂一区二区三区| 加勒比av中文字幕| 亚洲一区二区三区小说| 日韩a在线观看| 国产欧美精品在线| 欧美成人久久| 国产精品无码永久免费不卡| 亚洲精品免费视频| 天堂在线资源网| 国产精品久久久久久久电影| 青青一区二区| 爱情岛论坛vip永久入口| 亚洲欧美日韩国产另类专区 | 亚洲国产日韩欧美综合久久| 欧美动物xxx| 精品久久蜜桃| 七七婷婷婷婷精品国产| 久草资源在线视频| 91精品麻豆日日躁夜夜躁| 91福利在线尤物| 亚欧洲精品在线视频免费观看| 国产精品456| 欧美在线视频第一页| 日韩av一区在线观看| 久久免费资源| 色欲av无码一区二区人妻|