精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型“天梯賽”來了,讓Agent在Kaggle真實任務中進化|佐治亞理工、斯坦福開源

人工智能 新聞
來自佐治亞理工學院和斯坦福大學的研究團隊正式推出了 MLE-Dojo,一個專為訓練和評測大模型智能體(LLM Agents)設計的“交互式武館”。

當前最強大的大語言模型(LLM)雖然代碼能力飛速發展,但在解決真實、復雜的機器學習工程(MLE)任務時,仍像是在進行一場“閉卷考試”。它們可以在單次嘗試中生成代碼,卻無法模擬人類工程師那樣,在反復的實驗、調試、反饋和優化中尋找最優解的真實工作流。

為了打破這一瓶頸,來自佐治亞理工學院和斯坦福大學的研究團隊正式推出了 MLE-Dojo,一個專為訓練和評測大模型智能體(LLM Agents)設計的“交互式武館”。它將LLM從靜態的“答題者”轉變為可以在一個包含200多個真實Kaggle競賽的環境中,不斷試錯、學習和進化的“機器學習工程師”。

圖片

MLE-Dojo是一個專為機器學習工程設計的綜合性Gym風格基準測試框架。與現有依賴靜態數據集或單次評估的基準不同,MLE-Dojo提供了一個完全可執行的交互式環境,讓AI智能體可以通過結構化的反饋循環,反復實驗、調試并優化解決方案 。

在MLE-Dojo的競技場上,團隊對當前八個頂尖的LLM進行了全面評測。

結果顯示,Gemini-2.5-Pro在綜合Elo評分中拔得頭籌,但即便是最強的模型,在自主生成長流程解決方案和高效解決復雜錯誤方面也仍然有提升空間 。

目前,團隊已將MLE-Dojo的框架、基準和排行榜完全開源,旨在推動社區共同創新,加速下一代自主機器學習智能體的到來 。

一起來看詳細內容。

現有問題與解決方法

團隊通過深入分析發現,盡管現在已有多個針對LLM代碼能力的基準,但它們普遍存在以下問題:

  • 評測真空:現有基準大多是“靜態”的,無法模擬真實世界中機器學習工程師需要反復迭代、調試、驗證的動態工作流 。它們缺乏對持續實驗、結構化反饋吸收和高效資源管理等關鍵能力的考察 。
  • 訓練缺失:大多數平臺缺乏交互式環境,不支持對智能體進行監督微調(SFT)或強化學習(RL)等高級訓練范式 。這極大地限制了開發更強大、更自主的AI智能體的可能性。
  • 場景片面:許多基準只關注孤立的任務(如數據分析或可視化),未能捕捉到端到端機器學習流程的復雜性和內在聯系 。

為了填補這一空白,MLE-Dojo應運而生。它不僅僅是一個“考卷”,更是一個能讓AI智能體學習、成長和對戰的“練功房”和“競技場”。如下表所示,MLE-Dojo在交互性、訓練支持和任務廣度上全面超越了以往的基準。

圖片

△表1:MLE-Dojo與其他MLE智能體基準的比較

MLE-Dojo:一個給AI Agent的真實“練功房”

MLE-Dojo的核心是一個連接AI智能體機器學習任務環境的標準化交互框架 。在這個框架中,智能體可以像人類工程師一樣,通過一系列動作來解決復雜的Kaggle競賽任務。

整個交互過程被建模為一個循環:智能體根據當前觀察(Observation)做出動作(Action),環境執行該動作后,返回新的觀察和相應的獎勵(Reward) 。

圖片

△圖4:MLE-Dojo框架概覽,展示了智能體與環境的交互循環

其主要貢獻和特點可以概括為:

  • 全面的基準和框架:MLE-Dojo由超過200個真實的Kaggle競賽構成,覆蓋表格數據、計算機視覺(CV)、自然語言處理(NLP)等多個領域,為評估AI智能體提供了前所未有的廣度和深度 。其中150個任務用作訓練集,50個用作評估集 。
  • 交互式可執行環境:它提供了一個Gym風格的交互環境,智能體可以調用一系列動作,如 request_info(請求任務信息)、validate_code(驗證和調試代碼)、execute_code(執行代碼并提交評估)等 。所有代碼都在一個安全的沙箱環境中執行 。
  • 先進功能和精細化反饋:框架不僅能返回代碼執行結果,還能提供豐富的觀察信息,包括詳細的錯誤報告、數據集信息、交互歷史以及一個創新的**HumanRank獎勵分數 。該分數通過計算智能體在人類選手排行榜上的相對位置( s=1?p/N),提供了一個跨任務、標準化的性能指標 。
  • 靈活性和可拓展性:MLE-Dojo提供了統一的數據格式,支持無縫拓展新的任務和比賽;同時提供了模塊化的接口,可以實現個性化的環境功能和交互方式。

八大頂尖LLM同臺競技,誰是Kaggle之王?

為了全面、公正地評估各大頂尖LLM的機器學習工程能力,研究團隊設計了一套多維度的綜合評測體系,而非依賴單一指標。

多維度綜合評測體系

  • HumanRank Score (%):此指標衡量模型解決方案在真實人類Kaggle玩家排行榜中的相對位置,直觀反映了模型超越人類競爭者的百分比,是衡量絕對性能的核心標準 。
  • Elo Rating:源自棋類比賽的評分系統,通過模型間的兩兩“對戰”結果來計算動態的相對實力排名。這清晰地揭示了模型之間的強弱關系和競爭格局 。
  • AUP (Area Under the Performance Profile):該指標通過評估模型在多少比例的任務中能夠達到“最佳性能”的一定比例內,來衡量模型的魯棒性與一致性。AUP分數越高,表明模型在各種不同難度的任務上表現越穩定。

綜合性能對決

在這套嚴格的評測體系下,八大前沿LLM在50個評估任務上展開了激烈角逐。

圖片

△圖6 & 圖1:八大前沿LLM在MLE-Dojo上的Elo綜合評分及排名

Gemini-2.5-Pro綜合實力登頂:在最關鍵的Elo綜合評分中,Gemini-2.5-Pro展現出最強的競爭力,拔得頭籌 。在衡量絕對性能的HumanRank分數上,它同樣表現優異,例如在MLE-Lite任務集上超越了61.95%的人類選手 。

頂尖模型各有千秋:緊隨其后的是DeepSeek-R1和o3-mini等模型,它們同樣展現了作為機器學習智能體的強大實力和適應性,在各項指標中均名列前茅 。

深度分析:解碼冠軍策略

除了最終排名,MLE-Dojo的精細化數據還讓我們得以深入剖析每個模型的行為模式和“性格”。

行動策略與模型“性格”:

分析發現,不同模型展現出迥異的解題策略。

例如,表現優異的o3-mini策略非常“激進”,超過90%的動作都是直接執行代碼,展現出極高的自信 。

gpt-4o則相當“保守”,僅有約20%的動作是直接執行,花費了大量時間在初步驗證上 。這種策略差異直接影響了它們的解題效率和最終表現。

失敗率與穩健性分析:如下圖所示,Gemini-2.5-Pro不僅性能領先,其在代碼驗證和執行中的總體失敗率也是最低的 ,這表明其生成的代碼不僅效果好,而且更加穩健可靠。相比之下,一些性能同樣不俗的模型卻伴隨著更高的失敗率 。

圖片

△圖12:各模型在任務中的平均失敗率,Gemini-2.5-Pro的總體失敗率最低

  • 解題深度與復雜性:研究還發現,表現更強的模型(尤其是推理模型)通常能生成更長、更復雜的解決方案,并且其完整的交互歷史也更長 。這表明它們能夠進行更深入的思考和更復雜的多步推理,而不僅僅是給出簡單的代碼片段 。
  • 性能與成本的權衡:強大的性能往往伴隨著高昂的計算成本。分析顯示,頂尖的推理模型通常需要更多的token消耗,成本也更高 。但有趣的是,也存在像DeepSeek-r1這樣,在實現有競爭力的性能的同時,展現出更高成本效益的潛力,這為未來模型的優化指明了方向 。

此項研究為評估和提升AI智能體的機器學習工程能力提供了一個強大的開源平臺。通過模擬真實世界的挑戰,并提供一個可以不斷學習和進化的環境,MLE-Dojo將推動AI從一個“解題工具”向一個真正的“自主工程師”邁進,并最終對整個科學研究和工程領域產生深遠影響。

項目主頁:https://mle-dojo.github.io/MLE-Dojo-page/
排行榜:https://huggingface.co/spaces/MLE-Dojo/Leaderboard
論文:https://arxiv.org/abs/2505.07782
Github:https://github.com/MLE-Dojo/MLE-Dojo

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-11-07 16:04:25

AI模型智能體

2023-03-22 15:14:00

數據模型

2023-09-06 13:34:31

2025-07-21 11:51:12

模型AI工具

2025-01-14 12:22:10

2023-03-14 13:45:14

模型AI

2025-04-08 13:16:34

2023-10-20 12:17:57

AI數據

2023-03-15 10:26:00

模型開源

2022-10-08 12:38:23

模型開源

2024-05-07 13:24:54

2022-07-14 15:08:23

AI模型

2023-12-08 13:22:00

數據模型

2024-05-13 12:58:30

2021-03-31 10:28:11

GitHub 技術開源

2025-08-27 01:00:00

DSPyAI開發

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-12-05 13:38:11

架構模型

2023-10-17 13:33:00

AI數據
點贊
收藏

51CTO技術棧公眾號

一区视频免费观看| 最新中文字幕免费视频| 四虎精品成人影院观看地址| 久久精品国语| 久久天堂电影网| 波多野结衣一二三区| 澳门av一区二区三区| 亚洲精品成a人| 日本高清视频一区二区三区| 国产欧美日韩成人| 亚洲永久免费精品| 美女黄色丝袜一区| 特级西西www444人体聚色| 色悠久久久久综合先锋影音下载| 色综合久久天天综合网| 粉嫩av一区二区三区天美传媒 | 99视频一区二区| 国产欧美久久久久久| 婷婷激情五月网| 欧美日韩免费| www.亚洲人.com| 成人免费网站黄| 大伊香蕉精品在线品播放| 欧美日本一道本在线视频| 日本wwww视频| 福利小视频在线| 亚洲欧洲国产日韩| 亚洲春色在线| 六十路在线观看| a级精品国产片在线观看| 91老司机精品视频| 7777久久亚洲中文字幕| 日韩有码一区二区三区| 4438全国亚洲精品在线观看视频| 青青草成人免费| 亚洲精品午夜av福利久久蜜桃| 这里只有精品久久| 色一情一交一乱一区二区三区 | 韩国毛片一区二区三区| 国产精品你懂得| 天堂免费在线视频| 日本在线不卡视频| 国产脚交av在线一区二区| 黄色片网站在线免费观看| 日韩午夜激情| 91精品国产乱码久久久久久久久| 久久精品这里有| 亚洲美女网站| 91精品国产沙发| 99久在线精品99re8热| 99热这里只有成人精品国产| 国内外成人免费激情在线视频网站 | 国产一区二区在线视频播放| 高潮在线视频| 欧美性开放视频| 777米奇影视第四色| 亚洲欧美se| 在线观看一区二区视频| 成人免费毛片播放| 日本久久二区| 欧美一级精品大片| 日本少妇一级片| 国产精品自在| 国产视频欧美视频| 熟女少妇内射日韩亚洲| 四虎国产精品免费观看| 亚洲欧洲中文天堂| 国产肥白大熟妇bbbb视频| 成人写真视频| 久久夜色精品亚洲噜噜国产mv | 一本久久a久久免费精品不卡| 男女视频一区二区三区| 成人在线视频免费看| 制服.丝袜.亚洲.另类.中文 | 一本色道久久综合精品婷婷| 国产一区二区看久久| 国产精品中出一区二区三区| 午夜激情在线视频| 国产精品视频在线看| 日本三级中文字幕在线观看| 蜜桃视频m3u8在线观看| 欧美天堂亚洲电影院在线播放| 日韩av加勒比| 四虎5151久久欧美毛片| 最新国产精品拍自在线播放| 精品无码黑人又粗又大又长| 久久激情中文| 91色视频在线导航| 日本天堂在线| 亚洲激情欧美激情| 日本精品www| 视频一区中文字幕精品| 亚洲欧美日韩成人| 欧美国产日韩综合| 国产人成精品一区二区三| 成人高h视频在线| 色猫av在线| 亚洲欧美激情小说另类| www一区二区www免费| 国产高清视频一区二区| 亚洲欧美国产精品| 免费网站看av| 美女视频黄a大片欧美| 国产亚洲欧美一区二区三区| 欧美69xxxx| 欧美视频国产精品| 中文字幕1区2区| 日韩在线综合| 日本sm极度另类视频| av在线资源观看| 中文字幕欧美三区| 男女超爽视频免费播放| 亚洲精品三区| 亚洲欧美日韩中文在线| 国产精品成人免费一区二区视频| 久久国产福利国产秒拍| 日产精品一线二线三线芒果| h片在线观看| 日韩一级免费观看| а天堂中文在线资源| 午夜亚洲一区| 精品无码久久久久久久动漫| 污污的视频在线观看| 欧美日韩精品一二三区| 中字幕一区二区三区乱码| 一本色道久久综合亚洲精品高清| 91国产在线免费观看| 米奇777四色精品人人爽| 欧洲精品在线观看| 国产手机在线观看| 亚洲尤物影院| 九九九九久久久久| 欧美在线极品| 亚洲国内精品在线| xxxxxx国产| 成人深夜视频在线观看| 国产片侵犯亲女视频播放| 高清一区二区中文字幕| 日韩视频在线免费| 国产裸体永久免费无遮挡| 欧美激情一区二区三区四区| 九九视频精品在线观看| 欧美色就是色| 国产精品第一页在线| 飘雪影院手机免费高清版在线观看 | 国产丝袜一区二区三区免费视频 | 56国语精品自产拍在线观看| 国产又粗又长免费视频| 久久精品免费观看| 不卡中文字幕在线| 无码国模国产在线观看| 欧美日韩成人黄色| 女人18毛片水真多18精品| 亚洲国产精品久久人人爱蜜臀| 亚洲精品国产成人av在线| 一区二区91| 欧美中日韩免费视频| free欧美| 久久久国产一区| 99在线无码精品入口| 亚洲黄色小视频| 国产一级伦理片| 久久久久久久波多野高潮日日| 水蜜桃一区二区三区| 99精品美女视频在线观看热舞| 久久国产精品久久久久久久久久| 丰满人妻一区二区三区免费| 狠狠躁18三区二区一区| 日韩免费成人av| 国产一区中文字幕| 日韩一级性生活片| 激情五月综合网| 成人黄色免费片| av电影院在线看| 在线观看日韩专区| 亚洲精品久久久久久无码色欲四季 | 国产亚洲欧洲高清一区| 国产精品永久久久久久久久久| 夜夜嗨av一区二区三区中文字幕 | 三级毛片在线免费看| 欧美自拍丝袜亚洲| 欧美日韩国产精品综合| 26uuu国产在线精品一区二区| 中文字幕国产传媒| 国产精品sm| 欧洲一区二区日韩在线视频观看免费 | 欧美特级限制片免费在线观看| 精品欧美一区二区久久久久| 91老师国产黑色丝袜在线| 在线视频观看一区二区| 亚洲毛片一区| 一区二区三区四区久久| 在线一级成人| 91九色在线观看| 电影在线观看一区二区| 欧美激情一二区| 午夜国产福利在线| 日韩av网站在线| 国产视频手机在线观看| 色老汉一区二区三区| 免费网站看av| 日韩一区中文字幕| 亚洲成人黄色av| 99热99精品| 四虎成人在线播放| 日韩福利电影在线| 日韩精品 欧美| 午夜精品久久久久99热蜜桃导演| 亚洲高清123| 亚洲人成精品久久久 | 精品一级毛片| 精品久久中出| 亚洲午夜免费| 91久久久久久久久| 久久久久黄色| 日韩免费在线免费观看| 69av成人| 久久久在线视频| 粗大黑人巨茎大战欧美成人| 中文字幕亚洲欧美在线| 国产乱视频在线观看| 日韩精品中文在线观看| 黑人乱码一区二区三区av| 欧美一区欧美二区| 一区二区三区播放| 欧美日韩视频在线观看一区二区三区| 日韩欧美在线观看免费| 天天做天天摸天天爽国产一区| 欧美日韩精品在线观看视频 | av大全在线观看| 亚瑟在线精品视频| 日本五十熟hd丰满| 亚洲国产综合视频在线观看| 九九热视频精品| 一区二区三区美女视频| 国产探花在线免费观看| 亚洲乱码精品一二三四区日韩在线 | 少妇精品高潮欲妇又嫩中文字幕| 欧美tickling网站挠脚心| 精品国产999久久久免费| 91精品国产一区二区三区| 国产精品丝袜黑色高跟鞋| 欧美日韩视频一区二区| 国产精品一区二区人人爽| 欧美一区国产二区| 亚洲国产av一区二区| 欧美videos大乳护士334| 亚洲狼人综合网| 亚洲激情第一页| 色av男人的天堂免费在线| 亚洲欧美日韩图片| 91在线视频免费看| 久久影院资源网| 欧美巨大xxxx做受沙滩| 久久久在线视频| 欧美gay视频| 国产精品尤物福利片在线观看| 欧美黄色a视频| 91久色国产| 日韩一级电影| 亚洲一二三区精品| 一级欧洲+日本+国产| 性一交一乱一伧国产女士spa| 亚洲区一区二| 激情网站五月天| 精品一区二区三区久久久| 蜜桃色一区二区三区| 91亚洲大成网污www| 影音先锋男人在线| 亚洲嫩草精品久久| 日本在线播放视频| 欧美三级一区二区| 亚洲av无码一区二区三区dv| 日韩av一区二区在线| av在线电影网| 欧美大片在线看| 久九九久频精品短视频| 成人高清视频观看www| 欧美交a欧美精品喷水| 天堂va久久久噜噜噜久久va| 一本到12不卡视频在线dvd| 国模吧无码一区二区三区| 美女脱光内衣内裤视频久久网站| 久久久久亚洲AV成人网人人小说| 国产偷国产偷亚洲高清人白洁| 熟女少妇a性色生活片毛片| 亚洲国产视频网站| 性高潮视频在线观看| 日韩色在线观看| yiren22亚洲综合伊人22| 久久久久久久久电影| 日本黄色一区| 精品卡一卡二| 欧美va天堂| 午夜免费一区二区| 99久久精品国产精品久久 | 精品国产精品自拍| 国产又粗又猛又爽| 亚洲欧美国产va在线影院| 男女免费观看在线爽爽爽视频| 国产精品黄色av| 另类ts人妖一区二区三区| 亚洲第一综合网站| 日韩电影在线看| 在线xxxxx| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 免费在线视频你懂得| 欧美激情亚洲国产| 欧洲美女精品免费观看视频| 麻豆成人av| 亚洲黄页一区| 丰满人妻一区二区三区53视频| 国产精品国产三级国产有无不卡 | 蜜桃传媒麻豆第一区在线观看| 在线观看国产网站| 亚洲曰韩产成在线| 国产片在线播放| 久久精品人人做人人爽| 四虎影视4hu4虎成人| 欧美福利精品| 亚洲美女少妇无套啪啪呻吟| 国产大尺度视频| 夜夜嗨av一区二区三区网页| 999免费视频| 久久手机免费视频| 高清一区二区三区av| 中文字幕欧美人与畜| 美女久久久精品| 国产成人免费观看网站| 在线观看不卡视频| 大乳在线免费观看| 国产精品久久久精品| 欧美久久综合网| 好男人www社区| 欧美激情一区不卡| 中文字幕一区二区三区免费看| 国产一区二区三区高清在线观看 | 97netav| 欧美精品一卡| 中文字幕制服丝袜| 亚洲成a人片在线观看中文| 人妻丰满熟妇av无码区hd| 久久久伊人欧美| 先锋影音国产精品| 欧美女人性生活视频| 久久久五月婷婷| 五月天中文字幕| 日韩在线观看精品| 国产精品视频一区视频二区| 97在线免费视频观看| 成人av在线播放网站| 丰满少妇乱子伦精品看片| 亚洲欧美999| 欧美亚洲人成在线| 国产精品一二三在线观看| 成人性生交大片| 国产三级av片| 中文字幕亚洲一区| 高清不卡一区| 麻豆tv在线播放| 久久精品水蜜桃av综合天堂| 亚洲综合精品在线| 欧美激情精品久久久久| 亚州综合一区| 蜜臀av免费观看| 亚洲黄色免费电影| 嫩草研究院在线| 国产日韩欧美自拍| 影院欧美亚洲| 国产毛片欧美毛片久久久| 欧美一区二区三区公司| 日本不卡1234视频| 亚洲电影网站| 99久久综合精品| 在线观看国产精品视频| 欧美大片在线看| 国产午夜一区| 91porn在线| 欧美色倩网站大全免费| 日本大片在线播放| 欧美三级华人主播| 国产精品一级二级三级| 香蕉影院在线观看| 欧美大片在线看| 日本一区二区三区视频| 高清中文字幕mv的电影| 欧洲日韩一区二区三区| 成人免费图片免费观看| 一区二区精品免费视频| 99久久er热在这里只有精品66| 中文无码精品一区二区三区| 久久久噜噜噜久久中文字免| 日韩av专区| 少妇饥渴放荡91麻豆| 欧美一区二区在线免费观看| 2022成人影院| 国产真实老熟女无套内射| 国产精品色婷婷| 视频在线不卡| 国产精品一国产精品最新章节|