精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越微軟,全球第一!上交AI智能體煉成「Kaggle特級大師」,登頂OpenAI MLE-bench

人工智能 新聞
剛剛,由上海交通大學人工智能學院Agents團隊提出的AI專家智能體,在OpenAI權威基準測試MLE-bench中擊敗了業界AI頂流微軟,奪冠登頂!

就在剛剛,一支來自中國高校的團隊成功刷榜了OpenAI發布的權威基準測試MLE-bench!

這一次,榮耀屬于上海交通大學人工智能學院Agents團隊。

他們提出的AI專家智能體「ML-Master」,憑借著29.3%的平均獎牌率,拿下第一!大幅領先微軟的RD-Agent(22.4%)和OpenAI展示的AIDE(16.9%)。

圖片

MLE-bench是衡量AI在機器學習工程(MLE)中表現的權威基準。它精選Kaggle上的75個相關競賽,構建多樣任務,測試AI在模型訓練、數據準備、實驗運行等機器學習工程中的能力

這不僅意味著,ML-Master已達到了Kaggle比賽「Grandmaster」(特級大師)級的水平。

而且還標志著,團隊在AI自主優化AI領域,邁出了關鍵一步。

那么,這支學術界的團隊,是如何擊敗業界頂尖團隊的呢?

AI開發AI的時代已來

ML-Master引領變革

隨著人工智能(AI)能力在多個任務中逐步逼近甚至超過人類水平,AI-for-AI(AI4AI)正成為重要發展方向——

利用AI技術自動化和優化AI系統自身的設計、訓練和部署。

AI4AI的終極形態是實現具備自主演進能力的AI系統,能夠獨立完成從問題建模、實驗設計到算法探索與驗證的全過程。

類似于AlphaGo向AlphaZero的演進路徑,該過程經歷了從人類輔助訓練到完全自主優化的階段,體現出AI系統在自我演進上的潛力和可行性。

為助力AI4AI發展,上海交通大學人工智能學院Agents團隊提出了面向機器學習(Machine Learning)的AI專家智能體「ML-Master」。

圖片

項目主頁:

https://sjtu-sai-agents.github.io/ML-Master

代碼地址:

https://github.com/sjtu-sai-agents/ML-Master

論文地址:

https://arxiv.org/pdf/2506.16499

MLE-bench主頁:

https://github.com/openai/MLE-bench

ML-Master通過創新的「探索-推理深度融合」范式,模擬人類專家的認知策略,整合廣泛探索與深度推理,顯著提升AI4AI性能。

在OpenAI MLE-bench基準測試中,ML-Master以29.3%的平均獎牌率居于榜首,超越微軟R&D-Agent(22.4%)和OpenAI展示的AIDE系統(16.9%)。

與先前方法相比,ML-Master在所有評價維度上均全面領先,尤其在中等難度任務上獎牌率提升2.2倍(20.2% vs 9.0%),計算效率翻倍(僅需12小時 vs 基線24小時)。

AI4AI的挑戰

探索與推理彼此割裂

盡管大型語言模型(LLM)和自主智能體在AI4AI領域取得顯著進展,但現有方法仍面臨核心挑戰:探索與推理的割裂限制了性能提升。

受人類專家開發AI的迭代與探索過程啟發,研究團隊觀察到,高效的AI開發需要探索與推理的有機結合。

其中,探索通過實驗和發現獲取新洞察,而推理則通過分析已有知識和歷史經驗進行深度思考。

兩者缺一不可——缺乏推理的探索會導致低效的試錯,而缺乏探索的推理則容易陷入停滯。

然而,現有AI4AI方法在整合探索與推理時存在以下問題:

  • ?探索效率低下:傳統方法常依賴單一路徑探索,易陷入局部最優,缺乏系統性導航解決方案空間的能力。
  • ?推理能力受限:現有推理模型難以有效提煉探索過程中的豐富經驗,導致決策缺乏歷史依據,產生幻覺或不可靠輸出。
  • ?深度融合困難:探索與推理往往各自為戰,缺乏有效整合機制,限制了整體性能的突破。

因此,如何有效整合探索與推理,讓AI系統能夠像人類專家一樣在解決復雜問題時既能廣泛探索又能深度思考,成為AI4AI領域的核心挑戰。

雙模塊協同

探索與推理深度融合

ML-Master通過統一的認知框架,模擬人類專家的開發流程,實現了探索與推理的有機協同。

其核心在于平衡多軌跡探索(Balanced Multi-trajectory Exploration)可控推理(Steerable Reasoning)兩大模塊,并通過自適應記憶機制(Adaptive Memory)實現兩大模塊的高效協同。

圖片

平衡多軌跡探索

Balanced Multi-trajectory Exploration

  • MCTS啟發的樹搜索:利用蒙特卡洛樹搜索,將研發AI過程建模為決策樹,每個節點代表一個AI方案的狀態。
  • 并行探索策略:同時探索多個解決方案分支,突破串行限制,多條路徑同時探索,大幅提升探索效率,提高解決方案多樣性。
  • 動態優先級調整:根據潛在價值分配計算資源,實時評估不同分支的潛力,將更多計算資源投入到更有希望的方向,避免無效探索。

圖片

可控推理

Steerable Reasoning

  • 自適應記憶機制:精準提取關鍵洞察,避免信息過載,智能篩選歷史探索中的有效信息,既保留寶貴經驗又避免冗余干擾,讓每次推理都建立在更相關的知識基礎上。
  • 情境化決策:基于歷史經驗進行有根據的分析,不再是「拍腦袋」決策,而是結合具體執行反饋和成功案例,讓AI的每個決定都有據可依。
  • 閉環學習系統:持續從執行反饋中學習優化,探索結果實時反哺推理過程,形成「探索→推理→優化→再探索」的良性循環,實現持續自我提升。

圖片

核心融合機制:自適應記憶機制

Adaptive Memory

ML-Master通過自適應記憶機制實現了兩大模塊的深度融合:

  • 智能記憶構建:探索模塊自動收集執行結果、代碼片段和性能指標,同時選擇性整合來自父節點和并行兄弟節點的關鍵信息,避免信息過載。
  • 嵌入推理決策:記憶信息直接嵌入到推理模型的「think」部分中,讓每次推理都基于具體的歷史執行反饋和多樣化探索的經驗進行精準決策。
  • 協同進化機制:推理結果指導后續探索方向,探索經驗持續豐富推理過程,真正實現了探索驅動推理進化,推理反哺探索路徑的良性循環。

MLE-bench實測

ML-Master位居榜首

ML-Master在OpenAI發布的MLE-bench基準上進行了全面評測。

MLE-bench是OpenAI于2024年10月推出的類人機器學習能力評測基準,旨在衡量大模型是否具備像人類AI工程師一樣獨立完成項目的能力。

該基準由75個來自Kaggle的真實機器學習任務組成,涵蓋從代碼編寫、模型調參到結果提交的完整流程,是目前最權威、最貼近實際工程場景的AI測試之一。其中不少任務取材自CVPR等國際頂級學術會議。

ML-Master僅在MLE-bench上探索學習900機器小時,即達成Kaggle比賽的Grandmaster級別,獲取獎牌數位居20余萬Kaggle的參賽者中的259位。

ML-Master在MLE-bench上實現了以下突破:

  • ?頂級性能:29.3%平均獎牌率,位居MLE-bench榜首
  • ?廣泛覆蓋:93.3%任務提交有效解,44.9%任務超半數人類參賽者
  • ?超高效率:僅用12小時完成測試,計算成本僅為基線方法一半

圖片

??全面領先,展現多維度優勢

ML-Master在MLE-bench的所有評價維度上均表現卓越。

采用「Bronze+」和「Silver+」指標(表示達到或超過銅牌/銀牌閾值),ML-Master展現全面實力:

  • ??有效提交率:93.3%,接近完美
  • ??超越中位率:44.9%,力超半數人類參賽者
  • ???榮獲獎牌率:17.3%/7.6%/4.4%的任務斬獲金/銀/銅牌,實現全方面領先

這樣的全面領先展現了ML-Master作為「六邊形戰士」的綜合實力。

圖片

圖片

卓越適應性,覆蓋各個難度等級

ML-Master在不同難度級別任務中展現出壓倒性優勢:

  • ??低難度任務48.5% vs 48.2%,穩定領先保持優勢
  • ??中難度任務20.2% vs 9.0%,2.2倍暴擊提升
  • ??高難度任務24.4% vs 18.7%,30%大幅超越

ML-Master在各難度級別的領先表現體現了其卓越的泛化能力,能夠在不同復雜度的挑戰中保持高水平的穩定性。

圖片

持續進化,潛力巨大

ML-Master展現出強大的自我演進能力,在多輪任務執行過程中持續提升其解決方案質量。

與初始版本相比,最終平均性能提升超過120%。

該系統通過動態結合探索與推理機制,實現了針對任務特性的逐步適應與優化,體現出在AI4AI方向上的穩步推進潛力。

圖片

解密ML-Master

智能探索樹生成全過程

通過可視化展示ML-Master的解決方案樹生成過程,可直觀看到:

  • 多分支并行展開:ML-Master同時探索多個解決方案路徑
  • 動態優化調整:ML-Master根據執行反饋實時調整策略
  • 智能決策收斂:ML-Master逐步聚焦更優解決方案

這一過程展示了在性能優化中,探索與推理深度協同的關鍵作用。

展望未來

AI4AI新征程

ML-Master的突破驗證了AI4AI的巨大潛力,其探索與推理融合的創新框架為AI自主開發和自我演進提供了新的方向。

在OpenAI MLE-bench上的領先表現為AI4AI技術樹立了新的標桿。

當前,AI4AI處于快速發展的初期階段,隨著技術的不斷進步,AI的智能化、效率和應用前景將持續拓展。

圖片

后續,ML-Master也會集成在即將發布的AI輔助學習智能體和AI輔助研究智能體中。

除了推出面向機器學習的專家智能體ML-Master,上海交通大學人工智能學院Agents團隊后續將依托上海交通大學AI-X研究院,陸續推出覆蓋各領域的專家智能體,構建有影響力的智能體生態體系,為人工智能技術的創新發展與廣泛應用注入新動能。

上海交通大學人工智能學院簡介

上海交通大學人工智能學院是上海交通大學順應發展趨勢、對接國家戰略、服務城市先導產業而成立的實體學院,是舉全校之力組建的特區學院。

學院通過高層次定位和全新體制機制,致力于培養中國自主的人工智能卓越人才,為國家高水平科技自立自強提供有力支撐。學院基礎雄厚、生源拔尖、設施完備、條件優越,為上海交通大學百年徐匯校區注入了全新的活力。

學院秉承「用人工智能變革世界,用人才變革人工智能」的愿景,以「引育頂尖人才、產出頂尖成果、孵化頂尖企業」為目標,致力于構建全鏈條創新體系,打造中國人工智能領域的「黃埔軍校」,引領中國人工智能發展。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-10-24 17:46:25

2024-10-11 13:50:00

AI智能體

2025-05-16 10:15:06

2021-01-07 14:56:55

AI 數據人工智能

2025-09-24 09:02:42

2025-10-28 09:22:18

2021-03-19 10:45:09

人工智能

2009-05-30 08:39:20

2025-06-23 08:56:00

2025-07-23 09:08:00

2025-05-26 09:21:00

2025-06-30 14:01:03

LLM模型AI

2025-11-04 08:42:27

2024-05-24 09:52:09

2023-08-17 13:35:44

OpenAI收購

2024-12-02 10:15:00

LLM模型

2025-09-16 09:00:00

點贊
收藏

51CTO技術棧公眾號

欧美成人三级视频| www.精品在线| 国产在线视频网址| 蜜桃视频在线观看一区二区| 久久精品视频在线播放| 日韩大尺度视频| 不卡福利视频| 综合久久久久久久| 久久影视中文粉嫩av| 中文字幕第三页| 亚洲一级毛片| 亚洲欧美激情精品一区二区| 天天做天天干天天操| 国产精品蜜臀| 国产精品免费视频一区| 国产视频99| 亚洲图片中文字幕| 国产欧美一区二区色老头| 最近2019中文字幕mv免费看 | 99热久久这里只有精品| 男同在线观看| 成人午夜视频免费看| 国产精品久久久久77777| 久久精品性爱视频| 国产精品久久久久久| 亚洲免费精彩视频| 国产国语老龄妇女a片| 狠狠久久伊人中文字幕| 欧美日韩视频在线| 欧美性潮喷xxxxx免费视频看| av资源网在线观看| 91婷婷韩国欧美一区二区| 亚洲在线免费看| 中文字幕激情视频| 久久精品男女| 992tv成人免费视频| 日韩激情综合网| 日韩一区二区三区免费播放| 日韩精品久久久久久福利| 麻豆av免费看| 天堂va欧美ⅴa亚洲va一国产| 欧美在线一区二区| 无码日韩人妻精品久久蜜桃| 乱馆动漫1~6集在线观看| 亚洲一线二线三线久久久| 久久av秘一区二区三区| 精品51国产黑色丝袜高跟鞋| 欧美激情在线看| 欧美尤物一区| 毛片网站在线观看| 91丨porny丨首页| 精品久久sese| 手机看片福利在线观看| 91一区二区三区在线观看| 国产视频在线观看一区| 人妻91麻豆一区二区三区| 国产91富婆露脸刺激对白| 91精品国产一区二区三区动漫 | 久久免费公开视频| 欧美aa国产视频| 久久艳片www.17c.com | 韩国福利在线| 久久久久久9999| 日韩女优中文字幕| av男人的天堂在线| 中文字幕中文字幕在线一区| 亚洲日本精品| 福利视频在线| 亚洲午夜影视影院在线观看| 免费人成自慰网站| 日本蜜桃在线观看视频| 色一区在线观看| 冲田杏梨av在线| 久久亚洲精品人成综合网| 制服丝袜亚洲色图| 国产调教打屁股xxxx网站| 成人春色在线观看免费网站| 亚洲理论在线a中文字幕| 波多野吉衣中文字幕| 成人短片线上看| 欧美成人黑人xx视频免费观看| 青青操国产视频| 亚洲福利专区| 日韩美女主播视频| 亚洲综合免费视频| 成人久久久精品乱码一区二区三区| 国产一区二区久久久| 韩国中文字幕2020精品| 亚洲精品高清在线观看| 尤物av无码色av无码| 97久久香蕉国产线看观看| 欧美男同性恋视频网站| 亚洲国产精品无码久久久久高潮| 欧美精品乱码| 欧美国产在线电影| 无码任你躁久久久久久久| 激情综合亚洲精品| 蜜桃av噜噜一区二区三区| 亚洲欧美视频一区二区| 亚洲mv在线观看| wwwwwxxxx日本| 久久人人爽人人爽人人片av不| 亚洲天堂av图片| 麻豆亚洲av成人无码久久精品| 午夜一区在线| 91传媒视频免费| 国产精品毛片一区二区三区四区| 亚洲男同性视频| 玩弄japan白嫩少妇hd| 精品久久免费| 在线播放精品一区二区三区 | 亚洲在线第一页| 国产女主播在线写真| 夜夜嗨av一区二区三区| 黄色三级视频片| 另类ts人妖一区二区三区| 日韩在线观看免费全| 99久久精品国产亚洲| 国产成人综合网| 视频一区在线免费观看| 中老年在线免费视频| 日韩免费高清av| 在线观看免费黄色网址| 欧美亚洲一区二区三区| 99超碰麻豆| 国产精品久久麻豆| 欧美亚洲自拍偷拍| 精品无人区无码乱码毛片国产| 国产一区美女| 91在线中文字幕| 午夜视频在线观看网站| 色婷婷精品大在线视频| 亚洲中文字幕无码av| 国产精品激情电影| 91久久精品国产91性色| 丝袜美腿美女被狂躁在线观看| 色偷偷一区二区三区| 免费中文字幕av| 亚洲精品男同| 国产精品sss| 成人性生交大片免费看网站| 日韩视频免费观看高清在线视频| 欧美一级特黄高清视频| 久久国产精品99久久人人澡| 日本一区视频在线| 欧美精品高清| 国产亚洲精品久久久久久牛牛| 九一国产在线观看| 99久久久国产精品免费蜜臀| 青娱乐自拍偷拍| 欧美日韩一区二区三区在线电影| 国内精品久久久久久久| 男人天堂综合网| 亚洲成人高清在线| 中文字幕免费高清视频| 一区二区三区国产在线| 精品欧美一区二区三区久久久| 蜜桃av在线| 亚洲美女黄色片| japanese国产在线观看| 国产精品久久久久久久久搜平片 | 少妇高潮喷水在线观看| 国产精品男女| 欧美做受高潮电影o| 欧美白人做受xxxx视频| 欧美午夜电影一区| 影音先锋男人资源在线观看| 国产一区二区三区高清播放| 人妻激情另类乱人伦人妻| 88久久精品| 91av视频在线观看| 91xxx在线观看| 欧美高清你懂得| 久久99久久98精品免观看软件| 岛国一区二区在线观看| 亚洲乱码中文字幕久久孕妇黑人| 国产日韩欧美一区二区三区| 国产免费一区二区三区在线能观看| 日本免费在线视频| 精品日韩在线一区| 久久久久久久极品| 国产亚洲1区2区3区| 视频免费1区二区三区| 韩国亚洲精品| 欧美尤物一区| 视频一区中文字幕精品| 国产成人涩涩涩视频在线观看 | 亚洲国产精品成人久久蜜臀| 欧美日韩国产精品专区 | 三级性生活视频| 精品成人久久| 天天综合色天天综合色hd| 亚洲精品一区在线| 日韩av电影免费观看高清| 国产丝袜在线| 亚洲人成自拍网站| 99在线小视频| 91搞黄在线观看| 久久久久久久久久一区二区三区| 久久综合九色综合97婷婷| 免费精品99久久国产综合精品应用| 国内精品久久久久久久97牛牛| 日本精品一区二区三区视频| 精品午夜视频| 国产精品美女久久| 免费h在线看| 欧美成人午夜视频| aaa在线免费观看| 亚洲精品按摩视频| 国产成人三级在线播放| 欧洲另类一二三四区| 可以免费看的av毛片| 亚洲乱码精品一二三四区日韩在线| 9.1成人看片免费版| 国产福利一区在线| 天堂中文av在线| 久久综合九色| 免费成人在线视频网站| 欧美深夜福利| 精品国产无码在线| 成人在线免费视频观看| 蜜桃传媒视频第一区入口在线看| 成人福利免费在线观看| 亚洲一区中文字幕在线观看| 91久久久久久白丝白浆欲热蜜臀| 欧美伊久线香蕉线新在线| 欧美人与牲禽动交com| 久久久精品国产网站| 98在线视频| 一本色道久久88综合日韩精品| 无码国产精品一区二区免费16| 日韩亚洲欧美成人一区| 国产精品欧美综合亚洲| 欧美日韩成人一区二区| 亚洲午夜在线播放| 在线这里只有精品| 国产精品久久久久久久久久精爆| 亚洲成人av电影| 国产一级片免费| 亚洲一级二级三级在线免费观看| 久久久久亚洲av片无码| 亚洲精品成人精品456| 免费国产羞羞网站美图| 中文字幕佐山爱一区二区免费| 男女全黄做爰文章| 中文字幕在线一区| 四虎永久免费地址| 1000精品久久久久久久久| 亚洲av无一区二区三区| 中文字幕欧美一| 91插插插插插插| 亚洲欧美另类久久久精品2019| 国产又粗又长又黄的视频| 久久综合色播五月| 成人性生交大免费看| 久久综合九色综合欧美98| 日本激情小视频| 国产欧美中文在线| 99久久精品久久亚洲精品| 亚洲欧美在线观看| 国产又黄又爽又无遮挡| 亚洲综合丁香婷婷六月香| 免费人成视频在线| 亚洲成人av免费| www.日本精品| 在线免费精品视频| 91精品人妻一区二区三区果冻| 在线播放中文字幕一区| 亚洲国产精品久久久久久久| 日韩av在线精品| 国产视频福利在线| 久久黄色av网站| 日本天码aⅴ片在线电影网站| 久久久久久久久久久91| 黄色漫画在线免费看| 国产91免费观看| 巨大黑人极品videos精品| 亚洲自拍小视频免费观看| 91欧美极品| 欧美日韩成人一区二区三区| 日本不卡免费一区| 国产专区在线视频| 99re国产精品| 久久久精品高清| 成人av片在线观看| 亚洲自拍偷拍图| 一区二区三区**美女毛片| 久久精品视频1| 欧美一区二区网站| 性xxxx视频播放免费| 中文字幕亚洲图片| 日韩精品卡一| 国产99视频精品免视看7| 婷婷久久综合九色综合99蜜桃| 99视频在线播放| 国内精品久久久久久99蜜桃| 99热一区二区三区| 先锋a资源在线看亚洲| 老司机午夜性大片| 97超碰欧美中文字幕| 99久久婷婷国产综合| 色呦呦日韩精品| 狠狠人妻久久久久久综合麻豆 | 日本欧美电影在线观看| 热门国产精品亚洲第一区在线| 国产精品久久久久久久久久久久久久久 | 国产午夜精品在线观看| 妺妺窝人体色www在线下载| 在线观看亚洲一区| 天堂网在线资源| 久久国产精品免费视频| 99久久er| 欧美二区三区在线| 亚洲国产欧美国产综合一区| www.国产视频.com| 国产欧美一区二区精品秋霞影院| 久久久91视频| 欧美日韩电影在线播放| 欧美视频综合| 久久免费观看视频| 国产精品igao视频网网址不卡日韩 | 欧美激情免费视频| 91精品麻豆| 午夜免费电影一区在线观看| 国产精品久久久久久久免费软件| 超碰91在线播放| 国产精品久久久久久久久久久免费看 | 欧美高清视频不卡网| 国产精品ⅴa有声小说| 4k岛国日韩精品**专区| 成人h动漫精品一区二区器材| 干日本少妇视频| 另类综合日韩欧美亚洲| 国产综合精品在线| 色www精品视频在线观看| 午夜在线视频观看| 97色在线观看| 国产精品jk白丝蜜臀av小说| 日本一级黄视频| 国产成人精品免费一区二区| 国产成人免费在线观看视频| 欧美在线不卡一区| 福利小视频在线观看| 国产成人91久久精品| 在线看成人短视频| 情侣黄网站免费看| 26uuu精品一区二区| 黑人精品无码一区二区三区AV| 精品成a人在线观看| 日本大胆在线观看| 操人视频欧美| 国产一区日韩一区| 在线精品视频播放| 性久久久久久久久久久久| 性感美女一级片| 日本免费久久高清视频| 国产精品美女久久久久久不卡| 蜜臀av午夜一区二区三区| 国产午夜亚洲精品不卡| 亚洲一区二区人妻| 大胆人体色综合| 成人知道污网站| 日本www在线播放| 国产欧美日韩不卡免费| 亚洲图片中文字幕| 欧美激情国产高清| 日韩中文av| 岛国毛片在线播放| 一区二区三区在线视频观看| 欧美一区二区在线观看视频| 欧美在线观看日本一区| 色97色成人| 亚洲v在线观看| 色综合天天狠狠| 麻豆av在线导航| 国产日韩欧美综合精品| 久久精品综合| 欧洲第一无人区观看| 亚洲精品久久久久久久久| 日韩天堂在线| 18视频在线观看娇喘| 91麻豆免费视频| 亚洲天堂aaa| 国产69精品久久久久99| 欧美日韩老妇| 精品1卡二卡三卡四卡老狼| 色呦呦国产精品| 在线中文字幕-区二区三区四区| 精品国产福利| 久久国产精品99久久人人澡| 国产成人无码精品亚洲| www日韩欧美| 午夜精品福利影院| 欧美一级视频在线| 色菇凉天天综合网| 日本在线视频中文有码| 婷婷久久五月天| 91影院在线观看| 国产成人精品亚洲精品色欲| 国产成人拍精品视频午夜网站|