精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

六小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源

人工智能 新聞
AWorld的復現實驗,拋出了一個激進結論:當前多智能體系統的數學能力,已超越99%人類選手(雖然測試集有限)。

2025年的IMO,好戲不斷。

7月19日,全世界頂尖大模型在2025年的IMO賽場上幾乎全軍覆沒。時隔1天,OpenAI、DeepMind等頂尖實驗室就在IMO 2025賽場斬獲5/6題,震驚數學圈。

有意思的是,7月23日——兩位來自Harvard和UCLA的學生,用Gemini 2.5 Pro+自研多輪驗證框架,在arXiv扔下一篇論文,首次系統性拆解了「解題+驗證」的IMO解題方法論。48小時后,他們開源了完整代碼。

來自螞蟻的多智能體框架AWorld項目團隊也加入了這場卷王之爭:

7月24日啟動,僅僅6小時,采用AWorld智能體框架,復現并開源了DeepMind的5/6道解題結果,并直接給出了可一鍵運行的多智能體IMO系統。

圖片

果然,大家好奇的點還是跟傳統長思維鏈LangChain等框架有什么不一樣。作者給出的回復,核心就是一個詞,自我進化。即,多智能體能夠超越單個智能體,能夠用于復雜問題協同,以及強化學習的獎勵模型等,最終實現AGI。

圖片

IMO 2025,把復雜推理模型推向了一種新的高度(盡管還處在實驗室階段,但DeepMind透露會對外)。

不過,能解IMO級別數學題的超級單智能體實屬稀有。AWorld的實驗也首次用工程系統證明:多智能體協同的智力上限,有可能超越其依賴的單個模型。

單模的「不可能三角」:為什么必須上多智能體?

單個裸模型,包括Gemini 2.5 pro,幾乎無法一次推理答對IMO賽題:level 1的第1,第4題在小概率下一次推理能答對(背景:IMO包括六道競賽題目,分為兩天進行,參賽者每天需完成3道題目,因此第一題難度相對較低),但是其余4題,一定需要多智能體協同才能完成,這揭露了一個殘酷現實:IMO級問題=單模的不可達之地。

AWorld的實測數據更扎心:

  • 單模嘗試第3題:連續10次推理全部失敗。
  • 多智能體協同:通過「解題者+驗證者」雙角色對話,第3題在第5輪迭代就生成了完整的解答。
  • “多智能體協同的智力上限,有可能超越其依賴的單個模型”的本質是什么呢?

為此,AWorld團隊嘗試提出了幾種解釋視角:

構建最優輸入:從“好問題”到“完美上下文”

多智能體協同的核心優勢在于它能動態地構造出一個遠超初始提問的、高質量的輸入信息。

基本原理(y = f(x)):我們可以將大模型視為一個固定的函數f,其輸出y的質量完全取決于輸入x的質量。

初始輸入的局限:對于如IMO競賽題這類復雜任務,最初的提問(x_0)信息稀疏,缺乏足夠的引導“腳手架”。這使得模型難以在其龐大的能力空間中,僅憑一次嘗試就找到通往正確答案的路徑。

協同的價值:多智能體系統并非提升模型f本身,而是設計了一個“智能流程”:通過生成和整合中間思想(如解題草稿、批判性反饋、改進建議),共同構建出一個信息極其豐富的“超級上下文”。這最終解鎖了模型早已具備、但通過簡單提問難以觸達的深層能力。

實現“元認知”:為系統外掛一個“反思模塊”

元認知,即“關于思考的思考”,是高級智能的核心標志。它包括自我監控、自我評估和自我修正的能力。單個LLM本身不具備真正的元認知,但可以通過角色定義(Role-Play)來執行元認知功能。

它不解決問題,而是評估解決方案的合理性、尋找邏輯漏洞、提出改進建議,從而避免了單模型容易陷入的思維定式和錯誤。

通過交互降低“信息熵”(Reducing Information Entropy)

一個復雜的IMO問題,其解空間的不確定性(信息熵)非常高。每一次有效的多智能體交互都在為系統提供新的約束,從而降低這種不確定性。

例如,審閱者指出“你的第一步假設A是無證據的”,這個反饋極大地減少了后續需要探索的可能性,使計算資源能更集中地探索更有希望的路徑,從而顯著提升了求解的效率和準確性。

綜上,多智能體協同的優越性源于其智能化的流程,而非個體能力的提升。該流程通過協作分解與迭代修正,能有效解鎖基礎模型的深層潛力,最終涌現出超越個體能力之和的系統級智能。

AWorld的「六小時魔法」:把論文變成可運行系統

面對地獄級難度的IMO,相比模型頂流拿下成績秀肌肉,能夠復現的解題過程可能更加有利于技術的演進,所以我們更希望看到有一些開源的工作。AWorld的復現方式,提供了一些思路:

  • 核心結構:采用了”做題家”和”驗證者”的雙智能體對話機制,兩者均依賴于相同的基礎模型(如Gemini 2.5 pro)來構建。其中,做題家負責生成數學解答,驗證者扮演IMO考官角色進行嚴格驗證,兩者通過多輪對話迭代優化解答質量。
  • 核心要素:設計了完整的對話循環機制,包括自動檢測終止條件、最終答案、記錄完整對話歷史,以及基于驗證者反饋的解答重構策略,有效挖掘了基礎模型的潛在能力。
  • 身份設定與上下文工程:做題家采用嚴格的數學證明格式要求,驗證者則具備詳細的錯誤分類體系和標準化的驗證流程,這種專業化的角色分工顯著提升了問題解決的質量和準確性。

目前,AWorld在著名的GAIA Test榜單(即通過增加工具支持、更高效的提示、接入搜索等手段獲得增強能力的新一代大語言模型的基準)上達到了77.08分,在所有署名的智能體中排名第三,在所有開源工作中排名第一。

為多智能體協同而生

作為一個為構建生產級、可擴展多智能體系統而設計的下一代框架,AWorld核心優勢是采用事件驅動的群體智能架構,徹底超越了傳統LangChain等框架的局限。

智能體之間通過事件總線進行異步通信與協作,而非簡單的順序調用。這使得復雜的實時交互成為可能。

強大的工具與模型生態

  • 模型即插即用:通過統一接口,可在30秒內輕松切換OpenAI、Gemini、Claude等任意大語言模型,方便對比測試與成本優化。
  • MCP協議支持:將MCP作為核心能力,允許智能體將其他模型或智能體作為工具調用,極大拓展了能力邊界。所有工具均在安全沙箱中執行,保障企業級安全。

生產級的穩健性與可觀測性

  • 全鏈路可觀測性:提供覆蓋智能體決策、工具調用全過程的追蹤、指標與日志,讓復雜的系統行為清晰透明,易于調試。
  • 精密的上下文與內存管理:支持長短期記憶和復雜編排,確保智能體在執行長周期任務時能保持狀態、不“失憶”。

支持模型持續進化的學習閉環

  • 開放訓練接口:AWorld不僅是執行框架,更是進化平臺。它提供開放接口,可與主流訓練框架結合,利用智能體在真實任務中產生的交互數據對底層模型進行訓練。
  • 實現智能體自我進化:通過“數據-訓練-部署”的閉環,讓智能體在特定領域變得越來越“聰明”,構建真正的專家智能體系統。

如何體驗「IMO級多智能體」?

3步運行(詳見README.md):

  • 一鍵準備環境

進入項目目錄AWorld/examples/imo,然后直接運行腳本./setup_env.sh。自動創建獨立的Conda環境并安裝所有必需的依賴。

  • 配置API密鑰

復制模板文件cp.env_template.env,然后編輯新生成的.env文件,填入你自己的大模型API密鑰(LLM_API_KEY)、模型名稱(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。

  • 激活環境并運行

首先激活環境,然后執行主程序來解決指定的數學問題,例如運行python run.py —q imo4來解決IMO2025第4題。

寫在最后:IMO只是開始

AWorld的復現實驗,拋出了一個激進結論:當前多智能體系統的數學能力,已超越99%人類選手(雖然測試集有限)。

當單模在IMO折戟時,多智能體系統已經證明:AI的智能上限,可能不只在于模型有多大,更在于我們如何組織它們工作。

多智能體協作,可能是一條通往更高群體智能的有效路徑。更震撼的是未來潛力:這套系統正在作為reward model訓練下一代模型——用多智能體生成的「高階推理軌跡」作為訓練數據,相當于讓模型從IMO金牌選手的草稿紙里學習。

下一站,AWorld團隊透露正在測試「多智能體+形式化驗證」組合,目標直指Lean4形式化證明。

IMO 2026,可能將是人類最后一次有機會戰勝AI的數學競賽。

Gemini 2.5 Pro+:論文地址:https://arxiv.org/pdf/2507.15855

AWorld:GitHub:https://github.com/inclusionAI/AWorld

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-10-12 11:47:35

Facebook宕機WhatsApp

2012-12-19 11:10:54

2022-02-18 09:53:17

AI芯片設計

2019-05-07 14:28:34

工具性能數據

2023-01-26 00:15:05

AI百萬瀏覽量

2023-07-17 10:21:25

TC39JavaScript

2017-02-22 18:15:31

AI谷歌

2019-11-15 10:11:03

人工智能埃博拉技術

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2022-10-25 14:01:46

AI游戲

2024-09-13 09:18:49

2012-11-19 10:50:39

思杰CloudStack開源

2015-11-12 09:27:13

C++最新進展

2012-11-19 10:37:57

思杰OpenStack

2013-02-27 16:28:27

思科軟硬件一體化Intucell

2023-08-15 14:35:48

2020-07-02 16:00:53

?Flutter桌面應用代碼

2021-09-14 10:03:35

RustLinux開發工作

2022-03-02 09:53:51

微軟FlutterEngine PR
點贊
收藏

51CTO技術棧公眾號

日韩精品电影在线观看| 亚洲第一论坛sis| 亚洲激情六月丁香| 久久精品国产精品国产精品污| 久久黄色精品视频| 天天射天天综合网| 亚洲国产精品一区二区久| 热久久精品免费视频| 新版中文在线官网| 久久久久99精品一区| 成人在线观看网址| 亚洲熟女乱色一区二区三区久久久| 欧美体内she精视频在线观看| 国产视频久久久久| aaaaa黄色片| 91av亚洲| 欧美日韩国产黄| 成人性做爰片免费视频| 狠狠色伊人亚洲综合网站l| 国产精品99久久久久久似苏梦涵| 日本最新高清不卡中文字幕| 亚洲欧美一区二区三区四区五区| 精品国产一区二区三区| 亚洲第一区中文字幕| 国产又黄又猛的视频| xxxxxx欧美| 亚洲高清在线视频| 色呦呦网站入口| 91欧美在线视频| 久久一二三国产| 国产精品v欧美精品∨日韩| 91成年人视频| 喷水一区二区三区| 青青草99啪国产免费| 国产网友自拍视频| 影音先锋成人在线电影| 中文字幕在线精品| 成人片黄网站色大片免费毛片| 久久香蕉网站| 精品国一区二区三区| 麻豆传媒在线看| 96sao精品免费视频观看| 在线免费观看成人短视频| av免费播放网址| 美女av在线免费看| 精品久久香蕉国产线看观看gif| 国产精品视频一二三四区| 菠萝菠萝蜜在线视频免费观看| 亚洲欧洲国产日本综合| 亚洲视频导航| 亚洲成人三级| 1区2区3区国产精品| 中文字幕一区综合| 久做在线视频免费观看| 成人免费在线视频观看| 波多野结衣激情| 黄色小网站在线观看| 亚洲色大成网站www久久九九| 亚洲高清视频一区| 三区四区在线视频| 国产精品久久久久影院| 五月天色婷婷综合| 成人ww免费完整版在线观看| 亚洲三级在线免费| 国产高清不卡无码视频| 国产99re66在线视频| 亚洲高清免费观看| 国产成人久久婷婷精品流白浆| 欧美少妇精品| 欧美亚洲国产bt| 波多野结衣免费观看| swag国产精品一区二区| 亚洲国产婷婷香蕉久久久久久| 老鸭窝一区二区| 日韩理论片av| 欧美插天视频在线播放| 国产手机在线视频| 日韩成人一级大片| 91精品在线看| 亚洲aⅴ乱码精品成人区| 久久蜜桃一区二区| 在线观看一区欧美| 丁香花电影在线观看完整版| 欧美体内谢she精2性欧美| 特级丰满少妇一级| 91在线一区| 亚洲日本中文字幕免费在线不卡| 国产精品1区2区3区4区| 黄页网站一区| 国产mv免费观看入口亚洲| 97人妻精品一区二区三区软件 | 97超碰青青草| 成人免费在线观看视频| 精品国产成人系列| 97伦伦午夜电影理伦片| 最新国产精品久久久| 97成人精品视频在线观看| 日韩欧美一级大片| www.欧美日韩| 自拍偷拍一区二区三区| 美女高潮视频在线看| 51精品秘密在线观看| 风间由美一二三区av片| 亚洲无中文字幕| 秋霞成人午夜鲁丝一区二区三区| 国产乱码精品一区二三区蜜臂 | 九九精品视频在线看| 国产乱人伦精品一区二区| 在线观看免费网站黄| 亚洲成人动漫一区| 8x8x成人免费视频| 真实原创一区二区影院| 欧美精品一区在线播放| 美女黄页在线观看| 97久久超碰精品国产| 吴梦梦av在线| 成人做爰视频www| 亚洲国产精品高清久久久| 唐朝av高清盛宴| 日韩不卡一二三区| 蜜桃传媒视频麻豆第一区免费观看| 好了av在线| 欧美色综合久久| 偷拍夫妻性生活| 国产欧美短视频| 不卡视频一区| 久操视频在线| 欧美精品日韩精品| 国产激情av在线| 久久一区二区三区四区五区| 国产一区二区三区av在线| 男女视频在线| 日韩午夜精品电影| 51精品免费网站| 精品一区二区影视| 亚洲制服中文| 亚洲欧洲日韩精品在线| www.日韩.com| 91资源在线视频| 亚洲人成精品久久久久久| 日韩av一卡二卡三卡| 久久在线电影| 国产欧美va欧美va香蕉在| 爱爱爱免费视频在线观看| 91国内精品野花午夜精品| 天天躁日日躁aaaxxⅹ| 香蕉久久a毛片| 欧美在线一二三区| 成人日韩精品| 中文字幕一区日韩电影| 中文字幕一区二区人妻| 国产精品欧美综合在线| 高清一区在线观看| 天天久久综合| 不卡日韩av| 男人久久天堂| 在线色欧美三级视频| 自拍偷拍第八页| 亚洲品质自拍视频网站| 操人视频免费看| 亚洲视频精品| 欧美精品二区三区四区免费看视频| 手机av在线| 亚洲欧美中文日韩在线| 日本三级一区二区三区| 国产精品国产三级国产aⅴ中文| 人人爽人人爽av| 国内久久视频| 欧美精品尤物在线| jizz亚洲女人高潮大叫| 久久成人精品电影| 色婷婷av一区二区三区之e本道| 日韩欧美国产网站| 日本午夜精品视频| 国产精品一区二区久激情瑜伽| 国产曰肥老太婆无遮挡| 久久成人av| 亚洲a成v人在线观看| 欧美aaaaa性bbbbb小妇| 色婷婷综合成人| 男人天堂av网| 精品视频在线免费| 国产一级一片免费播放| 91美女精品福利| 一二三级黄色片| 日韩天堂av| 日本特级黄色大片| 丝袜美腿综合| 91在线观看欧美日韩| 中文在线资源| 欧美精品制服第一页| 韩国三级av在线免费观看| 欧美精品123区| 丰满少妇乱子伦精品看片| 国产精品国产三级国产三级人妇 | 中文文精品字幕一区二区| 少妇性l交大片7724com| 久久男女视频| 性高湖久久久久久久久aaaaa| 国产成人黄色| 国产精品一区而去| 久久亚洲精品人成综合网| 国内揄拍国内精品| 色综合久久久久综合一本到桃花网| 精品久久国产字幕高潮| 91国内精品视频| 欧美日韩亚洲视频| 精品99在线观看| 国产精品久久久久久久久免费樱桃 | 精品久久久久久久久久久久久久久久久 | 91亚洲欧美| 亚洲黄色www| 国产视频在线观看免费| 在线一区二区观看| 国偷自拍第113页| 亚洲高清一区二区三区| 91嫩草丨国产丨精品| 国产亲近乱来精品视频 | av网站免费大全| 欧美日韩国产高清一区二区三区| 久久久久亚洲av成人毛片韩| 亚洲一区二区三区免费视频| 久久精品黄色片| 亚洲日本在线看| 91视频最新网址| 国产精品色婷婷久久58| 91久久免费视频| 91小视频在线免费看| 久久人妻少妇嫩草av无码专区| 国产在线一区观看| 亚洲精品永久视频| 久久99国产精品久久99| 中文字幕永久视频| 日韩成人免费电影| 亚洲色图 在线视频| 久久综合影视| 日韩免费高清在线| 日韩精品91亚洲二区在线观看| 能在线观看的av| 羞羞答答国产精品www一本| 波多野结衣乳巨码无在线| 亚洲激情婷婷| 97av视频在线观看| 久久午夜激情| 国产嫩草在线观看| 日本亚洲天堂网| 亚洲免费黄色网| 久久成人麻豆午夜电影| 91精产国品一二三产区别沈先生| 韩国一区二区三区| 国产成人精品一区二区在线小狼| 国产精品自拍三区| 黄色国产在线视频| 91麻豆swag| аⅴ天堂中文在线网| 日韩一区欧美小说| 青娱乐av在线| 亚洲第一综合色| 黄瓜视频在线免费观看| 欧美这里有精品| 999免费视频| 精品99999| 你懂的视频在线| 中文字幕亚洲情99在线| bt在线麻豆视频| 久久久噜噜噜久久| 日韩电影免费观| 国产精品亚洲аv天堂网| www一区二区三区| 高清av免费一区中文字幕| 婷婷综合电影| 亚洲v欧美v另类v综合v日韩v| 97视频热人人精品免费| 激情成人开心网| 亚洲视频大全| 国产3p在线播放| 99热在这里有精品免费| 免费在线观看a视频| 一区二区三区日韩欧美精品 | 欧美日韩精品一区视频| 精品国产亚洲AV| 亚洲欧美在线免费| а√天堂资源地址在线下载| 538国产精品一区二区免费视频| 本网站久久精品| 国模一区二区三区私拍视频| 日韩精品免费一区二区三区| 久久艹国产精品| 麻豆传媒一区二区三区| 乱码一区二区三区| 欧美韩国日本不卡| 日韩精品无码一区二区| 欧美日产在线观看| 天天操天天干天天| xvideos国产精品| 亚洲国产福利| 成人蜜桃视频| 日韩欧美国产精品综合嫩v| 日本香蕉视频在线观看| 玖玖国产精品视频| 亚洲成人福利视频| 国产精品久久三区| 国产原创视频在线| 日韩欧美综合在线| 97超碰国产一区二区三区| 91av视频在线| 欧美一区在线观看视频| 亚洲精品国产精品久久| 国产农村妇女毛片精品久久莱园子| 一区二区三区国产好的精华液| 国产午夜精品一区二区| 中国一级特黄毛片| 欧美电视剧在线看免费| 免费观看在线黄色网| 日本亚洲欧美成人| 日韩欧美四区| 又大又硬又爽免费视频| 国产真实乱对白精彩久久| www.涩涩爱| 色94色欧美sute亚洲线路二| 午夜国产在线观看| 亚洲**2019国产| 1204国产成人精品视频| 99re99热| 国产一区欧美二区| 日本黄区免费视频观看| 欧美吻胸吃奶大尺度电影 | 国产精品一区二区人人爽| 中日韩美女免费视频网址在线观看| 日本在线高清| 精品一区二区三区视频日产| 在线精品亚洲| 美女黄色一级视频| 五月婷婷久久综合| 日本免费不卡视频| 久久久噜噜噜久久中文字免| eeuss国产一区二区三区四区| 9色视频在线观看| 国产黄人亚洲片| 国产一级视频在线观看| 亚洲缚视频在线观看| 成人国产电影在线观看| 久久久久久久有限公司| 久久不射网站| 成人免费毛片xxx| 色婷婷国产精品综合在线观看| 黑人精品一区二区三区| 久久久久久久久亚洲| 99a精品视频在线观看| 国产片侵犯亲女视频播放| 国产91色综合久久免费分享| 九九九在线视频| 亚洲第一网站免费视频| sm捆绑调教国产免费网站在线观看 | 蜜桃导航-精品导航| 免播放器亚洲| 人妻精品久久久久中文| 精品视频一区二区三区免费| 午夜免费福利在线观看| 成人在线播放av| 欧美精选一区| 国产精品福利导航| 色香色香欲天天天影视综合网| 福利在线午夜| 成人女保姆的销魂服务| 午夜欧美精品久久久久久久| 成人在线视频免费播放| 色综合天天综合给合国产| 二区在线观看| 亚洲一区二区免费| 日韩香蕉视频| 五月婷婷六月香| 精品成人a区在线观看| 手机看片久久| 国产日韩欧美大片| jlzzjlzz亚洲日本少妇| 中文字幕无线码一区| 色综合久综合久久综合久鬼88| 日本国产精品| 国产成人在线综合| 五月激情丁香一区二区三区| 狠狠狠综合7777久夜色撩人| 亚洲一区二区三区成人在线视频精品| 欧美性色综合| 国产1区2区在线观看| 日韩欧美国产一二三区| 伊人色综合一区二区三区影院视频 | 亚洲二区视频在线| 高清毛片在线看| 国产免费一区二区| 美女视频一区二区| 国产无码精品在线播放| 国产一区二区三区在线视频| 亚洲精品国产九九九| 91看片就是不一样| 亚洲一卡二卡三卡四卡无卡久久| 高h视频在线| 精品免费视频123区| 国产综合成人久久大片91| 久久久久久少妇|