精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開啟 AI 自主進化時代,普林斯頓 Alita 顛覆傳統通用智能體,GAIA 榜單引來終章

人工智能 新聞
近期,普林斯頓大學 AI Lab 推出了?Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。

智能體技術日益發展,但現有的許多通用智能體仍然高度依賴于人工預定義好的工具庫和工作流,這極大限制了其創造力、可擴展性與泛化能力。

近期,普林斯頓大學 AI Lab 推出了 Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。

圖片

Alita 目前已在 GAIA validation 基準測試中取得 75.15% pass@1 和 87.27% pass@3 的成績,一舉超越 OpenAI Deep Research 和 Manus 等知名智能體,成為通用智能體新標桿。Alita 在 GAIA test 上也達到了 72.43% pass@1 的成績。

極簡架構設計,最大自我進化

「讓智能體自主創造 MCP 工具而不靠人工預設」,是 Alita 的核心設計理念。

現有的主流智能體系統通常依賴大量人工預定義的工具和復雜的工作流,這種方法有三個關鍵缺陷:

  • 覆蓋范圍有限:通用智能體面臨的現實任務種類繁多,預先定義好所有可能需要的工具既不可行亦不現實。而且預定義工具很容易過擬合 GAIA,不具有泛化性。

圖片

  • 創造力與靈活性受限:任務的難度可能超出了預定義工具或工作流的能力范圍。復雜任務通常需要智能體創新性地使用新工具,或以新的方式組合和利用現有工具,而預定義的工具庫和工作流會制約這種創造性和靈活性。

圖片

  • 適配失配:不同工具的接口或環境未必與智能體兼容。例如,許多有用的工具并非用 Python 編寫,這使得它們難以(盡管并非不可能)提前預接到主要以 Python 編寫的主流智能體框架中。

圖片

這些挑戰共同限制了現有通用智能體的創造力、可擴展性和泛化能力。

與當前日益復雜的趨勢相反,Alita 團隊認為對于通用智能體而言,「simplicity is the ultimate sophistication」。遵循這一原則,Alita 實現了可擴展的動態能力、增強的創造力與靈活性,以及跨生態系統的兼容性。Alita 團隊由此提出了兩大設計范式:

  • 最小化預定義:僅為智能體配備最核心的基礎能力,避免為特定任務或模態設計人工預定義的組件。
  • 最大化自進化:賦予智能體按需自主創建、優化和復用 MCP 工具的能力,實現自我進化。

圖片

具體而言,Alita 僅內置了管理智能體(Manager Agent)網頁智能體(Web Agent)作為其核心內部組件,以及少量支持自主能力擴展的通用模塊,而不依賴繁雜的預定義工具庫和固定工作流程。Alita 利用了 Model Context Protocols(MCP) 這一開放協議,使智能體系統能根據任務需求動態生成、修改和復用 MCP 工具。相較于一般的工具創建,MCP 創建還具有更好的可復用性與更簡易的環境管理等優勢。這種從人工設計工具和工作流到即時構建 MCP 工具的轉變,為構建簡約而通用的智能體開辟了新路徑。

Alita 的執行流程:簡潔而高效

圖片

整體設計理念與系統架構

Alita 基于「最小預定義 + 最大自主進化」的設計范式,其總體結構十分簡單,僅由三個關鍵組件構成:

  • Manager Agent:充當中央協調器的角色,分析任務需求,調度不同模塊和工具,執行最終的聚合與回答生成。
  • Web Agent:負責搜索有用的外部信息,包括開源代碼、文檔等。
  • MCP 創建組件:由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三個模塊組成,能夠進行自我能力評估、腳本生成與代碼執行,還能夠動態生成 MCP 工具并實現自我進化。

在整個流程中,Alita 通過不斷創建、驗證、優化新的工具,從而實現持續演化的智能閉環。

三大核心能力模塊

  • MCP Brainstorming 模塊:分析任務,思考需要什么工具

Alita 的第一步是調用 MCP Brainstorming 模塊,對輸入任務進行分析。該模塊會評估當前智能體是否已經具備完成任務所需的能力和工具:若已具備能力,就快速調度相應的工具;若能力缺失,則生成「能力缺口描述」和「MCP 工具構建建議」,以便后續創建新的 MCP 工具。

  • 腳本生成模塊:實時創建工具

檢測到能力缺口后,Alita 會啟動腳本生成模塊。該模塊根據管理智能體提供的任務描述與工具構建建議,結合網頁智能體檢索到的開源資源,生成一套可執行的外部 MCP 工具代碼。Alita 生成的 MCP 工具代碼有良好的封裝性與通用性,可直接集成進任務流程并支持后續復用。

  • 代碼運行與驗證模塊:確保工具能用,并不斷優化

新生成的工具首先會在虛擬環境中執行測試。系統會根據輸出判斷工具是否符合預期。如果工具運行成功,它將被正式注冊為可復用的 MCP 服務,納入任務調用體系;若運行失敗,系統則會自動進入診斷與修復流程,嘗試調整依賴版本、修改關鍵參數,甚至在必要時放棄當前工具,轉向新的解決方案。此外,每次運行過程都會被詳細記錄,以支持后續模型學習與工具演化,真正實現「自我進化」。

自我工具創建:Alita 的秘密武器

Alita 能夠自主創建并優化任務所需的工具,最后將新的工具打包為 MCP,可以在未來進行復用,或是給其他智能體系統使用。

例如,用戶的任務是詢問「這份 PPT 中有多少頁提到了甲殼類動物?」如果預定義的 PPT 處理工具僅將所有內容轉換為文本,就可能無法提取頁碼信息并回答問題。但 Alita 會動態創建一個合適的 PPT 處理工具,并將其封裝為足以解決該任務的 MCP。

另一個場景是,用戶的任務涉及 YouTube 視頻理解。現有的某些通用智能體所預定義的視頻分析工具僅是一個 YouTube 字幕抓取工具,然而部分視頻理解任務需要更深入的分析,僅讀取字幕無法徹底解決問題。Alita 能創建逐幀讀取視頻的 MCP 來解決更復雜的視頻理解任務——這種任務特定的 MCP 創建會根據任務難度動態調整。由于不是視頻理解領域的專家,Alita 團隊無法預先構想此類工具如何實現,直到 Alita 自動給出這個解決方案。該視頻理解組件后來還被復用至團隊的另一項工作《邁向多模態歷史推理:HistBench與HistAgent》(代碼庫已開源)。

Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Link:https://arxiv.org/abs/2505.20246

性能突破:GAIA 基準測試的新標桿

GAIA 的終局已至,Alita 正是最終的答案。

在 GAIA 基準測試中,Alita 展現了卓越的性能表現。GAIA 作為評估通用 AI 助手實際解決問題能力的標桿測試,共包含 450 個涵蓋不同難度級別的測試題目。

Alita 在 GAIA Validation 測試中取得了 75.15% 的 pass@1 和 87.27% 的 pass@3 準確率,暫時位居所有通用智能體的第一位,超越了 OpenAI Deep Research(67.36% 的 pass@1)和 Manus。在數學推理測試 Mathvista 和醫學圖像識別 PathVQA 測試中,Alita 也分別達到了 74.00% 和 52.00% 的 pass@1 準確率,優于許多裝備復雜工具庫的智能體系統。

這些結果也表明,簡約架構并非性能限制,反而是激發智能體創造性行為的關鍵。通過強調最小化預編寫工具和最大化自主進化的設計哲學,Alita 成功實現了簡潔與性能的統一。

有趣的是,在 Alita 團隊發推特的第二天,GAIA validation 榜單被移除,Alita 團隊提出,或許是時候邁向 HLE、BrowseComp 和 xbench 了。

圖片

MCP 復用:智能體蒸餾新范式與自我進化

在 Alita 構建過程中,系統會動態生成一系列高質量的 MCP,作為解決任務的中間產物。值得注意的是,這些 MCP 的價值遠不止于完成一個任務這么簡單,它們可以在后續任務中被 Alita 調用,顯著提高性能和效率,也能被其他智能體復用。

具體來說,Alita 生成的 MCP 工具箱具備雙重優勢:

其一,智能體蒸餾,自動生成 MCP 的復用可視為一種全新的智能體蒸餾機制,相比傳統蒸餾方法,其成本更低且更高效。

圖片


  • 強智能體指導弱智能體:這些 MCP 可由其他較弱智能體復用,由 Alita(而非人類開發者)通過試錯設計出適配特定任務的 MCP 集,能顯著提升其性能。在不改變底層模型配置的情況下,僅通過引入 Alita 生成的 MCP,Open Deep Research-smolagents 在 GAIA 上的平均準確率從 27.88% 提升至 33.94%,實現了在所有難度等級上的一致性能提升。


  • 基于大模型的智能體指導基于小模型智能體:這些 MCP 同樣可被小模型智能體復用并顯著提升表現。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型,Alita 所生成的 MCP 也能顯著提升其性能:準確率從 21.82% 提升至 29.09%,Level 3 的準確率更是提升了三倍(3.85% → 11.54%)。

其二,自我進化,使 Pass@1 方法實現 Pass@N 效果:MCP 工具箱與 Alita 連接后,可將單次嘗試的通過率提升至近似多次嘗試的水平。

結語:簡約設計引領通用智能體未來發展范式

Alita 的成功證明,在智能體設計中,簡約性并非功能限制,而是系統演進的驅動力。當傳統方案陷入「工具膨脹,性能停滯」的困境時,Alita 通過動態協議機制實現了「架構簡化,能力增強」的正向循環。我們也相信,隨著大語言模型編寫代碼和推理能力的不斷提升,Alita 將會變得更加強大。未來通用 AI 助手的設計或大幅簡化,無需任何預定義工具和直接解決問題的工作流。相反,開發者可能更專注于設計激發通用智能體創造力與進化潛能的模塊。

隨著人工智能技術向通用化方向發展,這種融合簡約設計與自主進化特性的范式,必將成為構建下一代智能體的關鍵技術路徑——既保持核心系統的優雅簡潔,又能通過持續演化獲得近乎無限的擴展能力。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-28 14:05:00

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2025-06-03 09:31:16

2024-11-08 09:20:00

2023-06-19 09:36:16

AI矩陣

2023-10-23 13:23:03

數據訓練

2011-04-22 10:14:34

無線網絡DHCPAndroid

2022-07-26 09:56:48

模型AI

2025-03-10 12:09:37

2025-07-18 07:07:00

人工智能AIAI模型

2023-12-05 13:25:00

數據訓練

2024-06-13 09:20:26

2025-09-12 13:00:05

2024-07-22 08:30:00

神經網絡AI

2023-06-16 20:50:13

大模型

2025-04-01 09:10:00

2024-03-14 11:55:21

2024-09-25 14:41:15

2020-12-02 10:05:26

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

午夜激情福利网| 天天干天天综合| 人操人视频在线观看| 老妇喷水一区二区三区| 日韩在线精品视频| 蜜桃视频无码区在线观看| 国模精品视频| 17c精品麻豆一区二区免费| 国产传媒欧美日韩| 国产男人搡女人免费视频| 欧美影院一区| 亚洲图片在线综合| 香蕉在线观看视频| 欧美xxx视频| 一卡二卡三卡日韩欧美| 日韩成人av电影在线| 亚洲精品久久久久久久久久| 欧美aaa在线| 亚州精品天堂中文字幕| 亚洲精品自拍视频在线观看| 牛牛精品成人免费视频| 欧美男男青年gay1069videost| 日韩五码在线观看| 麻豆免费在线观看| 久久精品日产第一区二区三区高清版| 亚洲a在线播放| 欧美性受xxx黑人xyx性爽| 国产精品激情| 久久久精品免费| 久久久久久久久久久国产精品| 国产精品成人**免费视频| 欧美日韩亚洲一区二区| 免费特级黄色片| 欧美成人二区| 欧美国产精品专区| 精品婷婷色一区二区三区蜜桃| 国产男男gay体育生网站| 久久久久国产精品一区三寸 | 日韩电影免费| 成人免费视频网站在线观看| 91久久国产精品| 中文字幕日韩国产| 性一交一乱一区二区洋洋av| 欧美激情欧美激情在线五月| 九九这里只有精品视频| 日韩国产欧美| 在线播放精品一区二区三区 | 夜夜骚av一区二区三区| 日本欧美久久久久免费播放网| 欧美在线视频一区二区| 一级片中文字幕| 国产精品试看| 1769国产精品| 日本在线播放视频| 亚洲主播在线| 奇米一区二区三区四区久久| 在线观看黄网站| 校园激情久久| 国产成人精品电影| 高潮无码精品色欲av午夜福利| 久久亚洲美女| 国产精品专区一| 亚洲自拍偷拍另类| 国产精品综合在线视频| 99国产在线观看| 后进极品白嫩翘臀在线视频| 成人成人成人在线视频| 国产呦系列欧美呦日韩呦| 日韩在线一区二区三区四区| 97成人超碰视| 日韩精品久久一区| 精品孕妇一区二区三区| 亚洲美女一区二区三区| 久艹在线免费观看| 不卡av播放| 色噜噜狠狠色综合欧洲selulu| 又色又爽又高潮免费视频国产| 看片一区二区| 日韩天堂在线观看| 国产麻豆剧传媒精品国产av| 免费一区二区三区视频导航| 在线一区二区日韩| 538精品在线视频| 亚洲国产综合在线看不卡| 欧美亚洲一级片| 男操女视频网站| 国产一区二区不卡在线| 精品蜜桃一区二区三区| 浮生影视网在线观看免费| 一区视频在线播放| 黄色一级视频在线播放| 成人午夜精品| 欧美一区三区二区| 30一40一50老女人毛片| 首页国产精品| 777精品视频| 亚洲影视一区二区| 99国产麻豆精品| 亚洲一区二区精品在线观看| 成年人视频免费在线播放| 色婷婷亚洲婷婷| 在线播放国产视频| 精品国产一区二区三区小蝌蚪| 久久人人爽人人爽人人片亚洲| 亚洲第一精品在线观看| 久久激情综合网| 蜜桃91精品入口| 免费污视频在线| 欧美日韩国产在线播放网站| 一级欧美一级日韩片| 久久精品青草| 国产成人亚洲综合91精品| 亚洲精品国产精品乱码不卡| 国产精品理论片在线观看| 女人天堂av手机在线| 国产亚洲高清一区| 一区二区av在线| 国产一级片毛片| 成人一级视频在线观看| 中文字幕制服丝袜在线| 欧美理论影院| 精品91自产拍在线观看一区| 国产一区二区三区视频播放| 中文日韩在线| 国产精品中出一区二区三区| 国产写真视频在线观看| 欧美性大战久久久久久久蜜臀| 熟妇人妻久久中文字幕| 欧美~级网站不卡| 国产日本欧美一区| av在线三区| 一本色道a无线码一区v| 日韩免费高清一区二区| 亚洲国产国产亚洲一二三| 亚洲淫片在线视频| 午夜激情视频在线观看| 欧美亚男人的天堂| 熟女俱乐部一区二区视频在线| 国自产拍偷拍福利精品免费一| 国产精品99久久久久久www| 人妻va精品va欧美va| 亚洲一区二区三区四区的| 杨幂一区二区国产精品| 亚洲国产精品日韩专区av有中文| 国产精品久久久999| 黄色软件在线| 色悠悠亚洲一区二区| 精品人妻一区二区三区视频| 国产日韩综合| 精品在线视频一区二区三区| 久热在线观看视频| 精品sm捆绑视频| 国产精品二区一区二区aⅴ| 高潮精品一区videoshd| 你真棒插曲来救救我在线观看| 日韩精品一区二区三区中文| 欧美成人网在线| 精品国产无码一区二区| 亚洲免费视频成人| aaaaa黄色片| 日韩天堂av| 久久久久成人精品免费播放动漫| 黄视频免费在线看| 国产网站欧美日韩免费精品在线观看 | 日韩一区二区三区xxxx| 一本久道久久综合无码中文| 中文字幕一区二区三区在线播放| 日本精品一区在线| 欧美性色综合| 精品一区二区久久久久久久网站| 91久久国产综合久久91猫猫| 在线日韩中文字幕| 国产精品色综合| 亚洲综合无码一区二区| 性久久久久久久久久久| 日韩精品1区2区3区| 一区二区三区四区国产| 日本超碰一区二区| 5566日本婷婷色中文字幕97| 成人高清网站| 欧美一二三区精品| xxxx.国产| 中文字幕一区二区在线观看| 亚洲av无一区二区三区久久| 国产欧美大片| 在线播放 亚洲| 久久久免费毛片| 国产噜噜噜噜噜久久久久久久久 | a网站在线观看| 婷婷中文字幕综合| 日本不卡一区视频| 国产成人精品在线看| 国产精品亚洲αv天堂无码| 国产精品久久久久久麻豆一区软件 | 国产精品视频一区在线观看| 国产精品成人免费| 中文字幕乱码在线| 久久99精品久久久| 国产精品无码av在线播放| 久久人体视频| 久久资源亚洲| 精品一区二区三区视频在线播放| 538国产精品一区二区在线| 久草中文在线观看| 亚洲女成人图区| 午夜久久久久久久久久| 欧美在线视频你懂得| 国产在线拍揄自揄拍| 中文在线免费一区三区高中清不卡| 四虎国产精品免费| 美腿丝袜亚洲综合| av动漫在线看| 国内久久视频| 日韩不卡视频一区二区| 精品国产91久久久久久浪潮蜜月| 不卡视频一区| 四虎精品在线观看| 国产精品2018| 麻豆成全视频免费观看在线看| 久久综合电影一区| 91精品国产综合久久久久久豆腐| 欧美精品一区二区三区一线天视频 | 免费黄色在线视频| 成人免费毛片片v| 精品国产乱码久久久久久1区二区| 日精品一区二区三区| 成年人看的毛片| 在线国产一区| 中文字幕一区二区三区乱码| 国产精品自拍区| 欧美成人dvd在线视频| 国产精品一线| 国产福利久久精品| 成人看片爽爽爽| 99国产视频| 亚洲欧美日本国产| 91在线视频一区| 亚洲ww精品| 成人福利网站在线观看| 992tv国产精品成人影院| 国产激情视频一区| 台湾佬中文娱乐久久久| 国产91精品久久久久久| 密臀av在线播放| 5252色成人免费视频| 无码小电影在线观看网站免费| 午夜精品蜜臀一区二区三区免费| 俄罗斯一级**毛片在线播放| 欧美黄网免费在线观看| 久久不射影院| 韩日欧美一区二区| 极品av在线| 91超碰caoporn97人人| 亚洲午夜天堂| 国产精品电影久久久久电影网| 亚洲不卡系列| 国产乱人伦真实精品视频| 欧美性aaa| 亚洲一区二区日本| jizz久久精品永久免费| 国产精品日韩二区| 香蕉久久夜色精品国产更新时间| 欧美一二三区| 成人综合专区| 中文字幕一区二区三区四区五区| 欧美国产91| 欧美午夜小视频| 午夜在线精品偷拍| 爱爱爱爱免费视频| 国产伦精品一区二区三区在线观看| 奇米777在线视频| 99久久精品国产观看| 丰满圆润老女人hd| 国产精品二三区| 中文字幕在线有码| 午夜精品久久久久久久久久| 亚洲 欧美 中文字幕| 欧美午夜理伦三级在线观看| 国产精品永久久久久久久久久| 欧美一区二区三区四区五区 | 亚洲精品天堂成人片av在线播放 | 国产区二区三区| 国产一区二区剧情av在线| 日韩www视频| 国产欧美日韩在线看| 国产高清视频免费在线观看| 亚洲一二三四区| 日韩免费av网站| 日韩亚洲欧美一区二区三区| 西西人体44www大胆无码| 中文字幕在线精品| 午夜成年人在线免费视频| 日本午夜精品理论片a级appf发布| 2020国产精品小视频| 精品无人乱码一区二区三区的优势 | 亚洲精品不卡在线| 在线看免费av| 91精品国产色综合久久不卡98| 久久福利在线| 九色综合日本| 亚洲天天综合| 免费日韩视频在线观看| 国产不卡免费视频| 影音先锋男人在线| 午夜视黄欧洲亚洲| 91在线你懂的| 亚洲欧美激情在线视频| 青草av在线| 91丝袜美腿美女视频网站| 欧美猛男男男激情videos| 国产乱子伦精品无码专区| 美日韩一区二区三区| 无码人妻精品一区二区三区温州| 亚洲人吸女人奶水| 亚洲综合网av| 国产午夜精品视频免费不卡69堂| 草美女在线观看| 亚洲v日韩v综合v精品v| 久久国产综合| www.日日操| 久久婷婷成人综合色| 国产一级久久久| 91精品国产综合久久精品app | 欧美激情一二三| 欧洲亚洲精品久久久久| 欧洲久久久久久| 久久高清一区| 国产精品无码一区二区三| 一区二区三区在线播| 国产露脸无套对白在线播放| 在线成人激情视频| 日本成人伦理电影| 久久日韩精品| 亚洲一区国产| 中国极品少妇videossexhd| 一个色妞综合视频在线观看| 精品久久久免费视频| 操91在线视频| 精品国产18久久久久久二百| 尤物国产精品| 久久99在线观看| 91香蕉视频污在线观看| 欧美日韩aaa| 免费观看久久久久| 91美女高潮出水| 亚洲视频在线免费| 色黄视频免费看| 亚洲午夜视频在线| 欧美一级特黄aaaaaa大片在线观看| 色综合久久精品亚洲国产| 777久久精品| 免费看黄在线看| 91亚洲资源网| 国产主播第一页| 日韩中文字幕不卡视频| aa亚洲一区一区三区| 特色特色大片在线| 国产福利91精品一区二区三区| 久久久久成人精品无码| 亚洲黄色有码视频| 成人在线爆射| 亚洲精品中文综合第一页| 精品一区二区三区香蕉蜜桃| 懂色av懂色av粉嫩av| 日韩精品影音先锋| 咪咪网在线视频| 亚洲精品国产一区| 国产综合一区二区| 久草视频在线免费看| 日韩av在线网页| 成人午夜一级| 狠狠精品干练久久久无码中文字幕| 丁香婷婷综合激情五月色| 国产区一区二区三| 中文字幕精品久久| 日韩中文在线| 男女av免费观看| 亚洲视频免费看| 欧洲av在线播放| 国产精品久久一区| 红桃视频欧美| a天堂中文字幕| 日韩欧美电影在线| 日韩不卡免费高清视频| 艳母动漫在线免费观看| gogogo免费视频观看亚洲一| 天天爱天天做天天爽| 美日韩丰满少妇在线观看| 日韩欧美四区| 国产欧美激情视频| 欧美日韩激情网| 麻豆传媒免费在线观看| 国产丝袜不卡| 久久精品国产精品青草| 日韩av男人天堂| xvideos亚洲| 蜜桃a∨噜噜一区二区三区| 手机精品视频在线| 一本色道久久综合亚洲91| 羞羞的网站在线观看|