ICML 2025 Oral | NAS老樹開新花,NUS提出智能體超網(wǎng),成本狂降55%
本文第一作者為張桂彬,新加坡國立大學25Fall計算機科學博士生;本文在南洋理工大學的王琨博士、上海人工智能實驗室的白磊老師、和中國科學技術(shù)大學的王翔教授指導下完成。
LLM 智能體的時代,單個 Agent 的能力已到瓶頸,組建像 “智能體天團” 一樣的多智能體系統(tǒng)已經(jīng)見證了廣泛的成功。但 “天團” 不是人越多越好,手動設計既費力又不討好,現(xiàn)有的智能體自動化方法又只會 “一招鮮”,拿一套復雜陣容應對所有問題,導致 “殺雞用牛刀”,成本高昂。
現(xiàn)在,一篇來自新加坡國立大學、上海 AI Lab、同濟大學等機構(gòu)并被 ICML 2025 接收為 Oral Presentation 的論文,為我們帶來了全新的解題思路。
他們將神經(jīng)網(wǎng)絡架構(gòu)搜索(NAS)的超網(wǎng)絡(Supernet)思想引入 Agent 領域,首創(chuàng)了一個名為 “智能體超網(wǎng)”(Agentic Supernet)的概念。它不再尋找一個固定的最佳 “陣容”,而是根據(jù)任務難度,動態(tài) “剪” 出一個量身定制的智能體團隊。結(jié)果有多驚艷?性能超越現(xiàn)有方法最高 11.82%,推理成本卻只有它們的 45%!

- 論文地址:https://arxiv.org/abs/2502.04180
- Github 鏈接:https://github.com/bingreeky/MaAS
- 論文標題:Multi-agent Architecture Search via Agentic Supernet
智能體的 “一體化” 困境:
從設計內(nèi)卷到資源浪費
如今,從 AutoGen 到 MetaGPT,各種多智能體系統(tǒng)(Multi-agent Systems)層出不窮,通過定制化的協(xié)作,其能力在多個領域(如代碼生成,復雜通用 AI 任務)已超越了單個智能體。但一個核心痛點始終存在:這些系統(tǒng)的設計往往依賴于繁瑣的人工配置和 Prompt 工程。 為了解決這個問題,研究界轉(zhuǎn)向自動化設計,比如通過強化學習、進化算法、蒙特卡洛樹搜索等方式尋找最優(yōu)的 Agent 工作流。
然而,這又帶來了新的困境:
1. 資源浪費 (Dilemma 1):諸如 AFlow 和 ADAS 這樣的自動化多智能體系統(tǒng)優(yōu)化方法傾向于找到一個極其復雜的 “萬金油” 式系統(tǒng),以確保在所有任務上表現(xiàn)優(yōu)異。 但面對 “10+1*2.5=?” 這樣的簡單問題,動用一個需要數(shù)十次 LLM 調(diào)用的復雜系統(tǒng),無疑是巨大的資源浪費。
2. 任務沖突 (Dilemma 2):在 GAIA 這樣的多領域基準測試中,一個擅長文獻總結(jié)的多智能體系統(tǒng),不一定擅長網(wǎng)頁瀏覽總結(jié) —— 似乎不存在一個能在所有任務上都最優(yōu)的 “全能冠軍”。
面對這種 “要么手動內(nèi)卷,要么自動浪費” 的局面,我們是否該換個思路了?
Agentic Supernet:
從 “選一個” 到 “按需生萬物”
這篇論文的核心貢獻,就是一次漂亮的 “范式轉(zhuǎn)移” (Paradigm Reformulation)。作者提出,我們不應該再執(zhí)著于尋找一個單一、靜態(tài)的最優(yōu)智能體架構(gòu)。相反,我們應該去優(yōu)化一個 “智能體超網(wǎng)”(Agentic Supernet) —— 這是一個包含海量潛在智能體架構(gòu)的概率分布。

圖 1 智能體超網(wǎng)絡
這個 “超網(wǎng)” 就像一個巨大的 “能力兵工廠”,里面包含了諸如思維鏈(CoT)、工具調(diào)用(ReAct)、多智能體辯論(Debate)等各式各樣的基礎能力 “算子”(Agentic Operator)。當一個新任務(Query)到來時,一個 “智能控制器”(Controller)會快速分析任務的難度和類型,然后從這個 “兵工廠” 中,動態(tài)地、即時地挑選并組合最合適的幾個 “算子”,形成一個量身定制的、不多不少、資源分配額剛剛好的臨時智能體系統(tǒng)去解決問題。
上圖生動地展示了這一點:
- 對于簡單問題 (a, b):MaAS 在第二層就選擇了 “提前退出”(Early-exit),用最簡單的 I/O 或 ReAct 組合快速給出答案,極大節(jié)省了資源。
- 對于中等和困難問題 (c, d):MaAS 則會構(gòu)建更深、更復雜的網(wǎng)絡,調(diào)用更多的算子來確保問題得到解決。
這種 “按需分配、動態(tài)組合” 的哲學,正是大名鼎鼎的 NAS 的核心思想。如今,MaAS 框架將其成功地應用在了多智能體架構(gòu)搜索(Multi-agent Architecture Search)上,可以說是 NAS 在 Agentic 時代的重生和勝利。
MaAS 的 “三板斧” 如何玩轉(zhuǎn)智能體架構(gòu)?
接下來,我們就一起拆解 MaAS 的 “獨門秘籍”。其核心思想,可以概括為定義藍圖 → 智能調(diào)度 → 自我進化三步走戰(zhàn)略。
第一板斧:定義萬能 “藍圖” - Agentic Supernet
傳統(tǒng)方法是設計一個具體的 Agent 架構(gòu) (System),而 MaAS 的第一步,就是定義一個包含所有可能性的 “宇宙”—— 智能體超網(wǎng) (Agentic Supernet)。
1. 智能體算子 (Agentic Operator):首先,MaAS 將智能體系統(tǒng)拆解為一系列可復用的 “原子能力” 或 “技能模塊”,也就是智能體算子 (O)。這包括了:
- I/O: 最簡單的輸入輸出。
- CoT (Chain-of-Thought): 引導模型進行循序漸進的思考。
- ReAct: 結(jié)合思考與工具調(diào)用。
- Debate: 多個 Agent 進行辯論,優(yōu)勝劣汰。
- Self-Refine: 自我批判與修正。
- ... 等等,這個 “技能庫” 是完全可以自定義擴展的!
2. 概率化智能體超網(wǎng) (Probabilistic Agentic Supernet):有了這些智能體算子,MaAS 將它們組織成一個多層的、概率化的結(jié)構(gòu)。你可以想象成一個分了好幾層的巨大 “技能池”。
- 每一層都包含了所有可選的智能體算子。
- 每個模塊在每一層被 “選中” 的概率(π)是不固定的,是可以學習和優(yōu)化的。

圖 2 MaAS 自進化框架示意圖
如圖 2 所示的智能體超網(wǎng),就是 MaAS 施展魔法的舞臺。它不是一個靜態(tài)的系統(tǒng),而是一個智能體系統(tǒng)架構(gòu)的概率分布空間。
第二板斧:智能 “調(diào)度師” - 按需采樣架構(gòu)
有了 “藍圖”,當一個具體的任務(Query q)來了,如何快速生成一個 “定制團隊” 呢?這就輪到 MaAS 的 “智能調(diào)度師”—— 控制器網(wǎng)絡 (Controller) 上場了。控制器的工作流程如下所示:
1. “閱讀” 任務:控制器首先將輸入的 Query q 進行編碼,理解其意圖和難度。
2. 逐層挑選:然后,它從超網(wǎng)的第一層開始,逐層為當前任務挑選最合適的 “技能模塊”。
3. MoE 式動態(tài)選擇:這里的挑選機制非常精妙,它采用了一種類似混合專家(MoE)的策略。
在每一層,控制器會為所有待選的技能模塊計算一個 “激活分數(shù)”。這個分數(shù)取決于當前任務 q 以及之前層已經(jīng)選定了哪些模塊。
然后,它會從分數(shù)最高的模塊開始,依次激活,直到這些被激活模塊的累計分數(shù)總和超過一個預設的閾值 (thres)。
這個設計恰恰與 MaAS 的動態(tài)性緊密相關!這意味著:
- 簡單任務可能在某一層只激活一個智能體算子就夠了。
- 復雜任務則會激活更多的算子,可能是兩個、甚至三個,以保證足夠的解決能力。
- 同時,如果 “早停 (Early-Exit)” 這個特殊的算子被選中,整個采樣過程就會提前結(jié)束,完美實現(xiàn)了 “見好就收”。
通過這種方式,MaAS 為每一個 Query 都動態(tài)生成了一個獨一無二的、資源配比恰到好處的 Agent 執(zhí)行圖(G),實現(xiàn)了真正的 “查詢感知(Query-aware)”。
第三板斧:雙軌 “進化引擎” - 成本約束下的優(yōu)化
生成了臨時團隊去執(zhí)行任務還不夠,MaAS 還要能從經(jīng)驗中學習,讓整個 “超網(wǎng)” 和 “算子” 都變得越來越強。但這里有個難題:整個 Agent 執(zhí)行過程是 “黑盒” 的,充滿了與外部工具、API 的交互,無法進行端到端的梯度反向傳播!為此,MaAS 采用了雙軌優(yōu)化策略,分別對 “架構(gòu)分布” 和 “算子本身” 進行更新:
1. 架構(gòu)分布 (π) 的進化 - 蒙特卡洛策略梯度:
- MaAS 的目標函數(shù)不僅要考慮任務完成得好不好(Performance),還要考慮花了多少錢(Cost,如 token 數(shù))。
- 它通過蒙特卡洛采樣來估計梯度。簡單說,就是讓采樣出的幾個不同架構(gòu)(G_k)都去試試解決問題。
- 然后,根據(jù)每個架構(gòu)的 “性價比”(即性能高、成本低)賦予其一個重要性權(quán)重 (m_k)。
- 最后,用這個權(quán)重來更新超網(wǎng)的概率分布 π,讓那些 “又好又省” 的架構(gòu)在未來更容易被采樣到。
2. 算子 (O) 本身的進化 - Textual Gradient (文本梯度):
這是最 “魔法” 的地方!如何優(yōu)化一個 Prompt 或者一段 Python 代碼?MaAS 借鑒了 “文本梯度” 的概念。
它會利用一個梯度智能體,來分析某個算子(比如 Debate 算子)的表現(xiàn)。
如果表現(xiàn)不佳,這個 “教練” 會生成一段文本形式的 “改進意見”,這就是 “文本梯度”。比如:
- “給這個 Refine 過程的 Prompt 里增加一個 few-shot 示例。”
- “為了穩(wěn)定性,降低這個 Ensemble 模塊里 LLM 的 temperature。”
- “給這個 Debate 算子增加一個‘反對者’角色,以激發(fā)更深入的討論。”

圖 3 文本梯度案例
性能、成本、通用性:全都要!
MaAS 的效果不僅理念先進,數(shù)據(jù)更是亮眼。

圖 4 MaAS 與其他多智能體方法性能比較
如上圖所示,在 GSM8K、MATH、HumanEval 等六大主流基準測試上,MaAS 全面超越了現(xiàn)有的 14 個基線方法,性能提升了 0.54% ~ 11.82%。 平均得分高達 83.59%,展示了其卓越的通用性和高效性。

圖 5 訓練與推理成本比較
成本大降是更令人興奮的一點。MaAS 所需的推理成本(如 token 消耗)平均只有現(xiàn)有自動化或手動系統(tǒng)的 45%。在 MATH 基準上,MaAS 的訓練成本僅為 3.38 美元,而表現(xiàn)相近的 AFlow 則高達 22.50 美元,相差 6.8 倍。除此之外,MaAS 的優(yōu)化時間僅需 53 分鐘,遠低于其他動輒數(shù)小時的方法。

圖 6 MaAS 成本可視化
上圖同樣展示了 MaAs 在訓練 token 消耗、推理 token 消耗和推理 API 金額方面的卓越性能。

圖 7 MaAS 推理動態(tài)展示。可以看到,針對不同難度的 query,MaAS 智能地激活了不同的智能體網(wǎng)絡架構(gòu)解決之。
上圖是 MaAS 對于不同難度的 query 的激活動態(tài)。可以看到,MaAS 完美地做到了任務難度的動態(tài)感知,對于簡單的任務早早地退出了推理過程,而對于復雜的任務則深入 3~4 層智能體超網(wǎng)絡 u,并且每層激活的智能體算子不止一個。
除此之外,MaAs 還展示出了超強泛化能力:
- 跨模型:在 gpt-4o-mini 上優(yōu)化好的 “超網(wǎng)”,可以輕松遷移到 Qwen-2.5-72b 和 llama-3.1-70b 等不同的大模型上,并帶來顯著的性能提升。
- 跨數(shù)據(jù)集:在 MATH 上訓練,在 GSM8K 上測試,MaAS 依然表現(xiàn)出色,證明了其強大的跨領域泛化能力。
- 對未知算子:即使在訓練中從未見過 “Debate” 這個算子,MaAS 在推理時依然可以合理地激活并使用它,展現(xiàn)了驚人的歸納能力。
總結(jié)
MaAS 通過引入 “智能體超網(wǎng)” 的概念,巧妙地將 NAS 的思想范式應用到多智能體系統(tǒng)的自動化設計中,完美解決了當前領域 “一刀切” 設計所帶來的資源浪費和性能瓶頸問題。它不再追求一個靜態(tài)的最優(yōu)解,而是轉(zhuǎn)向優(yōu)化一個動態(tài)生成的架構(gòu)分布,為不同任務提供量身定制的、最高性價比的解決方案。這項工作無疑為構(gòu)建更高效、更經(jīng)濟、更智能的全自動化 AI 系統(tǒng)鋪平了道路。
讓我們共同期待一個完全自動化、自組織、自進化的集體智能時代的到來!






























