環境即智能:從AgentScaler看下一代AI智能體的進化論

大家好,我是肆〇柒。本文分享一篇來自阿里通義實驗室(Tongyi Lab, Alibaba Group)的重要研究《Towards General Agentic Intelligence via Environment Scaling》。本文是通義 Deepresearch 發布的系列研究之一。
最令我興奮的是,在兩個月前,也就是 7 月份的社區討論中,我曾探討過關于environmental engineering的話題,如下,與此論文的一些研究方向不謀而合。

這項工作挑戰了當前智能體開發的主流思路,將“環境”置于核心位置,為我們理解通用智能體智能的未來提供了更全面的視角。
在大模型領域,"數據飛輪"曾是推動大語言模型崛起的核心引擎——更多數據帶來更好模型,更好模型又產生更多高質量數據,形成良性循環。然而,當智能體(Agent)技術成為AI落地的關鍵環節,研究者們逐漸意識到:單純依賴數據飛輪已不足以支撐智能體能力的持續進化。因為智能體的核心能力在于與環境的交互,而環境的多樣性與復雜性遠超靜態文本數據所能承載。
阿里通義實驗室發布的《Towards General Agentic Intelligence via Environment Scaling》論文,為這一困境提供了一個突破性思路:將"環境規模化"作為驅動智能體能力進化的核心引擎。這項研究不僅提出了名為AgentScaler的新型智能體訓練框架,更重要的是重新定義了智能體開發的范式——從"數據為中心"轉向"環境為中心"。下面我們一起看看這一研究的底層邏輯與技術突破,揭示環境規模化如何成為解鎖通用智能體智能的關鍵鑰匙。
環境:智能體的第一性原理
AgentScaler研究的核心洞見在于:智能體的本質是與環境的交互,而非單純的語言生成。論文開宗明義地指出,函數調用可被解釋為對底層環境數據庫D的讀寫操作。這一視角將智能體與環境的關系抽象為數據庫操作模型,從根本上重構了智能體開發的理論基礎。
在智能體數據生成方面,論文明確區分了兩種方法范式:反向范式,即先生成助手函數調用再匹配用戶查詢;正向范式,即先制定高層用戶意圖,再通過人-智能體互動構建數據。當前的正向范式存在一個根本問題:環境不可擴展,缺乏自動化環境構建阻礙了大規模部署,不可避免地需要一定程度的人工干預。
與傳統"數據為中心"的方法(如xLAM)相比,"環境為中心"的范式具有本質優勢。傳統方法往往依賴LLM生成的合成數據,這些數據雖然豐富但缺乏真實性與一致性;而AgentScaler則從環境構建出發,確保所有訓練軌跡都源于真實的交互過程。論文明確表示,智能體的核心在于與環境交互的能力,這一理念貫穿整個研究體系。
值得注意的是,在論文中系統梳理了工具使用環境的三種構建方法:真實環境直接調用實際工具,反饋最真實但成本高、穩定性差;LLM模擬環境利用大模型生成響應,易產生幻覺和不一致;基于狀態配置的模擬環境通過離線執行環境模擬工具調用,兼顧真實性與效率。AgentScaler的創新在于實現了第三種方法的自動化與規模化,通過嚴格的基于規則的驗證管道消除人工干預,使環境構建真正可擴展。
可驗證性:規模化信任的基石
AgentScaler的革命性價值在于它實現了訓練數據的可驗證性。在智能體訓練中,最大的挑戰之一是如何確保合成數據的質量與真實性。論文指出,他們實現了環境級和工具-參數響應級的雙重可驗證機制,這一特性使大規模高質量數據生成成為可能。
具體而言,AgentScaler采用三階段漏斗式軌跡過濾框架:
- 效性控制:剔除無效交互軌跡,確保用戶-助手交換格式正確。論文特別提到,他們應用基于n-gram的過濾程序消除嚴重重復的推理片段,這種技術確保了交互過程的邏輯連貫性。
- 環境狀態對齊:僅保留最終數據庫狀態與黃金狀態匹配的軌跡。這一階段的關鍵在于確保最終數據庫狀態與交互后的黃金狀態匹配,通過數據庫快照比對驗證寫操作的有效性。
- 函數調用精確匹配:最嚴格的過濾階段,確保調用的工具序列與參數完全匹配。論文特別指出,由于完全由讀操作組成的工具序列會導致基于狀態的過濾失效,研究團隊采用更嚴格的精確匹配方法進行過濾。這種差異化過濾策略確保了不同場景下數據質量的一致性。

ACEBench-en上兩階段訓練模型的性能比較
這種基于確定性環境的驗證機制,使得即使工具調用返回錯誤,只要最終達成目標,軌跡仍可保留用于訓練,從而增強模型的魯棒性。相比之下,依賴LLM模擬環境的方法難以避免幻覺問題,其"觀測"本身可能就是錯誤的,無法形成可靠的監督信號。
正是這種環境狀態級和工具調用參數級的可驗證性,為后續的"程序化物化"奠定了基礎。當環境被轉化為確定性的數據庫操作,工具調用的每個環節都變得可追蹤、可驗證,這才使得大規模高質量智能體經驗的生成成為可能。
程序化物化:環境自動化的技術突破
AgentScaler實現環境規模化的核心技術是"函數模式程序化物化"。這一過程將抽象的工具調用轉化為可執行的數據庫操作,構建了一個全自動的"環境編譯器":
AgentScaler的環境自動化構建始于大規模API收集,研究團隊從ToolBench、API-Gen和內部工具庫中匯集了超過3萬個API。隨后,通過參數向量化計算構建工具依賴圖,運用Louvain社區檢測算法將工具自動劃分為1000多個功能域。最后,為每個功能域生成統一的數據庫結構,并將API函數轉化為對該結構的讀寫操作代碼,實現從自然語言接口到確定性狀態機的完整轉化。


環境自動構建和智能體任務構建的概述
論文特別指出,在生成τ-bench特定領域的數據庫結構和形式化代碼時,通過人工檢查發現輸出與τ-bench提供的官方實現高度一致,這證明了該方法的可靠性與準確性。

智能體與模擬用戶交互及環境狀態變化流程
上圖生動展示了智能體與模擬用戶的交互過程:用戶提出"Can you return my order?"的請求,智能體通過依次調用get_user_info、get_order_info等工具獲取必要信息,逐步推進任務完成。這一過程完美體現了"函數調用可被解釋為對底層環境數據庫D的讀寫操作"的核心理念,也是驗證環境構建有效性的直觀證明。
這種"程序化物化"技術的意義遠超單一模型訓練——它為構建"數字孿生"式的智能體訓練場提供了標準化范式,有望催生"智能體環境即服務"(Environment-as-a-Service)的新生態,使各行業能夠快速構建符合自身需求的智能體訓練環境。
兩階段學習:能力躍遷的方法論密碼
AgentScaler的另一大創新是提出了兩階段智能體經驗學習框架,系統性解決了智能體訓練中的"泛化"與"專業化"矛盾:
- 第一階段:在通用領域中訓練智能體的基礎工具調用能力,使其理解何時及如何調用函數,以及如何將工具輸出整合為連貫的用戶響應
- 第二階段:在垂直領域中進行精細化訓練,使智能體能夠選擇恰當工具、準確填充參數,并生成符合領域特性的響應
這種學習路徑與人類學習規律高度一致:先建立廣泛的知識基礎,再進行專業深化。論文中還詳細闡述了兩階段經驗學習的理論基礎。第一階段聚焦于通用領域,使智能體發展對何時及如何調用函數,以及如何將工具輸出整合為連貫的用戶響應的穩健理解。這一階段強調廣度和通用性,確保智能體在領域專業化前建立多功能的智能體行為基礎。
第二階段則在垂直領域進行精細化訓練,通過將學習過程扎根于目標領域內的真實場景,智能體精煉其選擇工具、參數化調用和生成準確、上下文適當且與領域特定目標一致的響應的能力。

實驗數據有力支持了這一框架的有效性。如上圖所示,兩階段訓練使AgentScaler-30B-A3B在ACEBench-en的Agent子集上得分從55.8躍升至64.1,總體得分從74.2提升至81.5。特別值得一提的是,小型Qwen3-4B模型在兩階段訓練后,其智能體能力得分從6.7飆升至38.4,總體得分提升21.7分,證明了該方法對小模型的顯著增益。

這一方法論不僅適用于技術實現,更具有普適性啟示:在智能體開發中,基礎能力與領域專長的平衡至關重要,盲目追求領域特異性或通用性都可能導致能力缺陷。
小即是美,穩方致遠:實驗數據背后的哲學
AgentScaler的實驗結果揭示了智能體技術發展的深層規律,挑戰了傳統認知:
"小即是美"的勝利:AgentScaler-4B的表現證明,緊湊模型在智能體任務中具有巨大潛力。更令人驚訝的是,AgentScaler-30B-A3B(僅300億參數)在多項指標上媲美甚至超越萬億參數閉源模型。如下表所示,在τ2-Bench的Telecom領域,AgentScaler-30B-A3B以96.7%的pass@1準確率大幅領先GPT-5-think(58.2%),徹底打破了"參數規模=智能水平"的迷思。

為驗證模型的泛化能力,研究團隊進一步在ACEBench-zh上進行了評估,這是一個相對于訓練設置的分布外(out-of-distribution, OOD)場景。數據顯示,AgentScaler-4B在Normal子集上得分從34.7提升至70.8(+36.1),Special子集從85.3降至70.0(-15.3),Agent子集從6.7飆升至38.4(+31.7),總體得分提升21.7分至65.6。這些結果證明,AgentScaler不僅在訓練領域表現優異,還能有效泛化到新語言環境,展現出強大的魯棒性和泛化能力。
ACEBench-zh作為分布外評估場景,驗證了AgentScaler模型的泛化能力。數據顯示,AgentScaler-4B在Normal子集得分提升36.1分,Special子集略有下降但保持70.0的高分,而Agent子集得分更是從6.7飆升至38.4,總體得分提升21.7分。這表明模型不僅在訓練領域表現優異,還能有效適應新語言環境,展現出強大的魯棒性和泛化能力。

τ2-Bench上各領域的pass^k指標結果
"穩方致遠"的實踐:智能體的穩定性問題長期被忽視,而AgentScaler通過pass^k指標(k次獨立嘗試中均正確回答的準確率)揭示了這一關鍵維度。圖4顯示,隨著k值增加,所有模型的準確率都顯著下降,但AgentScaler-30B-A3B在所有k值下均優于Qwen3基線,表明其更可靠的工業部署潛力。這一發現提醒業界:智能體的穩定性與峰值性能同樣重要。
"長路漫漫"的挑戰:下圖的散點圖精確量化了工具調用鏈長度與任務準確率的關系。該圖清晰展示了工具調用鏈長度與任務準確率的負相關關系,散點分布表明隨著調用次數增加,任務完成準確率呈下降趨勢。在零售領域,根據散點圖趨勢線,工具調用次數與任務準確率呈負相關,調用次數增加時準確率呈下降趨勢;航空領域的下降趨勢更為陡峭。這一發現證實了長程工具調用仍是智能體模型的根本挑戰。

工具調用復雜度與準確率關系(零售vs航空領域)
值得強調的是,論文在Limitation部分引用了Belcak等人的觀點:"小語言模型是智能體AI的未來"。這一判斷與AgentScaler的實驗結果高度一致:緊湊模型在智能體任務中展現出巨大潛力,不僅部署成本更低,響應速度更快,還能在邊緣設備上運行,實現更廣泛的應用場景。這標志著智能體開發范式的根本轉變——從追求參數規模到優化訓練范式。
開啟智能體2.0時代
AgentScaler不僅是一個模型,更是一種范式革命——它證明了通過系統性地規模化環境,可以 scale 智能體能力。這一研究為智能體技術的未來發展指明了方向:
首先,強化學習(RL)將在智能體訓練中迎來復興。論文在"Limitation"部分明確指出,模擬環境提供穩定低延遲的反饋,本質上非常適合RL優化。低成本、高保真的模擬環境將極大降低RL訓練門檻,使智能體能夠通過試錯學習更復雜的決策策略。
其次,垂直領域的智能體開發將加速普及。基于論文描述的"領域檢測-環境構建-兩階段訓練"標準化流程,各行業將能夠快速構建符合自身需求的智能體開發套件,實現從通用能力到領域專長的高效轉化。
最后,智能體評估標準將發生根本性變革。從單一的"回答準確率"轉向"任務完成率"、"環境狀態改變"等更綜合的指標,將更真實地反映智能體在實際場景中的效能。
隨著環境構建技術的成熟,"環境即服務"(Environment-as-a-Service)生態有望快速形成。企業無需從零開始構建模擬環境,而是可以基于標準化的環境構建框架,快速定制符合自身業務需求的訓練場。這種模式將極大降低智能體開發門檻,正如論文結論所強調的:"可擴展的環境構建和可驗證的智能體經驗對培養穩健且可泛化的語言智能體至關重要"。未來,環境構建能力可能成為智能體技術棧中的核心基礎設施,催生新的產業分工。
論文在Limitation部分也坦誠指出了當前工作的局限性:盡管提出的框架已展示出良好結果,但仍存在若干局限。具體而言,方法目前僅在30B規模架構上得到驗證,這指明了未來擴展方向;同時,長程工具調用仍是根本性挑戰,這解釋了為何研究團隊計劃在未來工作中解決這一問題。
在通往通用智能體智能的路上,"Environment scale"不再是可選項,而是必選項。正如論文結論所言:"可擴展的環境構建和可驗證的智能體經驗,對于培養穩健且可泛化的語言智能體至關重要。"當環境成為智能的土壤,而非智能的邊界,我們或將見證AI從"語言理解"邁向"真實行動"的歷史性跨越——這不僅是技術的演進,更是智能本質的重新定義。























