英偉達放話:小模型才是Agent的未來!
這幾天,英偉達的一篇論文非常火,標題很直接,小模型才是Agentic AI的未來~
整個內容,主要是論證了為什么要考慮SLM?以及如何從LLM遷移成SLM的六步教程,并論證了開源Agent框架替換成SLM,帶來的結果。
今天給家人們分享一下論文內容。

為什么說LLM做大了還不行?
目前行業主流的萬事皆用LLM的Agent構建模式,是一種巨大的資源浪費。
AI Agent的大部分子任務,其實是重復、有范圍、非對話式的,用一個龐大的、無所不能的LLM去處理,就先殺雞用牛刀。
大模型的消耗真的很大, Google 周末發布了一個技術報告,平均統計,Gemini 的指令中位數消耗是0.24 瓦電,消耗約 0.26 毫升水(約五滴),并產生 0.03 克二氧化碳。

NVIDIA 給出的小模型的理由有三:
SLM已經足夠強大
過去的是小模型=性能差,但在現在的很多優秀的小模型上,已經超過了千代百億、千億的模型。
比如說:各種R1-distill、Qwen3、Phi3、MiniCPM 4 等。
在Agent執行具體任務時,我們真正需要的是能力,而不是參數量。
便宜
與70B-175B的LLM相比,一個7B的SLM在延遲、能耗和FLOPs上的成本要低10-30倍!
更快的響應速度、更低的部署門檻。而且,SLM的微調更容易,可以快速迭代和微調。
異構系統才是未來
未來的Agent系統不應該是單一LLM,而應該是一個專家團隊(異構系統)。

在這個系統里,SLM是默認的執行者,處理90%的常規任務。只有當遇到極其復雜、需要開放域對話或通用推理的難題時,系統才會向上求助,調用一次昂貴的LLM。
SLM-first,LLM-fallback 。
從LLM到SLM,6步降本增效流程
論文提供了一套將現有Agent從LLM遷移到SLM的六步流程。我也整理出來了:
S1:埋點,收集調用數據
首先,在你的Agent系統中部署日志工具,記錄所有非用戶直接交互的LLM/Tool調用,包括輸入Prompt、輸出結果、工具調用參數等。
S2:清洗和過濾數據
收集到足夠數據(如10k-100k條)后,進行脫敏處理,移除所有個人身份信息(PII)和其他敏感數據,確保數據安全。
S3:任務聚類,找到可替代場景
使用無監督聚類等技術,分析收集到的數據,找到重復出現的請求模式或內部操作。比如,意圖識別、特定格式的數據提取、代碼生成等。這些聚類出的任務,就是SLM的候選場景。
S4:選擇合適的SLM
給每個任務選擇一個或多個候選SLM。選擇標準包括:模型能力、許可協議、部署成本等。比如 R1-distill、Qwen3、Phi3、MiniCPM 4 等等都可以作為起點。
S5:微調專家SLM
使用步驟3中聚類好的數據,對選定的SLM進行微調(Lora或者全參都可以)。也可以使用知識蒸餾,讓SLM學習模仿LLM在該特定任務上的輸出。
S6:迭代和優化
部署SLM后,持續收集新數據,定期重新訓練和優化模型,形成一個持續改進的閉環。
到底能省多少?3個開源項目的評估
論文還分析了3個熱門的開源Agent項目,評估了它們內部的LLM調用有多少可以被SLM替代:
- MetaGPT: 約 60% 的查詢可以被SLM處理(如常規代碼生成、文檔編寫)。
- Cradle: 約 70% 的查詢可以被SLM處理(如重復性GUI交互、執行預定點擊序列)。
- Open Operator: 約 40% 的查詢可以被SLM處理(如簡單的命令解析、模板化消息生成)。
說明,即使是復雜的Agent框架,也有很大一部分工作流可以享受到SLM帶來的成本優勢。
最后
從LLM-centric到SLM-first。
整個論文,實際上是呼吁整個AI Agent行業回歸理性:停止對大模型的盲目崇拜,轉向對效能的極致追求。
論文地址:https://arxiv.org/pdf/2506.02153v1
本文轉載自??探索AGI??,作者:獼猴桃

















