英偉達放話：小模型才是Agent的未來！

探索AGI

發布于 2025-9-1 00:10

瀏覽

0收藏

這幾天，英偉達的一篇論文非常火，標題很直接，小模型才是Agentic AI的未來~

整個內容，主要是論證了為什么要考慮SLM？以及如何從LLM遷移成SLM的六步教程，并論證了開源Agent框架替換成SLM，帶來的結果。

今天給家人們分享一下論文內容。

英偉達放話：小模型才是Agent的未來！-AI.x社區

為什么說LLM做大了還不行？

目前行業主流的萬事皆用LLM的Agent構建模式，是一種巨大的資源浪費。

AI Agent的大部分子任務，其實是重復、有范圍、非對話式的，用一個龐大的、無所不能的LLM去處理，就先殺雞用牛刀。

大模型的消耗真的很大， Google 周末發布了一個技術報告，平均統計，Gemini 的指令中位數消耗是0.24 瓦電，消耗約 0.26 毫升水（約五滴），并產生 0.03 克二氧化碳。

英偉達放話：小模型才是Agent的未來！-AI.x社區

NVIDIA 給出的小模型的理由有三：

SLM已經足夠強大

過去的是小模型=性能差，但在現在的很多優秀的小模型上，已經超過了千代百億、千億的模型。

比如說：各種R1-distill、Qwen3、Phi3、MiniCPM 4 等。

在Agent執行具體任務時，我們真正需要的是能力，而不是參數量。

便宜

與70B-175B的LLM相比，一個7B的SLM在延遲、能耗和FLOPs上的成本要低10-30倍！

更快的響應速度、更低的部署門檻。而且，SLM的微調更容易，可以快速迭代和微調。

異構系統才是未來

未來的Agent系統不應該是單一LLM，而應該是一個專家團隊（異構系統）。

英偉達放話：小模型才是Agent的未來！-AI.x社區

在這個系統里，SLM是默認的執行者，處理90%的常規任務。只有當遇到極其復雜、需要開放域對話或通用推理的難題時，系統才會向上求助，調用一次昂貴的LLM。

SLM-first，LLM-fallback 。

從LLM到SLM，6步降本增效流程

論文提供了一套將現有Agent從LLM遷移到SLM的六步流程。我也整理出來了：

S1：埋點，收集調用數據

首先，在你的Agent系統中部署日志工具，記錄所有非用戶直接交互的LLM/Tool調用，包括輸入Prompt、輸出結果、工具調用參數等。

S2：清洗和過濾數據

收集到足夠數據（如10k-100k條）后，進行脫敏處理，移除所有個人身份信息（PII）和其他敏感數據，確保數據安全。

S3：任務聚類，找到可替代場景

使用無監督聚類等技術，分析收集到的數據，找到重復出現的請求模式或內部操作。比如，意圖識別、特定格式的數據提取、代碼生成等。這些聚類出的任務，就是SLM的候選場景。

S4：選擇合適的SLM

給每個任務選擇一個或多個候選SLM。選擇標準包括：模型能力、許可協議、部署成本等。比如 R1-distill、Qwen3、Phi3、MiniCPM 4 等等都可以作為起點。

S5：微調專家SLM

使用步驟3中聚類好的數據，對選定的SLM進行微調（Lora或者全參都可以）。也可以使用知識蒸餾，讓SLM學習模仿LLM在該特定任務上的輸出。

S6：迭代和優化

部署SLM后，持續收集新數據，定期重新訓練和優化模型，形成一個持續改進的閉環。

到底能省多少？3個開源項目的評估

論文還分析了3個熱門的開源Agent項目，評估了它們內部的LLM調用有多少可以被SLM替代：

MetaGPT: 約 60% 的查詢可以被SLM處理（如常規代碼生成、文檔編寫）。
Cradle: 約 70% 的查詢可以被SLM處理（如重復性GUI交互、執行預定點擊序列）。
Open Operator: 約 40% 的查詢可以被SLM處理（如簡單的命令解析、模板化消息生成）。

說明，即使是復雜的Agent框架，也有很大一部分工作流可以享受到SLM帶來的成本優勢。

最后

從LLM-centric到SLM-first。

整個論文，實際上是呼吁整個AI Agent行業回歸理性：停止對大模型的盲目崇拜，轉向對效能的極致追求。

論文地址：https://arxiv.org/pdf/2506.02153v1

本文轉載自??探索AGI??，作者：獼猴桃

標簽

英偉達

小模型

Agent

已于2025-9-1 00:10:00修改

贊

回復

舉報

回復

相關推薦

CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達)

angel ? 5551瀏覽 ? 0回復
英偉達股價暴跌！或與 Llama 3 發布有關？

開發者阿橙 ? 4970瀏覽 ? 0回復
英偉達開源大模型對齊框架—NeMo-Aligner

Aceryt ? 4459瀏覽 ? 0回復
又來一個RAG：RankRAG，英偉達RAG新思路

大語言模型論文跟蹤 ? 4332瀏覽 ? 0回復
大模型Agent的過去、現在、未來

探索AGI ? 3959瀏覽 ? 0回復
一夜小模型王座易主！英偉達發布超強小模型，性能、速率、緩存全面超越Llama3.2！

51CTO技術棧 ? 3373瀏覽 ? 0回復
英偉達NVLM多模態大模型細節和數據集

大模型自然語言處理 ? 4342瀏覽 ? 0回復
“大模型+知識圖譜”雙輪驅動的見解、技術和評估 - 英偉達的GraphRAG

知識圖譜科技 ? 4916瀏覽 ? 0回復
英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 5180瀏覽 ? 0回復
微軟開源小模型Phi系列：技術演進、能力突破與未來展望

上堵吟1 ? 4936瀏覽 ? 0回復
多Agent思想顯著提升小模型工具調用能力

arnoldzhw ? 5227瀏覽 ? 0回復
LLM之后，Agent的未來是RL！

探索AGI ? 5932瀏覽 ? 0回復
英偉達發布天氣模型CorrDiff，預測效率大漲

Aceryt ? 3729瀏覽 ? 0回復
英偉達全力發展AI Agent！開源專屬大模型，最強AI工廠

Aceryt ? 3156瀏覽 ? 0回復
英偉達開源通用機器人大模型—GR00T N1

Aceryt ? 3120瀏覽 ? 0回復
英偉達 GTC 2025：從芯片到機器人，AI 未來已來，市場為何不買賬？

Halo咯咯 ? 3411瀏覽 ? 0回復
從 GPT-4O 生圖看自回歸模型與擴散模型的博弈：誰才是圖像生成的未來？

智駐未來 ? 4244瀏覽 ? 0回復
英偉達押注Agent新基建！AI專屬搜索引擎問世

探索AGI ? 3345瀏覽 ? 0回復
忘記大模型，英偉達：小模型才是Agentic AI的未來！

智駐未來 ? 2043瀏覽 ? 0回復

探索AGI

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

英偉達放話：小模型才是Agent的未來！

為什么說LLM做大了還不行？

SLM已經足夠強大

便宜

異構系統才是未來

從LLM到SLM，6步降本增效流程

S1：埋點，收集調用數據

S2：清洗和過濾數據

S3：任務聚類，找到可替代場景

S4：選擇合適的SLM

S5：微調專家SLM

S6：迭代和優化

到底能省多少？3個開源項目的評估

最后

目錄