斯坦福最新研究：AI 的上下文比參數重要，無需重訓、不再微調

2025-10-31 16:06:19

近日，斯坦福大學與 SambaNova Systems 合作發表了論文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。

大數據文摘出品

近日，斯坦福大學與 SambaNova Systems 合作發表了論文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。

該論文提出了一個名為ACE（Agentic Context Engineering）的框架，可以讓AI在不重新訓練權重的前提下，實現自我改進。

圖片

論文的核心思想是，大模型的能力，并非僅由參數決定，更取決于“上下文的質量”。換句話說，誰能構建出最優的上下文，誰就能讓模型更聰明。

ACE的核心思想，是讓模型不再依賴“靜態提示（prompt）”，而轉向一種動態、結構化、可進化的“知識劇本”（playbook）。

這些劇本記錄了模型在任務執行中積累的策略、規則、模板和修正規則。每一次失敗或成功，都會被轉化為一條“增量更新”（delta）。

與傳統的“重寫提示”不同，ACE通過小步安全更新不斷改進劇本，而不是一次性推倒重來。

這種機制意味著，AI可以在運行中學習、記憶、改進，而不需任何參數微調。

ACE框架

研究者指出，這一機制能避免兩種致命問題：一是簡化偏差（brevity bias），即在追求簡潔的優化中丟失關鍵細節；二是上下文崩塌（context collapse），即重寫導致的知識損毀。

論文舉例稱，在實驗中，一個AI代理積累了1.8萬token的上下文，表現良好。但當模型試圖“總結壓縮”它時，劇本被削減至僅122個token，性能瞬間跌至57.1%。

研究者直言：“模型擅長使用知識，但不擅長整理知識。一次錯誤的重寫，就可能摧毀全部積累。”

論文稱ACE解決了這種“自毀式學習”的結構性風險。

圖片

圖注：ACE 框架在三類任務（智能體操作、領域知識、數值推理）上都顯著優于其他方法，準確率提升最明顯。

ACE體系建立在一個極簡哲學上：不要重寫知識，要管理知識。

整個系統被拆解為三個互補的角色。

第一個是生成器（Generator）。它負責執行任務，與環境交互，生成推理過程、代碼或操作序列。

第二個是反思器（Reflector）。它分析生成器的行動軌跡，識別成功與失敗的原因，提取“可操作的教訓”。這些反饋信號可能來自代碼錯誤、執行結果或外部標簽。

第三個是策展器（Curator）。它將這些經驗提煉為結構化條目（delta context），并通過確定性規則（非語言模型決策）整合進主劇本。

這樣的三層循環——行動、反思、整合構成了ACE的學習閉環。

每次更新都只影響局部條目，不觸碰整體文本。這種局部增量機制，讓知識庫既能不斷擴展，又不會坍塌。

劇本本身被設計為項目化結構：包含策略規則、API調用模板、調試經驗、常見錯誤解決方案等。每條條目附帶使用計數與正負反饋元數據。

反思器會根據這些記錄判斷哪些規則有效、哪些無用。策展器再據此修改或刪除。

論文稱，這種方式讓AI的知識“像Git倉庫一樣演化”，能安全地生長、細致地修剪、透明地追溯。

研究者強調，ACE的復雜度并非負擔，而是一種結構化的安全機制，以微小的系統開銷換取知識的穩定積累。

在復雜的AppWorld代理任務中，ACE框架帶來了+10.6%的平均性能提升，并將適應延遲降低86.9%。

研究團隊特別提到，這一提升并非依賴更大的模型，而是源于更好的上下文管理。

一個典型例子是：DeepSeek V3.1，參數量低于GPT-4.1。但在ACE框架下，它在AppWorld基準測試中，竟能與GPT-4.1代理（IBM CUGA）持平，甚至在更復雜的測試集上反超。

研究者指出，這一結果說明，“上下文工程”已成為新的算力平權器。

更重要的是，ACE的效率優勢驚人。在多輪任務學習中，它的更新延遲減少82%~91%，token成本下降83.6%。

圖片

圖注：在金融分析任務中，ACE 框架顯著提升模型表現（平均提升約 8.6%），即使沒有真實標簽也能保持穩定表現。

論文認為，這讓“在線持續學習”從概念變為現實。AI不再需要頻繁微調，而可以在運行中自我優化。

同時，ACE的結構化劇本讓學習過程可解釋、可審計、可撤回。

如果某條規則被發現過時、偏頗或違規，系統可以精準刪除對應條目，實現“選擇性遺忘”。

責任編輯：武曉燕來源：大數據文摘