斯坦福最新研究:AI 的上下文比參數重要,無需重訓、不再微調
大數據文摘出品
近日,斯坦福大學與 SambaNova Systems 合作發表了論文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。
該論文提出了一個名為ACE(Agentic Context Engineering)的框架,可以讓AI在不重新訓練權重的前提下,實現自我改進。
圖片
論文鏈接:http://arxiv.org/abs/2510.04618v1
論文的核心思想是,大模型的能力,并非僅由參數決定,更取決于“上下文的質量”。換句話說,誰能構建出最優的上下文,誰就能讓模型更聰明。
ACE的核心思想,是讓模型不再依賴“靜態提示(prompt)”,而轉向一種動態、結構化、可進化的“知識劇本”(playbook)。
這些劇本記錄了模型在任務執行中積累的策略、規則、模板和修正規則。每一次失敗或成功,都會被轉化為一條“增量更新”(delta)。
與傳統的“重寫提示”不同,ACE通過小步安全更新不斷改進劇本,而不是一次性推倒重來。
這種機制意味著,AI可以在運行中學習、記憶、改進,而不需任何參數微調。
ACE框架
研究者指出,這一機制能避免兩種致命問題:一是簡化偏差(brevity bias),即在追求簡潔的優化中丟失關鍵細節;二是上下文崩塌(context collapse),即重寫導致的知識損毀。

論文舉例稱,在實驗中,一個AI代理積累了1.8萬token的上下文,表現良好。但當模型試圖“總結壓縮”它時,劇本被削減至僅122個token,性能瞬間跌至57.1%。
研究者直言:“模型擅長使用知識,但不擅長整理知識。一次錯誤的重寫,就可能摧毀全部積累。”
論文稱ACE解決了這種“自毀式學習”的結構性風險。
圖片
圖注:ACE 框架在三類任務(智能體操作、領域知識、數值推理)上都顯著優于其他方法,準確率提升最明顯。
三角色協作:生成、反思、策展
ACE體系建立在一個極簡哲學上:不要重寫知識,要管理知識。
整個系統被拆解為三個互補的角色。
第一個是生成器(Generator)。它負責執行任務,與環境交互,生成推理過程、代碼或操作序列。
第二個是反思器(Reflector)。它分析生成器的行動軌跡,識別成功與失敗的原因,提取“可操作的教訓”。這些反饋信號可能來自代碼錯誤、執行結果或外部標簽。
第三個是策展器(Curator)。它將這些經驗提煉為結構化條目(delta context),并通過確定性規則(非語言模型決策)整合進主劇本。
這樣的三層循環——行動、反思、整合構成了ACE的學習閉環。
每次更新都只影響局部條目,不觸碰整體文本。這種局部增量機制,讓知識庫既能不斷擴展,又不會坍塌。
劇本本身被設計為項目化結構:包含策略規則、API調用模板、調試經驗、常見錯誤解決方案等。每條條目附帶使用計數與正負反饋元數據。
反思器會根據這些記錄判斷哪些規則有效、哪些無用。策展器再據此修改或刪除。
論文稱,這種方式讓AI的知識“像Git倉庫一樣演化”,能安全地生長、細致地修剪、透明地追溯。
研究者強調,ACE的復雜度并非負擔,而是一種結構化的安全機制,以微小的系統開銷換取知識的穩定積累。
小模型“越級打怪”:DeepSeek擊敗GPT-4.1
在復雜的AppWorld代理任務中,ACE框架帶來了+10.6%的平均性能提升,并將適應延遲降低86.9%。
研究團隊特別提到,這一提升并非依賴更大的模型,而是源于更好的上下文管理。
一個典型例子是:DeepSeek V3.1,參數量低于GPT-4.1。但在ACE框架下,它在AppWorld基準測試中,竟能與GPT-4.1代理(IBM CUGA)持平,甚至在更復雜的測試集上反超。
研究者指出,這一結果說明,“上下文工程”已成為新的算力平權器。
更重要的是,ACE的效率優勢驚人。在多輪任務學習中,它的更新延遲減少82%~91%,token成本下降83.6%。
圖片
圖注:在金融分析任務中,ACE 框架顯著提升模型表現(平均提升約 8.6%),即使沒有真實標簽也能保持穩定表現。
論文認為,這讓“在線持續學習”從概念變為現實。AI不再需要頻繁微調,而可以在運行中自我優化。
同時,ACE的結構化劇本讓學習過程可解釋、可審計、可撤回。
如果某條規則被發現過時、偏頗或違規,系統可以精準刪除對應條目,實現“選擇性遺忘”。



































