大模型如何像人類一樣"做筆記"并自我提升?
想象一下,你正在準備一場重要考試。你不會只記住"好好學習"這種籠統的話,而是會在筆記本上詳細記錄:哪些題型容易出錯、解題的具體步驟、老師強調的重點……這本筆記會隨著學習不斷補充和完善,最終成為你的"通關秘籍"。
現在,大模型也學會了這種學習方法。
當前大模型系統面臨的困境:大模型的應用越來越依賴上下文適應——通過調整輸入的指令、策略和證據來改進性能,而不是修改模型本身的參數。這就像給大模型提供一份"使用說明書",告訴它該如何更好地完成任務。
但現有方法存在三個致命問題:
- 簡潔偏見:許多優化方法過分追求簡短的指令,比如只告訴大模型"創建單元測試以確保方法按預期運行"。這聽起來清晰明了,但實際上丟失了大量領域特定的技巧、工具使用指南和常見錯誤模式。
圖片
- 上下文崩潰:當大模型被要求重寫整個上下文時,往往會將其壓縮成更短的摘要。研究發現,在某個測試中,上下文從18,282個詞壓縮到僅122個詞后,準確率從66.7%驟降至57.1%——比不做任何優化還要差。
圖片
ACE:讓大模型擁有"進化的筆記本":為了解決這些問題,研究者提出了ACE(Agentic Context Engineering)框架。ACE不是把知識壓縮成簡短摘要,而是將其視為**持續演化的策略手冊——詳細、全面、富含領域洞察。
圖片
三個角色的協作:ACE采用了類似人類學習的方式,分為三個角色:
1.生成者(Generator):負責執行任務,產生推理過程
2.反思者(Reflector):從成功和失敗中提煉具體經驗
3.策展者(Curator):將經驗整合到結構化的上下文更新中
這就像一個學習小組:有人做題(生成者),有人分析錯誤原因(反思者),有人整理筆記(策展者)。分工明確,各司其職。
增量更新:只改需要改的地方:ACE的核心創新是增量更新機制。它不會每次都重寫整本"筆記",而是采用"條目"式管理:
?每條策略都有唯一標識和使用統計
?只更新相關的條目,而不是重寫全部
?新知識被追加,舊知識被保留
這避免了昂貴的全量重寫成本,也防止了知識的意外丟失。
增長與精煉:保持筆記本整潔:隨著時間推移,ACE通過增長與精煉機制保持上下文的緊湊和相關性:新條目不斷追加,重復內容定期去除,就像定期整理筆記本一樣。
實測效果:ACE在多個任務上的表現令人印象深刻:
圖片
agent任務:在AppWorld基準測試中,ACE使準確率提升了10.6%。更令人驚訝的是,使用開源小模型的ACE系統,在排行榜上與IBM的GPT-4.1驅動的頂級系統打成平手,在更難的測試集上甚至反超8.4%。
金融分析任務:在需要專業知識的金融推理測試中,ACE帶來了8.6%的平均性能提升。
無需標注數據:ACE能夠僅通過執行反饋(比如代碼是否運行成功)來學習和改進,不需要人工標注的"正確答案"。這意味著它可以真正實現自我提升。
更快更省:ACE將適應延遲降低了86.9%,同時需要更少的計算資源和成本。
圖片
ACE的成功揭示了一個重要原則:對大模型來說,詳細的長上下文比簡潔的總結更有效。與人類不同,大模型擅長從海量詳細信息中自主提取相關內容。
這為在線學習和持續學習開辟了新方向。因為上下文是人類可解釋的,我們可以輕松審查、修改甚至刪除特定知識——這在隱私保護和糾正錯誤信息方面有重要意義。
更重要的是,ACE展示了自我改進大模型系統的可能性:系統可以從執行反饋中學習,不斷積累經驗,逐步提升能力,而這一切只需要較低的計算開銷。
論文標題:Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models





























