大模型如何像人類一樣"做筆記"并自我提升？

作者：無影寺 2025-10-13 07:58:56

許多優化方法過分追求簡短的指令，比如只告訴大模型"創建單元測試以確保方法按預期運行"。這聽起來清晰明了，但實際上丟失了大量領域特定的技巧、工具使用指南和常見錯誤模式。

想象一下，你正在準備一場重要考試。你不會只記住"好好學習"這種籠統的話，而是會在筆記本上詳細記錄：哪些題型容易出錯、解題的具體步驟、老師強調的重點……這本筆記會隨著學習不斷補充和完善，最終成為你的"通關秘籍"。

現在，大模型也學會了這種學習方法。

當前大模型系統面臨的困境：大模型的應用越來越依賴上下文適應——通過調整輸入的指令、策略和證據來改進性能，而不是修改模型本身的參數。這就像給大模型提供一份"使用說明書"，告訴它該如何更好地完成任務。

但現有方法存在三個致命問題：

簡潔偏見：許多優化方法過分追求簡短的指令，比如只告訴大模型"創建單元測試以確保方法按預期運行"。這聽起來清晰明了，但實際上丟失了大量領域特定的技巧、工具使用指南和常見錯誤模式。

圖片

上下文崩潰：當大模型被要求重寫整個上下文時，往往會將其壓縮成更短的摘要。研究發現，在某個測試中，上下文從18,282個詞壓縮到僅122個詞后，準確率從66.7%驟降至57.1%——比不做任何優化還要差。

圖片

ACE：讓大模型擁有"進化的筆記本"：為了解決這些問題，研究者提出了ACE（Agentic Context Engineering）框架。ACE不是把知識壓縮成簡短摘要，而是將其視為**持續演化的策略手冊——詳細、全面、富含領域洞察。

圖片

三個角色的協作：ACE采用了類似人類學習的方式，分為三個角色：

1.生成者（Generator）：負責執行任務，產生推理過程

2.反思者（Reflector）：從成功和失敗中提煉具體經驗

3.策展者（Curator）：將經驗整合到結構化的上下文更新中

這就像一個學習小組：有人做題（生成者），有人分析錯誤原因（反思者），有人整理筆記（策展者）。分工明確，各司其職。

增量更新：只改需要改的地方：ACE的核心創新是增量更新機制。它不會每次都重寫整本"筆記"，而是采用"條目"式管理：

?每條策略都有唯一標識和使用統計

?只更新相關的條目，而不是重寫全部

?新知識被追加，舊知識被保留

這避免了昂貴的全量重寫成本，也防止了知識的意外丟失。

增長與精煉：保持筆記本整潔：隨著時間推移，ACE通過增長與精煉機制保持上下文的緊湊和相關性：新條目不斷追加，重復內容定期去除，就像定期整理筆記本一樣。

實測效果：ACE在多個任務上的表現令人印象深刻：

圖片

agent任務：在AppWorld基準測試中，ACE使準確率提升了10.6%。更令人驚訝的是，使用開源小模型的ACE系統，在排行榜上與IBM的GPT-4.1驅動的頂級系統打成平手，在更難的測試集上甚至反超8.4%。

金融分析任務：在需要專業知識的金融推理測試中，ACE帶來了8.6%的平均性能提升。

無需標注數據：ACE能夠僅通過執行反饋（比如代碼是否運行成功）來學習和改進，不需要人工標注的"正確答案"。這意味著它可以真正實現自我提升。

更快更省：ACE將適應延遲降低了86.9%，同時需要更少的計算資源和成本。

圖片

ACE的成功揭示了一個重要原則：對大模型來說，詳細的長上下文比簡潔的總結更有效。與人類不同，大模型擅長從海量詳細信息中自主提取相關內容。

這為在線學習和持續學習開辟了新方向。因為上下文是人類可解釋的，我們可以輕松審查、修改甚至刪除特定知識——這在隱私保護和糾正錯誤信息方面有重要意義。

更重要的是，ACE展示了自我改進大模型系統的可能性：系統可以從執行反饋中學習，不斷積累經驗，逐步提升能力，而這一切只需要較低的計算開銷。

論文標題：Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

責任編輯：武曉燕來源： AI帝國