從18k到122：ACE框架如何破解LLM上下文坍縮的致命陷阱

作者：四零柒 2025-10-17 03:00:00

上下文坍縮是LLM應(yīng)用中鮮為人知卻影響深遠(yuǎn)的難題。本文將探索ACE框架如何通過增量Delta更新與模塊化設(shè)計，讓LLM上下文從"越優(yōu)化越差"轉(zhuǎn)變?yōu)?quot;越積累越強(qiáng)"。研究顯示，ACE不僅在AppWorld任務(wù)中超越GPT-4.1驅(qū)動的智能體，還將適應(yīng)延遲降低86.9%，為構(gòu)建自進(jìn)化的AI系統(tǒng)提供全新范式。

大家好，我是肆〇柒。今天我們一起閱讀一項由斯坦福大學(xué)與SambaNova Systems聯(lián)合研究團(tuán)隊提出的突破性技術(shù)——Agentic Context Engineering（ACE）框架。這項研究直面LLM應(yīng)用中的核心挑戰(zhàn)：當(dāng)上下文從18,282個Token坍縮至122個Token時，準(zhǔn)確率竟從66.7%驟降至57.1%，甚至低于無適應(yīng)的基線水平。ACE通過創(chuàng)新的模塊化設(shè)計，成功將上下文轉(zhuǎn)化為可積累、可進(jìn)化的戰(zhàn)術(shù)手冊，在AppWorld智能體任務(wù)中讓開源模型DeepSeek-V3.1超越了GPT-4.1驅(qū)動的頂級智能體。

在 AppWorld 智能體任務(wù)中，一個令人費(fèi)解的現(xiàn)象發(fā)生了：第 60 步的上下文包含 18,282 個 Token 且準(zhǔn)確率達(dá) 66.7%，但下一步卻驟然坍縮至僅 122 個 Token，準(zhǔn)確率跌至 57.1%——甚至低于無適應(yīng)的基線（63.7%）。

上下文坍縮現(xiàn)象

這一現(xiàn)象揭示了當(dāng)前上下文優(yōu)化方法的致命缺陷：隨著迭代進(jìn)行，系統(tǒng)反而丟失關(guān)鍵信息，性能不升反降。研究顯示，在第 60 步，上下文準(zhǔn)確率達(dá)到 66.7%，但當(dāng) LLM 被要求在下一步完全重寫累積的上下文時，它將 18,282 個 Token 的豐富知識壓縮為僅 122 個 Token 的簡短摘要，導(dǎo)致性能斷崖式下跌。

這種"越優(yōu)化越差"的現(xiàn)象對實際應(yīng)用具有災(zāi)難性影響。想象一個處理金融交易的智能體，在多次迭代后丟失了關(guān)鍵的 XBRL 規(guī)則或 API 分頁邏輯，可能導(dǎo)致嚴(yán)重錯誤卻難以察覺根源。上下文坍縮不僅是性能下降，更是系統(tǒng)可靠性的致命威脅——當(dāng)智能體在處理復(fù)雜任務(wù)時，丟失的不僅是 Token 數(shù)量，更是關(guān)鍵的領(lǐng)域知識和操作細(xì)節(jié)。

為何主流上下文優(yōu)化方法在長期迭代中會出現(xiàn)這種反直覺現(xiàn)象？Agentic Context Engineering（ACE）框架的提出，為這一問題提供了系統(tǒng)性解決方案，成功克服了 brevity bias（簡潔性偏見）與 context collapse（上下文坍縮）兩大瓶頸。與傳統(tǒng)方法將上下文視為需壓縮的"指令摘要"不同，ACE 主張將上下文構(gòu)建為可積累的"戰(zhàn)術(shù)手冊"（playbook）——詳盡、包容、富含領(lǐng)域洞見，讓 LLM 在推理時自主提取相關(guān)性。

ACE在智能體與領(lǐng)域任務(wù)上的性能對比

實驗數(shù)據(jù)顯示，ACE 在智能體和領(lǐng)域特定任務(wù)上分別實現(xiàn)平均 10.6% 和 8.6% 的性能提升，為上下文工程樹立了新標(biāo)桿。

上下文工程為何成為 LLM 應(yīng)用的關(guān)鍵路徑

上下文適應(yīng)（Context Adaptation）是指通過修改 LLM 輸入而非調(diào)整模型權(quán)重來提升性能的方法。這種方法適用于系統(tǒng)提示優(yōu)化、記憶管理、事實證據(jù)注入等多種場景，已成為當(dāng)下 LLM 應(yīng)用的核心范式。上下文適應(yīng)通過將澄清的指令、結(jié)構(gòu)化推理步驟或特定領(lǐng)域輸入格式直接整合到模型輸入中，從而在模型訓(xùn)練后提升性能。上下文支撐著 AI 系統(tǒng)的多個組件，包括指導(dǎo)下游任務(wù)的系統(tǒng)提示、承載過去事實和經(jīng)驗的記憶，以及減少幻覺和補(bǔ)充知識的事實證據(jù)。

相較于模型微調(diào)，上下文適應(yīng)具有顯著優(yōu)勢：上下文對用戶和開發(fā)者而言是可解釋和可解釋的，允許在運(yùn)行時快速集成新知識，并可在復(fù)合系統(tǒng)中的模型或模塊間共享。同時，長上下文 LLM 和上下文高效推理技術(shù)（如 KV cache 復(fù)用）的進(jìn)步使基于上下文的方法在部署中日益實用。隨著這些發(fā)展，上下文適應(yīng)正成為構(gòu)建能力強(qiáng)大、可擴(kuò)展且自進(jìn)化的 AI 系統(tǒng)的核心范式。

ACE 與 Dynamic Cheatsheet 的關(guān)系值得深入剖析。雖然 ACE 建立在 Dynamic Cheatsheet 的 agentic 架構(gòu)基礎(chǔ)上，但通過三大關(guān)鍵改進(jìn)解決了其根本局限：(1) 專用 Reflector 將評估與洞察提取分離，避免單一模型過載；(2) 增量 Delta 更新替代全量重寫，防止上下文坍縮；(3) grow-and-refine 機(jī)制平衡擴(kuò)展與冗余控制，確保上下文既詳盡又精煉。這一設(shè)計反映了現(xiàn)代 LLM 的一個重要特性：與人類不同，LLM 在長而詳盡的上下文中表現(xiàn)更佳，能夠自主過濾無關(guān)信息，無需人為壓縮關(guān)鍵領(lǐng)域知識。

在 AppWorld 案例中，當(dāng)智能體需要處理分頁任務(wù)時，簡潔的提示可能僅建議"獲取數(shù)據(jù)"，而丟失了“使用 while True 循環(huán)遍歷所有頁面索引直到無更多結(jié)果返回”這一關(guān)鍵細(xì)節(jié)，導(dǎo)致智能體只能獲取部分?jǐn)?shù)據(jù)。在金融分析任務(wù)中，簡潔的提示可能遺漏 XBRL 報告中的特定財務(wù)規(guī)則，使模型無法正確執(zhí)行財務(wù)計算。這些場景中，上下文不應(yīng)作為簡潔摘要，而應(yīng)作為全面、進(jìn)化的戰(zhàn)術(shù)手冊——詳細(xì)、 inclusive、富含領(lǐng)域洞見。

論文中詳細(xì)介紹了當(dāng)前上下文適應(yīng)的代表方法：Reflexion 通過反思失敗來改進(jìn)代理規(guī)劃；TextGrad 通過類梯度文本反饋優(yōu)化提示；GEPA 基于執(zhí)行軌跡迭代優(yōu)化提示，在某些場景甚至超越強(qiáng)化學(xué)習(xí)方法；Dynamic Cheatsheet 構(gòu)建外部記憶，從過去成功和失敗中積累策略和經(jīng)驗。這些基于自然語言反饋的方法代表了重大進(jìn)步，為改進(jìn) LLM 系統(tǒng)提供了靈活且可解釋的信號。ACE 在此基礎(chǔ)上進(jìn)一步發(fā)展，解決了現(xiàn)有方法在長期迭代中丟失關(guān)鍵信息的根本問題。

現(xiàn)有方法的兩大致命缺陷

現(xiàn)有上下文適應(yīng)方法面臨兩個根本性挑戰(zhàn)。首先是簡潔性偏見：優(yōu)化過程傾向于生成簡短、泛化的指令，犧牲領(lǐng)域特定細(xì)節(jié)。比如有的方法，文檔化了這一現(xiàn)象，在提示優(yōu)化過程中，迭代方法反復(fù)產(chǎn)生近似相同的指令（如"創(chuàng)建單元測試以確保方法行為符合預(yù)期"），導(dǎo)致策略同質(zhì)化并丟失多樣性和領(lǐng)域特定細(xì)節(jié)。這種收斂不僅 narrows the search space，還使優(yōu)化后的提示繼承種子提示的相同錯誤，傳播反復(fù)出現(xiàn)的錯誤。

這種現(xiàn)象在 AppWorld 智能體任務(wù)中尤為明顯，當(dāng)模型需要處理多步驟推理、工具使用和環(huán)境交互時，簡潔的泛化指令無法捕獲關(guān)鍵的領(lǐng)域特定策略。例如，當(dāng)智能體需要處理 API 分頁邏輯時，簡潔的提示可能僅建議獲取數(shù)據(jù)，而丟失了"使用 while True 循環(huán)遍歷所有頁面索引直到無更多結(jié)果返回"這一關(guān)鍵細(xì)節(jié)，導(dǎo)致智能體只能獲取部分?jǐn)?shù)據(jù)。在金融分析任務(wù)中，簡潔的提示可能遺漏 XBRL 報告中的特定財務(wù)規(guī)則，使模型無法正確執(zhí)行財務(wù)計算。

其次是上下文坍縮：當(dāng) LLM 被要求在每一步完全重寫累積的上下文時，隨著上下文增長，模型傾向于將其壓縮為更短、信息量更少的摘要，導(dǎo)致關(guān)鍵信息急劇丟失。AppWorld 案例清晰地展示了這一問題：在第 60 步，上下文包含 18,282 個 Token 且準(zhǔn)確率達(dá) 66.7%，但下一步卻坍縮至僅 122 個 Token，準(zhǔn)確率降至 57.1%。這種現(xiàn)象不僅限于 Dynamic Cheatsheet，而是 LLM 全量重寫上下文時的固有風(fēng)險——累積的知識可能被突然擦除而非保留。

上下文坍縮的根本原因在于 LLM 在重寫過程中傾向于偏好簡潔、概括性的表述，而丟失了具體、詳盡的領(lǐng)域知識。例如，當(dāng)處理金融分析任務(wù)時，長上下文可能包含詳細(xì)的 XBRL 規(guī)則和財務(wù)計算方法，但全量重寫后可能僅保留"提取財務(wù)數(shù)據(jù)"這樣泛泛的指令，導(dǎo)致模型無法執(zhí)行精確的財務(wù)分析。論文中特別指出，這種坍縮不是 Dynamic Cheatsheet 特有的問題，而是端到端上下文重寫中 LLM 的根本風(fēng)險，其中累積的知識可能被突然擦除而非保留。

在實際應(yīng)用中，上下文坍縮可能導(dǎo)致災(zāi)難性后果。當(dāng)智能體在處理復(fù)雜任務(wù)時，丟失的不僅是 Token 數(shù)量，更是關(guān)鍵的領(lǐng)域知識和操作細(xì)節(jié)。例如，在 AppWorld 任務(wù)中，智能體可能已經(jīng)學(xué)會了如何處理音樂播放列表的分頁邏輯，但一次全量重寫后，這些關(guān)鍵知識被壓縮為泛泛的"獲取數(shù)據(jù)"指令，導(dǎo)致智能體只能獲取部分播放列表，無法完成任務(wù)。這種"越優(yōu)化越差"的現(xiàn)象使開發(fā)者難以信任自動化的上下文優(yōu)化過程，限制了 LLM 系統(tǒng)的自進(jìn)化能力。

ACE 框架核心設(shè)計：讓上下文成為"進(jìn)化型 playbook"

ACE 通過將上下文視為可進(jìn)化的戰(zhàn)術(shù)手冊，從根本上解決了上述問題。該框架采用模塊化設(shè)計，將工作流分為三個專業(yè)化角色：

ACE框架結(jié)構(gòu)

ACE 的工作流始于 Generator 為新查詢生成推理軌跡，這些軌跡既包含有效策略也揭示常見陷阱。Reflector 隨后批判性分析這些軌跡，提取結(jié)構(gòu)化洞見，并可進(jìn)行多輪迭代優(yōu)化。Curator 則將這些洞見轉(zhuǎn)化為緊湊的增量條目（delta items），通過輕量級非 LLM 邏輯確定性合并到現(xiàn)有上下文中。這種設(shè)計使多個增量條目可并行合并，支持大規(guī)模批量適應(yīng)。ACE 還支持多輪精煉（multi-epoch adaptation），通過重復(fù)訪問相同查詢來逐步強(qiáng)化上下文。

基于這一角色分工，ACE 引入了三項關(guān)鍵創(chuàng)新機(jī)制解決傳統(tǒng)方法的局限。首先是增量 Delta 更新：ACE 的上下文以結(jié)構(gòu)化 bullet 形式組織，每個 bullet 包含兩部分：(1) 元數(shù)據(jù)（唯一標(biāo)識符及記錄被標(biāo)記為有用/有害次數(shù)的計數(shù)器）；(2) 內(nèi)容（如可重用策略、領(lǐng)域概念或常見失敗模式）。當(dāng)解決新問題時，Generator 會標(biāo)記哪些 bullets 有用或誤導(dǎo)，這些反饋指導(dǎo) Reflector 提出修正建議。

論文中詳細(xì)描述了 bullet 的結(jié)構(gòu)：每個 bullet 包含唯一標(biāo)識符和計數(shù)器，用于跟蹤其被標(biāo)記為有用或有害的次數(shù)。這種設(shè)計使系統(tǒng)能夠量化每個知識片段的有效性，為后續(xù)優(yōu)化提供數(shù)據(jù)支持。例如，在 AppWorld 任務(wù)中，當(dāng)智能體成功完成分頁任務(wù)時，相關(guān) bullet 會被標(biāo)記為有用，其計數(shù)器增加；當(dāng)分頁失敗時，相關(guān) bullet 會被標(biāo)記為有害，其計數(shù)器減少。這種機(jī)制使 ACE 能夠基于實際執(zhí)行結(jié)果動態(tài)調(diào)整上下文內(nèi)容，而非依賴靜態(tài)的預(yù)定義提示。

Curator 通過非 LLM 邏輯確定性合并這些增量，避免了全量重寫的高開銷。這種設(shè)計實現(xiàn)了三個關(guān)鍵特性：(1) 局部化更新，僅修改相關(guān) bullets；(2) 細(xì)粒度檢索，使 Generator 能聚焦最相關(guān)的知識；(3) 增量適應(yīng)，支持推理時的高效合并、修剪與去重。ACE 產(chǎn)生的增量條目通過結(jié)構(gòu)化方式組織，使系統(tǒng)能夠并行處理多個增量，顯著提升了大規(guī)模適應(yīng)的效率。

Reflector對分頁錯誤的精準(zhǔn)診斷

ACE 在 AppWorld 基準(zhǔn)測試中展現(xiàn)了具體錯誤診斷能力。如上圖所示，當(dāng)智能體錯誤地使用 for i in range(10) 循環(huán)而非正確分頁邏輯時，Reflector 能夠精確識別問題："生成的代碼使用了固定范圍循環(huán)（range(10)）進(jìn)行分頁，而非正確迭代直到無更多結(jié)果返回。這導(dǎo)致代理僅收集前10頁播放列表，遺漏了后續(xù)存在的13個額外播放列表。"這種精準(zhǔn)的錯誤診斷為上下文優(yōu)化提供了堅實基礎(chǔ)。

上圖提供了 Reflector 的具體工作示例：當(dāng)智能體在 AppWorld 任務(wù)中使用 for i in range(10) 而非正確的 while True 循環(huán)進(jìn)行分頁時，Reflector 能夠準(zhǔn)確分析錯誤原因、識別根本問題、提供正確方法，并總結(jié)關(guān)鍵洞見："對于分頁，始終使用 while True 循環(huán)而非固定范圍迭代，以確保收集所有可用頁面上的完整數(shù)據(jù)。"這種精準(zhǔn)診斷能力是 ACE 能夠有效優(yōu)化上下文的關(guān)鍵。

其次是 grow-and-refine 機(jī)制：新標(biāo)識符的 bullets 被追加，而現(xiàn)有 bullets 在原地更新（如增加計數(shù)器）。隨后通過語義嵌入進(jìn)行去重，系統(tǒng)通過計算語義相似度來識別重復(fù)或高度相似的 bullets，保留更精確或被標(biāo)記為更有用的條目。這種去重過程確保了上下文既詳盡又不冗余，是 ACE 避免上下文坍縮的關(guān)鍵。精煉可主動執(zhí)行（每次 delta 后立即執(zhí)行，適合對準(zhǔn)確性要求高的場景）或惰性執(zhí)行（僅當(dāng)上下文窗口超出時執(zhí)行，適合延遲敏感型應(yīng)用），為不同應(yīng)用場景提供靈活性。

ACE 的多輪精煉機(jī)制進(jìn)一步提升了上下文質(zhì)量。通過重復(fù)訪問相同查詢，系統(tǒng)能夠從多個角度診斷問題，提煉更精確的解決方案。這種機(jī)制使 Reflector 能夠進(jìn)行深度反思，避免表面層次的修正，從而構(gòu)建更高質(zhì)量的上下文。在消融實驗中，多輪精煉將準(zhǔn)確率從 56.8% 提升至 59.4%，證明了這一機(jī)制對上下文質(zhì)量的關(guān)鍵影響。

第三是無監(jiān)督自進(jìn)化能力：ACE 能夠僅依靠執(zhí)行反饋（如代碼執(zhí)行成功或失敗）而非人工標(biāo)注來指導(dǎo)上下文優(yōu)化。在 AppWorld 智能體任務(wù)中，系統(tǒng)僅依靠結(jié)構(gòu)化執(zhí)行反饋（如單元測試報告、代碼執(zhí)行結(jié)果、API 調(diào)用反饋）而非人工標(biāo)注來指導(dǎo)優(yōu)化。如上圖所示，當(dāng)智能體錯誤地使用 for i in range(10) 循環(huán)而非正確分頁邏輯時，Reflector 能精確識別問題并提供具體修正建議。這種基于執(zhí)行結(jié)果的精準(zhǔn)診斷使系統(tǒng)能在真實環(huán)境中持續(xù)學(xué)習(xí)，無需依賴昂貴的監(jiān)督信號。

ACE 的上下文組織方式使其能夠有效支持復(fù)雜任務(wù)。例如，在 AppWorld 智能體任務(wù)中，ACE 生成的上下文包括多個領(lǐng)域特定策略部分：Bill Splitting Tasks、File Organization Tasks、Music Playlist Tasks、File Compression Tasks、Alarm Management Tasks 和 Message Management Tasks。每個部分都包含具體的操作指南和常見錯誤預(yù)防措施，如在音樂播放列表任務(wù)中明確指出："計算所需總時長（例如，90分鐘=5400秒）→ 搜索不同流派的適當(dāng)歌曲（健身、活力、搖滾、流行、舞蹈）→ 使用 show_song() 獲取單個歌曲時長 → 添加歌曲到播放列表直到滿足總時長要求 → 使用 play_music() 與 playlist_id 開始播放"。

ACE生成的上下文示例

上圖展示了 ACE 在 AppWorld 基準(zhǔn)上生成的上下文，其中包含詳細(xì)的領(lǐng)域特定見解、工具使用指南和可直接使用的代碼片段，構(gòu)成了一個全面的戰(zhàn)術(shù)手冊，而非泛化摘要。值得注意的是，ACE 的效果依賴于 Reflector 的質(zhì)量。若 Reflector 無法從生成軌跡中提取有意義的見解，構(gòu)建的上下文可能變得嘈雜甚至有害。正如研究指出，"在領(lǐng)域特定任務(wù)中，若沒有模型能提取有用見解，結(jié)果上下文自然缺乏這些內(nèi)容"。

實證效果：ACE 在智能體與金融領(lǐng)域的雙重突破

ACE 在 AppWorld 智能體任務(wù)上展現(xiàn)了顯著優(yōu)勢。

AppWorld基準(zhǔn)測試結(jié)果

上表顯示，ReAct+ ACE 在離線設(shè)置中比 ReAct+ ICL 和 ReAct+ GEPA 分別高出 12.3% 和 11.9%，證明結(jié)構(gòu)化、進(jìn)化的詳細(xì)上下文比固定演示或單一優(yōu)化指令更有效。在無監(jiān)督設(shè)置下（無 GT 標(biāo)簽），ReAct+ ACE 仍比 ReAct 基線提升 14.8%，表明系統(tǒng)能僅依靠執(zhí)行反饋實現(xiàn)自進(jìn)化。

ACE與頂級智能體對比

更令人矚目的是，上圖顯示，在 AppWorld 領(lǐng)導(dǎo)榜上，ReAct+ ACE（59.4%）匹配了頂級生產(chǎn)級智能體 IBM-CUGA（60.3%）的平均表現(xiàn)，盡管前者使用的是較小的開源模型 DeepSeek-V3.1。在更具挑戰(zhàn)性的 test-challenge 分割上，ReAct+ ACE 甚至以 8.4% 的 TGC 和 0.7% 的 SGC 超過 IBM-CUGA，凸顯了 ACE 在構(gòu)建全面自進(jìn)化上下文方面的有效性。

ACE 在 AppWorld 上的成功源于其對復(fù)雜任務(wù)的精確處理能力。例如，在處理音樂播放列表任務(wù)時，ACE 能夠?qū)W習(xí)到："計算所需總時長（例如，90分鐘=5400秒）→ 搜索不同流派的適當(dāng)歌曲（健身、活力、搖滾、流行、舞蹈）→ 使用 show_song() 獲取單個歌曲時長 → 添加歌曲到播放列表直到滿足總時長要求 → 使用 play_music() 與 playlist_id 開始播放"。這種詳細(xì)的領(lǐng)域特定策略使智能體能夠正確執(zhí)行任務(wù)，而不會遺漏關(guān)鍵步驟。

在金融分析領(lǐng)域，ACE 同樣表現(xiàn)卓越。

金融分析基準(zhǔn)測試結(jié)果

上表顯示，當(dāng)提供訓(xùn)練分割中的真實答案時，ACE 在離線設(shè)置中以平均 10.9% 的優(yōu)勢超過 ICL、MIPROv2 和 GEPA，表明結(jié)構(gòu)化和進(jìn)化的上下文在需要精確領(lǐng)域知識（如金融概念、XBRL 規(guī)則）的任務(wù)中特別有效。在 Formula 任務(wù)中，ACE 達(dá)到 85.5% 的準(zhǔn)確率（+18.0%），遠(yuǎn)超其他方法。

ACE 在金融分析中的成功源于其對領(lǐng)域特定知識的精細(xì)積累。Formula 任務(wù)聚焦于從結(jié)構(gòu)化 XBRL 文件中提取值并執(zhí)行計算以回答財務(wù)查詢，這一任務(wù)需要精確的數(shù)值推理和領(lǐng)域知識。ACE 通過積累 XBRL 實體識別規(guī)則和數(shù)值計算策略，顯著提高了準(zhǔn)確性。例如，系統(tǒng)能夠?qū)W習(xí)識別"總資產(chǎn)"與"總負(fù)債"的計算方法，以及如何處理財務(wù)報表中的復(fù)雜關(guān)系，這些領(lǐng)域特定知識被精確編碼在上下文中，使模型能夠執(zhí)行準(zhǔn)確的財務(wù)分析。

ACE 還在成本和效率方面展現(xiàn)出顯著優(yōu)勢。

ACE與基線方法的成本與速度對比

顯示，由于支持增量"delta"上下文更新和非 LLM 上下文合并與去重，ACE 在 AppWorld 離線適應(yīng)中實現(xiàn)了 82.3% 的適應(yīng)延遲降低和 75.1% 的 rollouts 減少；在 FiNER 在線適應(yīng)中，實現(xiàn)了 91.5% 的適應(yīng)延遲降低和 83.6% 的 Token 美元成本降低。這些優(yōu)勢源于 Curator 生成的增量通過非 LLM 邏輯確定性合并，避免了 GEPA/DC 中 LLM 全量重寫的高開銷。

適應(yīng)延遲降低 86.9% 的具體含義是：ACE 將上下文適應(yīng)所需的平均時間大幅縮減。在上表(a) 中，ReAct+ ACE 僅需 9,517 秒完成離線適應(yīng)，而 ReAct+ GEPA 需要 53,898 秒；在上表(b) 中，ACE 僅需 5,503 秒完成在線適應(yīng)，而 DC(CU) 需要 65,104 秒。這種效率提升使得 ACE 能夠在實際應(yīng)用中快速迭代和優(yōu)化上下文，為實時系統(tǒng)提供了可行性。

ACE 的成本優(yōu)勢源于其增量更新機(jī)制。傳統(tǒng)方法如 GEPA 需要對整個上下文進(jìn)行重寫，每次重寫都需要 LLM 處理大量 Token，而 ACE 僅需更新相關(guān)部分。在 AppWorld 離線適應(yīng)中，ACE 將 rollouts 從 1,434 減少到 357（減少 75.1%），大幅降低了計算資源消耗。在 FiNER 在線適應(yīng)中，ACE 將 Token 成本從 17.7 美元降至 2.9 美元（降低 83.6%），使大規(guī)模上下文適應(yīng)在經(jīng)濟(jì)上變得可行。

為何 ACE 的設(shè)計選擇至關(guān)重要？

消融實驗揭示了 ACE 設(shè)計選擇的關(guān)鍵價值。

ACE設(shè)計選擇的消融研究

上表顯示，移除 Reflector 或多輪精煉導(dǎo)致性能顯著下降：ReAct+ ACE w/o Reflector 或多輪精煉的準(zhǔn)確率為 55.1%，比完整 ACE 低 4.3%。這證明 Reflector 通過分離評估和洞察提取，提高了上下文質(zhì)量和下游性能。多輪精煉進(jìn)一步將準(zhǔn)確率從 56.8% 提升至 59.4%，而離線預(yù)熱（offline warmup）則使在線適應(yīng)性能從 56.1% 提升至 59.5%。

ACE 的成功部分源于其對反饋質(zhì)量的敏感性。當(dāng)缺乏可靠反饋信號時，如上表所示，DC(CU) 在無 GT 標(biāo)簽的 FiNER 任務(wù)上性能下降至 68.3%，而 ACE 在相同條件下仍能保持 67.3% 的準(zhǔn)確率。這表明 ACE 的框架設(shè)計使其在反饋質(zhì)量波動時更具魯棒性，但仍強(qiáng)調(diào)了可靠反饋對上下文適應(yīng)的重要性。

ACE 的 Reflector 組件是其性能優(yōu)勢的關(guān)鍵。在消融研究中，移除 Reflector 導(dǎo)致準(zhǔn)確率下降 4.3%，從 59.4% 降至 55.1%。Reflector 通過將評估與洞察提取從策展中分離，避免了單一模型過載。在傳統(tǒng)方法中，同一 LLM 需要同時負(fù)責(zé)生成、評估和優(yōu)化，導(dǎo)致認(rèn)知負(fù)荷過重。而 ACE 通過專業(yè)化分工，使每個組件專注于特定任務(wù)，從而提高了整體性能。

ACE 的多輪精煉機(jī)制也是其成功的關(guān)鍵因素。通過重復(fù)訪問相同查詢，系統(tǒng)能夠從不同角度診斷問題，提煉更精確的解決方案。這種機(jī)制使 Reflector 能夠進(jìn)行深度反思，避免表面層次的修正。在消融實驗中，多輪精煉將準(zhǔn)確率從 56.8% 提升至 59.4%，證明了這一機(jī)制對上下文質(zhì)量的關(guān)鍵影響。

ACE 的離線預(yù)熱機(jī)制為在線適應(yīng)提供了高質(zhì)量的初始上下文。通過先在訓(xùn)練數(shù)據(jù)上進(jìn)行離線適應(yīng)，ACE 為在線適應(yīng)階段提供了更全面、更準(zhǔn)確的初始上下文，減少了探索成本。在消融實驗中，離線預(yù)熱使在線適應(yīng)性能從 56.1% 提升至 59.5%，證明了這一機(jī)制對實際部署的重要性。

一個常見誤解是更長的上下文必然導(dǎo)致更高的推理成本。ACE 產(chǎn)生的更長上下文并不意味著線性增加的推理成本或 GPU 內(nèi)存使用。正如論文中所提到，當(dāng)下服務(wù)基礎(chǔ)設(shè)施通過 KV Cache 復(fù)用、壓縮和卸載等技術(shù)，使頻繁重用的上下文段可以被緩存，避免重復(fù)昂貴的 prefill 操作。這些機(jī)制允許上下文片段在本地或遠(yuǎn)程緩存，顯著降低長上下文的攤銷成本。隨著 ML 系統(tǒng)的持續(xù)發(fā)展，處理長上下文的實際開銷將進(jìn)一步降低，使 ACE 等上下文豐富的方法在部署中越來越實用。

ACE 的上下文管理機(jī)制使其能夠高效處理長上下文。通過將上下文組織為結(jié)構(gòu)化的 bullet，系統(tǒng)可以僅將相關(guān)部分加載到內(nèi)存中，避免處理整個長上下文。同時，通過語義嵌入進(jìn)行去重，系統(tǒng)可以識別和移除冗余信息，保持上下文的緊湊性。這些技術(shù)使 ACE 能夠在保持上下文詳盡性的同時，控制推理成本。

總結(jié)

ACE 源于信任 LLM 能從詳盡上下文中自主提取關(guān)鍵信息，而非人為壓縮。這是對"簡潔即高效"傳統(tǒng) Prompt 工程的范式挑戰(zhàn)。這篇研究還明確指出了 ACE 的適用邊界：其效果依賴于 Reflector 的質(zhì)量：若 Reflector 無法從生成軌跡中提取有意義的見解，構(gòu)建的上下文可能變得嘈雜甚至有害。在領(lǐng)域特定任務(wù)中，若沒有模型能提取有用見解，結(jié)果上下文自然缺乏這些內(nèi)容。此外，并非所有任務(wù)都適合長上下文——像 HotPotQA 這類任務(wù)通常受益于簡潔、高級指令，而 Game of 24 等固定策略場景只需單一可重用規(guī)則，額外上下文反而冗余。ACE 最適用于需要詳盡領(lǐng)域知識、復(fù)雜工具調(diào)用或環(huán)境特定策略的任務(wù)（如智能體、金融或法律分析）。

ACE 的效果也依賴于可靠的反饋信號質(zhì)量。當(dāng)缺乏真實標(biāo)簽且無執(zhí)行環(huán)境時，構(gòu)建的上下文可能被虛假或誤導(dǎo)性信號污染，導(dǎo)致性能下降。如下表所示，在無 GT 標(biāo)簽的 FiNER 任務(wù)上，DC(CU) 性能下降至 68.3%，而 ACE 仍能保持 67.3% 的準(zhǔn)確率，表明 ACE 對噪聲反饋具有一定的魯棒性，但性能仍低于有監(jiān)督設(shè)置。這凸顯了在上下文適應(yīng)中，反饋質(zhì)量對系統(tǒng)可靠性的重要性。

ACE設(shè)計選擇的消融研究

在復(fù)雜系統(tǒng)中，構(gòu)建"可積累、可演進(jìn)、可審計"的上下文基礎(chǔ)設(shè)施，而非追求一次性最優(yōu) Prompt，將成為未來實踐的關(guān)鍵。ACE 為在線和連續(xù)學(xué)習(xí)提供了靈活高效的替代方案，適應(yīng)上下文通常比更新模型權(quán)重更便宜，且上下文的可解釋性使選擇性遺忘成為可能——無論是出于隱私或法律約束，還是當(dāng)領(lǐng)域?qū)＜易R別出過時或錯誤信息時。隨著長上下文 LLM 和高效推理技術(shù)的進(jìn)步，ACE 所代表的上下文工程范式有望推動更可靠、可擴(kuò)展、自進(jìn)化的 AI 系統(tǒng)發(fā)展。

ACE 的增量更新機(jī)制使其能夠?qū)崿F(xiàn)選擇性遺忘。通過跟蹤每個 bullet 的有用/有害計數(shù)器，系統(tǒng)可以識別并移除有害信息，而無需重新訓(xùn)練整個模型。這種能力對于滿足 GDPR 的"被遺忘權(quán)"或 CCPA 的"刪除權(quán)"等法規(guī)要求至關(guān)重要，使系統(tǒng)能夠快速響應(yīng)隱私請求，同時保留其他有用知識。這為構(gòu)建負(fù)責(zé)任的 AI 系統(tǒng)提供了實用工具，使上下文適應(yīng)不僅提升性能，還能滿足合規(guī)要求。

在實際應(yīng)用中，ACE 為開發(fā)者提供了明確的實踐指導(dǎo)：在需要處理 API 分頁邏輯、金融 XBRL 規(guī)則或法律條文解釋的復(fù)雜任務(wù)中，ACE 能顯著提升性能；而在需要快速邏輯推理或固定策略的任務(wù)中，簡潔的提示可能更有效。這種明確的邊界定義有助于開發(fā)者做出明智的技術(shù)選擇，構(gòu)建更可靠、可解釋、自進(jìn)化的 AI 系統(tǒng)。隨著 ACE 框架的廣泛應(yīng)用，上下文工程將從"壓縮即美"的傳統(tǒng)范式，轉(zhuǎn)向"詳盡即強(qiáng)"的新時代，為 LLM 應(yīng)用提供更強(qiáng)大的支持。

本文很適合結(jié)合google 這篇一起看??《從失敗中學(xué)習(xí)：Google 提出 ReasoningBank 讓 LLM 智能體真正“吃一塹長一智”》。這兩篇都是工程化方面優(yōu)秀的研究。需要注意的是，這些方法都是在 test-time 進(jìn)行 scaling，所以對推理時的算力會有一定的要求。如果你用的是閉源模型，那么??token 幾乎是必然的。

除了對算力的消耗以外，從算法角度，我依據(jù)過去 2 年多的實踐經(jīng)驗來看，這兩類方法都有相同的適應(yīng)性和不適應(yīng)性的邊界問題。本文這個總結(jié)部分的第一段，在上面的內(nèi)容已經(jīng)提到了一些 ACE 論文中對“適用性邊界”的洞見。我在這里想多補(bǔ)充一個觀點(diǎn)，是針對造成“適用性邊界”的底層因素的補(bǔ)充：同類方法在不變更模型參數(shù)的前提下，需要在模型 pretrain 數(shù)據(jù)覆蓋度高的場景中應(yīng)用，可以取得良好的收益（這些前兩天我在社群中已經(jīng)有聊到過）。

這是因為當(dāng)前模型在算法架構(gòu)還沒取得實質(zhì)性進(jìn)化、突破的前提下，仍高度依賴特定模式，導(dǎo)致其在跨領(lǐng)域、跨環(huán)境場景下的泛化能力非常有限，甚至難以滿足實際商用落地需要。當(dāng)下的模型可以在數(shù)據(jù)覆蓋充足的場景中，有限的泛化出 training 時沒有見過的模式與推理。但，如果要求用ACE 或者 reasoningbank 這類工程方法，來實現(xiàn)在 training 數(shù)據(jù)覆蓋不足的場景中“進(jìn)化”推理，這對于模型來講會有點(diǎn)勉為其難了。

可，如果你一定要在一個私域、垂域中做推理進(jìn)化，怎么辦？在當(dāng)下這個時點(diǎn)，training 幾乎就是最好的路徑（但不是唯一路徑），模型要先有知識，才會建模，然后形成模式推理，最后才是工程化手法在 test-time scaling 實踐諸如本文的 ACE或 reasoningBank 這些上下文工程。這是因為，領(lǐng)域數(shù)據(jù)覆蓋不足，則建模不足，那么就需要用對應(yīng)的數(shù)據(jù)工程來覆蓋，用算法來建模，以期在特定業(yè)務(wù)領(lǐng)域內(nèi)的性能提升。

這就如同，對于人類的孩子而言，你無法讓一個沒有學(xué)過加法的、不到 3 歲的托班小朋友，去算 1+1=？。當(dāng)我們理解了這些底層原理、邏輯以后，再面對具體業(yè)務(wù)場景，我們心里才會有一個大概的輪廓來判斷：對于模型而言，應(yīng)用這些方法論，是否適合當(dāng)下的場域。在有了初步判斷以后，我們真正推進(jìn)工程構(gòu)建之前，在自己的業(yè)務(wù)領(lǐng)域中，對模型性能在私域中的評估是接下來的必經(jīng)之路，模型邊界在自己業(yè)務(wù)上的邊界，需要用評估數(shù)據(jù)來說話。

這一輪 AI 發(fā)展至今，各類媒體的聲音、不同人的認(rèn)知交織在一起，雜音很大，而工程落地需要透過現(xiàn)象看本質(zhì)。我們堅持不悲不喜、不魅惑、不盲從權(quán)威，以不變的做業(yè)務(wù)的、科學(xué)的、工程態(tài)度，應(yīng)對千變?nèi)f化的外部聲音，就能更加科學(xué)的思辨用好 AI，真正的服務(wù)于業(yè)務(wù)、服務(wù)于人！

責(zé)任編輯：龐桂玉來源：覺察流