ReSum:讓AI智能體學會“記筆記”,突破長程推理瓶頸

大家好,我是肆〇柒。本文分享的這篇工作來自通義實驗室(Tongyi Lab, Alibaba Group)的最新研究成果——ReSum。他們提出了一種全新的推理范式,讓大模型智能體在面對復雜問題時,能夠像人類一樣“停下來復盤、做筆記”,從而突破傳統上下文長度限制,實現真正意義上的長程探索。這項工作不僅刷新了多個基準性能,更揭示了通往更高級智能體的關鍵路徑。本篇是通義 Deepresearch 發布的系列研究之一。
當Web智能體能夠主動搜索、瀏覽、提取并綜合開放網絡信息時,復雜知識密集型任務的解決似乎觸手可及。然而,一個看似簡單卻影響深遠的限制——上下文窗口——正阻礙著智能體向更復雜問題發起挑戰。下面,我們就一起探索這項創新性的工作:ReSum,看看它如何通過精巧的"上下文總結"機制,為智能體解鎖長程搜索智能的新境界。
ReAct —— 一個經典范式
ReAct(Reasoning and Acting)范式自2023年提出以來,已成為當前最主流的Agentic Workflow。它定義了簡潔而強大的Thought-Action-Observation交互循環:LLM基于現有上下文生成推理步驟(Thought),執行可解析的工具調用(Action),并接收環境反饋(Observation)。這種范式使LLM能夠有效調用搜索、瀏覽等工具解決復雜問題,奠定了現代Web智能體的基礎。
在形式化定義中,一個包含T次迭代的完整軌跡可表示為:

然而,ReAct的簡潔背后隱藏著一個矛盾:其"線性增長"的上下文管理策略與"指數復雜"的現實問題之間的不匹配。在ReAct中,每個交互步驟(Thought、Action、Observation)都被附加到對話歷史中,隨著探索深入,上下文長度線性增長。當面臨需要大量工具調用的復雜查詢時——例如"一位畫家,其父親死于心臟病,有一個姐姐和五個孩子,后來婚姻破裂又有三段關系,基于此人的文學作品叫什么?"這類涉及多實體、交織關系和高度不確定性的任務——智能體往往在找到答案前就耗盡了上下文預算。

ReAct與ReSum范式對比
如上圖所示,ReAct范式在多輪探索完成前就耗盡了上下文預算,而ReSum通過周期性調用總結工具壓縮歷史并從壓縮摘要中恢復推理,實現了無限探索。對WebSailor-7B在BrowseComp-en基準上的行為分析進一步揭示了這一限制:

ReAct上下文限制對探索的約束
如上圖所示,WebSailor-7B在BrowseComp-en上的行為分析顯示,成功解決的案例通常在10次工具調用內完成,token消耗相對較低;而失敗案例往往超過10次,甚至20次,導致token使用量急劇上升,超過32k限制。這一數據直觀揭示了ReAct范式在面對復雜查詢時的"硬性天花板"——當智能體需要超過32k token的上下文時,被迫提前終止,導致復雜問題無法解決。
現有解決方案如A-Mem和MemOS等外部記憶模塊雖能結構化管理上下文,但增加了系統復雜度和計算開銷,且與策略模型的集成不夠緊密。相比之下,ReSum探索了一條更輕量、內聚的路徑——將記憶管理內化為推理流程本身,無需額外組件即可實現上下文約束的突破。
ReSum的誕生——一種"內生壓縮"的新范式
ReSum的核心哲學不是增加外部組件,而是優化內部工作流,將"記憶管理"作為推理過程的自然延伸。這一設計靈感源于人類認知:當解決復雜問題時,我們會不斷"復盤"和"記筆記",提煉關鍵信息并重新組織思路。ReSum正是模擬了這一高級認知行為,使智能體具備"自我反思"能力。

ReSum 結合周期性上下文摘要的 Rollout 算法偽代碼
ReSum的工作流程嚴格遵循上圖算法,其核心在于"觸發-總結-重置"的閉環:
軌跡初始化:軌跡始于用戶查詢q,初始化H?=(q)。遵循ReAct范式,智能體交替進行內部推理和工具使用:(τ?, a?)~πθ(·|H???)。
上下文總結:當觸發條件滿足(如達到token預算),調用總結工具π???將歷史壓縮為結構化摘要s~π???(·|H?),形成壓縮狀態q'=(q, s)并重置工作歷史。
軌跡終止:通過周期性總結,ReSum動態維持上下文在模型窗口內,同時保留關鍵證據。雖然理論上允許無限探索,但實際部署中會設置資源預算(如工具調用次數限制)。
這種設計既保留了ReAct的簡潔高效,又規避了其上下文限制,為長程探索開辟了新可能。正如論文所述:"ReSum實現了長程推理,同時最小化對ReAct的修改,避免了架構復雜性,確保了即插即用的兼容性。"這種設計不僅保留了ReAct的簡潔高效,還使其能夠無縫集成到現有agent生態系統中,無需重構整個系統即可獲得長程推理能力。
ReSum的三大創新點彰顯其范式價值:
- 狀態壓縮(State Compression):將歷史對話轉化為緊湊的推理狀態,其中是結構化摘要,包含驗證證據和信息缺口
- 重啟能力(Restartability):從壓縮狀態繼續推理,打破了上下文長度的硬性限制,理論上允許無限探索
- 最小侵入性(Minimal Intrusion):僅需在標準ReAct流程中插入可選的"總結-重置"環節,其余交互協議完全不變,使其能夠"即插即用"地適配現有WebSailor、WebExplorer等主流Agent架構
假想一位偵探調查復雜案件:隨著線索增多,他的筆記本逐漸寫滿。與其繼續添加新頁導致混亂,聰明的偵探會定期將關鍵線索整理到一張新紙上,丟棄冗余信息,然后基于這張"線索摘要"繼續調查。ReSum正是模擬了這種高級認知行為——當思維過于龐雜時,提煉關鍵信息并重新組織思路,從而突破記憶限制。
這種"內生壓縮"機制雖然優雅,但對總結工具提出了更高要求——它必須能夠從嘈雜的交互歷史中提取關鍵證據,而非簡單壓縮文本。這引出了ReSumTool的設計挑戰,也是ReSum范式成功的關鍵所在。
專業化分工——ReSumTool作為"認知壓縮器"
在ReSum范式中,總結工具的角色遠非簡單的摘要器,而是智能體的"認知伙伴",負責將原始感知升華為結構化知識。它必須執行邏輯推理、從嘈雜交互歷史中提取可驗證證據、識別信息缺口并提出下一步行動建議。通用摘要模型往往難以勝任這一任務——實驗表明,小型模型在長對話中難以有效提取關鍵證據,而大型模型雖有優勢但API成本和部署開銷過高。
ReSumTool的提示工程經過精心設計,包含嚴格的信息處理規則:
- 僅提取對話中明確存在的相關信息
- 不做假設、猜測或超出明確陳述的推斷
- 僅包含確定且明確的信息
- 以特定格式輸出關鍵信息:
<summary>? Essential Information:[組織相關信息]</summary> - 明確要求"Strictly avoid fabricating, inferring, or exaggerating any information"
這種嚴格約束確保了摘要的忠實度和無幻覺,為后續推理提供了可靠基礎。論文特別指出,研究團隊"不明確要求摘要工具列出當前信息缺口并提供清晰的行動計劃",以避免兩種潛在問題:(1)摘要工具可能偏離其主要任務,過度關注信息缺口;(2)強制指定信息缺口可能導致智能體陷入重復自我驗證的循環。
值得注意的是,這種設計避免了兩種潛在問題:(1)摘要工具可能偏離其主要任務,過度關注信息缺口;(2)強制指定信息缺口可能導致智能體陷入重復自我驗證的循環。實驗證明,當需要時,摘要工具能夠直觀且智能地識別信息缺口并提出下一步計劃。
為解決這一挑戰,研究團隊開發了ReSumTool-30B,通過目標導向的專門訓練實現了"小模型辦大事"的工程智慧。其開發過程基于以下關鍵洞察:
1. 選擇Qwen3-30B-A3B-Thinking作為基礎模型,在性能與部署效率間取得平衡
2. 使用SailorFog-QA這一挑戰性基準收集?對話, 摘要?配對數據,確保數據質量
3. 通過監督微調將強大的總結能力蒸餾到較小模型中

不同范式下訓練免費設置的性能比較
如上表所示,ReSumTool-30B在多個基準測試中表現出色。從上表可見,ReSumTool-30B在WebSailor-3B上作為總結工具時,不僅在BrowseComp-zh上達到15.2% Pass@1,更在GAIA基準上實現40.5% Pass@1,遠超其基礎模型Qwen3-30B(27.5%)。這一差距凸顯了專業化訓練的價值——通過在任務特定數據上的精細調優,30B規模模型能夠充分發揮其潛力,而不僅僅是依賴模型規模。
在BrowseComp-zh上,當作為WebSailor-3B的總結工具時,它實現了15.2%的Pass@1,顯著超過Qwen3-235B(11.1%)和DeepSeek-R1-671B(13.0%)。這一結果證明,針對特定任務精細調優的30B規模模型,完全可以超越更大規模的通用模型。
協同進化——ReSum-GRPO自適應學習
ReSum范式創造了一種新型查詢q'=(q,s),將原始用戶查詢q與摘要s結合。這種模式對標準智能體而言是分布外(OOD)數據,因為它們在訓練中從未接觸過基于摘要的推理。為使智能體掌握這一新范式,研究團隊提出了ReSum-GRPO算法,通過強化學習實現范式適應。
與監督微調(SFT)相比,強化學習提供了更優雅的解決方案:SFT需要昂貴的專家級ReSum軌跡數據,且風險覆蓋智能體的現有技能;而強化學習允許智能體通過自我進化適應新范式,同時保留其固有推理能力。
ReSum-GRPO的核心創新在于"軌跡分割"和"優勢廣播"機制:
- 軌跡分割:當總結發生時,ReSum自然將長軌跡分割為多個片段。例如,經歷K次總結事件的軌跡被劃分為K+1個片段,每個片段形成獨立的訓練片段
- 優勢廣播:從最終答案計算單一軌跡級獎勵,并在組內歸一化為優勢值,然后廣播到同一軌跡的所有片段

ReSum-GRPO工作機制示意圖
如上圖所示,ReSum-GRPO通過周期性總結長軌跡并從壓縮狀態重啟,自然形成分段軌跡。系統從最終答案計算單一軌跡級獎勵,然后在組內歸一化為軌跡級優勢值,并廣播至同一rollout的所有片段。這種設計使智能體既能有效利用摘要狀態進行推理,又能戰略性收集有助于生成高質量摘要的信息。
ReSum-GRPO的核心在于其優化目標函數:

這種機制確保了每個決策節點都能接收與整體任務成敗相關的反饋信號,有效引導智能體學會如何利用摘要狀態繼續推理,并主動收集有助于生成高質量摘要的信息。論文明確指出:"ReSum-GRPO不僅鼓勵智能體有效利用摘要從壓縮狀態進行推理,還鼓勵其戰略性收集能生成高質量摘要的信息。"

GRPO與ReSum-GRPO的訓練動態比較
如上圖所示,ReSum-GRPO在訓練過程中始終獲得比標準GRPO更高的獎勵,表明其更有效地鼓勵智能體熟悉這一推理模式。這種機制產生雙重激勵:(1) 有效利用摘要從壓縮狀態進行推理;(2) 戰略性收集能生成高質量摘要的信息。
實證結果令人信服:WebSailor-3B經過ReSum-GRPO訓練后,在BrowseComp-zh上的Pass@1從8.2%提升至20.5%。更重要的是,標準GRPO無法使智能體掌握基于摘要的推理——當應用于ReSum范式時,其性能無法顯著超過ReSum-GRPO訓練的對應體,證明了范式適應的必要性。
實證與啟示——數據驗證的范式優越性
ReSum的實證力量無需多言。在無需任何訓練的情況下,ReSum范式即可為各類智能體帶來平均4.5%的絕對性能提升。更令人振奮的是,經過ReSum-GRPO在僅1,000條樣本上的輕量訓練,WebResummer-30B(即經過ReSum-GRPO訓練的WebSailor-30B)在BrowseComp-zh上達到33.3%的Pass@1,在BrowseComp-en上達到18.3%,已超越多個使用萬級數據訓練的強大開源競品。

RL算法性能比較
如上表所示,WebSailor-3B經過ReSum-GRPO訓練后,在BrowseComp-zh上的Pass@1從8.2%提升至20.5%,提升幅度達150%。相比之下,WebSailor-30B僅從23.9%提升至33.3%,提升幅度約40%。這一現象表明,ReSum對資源受限的小模型具有更大的相對價值——它使小模型能夠突破固有局限,實現原本只有大模型才能完成的長程推理任務。
以BrowseComp-en上的一個實際案例為例,當智能體需要回答"跳蚤研究中50%個體的測量值"問題時,ReSum使智能體能夠基于摘要狀態繼續推理。摘要明確指出"C. felis felis的測量值為15.5cm,而C. canis的值未完全提供"后,智能體精準地針對缺失信息進行搜索,最終成功找到13.2cm的答案。這一案例生動展示了ReSum如何使智能體保持對關鍵信息的追蹤,避免在長程推理中迷失方向。

不同范式的資源消耗與性能比較
如上圖所示,ReSum范式在合理增加資源消耗的情況下實現了顯著的性能提升。在訓練免費設置中,ReSum相比ReAct僅略微增加資源成本,但帶來明顯性能提升;經過ReSum-GRPO訓練后,智能體更傾向于依賴摘要進行持續推理,雖然帶來額外資源成本,但性能進一步提高。具體而言,ReSum范式通常消耗約2倍的token和工具調用次數,但帶來的性能提升遠超成本增加,特別是在解決復雜問題時。

不同RL算法單步訓練時間對比
如上表所示,ReSum-GRPO相比GRPO的訓練時間增加幅度在33%至69%之間,具體取決于模型規模。WebSailor-3B從0.62小時增至1.05小時(+69%),WebSailor-7B從0.96小時增至1.44小時(+50%),WebSailor-30B從0.94小時增至1.25小時(+33%)。這種增量在獲得"無限探索"能力的背景下是可接受的。
ReSum的普適性不僅體現在模型規模上,更體現在其對小模型的"賦能"效應。WebSailor-3B通過ReSum-GRPO訓練后,在BrowseComp-zh上Pass@1從8.2%提升至20.5%,提升幅度達150%。相比之下,WebSailor-30B僅從23.9%提升至33.3%,提升幅度約40%。這一現象表明,ReSum對資源受限的小模型具有更大的相對價值——它使小模型能夠突破固有局限,實現原本只有大模型才能完成的長程推理任務,有效縮小了小模型與大模型在復雜任務上的性能差距。
關于效率與性能的權衡,ReSum-GRPO的訓練時間約為GRPO的1.5倍,這是為獲得"無限探索"能力所必須付出的、可接受的代價。在推理階段,ReSum僅增加約2倍的資源消耗,卻能大幅提升解決復雜問題的能力,這種權衡在處理真正復雜的長程任務時顯得尤為合理。
總結
ReSum不僅解鎖了"長程搜索智能",更揭示了通向更高級智能體的關鍵路徑:真正的智能體必須具備管理自身認知狀態的能力。它表明,智能不僅是"反應",更應該是"反思"與"重構"。當智能體能夠突破上下文限制,進行真正長程的探索與推理時,它們將能夠解決更復雜、更貼近人類認知水平的問題。
ReSum不僅是一項技術改進,也是對智能體本質的重新思考。真正的智能體必須能夠管理自身的認知狀態,而不僅僅是對輸入做出反應。正如人類在復雜問題解決過程中會不斷"復盤"和"記筆記",ReSum使LLM智能體具備了類似的元認知能力。這種從"反應式工具"向"戰略性思考者"的轉變,正是通向AGI的關鍵一步——當智能體能夠自主管理認知狀態、持續反思與重構知識時,我們便離真正的"思考伙伴"更近了一步。
盡管ReSum取得了顯著成效,其當前實現仍依賴于規則觸發(如達到token預算),而非智能體自主判斷何時需要總結。研究團隊未來將聚焦于使智能體能夠智能地自主發起總結調用,消除對基于規則的總結調用的依賴。研究將探索從規則觸發(如token上限)到基于不確定性的自主觸發的轉變,讓智能體學會判斷何時需要總結,實現更高效的認知管理。
未來研究方向已在論文中清晰展現:
- 智能觸發機制:從規則觸發(如token上限)到基于不確定性的自主觸發,讓智能體學會判斷何時需要總結,實現更高效的認知管理
- 摘要的可驗證性:確保摘要的忠實度和無幻覺,這是保證推理可靠性的關鍵。論文中已通過嚴格提示工程(如"Strictly avoid fabricating, inferring, or exaggerating any information")來約束摘要質量
ReSum的高性能也預示著LLM智能體將從"反應式工具"向"戰略性思考者"演進。當智能體能夠突破上下文限制,進行真正長程的探索與推理時,它們將能夠解決更復雜、更貼近人類認知水平的問題。
從ReAct到ReSum,提醒我們,在追求更大規模模型的同時,優化推理范式同樣能帶來質的飛躍。當智能體學會"總結過去、重啟未來",它們離真正的自主智能又近了一步。




































