Memory-R1：強化學習如何大幅提升 LLM 記憶 Agent 能力

作者：劉汪洋 2025-09-11 06:57:11

譯者 | 劉汪洋

審校 | 重樓

Memory-R1 通過強化學習為 LLM 智能體提供主動且高效的記憶管理能力，實現了最先進的效果。

大語言模型（LLMs）已成為眾多 AI 突破的核心技術，廣泛應用于聊天機器人、編程助手、問答系統、創意寫作等領域。然而，盡管功能強大，這些模型仍然是無狀態的：每次查詢都是獨立的，無法記住之前的交互內容。受到固定上下文窗口的限制，它們無法在長時間對話或跨會話任務中積累持久記憶，更難以基于復雜的歷史信息進行推理。雖然檢索增強生成（RAG）等近期方案試圖通過在提示中附加歷史信息來解決這一問題，但往往產生嘈雜、未經篩選的上下文，要么用大量無關細節淹沒模型，要么遺漏關鍵信息。

來自慕尼黑大學、慕尼黑工業大學、劍橋大學和香港大學的聯合研究團隊提出了 Memory-R1，一個能夠教會 LLM 智能體如何決定記憶內容和使用方式的創新框架。在這個框架下，LLM 智能體學會了主動管理和運用外部記憶，可以自主決定哪些信息需要添加、更新、刪除或忽略，并在回答問題時有效過濾噪音。關鍵創新是利用強化學習（RL）訓練這些行為：系統只需要基于結果的獎勵信號就能學習，大大減少了監督需求，同時在多種模型和任務中都表現出色。

LLMs 為什么難以處理記憶？

設想這樣一個多輪對話場景：用戶在第一輪中說："我領養了一只叫 Buddy 的狗。"隨后又補充："我又領養了一只叫 Scout 的狗。"面對這種情況，系統應該替換原有信息、合并兩條信息，還是忽略這次更新？傳統記憶系統往往會判斷失誤，它們可能刪除"Buddy"的記錄并添加"Scout"，錯誤地將新信息理解為矛盾而非補充。久而久之，這類系統會失去連貫性，導致用戶知識呈現碎片化而非有機演進。

RAG 系統雖能檢索信息，卻缺乏過濾機制：無關條目會污染推理過程，噪音干擾模型的注意力。而人類的做法截然不同，我們會廣泛搜索信息，然后有選擇地篩選出重要內容。目前大多數 AI 記憶系統都是靜態的，依賴人工設計的啟發式規則來決定記憶內容，而非通過反饋進行學習。

Memory-R1 框架

Memory-R1 的核心架構包含兩個專門的 RL 微調智能體：

記憶管理器：在每輪對話結束后決定執行何種記憶操作（添加、更新、刪除或無操作），動態維護外部記憶庫。
回答 Agent：針對每個用戶問題，檢索最多 60 個候選記憶片段，將其精煉為最相關的子集，然后基于這些過濾后的上下文進行推理并生成答案。

兩個組件均采用強化學習進行訓練——具體使用近端策略優化（PPO）或群體相對策略優化（GRPO）算法——僅將問答準確性作為獎勵信號。這意味著智能體無需人工標注的記憶操作數據，而是通過試錯機制學習，直接優化最終任務性能。

記憶管理器：學習編輯知識

每輪對話結束后，LLM 會提取其中的關鍵事實。記憶管理器隨即從記憶庫中檢索相關條目，并選擇相應的操作：

添加：插入尚未存在的新信息。
更新：當新細節詳細說明或完善先前事實時，將其合并到現有記憶中。
刪除：移除過時或矛盾的信息。
無操作：如果沒有添加相關內容，則保持記憶不變。

訓練：記憶管理器根據回答 Agent 基于新編輯的記憶庫所生成答案的質量來進行更新。如果記憶操作能夠幫助回答 Agent 生成準確回答，記憶管理器就會獲得正獎勵。這種基于結果的獎勵機制避免了對記憶操作進行大量人工標注。

具體案例：當用戶先說"我領養了一只叫 Buddy 的狗"，后來又說"我又領養了一只叫 Scout 的狗"時，傳統系統往往會刪除"Buddy"的記錄并添加"Scout"，錯誤地將其視為矛盾信息。而經過 RL 訓練的記憶管理器則會更新記憶為："Andrew 領養了兩只狗，Buddy 和 Scout"，從而維持了知識庫的連貫性和成長性。

消融實驗：RL 微調顯著改善了記憶管理，PPO 和 GRPO 都優于基于上下文的啟發式管理器。系統實現了知識的融合貫通，而非割裂分散。

回答 Agent：選擇性推理

對于每個問題，系統使用 RAG 檢索多達 60 個候選記憶。但回答 Agent不是將所有這些都輸入給 LLM，而是首先對候選集進行提煉，只保留最相關的條目，然后再生成答案。

訓練：回答 Agent 也使用 RL 訓練，使用其答案與標準答案之間的精確匹配作為獎勵。這鼓勵它專注于過濾噪音和在高質量上下文上進行推理。

示例：當被問到"John 住在海灘附近還是山區附近？"時，傳統 LLM 受到無關記憶的影響可能輸出"山區"。然而，Memory-R1 的回答 Agent 在回答之前只提取海灘相關的條目，從而得出正確的"海灘"回答。

消融實驗結果：RL 微調顯著提升了靜態檢索的答案質量。記憶精煉（過濾無關記憶）機制進一步提升了性能表現。在更優秀的記憶管理器配合下，收益更為明顯，產生了多重疊加的改進效果。

訓練數據效率

Memory-R1 的訓練非常高效：只用 152 個問答對就能訓練出有效的模型。原因在于智能體能直接從最終結果中學習，不需要大量人工標注的記憶操作數據。這種最小化監督的方式使系統能夠輕松擴展到大規模、真實世界的對話歷史場景。

評估采用的 LOCOMO 基準包含多輪對話（每個對話約 600 輪，平均 26,000 tokens）及相應的問答對，涵蓋單跳推理、多跳推理、開放域問答和時間推理等多個維度——這為測試長期記憶管理能力提供了理想的評估環境。

實驗結果

研究團隊在 LLaMA-3.1-8B-Instruct 和 Qwen-2.5-7B-Instruct 兩個基礎模型上測試了 Memory-R1，并與多個對比基準（LOCOMO、Zep、A-Mem、LangMem、Mem0）進行對比。主要評估指標包括：

F1 分數：衡量預測答案與標準答案之間的重疊程度。
BLEU-1 分數：評估單詞級別的詞匯相似性。
LLM 評判：采用獨立的 LLM 代替人類來評估答案的事實準確性、相關性和完整性。
實驗結果：Memory-R1-GRPO 實現了最佳整體性能，在 LLaMA-3.1-8B 模型上相比 Mem0（此前的最佳基線）實現了 F1 分數 48% 的提升、BLEU-1 分數 69% 的提升，以及 LLM 評判分數 37% 的提升。在 Qwen-2.5-7B 模型上也觀察到了類似的明顯改進。這些改進效果涵蓋各類問題，且在多種模型架構中都能復現。

為什么這很重要

Memory-R1 證明了記憶管理和利用能力是可以習得的，LLM 智能體無需依賴脆弱的啟發式規則。通過采用結果驅動的 RL 方法，該系統實現了：

知識的自動整合，伴隨對話發展而非簡單分割或覆蓋。
有效的噪音過濾，在回答過程中提升事實準確性和推理質量。
高效的學習機制，僅需少量監督即可擴展至真實世界的長期任務。
良好的跨模型泛化性，為下一代智能體式、記憶感知 AI 系統奠定了堅實基礎。

結論

Memory-R1 成功將 LLM 智能體從無狀態限制中解放出來，通過強化學習賦予它們有效管理和運用長期記憶的能力。通過將記憶操作和信息過濾重新定義為 RL 問題，該方法以最小的監督需求和優異的通用性達到了頂尖的性能表現。這意味著 AI 系統正從單純的對話能力邁向具備記憶、學習和推理能力的智能體，為用戶提供更加豐富、持久且實用的 AI 體驗。

常見問題解答

問題1：Memory-R1 相比傳統 LLM 記憶系統有何優勢？

Memory-R1 采用強化學習主動管理記憶，即智能決定信息的添加、更新、刪除或保留。相比靜態的啟發式方法，實現了更加智能的知識整合和更少的信息碎片化。

問題2：Memory-R1如何提升長對話中的答案質量？

回答 Agent 采用"記憶精煉"策略：從檢索到的最多 60 個記憶片段中篩選出與當前問題最相關的內容，相比于簡單地將所有上下文直接輸入模型，這種方式有效減少了噪音干擾并大幅改善了事實準確性。

問題3：Memory-R1 的訓練數據效率如何？

非常高效。Memory-R1 僅使用 152 個問答對就達到了業界領先的性能提升，這得益于其面向結果的 RL 獎勵機制，避免了對每個記憶操作進行昂貴人工標注的需要。

查看論文鏈接。歡迎查看我們的GitHub頁面獲取教程、代碼和筆記。

原文標題：Memory-R1: How Reinforcement Learning Supercharges LLM Memory Agents，作者：Asif Razzaq

譯者介紹

劉汪洋，51CTO社區編輯，昵稱：明明如月，一個擁有 5 年開發經驗的某大廠高級 Java 工程師。

責任編輯：姜華來源： 51CTO內容精選