AI 智能體的長期記憶系統架構設計與落地實現 原創 精華
無論是 DeepSeek 還是 GPT,隨著大模型性能的提升,其能夠處理的上下文長度也不斷增加。然而,一旦超出上下文窗口的限制,大模型就需要重新開啟一個對話,就像“失憶”一樣,忘記之前交流的內容。
但從用戶的角度來看,AI 智能體應該能夠記住之前的全部對話。因此,如何高效地管理和利用對話歷史,成為了提升 AI 智能體用戶體驗的關鍵所在。擁有長期記憶后,Ai 智能體能夠回憶過去的對話,從而減少幻覺、延遲和成本。
將聊天記錄作為文本導入,然后使用 RAG 來“恢復長期記憶”,是讓大模型具備長期記憶的一種常見方法。但這種方法通常需要額外的工程支持,而且構建 RAG 也存在不容忽視的時間差。

傳統 RAG 系統本質上是一個"文檔圖書館",它假設知識是固定不變的,這在處理動態業務場景時就顯得力不從心了。
其次,當新信息與舊信息發生沖突時,RAG 系統無法智能地判斷哪個更可信,往往會把矛盾的信息一股腦兒返回給用戶。
最后,RAG 缺乏時間維度的理解讓系統無法區分"用戶去年的偏好"和"用戶現在的需求",導致推薦結果偏離實際情況。
在企業級應用中,RAG 作為長期記憶的這種局限性會被無限放大。
比如:在開發一個客戶服務 AI 智能體,客戶 A 在過去一年中經歷了從創業公司到中型企業的轉變,其需求從成本控制轉向了效率提升,但傳統 RAG 系統仍然會基于歷史文檔推薦成本優化方案。
這種脫節不僅影響用戶體驗,更可能造成企業業務損失。
為了解決 AI 智能體長期記憶的這些痛點,最近,一家名為 Zep AI 的初創公司推出了為 AI 智能體打造的記憶層,通過回憶聊天歷史,可以自動生成摘要和其他相關信息,使 AI 智能體能夠在不影響用戶聊天體驗的情況下,異步地從過去的對話中提取相關上下文。

下文詳細剖析之:Zep 長期記憶系統的架構設計、Zep 長期記憶系統的關鍵技術設計、基于 Zep 構建 AI 智能體的代碼級落地實現。
一、Zep 長期記憶系統的架構設計
Zep 能自動從 AI 智能體的用戶互動以及不斷變化的業務數據中構建一個時間知識圖譜。這個圖譜包含了與用戶和業務背景相關的實體、關系以及事實。Zep 借鑒了 GraphRAG,但與 GraphRAG 不同的是,Zep 能夠很好地理解信息隨時間的變化。當事實發生改變或者被新的事實取代時,圖譜就會更新,以反映新的狀態(如下動圖展示)。

Graphiti 是 Zep 記憶層背后的技術。它是一個開源的庫,能夠構建動態的、具有時間意識的知識圖譜,用以表示實體之間復雜且不斷變化的關系。它可以處理非結構化和結構化的數據,生成的圖譜可以通過時間、全文、語義以及圖算法等多種方式進行查詢。
Zep 架構設計系統的核心是 Graphiti 引擎,它采用了一個巧妙的三層知識圖譜架構來解決傳統 RAG 的痛點,如下圖所示:

第一層:Episode 子圖
- 功能:完整地存儲原始對話、文本或 JSON 數據,不丟失任何信息。
- 特點:類似于人類的情景記憶,能夠保留完整的上下文信息。
第二層:Semantic Entity 子圖
- 功能:從原始數據中提取實體和關系。
- 特點:利用實體解析技術,將新舊信息有機地整合在一起。
第三層:Community 子圖
- 功能:通過標簽傳播算法對相關實體進行聚類。
- 特點:形成高層次的概念理解。
這種架構設計使得 Zep 系統既能保留細節信息,又能進行抽象推理。
二、Zep 長期記憶系統的關鍵技術設計
1、關鍵技術一:雙時間軸建模:從根本上解決信息更新問題
Zep 最具創新性的技術設計在于其獨特的雙時間軸建模機制,具體如下:

這種設計使 Zep 系統能夠精準處理諸如“用戶兩周前提到的那個項目其實是三個月前開始的”這類復雜的時間關系。
2、關鍵技術二:智能的邊失效機制
傳統系統在面對信息沖突時常常無計可施,而 Zep 憑借 LLM 驅動的邊失效機制,以一種優雅的方式解決了這一難題,具體流程如下:
- 沖突檢測:當 Zep 系統發現新事實與現有知識圖譜中的信息存在語義沖突時。
- 自動標記:將存在沖突的舊信息自動標記為失效狀態。
- 時間記錄:精準記錄下信息失效的具體時間點。
憑借這一機制,AI 智能體能夠精準回答諸如“用戶什么時候改變了偏好”這類涉及時間推理的復雜問題。
3、關鍵技術三:三步走的內存檢索
第一步:混合搜索策略
Zep 的檢索系統融合了三種互補的搜索方法,以實現最大化的召回率:
- 余弦相似度搜索:精準捕捉語義相關性,理解用戶問題的深層含義。
- BM25 全文搜索:高效處理關鍵詞匹配,快速定位關鍵信息。
- 廣度優先搜索:深入發現圖結構中的隱含關聯,挖掘潛在聯系。 這種設計尤其適用于處理用戶詢問“那個項目的進展如何”時的指代消解問題,能夠準確理解并回應用戶的意圖。
第二步:智能重排序
在檢索到候選結果后,Zep 運用多種重排序策略來提升精確度:
- RRF 和 MMR 算法:傳統的重排序方法,經過驗證的有效手段。
- 基于圖距離的重排序:考慮實體間的關聯程度,優化信息的相關性。
- 頻次權重調整:讓經常被用戶提及的信息獲得更高優先級,確保重要信息不被遺漏。 通過這些策略,Zep 能夠更精準地呈現用戶所需的信息,提高檢索結果的質量。
第三步:上下文 Prompt 構造
最后一步是將檢索和重排序后的節點和邊轉換為 LLM 友好的文本格式:

- 為每個事實標注有效時間范圍:明確信息的時效性,確保 AI 智能體能夠準確理解信息的時效性。
- 為每個實體提供簡潔的摘要描述:讓 AI 智能體快速把握關鍵信息,提高生成回復的效率。
- 確保 AI 智能體在生成回復時能夠準確理解信息的重要程度:讓 AI 智能體能夠根據信息的重要性進行合理的回應。 通過這種上下文構造模板,Zep 能夠清晰標注事實的時間范圍和實體信息,為 AI 智能體生成準確、及時的回復提供有力支持。
4、關鍵技術四:AI 智能體長期記憶領域新標桿
在更具挑戰性的 LongMemEval 測試中,加入了更長、更連貫的對話內容以及更多樣化的評估問題,從而更好地反映真實場景的需求,Zep 的優勢得到了充分體現,實驗結果如下表所示:


可以看到,相比基線方法,Zep 不僅提升了結果的精度,而且將響應時間減少了約 90%,相比其他 LLM 供應商也有約 80% 的提升。
三、基于 Zep 構建 AI 智能體的代碼級落地實現
接下來,讓我們來構建一個具有類似人類記憶的 AI 智能體。
第一、使用的技術棧
- 開源的 Zep 作為我們 AI 智能體的記憶層。
- AutoGen 用于 AI 智能體編排。
- Ollama 用于本地提供 Qwen 3服務。
第二、基于 Zep 的 AI 智能體系統架構設計

- 用戶提交查詢。
- AI 智能體保存對話并將事實提取到記憶中。
- AI 智能體檢索事實并進行總結。
- 使用事實和歷史記錄做出準確的回應。
第三、基于 Zep 的 AI 智能體代碼級落地實現
1、設置 LLM(大語言模型)

我們通過 Ollama 使用本地提供的 Qwen 3。
2、初始化 Zep 客戶端

利用 Zep 的基礎記憶層,為我們的 Autogen AI 智能體賦予真正的任務完成能力。
3、創建用戶會話

為用戶創建一個 Zep 客戶端會話,AI 智能體將使用該會話來管理記憶。一個用戶可以有多個會話!
4、定義 Zep 對話 AI 智能體

我們的 Zep 記憶 AI 智能體基于 Autogen 的對話 AI 智能體,每次用戶查詢時,從 Zep Cloud 獲取實時記憶上下文。它通過利用我們剛剛建立的會話來保持高效。
5、設置 AI 智能體

初始化對話 AI 智能體和一個代理人類 AI 智能體,以管理聊天互動。
6、處理 AI 智能體聊天

Zep 對話 AI 智能體介入,創建一個連貫、個性化的回應。它無縫整合了記憶和對話。
7、Streamlit 用戶界面

創建了一個簡化的 Streamlit 用戶界面,以確保與 AI 智能體的互動順暢且簡單。
8、可視化知識圖譜

通過 Zep Cloud 的用戶界面,交互式地映射用戶在多個會話中的對話。這個強大的工具使我們能夠通過圖譜可視化知識的演變。
第四、基于 Zep 的 AI 智能體完整代碼
完整代碼獲取地址:
???https://github.com/patchy631/ai-engineering-hub/tree/main/zep-memory-assistant??
總之,本文介紹了如何構建一個具有類似人類記憶的 AI 智能體,使用的技術棧包括開源的 Zep 記憶層、AutoGen 用于 AI 智能體編排以及 Ollama 用于本地提供 Qwen 3服務。AI 智能體系統通過保存對話、提取事實到記憶中、檢索事實并總結,最終生成基于事實和歷史記錄的明智回應。此外,通過 Zep Cloud 的用戶界面,可以交互式地映射用戶在多個會話中的對話,可視化知識的演變。整個過程通過 Streamlit 用戶界面實現順暢且簡單的交互。
本文轉載自???玄姐聊AGI?? 作者:玄姐

















