字節開源終身記憶多模態智能體，長時記憶+RL，實測超Gemini?GPT4o！

探索AGI

發布于 2025-8-18 09:26

瀏覽

0收藏

嘿，大家好！這里是一個專注于前沿AI和智能體的頻道~

字節又偷摸開源了，一個帶記憶的Agent。看起來不稀奇，但是這可能全球首個帶終身記憶更新的全多模態智能體。

字節開源終身記憶多模態智能體，長時記憶+RL，實測超Gemini?GPT4o！-AI.x社區

這玩意兒的核心，是給Agent裝上了一個真正意義上的“長期記憶”大腦，能邊看邊聽邊記，還能像人一樣推理總結。

背后也不是靠堆參數，而是一套全新的關于記憶智能體的架構思想。所以，今天，給家人們分享一下這個工作。

論文： https://arxiv.org/pdf/2508.09736

github: https://github.com/ByteDance-Seed/m3-agent

背景

講 ??M3-Agent?? 之前，得先知道它解決了什么問題。

現在的Agent處理長視頻或者長對話，主要靠兩種方法：一是超長上下文窗口，簡單粗暴；二是傳統的RAG，把視頻切片描述存起來再檢索。但這兩種方法都有致命缺陷：

身份識別混亂：一個視頻里，“穿紅衣服的男人”可能在不同時間點被描述成不同的人，Agent沒法把他們關聯起來。
關鍵細節遺忘：RAG召回的只是文本片段，很多視覺、聽覺的細節和它們之間的關系都丟失了。
知識無法沉淀：Agent只是被動檢索，無法從具體事件中提煉出“小明喜歡喝咖啡”這樣的通用知識。

M3-Agent：給AI裝上實體記憶圖譜

??M3-Agent??? 的解法非常干脆：別再把記憶當成一堆無序的文本了，而是構建一個以實體為中心的多模態記憶圖譜（??VideoGraph??）。

??M3-Agent?? 的架構包含兩個并行工作的流程：

**Memorization:**持續不斷地處理視頻流和音頻流，提取信息，并構建和更新那個實體記憶圖譜。它會同時生成兩種記憶：

情景記憶 (Episodic Memory):記錄具體發生了什么。例如，“??<face_1>?? 拿起杯子說，‘早上沒這個我可不行’”。
語義記憶 (Semantic Memory):提煉出通用知識。例如，“??<face_1>?? 的名字是Alice”，“Alice早上喜歡喝咖啡”。

Control:當收到用戶指令時，它會利RL訓練出的策略，自主地進行多輪思考和檢索，從記憶圖譜里撈取最相關的信息，最終完成任務。

看看代碼：記憶系統是如何實現的？

我深入看了看他們開源的代碼，

多模態實體對齊

??M3-Agent?? 最硬核的一步，通過一套工具組合，把視頻里的人臉和聲音真正對應了起來。

??mmagent/face_processing.py???: 使用??RetinaFace?? 檢測人臉，然后聚類，給視頻里出現的每個獨立角色一個唯一的??<face_id>??。
??mmagent/voice_processing.py???:** 使用??pyannote.audio?? 做說話人分離，用??ERes2Net?? 提取聲紋，給每個說話人一個唯一的??<voice_id>??。

它會自動挖掘那些只有一個臉和一個聲音的“元片段”（meta-clips），高精度地建立 ??<face_id>??? 和 ??<voice_id>?? 的對應關系。

等價性推理與記憶圖譜更新

拿到這些實體后，??M3-Agent??? 會在語義記憶中生成等價記錄，比如 ??Equivalence: <face_1>, <voice_1>??。

在 ??mmagent/videograph.py?? 中，它用了一個非常經典的數據結構——并查集 (Union-Find) 來高效地維護這些等價關系。當新的證據進來，比如發現 ??<face_1>??? 和 ??<voice_2>?? 也可能是同一個人，圖譜會通過加權投票的機制來動態更新連接，確保長期的一致性。大概是下圖這個感覺：

字節開源終身記憶多模態智能體，長時記憶+RL，實測超Gemini?GPT4o！-AI.x社區

RL驅動的迭代式檢索

傳統RAG是一錘子買賣，搜到啥算啥。而 ??M3-Agent??? 包含一個控制模塊，在??mmagent/retrieve.py?? ，是一個會思考的分析模塊。

面對一個復雜問題，它會進行最多5輪的迭代檢索。比如第一輪搜“Tomasz是誰”，找到ID是??<character_4>???；第二輪搜“??<character_4>???的性格”，如果沒結果，它會推理出新策略，第三輪去搜“??<character_4>??作為CTO有哪些創新行為”，通過這種方式層層遞進，最終找到答案。