字節開源終身記憶多模態智能體,長時記憶+RL,實測超Gemini?GPT4o!
嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~
字節又偷摸開源了,一個帶記憶的Agent。 看起來不稀奇,但是這可能全球首個帶終身記憶更新的全多模態智能體。

這玩意兒的核心,是給Agent裝上了一個真正意義上的“長期記憶”大腦,能邊看邊聽邊記,還能像人一樣推理總結。
背后也不是靠堆參數,而是一套全新的關于記憶智能體的架構思想。所以,今天,給家人們分享一下這個工作。
論文: https://arxiv.org/pdf/2508.09736
github: https://github.com/ByteDance-Seed/m3-agent
背景
講 ??M3-Agent?? 之前,得先知道它解決了什么問題。
現在的Agent處理長視頻或者長對話,主要靠兩種方法:一是超長上下文窗口,簡單粗暴;二是傳統的RAG,把視頻切片描述存起來再檢索。但這兩種方法都有致命缺陷:
- 身份識別混亂:一個視頻里,“穿紅衣服的男人”可能在不同時間點被描述成不同的人,Agent沒法把他們關聯起來。
- 關鍵細節遺忘:RAG召回的只是文本片段,很多視覺、聽覺的細節和它們之間的關系都丟失了。
- 知識無法沉淀:Agent只是被動檢索,無法從具體事件中提煉出“小明喜歡喝咖啡”這樣的通用知識。
M3-Agent:給AI裝上實體記憶圖譜
??M3-Agent??? 的解法非常干脆:別再把記憶當成一堆無序的文本了,而是構建一個以實體為中心的多模態記憶圖譜(??VideoGraph??)。
??M3-Agent?? 的架構包含兩個并行工作的流程:
- **Memorization:**持續不斷地處理視頻流和音頻流,提取信息,并構建和更新那個實體記憶圖譜。它會同時生成兩種記憶:
- 情景記憶 (Episodic Memory):記錄具體發生了什么。例如,“?
?<face_1>?? 拿起杯子說,‘早上沒這個我可不行’”。 - 語義記憶 (Semantic Memory):提煉出通用知識。例如,“?
?<face_1>?? 的名字是Alice”,“Alice早上喜歡喝咖啡”。
- Control:當收到用戶指令時,它會利RL訓練出的策略,自主地進行多輪思考和檢索,從記憶圖譜里撈取最相關的信息,最終完成任務。
看看代碼:記憶系統是如何實現的?
我深入看了看他們開源的代碼,
多模態實體對齊
??M3-Agent?? 最硬核的一步,通過一套工具組合,把視頻里的人臉和聲音真正對應了起來。
- ?
?mmagent/face_processing.py???: 使用??RetinaFace?? 檢測人臉,然后聚類,給視頻里出現的每個獨立角色一個唯一的??<face_id>??。 - ?
?mmagent/voice_processing.py???:** 使用??pyannote.audio?? 做說話人分離,用??ERes2Net?? 提取聲紋,給每個說話人一個唯一的??<voice_id>??。
它會自動挖掘那些只有一個臉和一個聲音的“元片段”(meta-clips),高精度地建立 ??<face_id>??? 和 ??<voice_id>?? 的對應關系。
等價性推理與記憶圖譜更新
拿到這些實體后,??M3-Agent??? 會在語義記憶中生成等價記錄,比如 ??Equivalence: <face_1>, <voice_1>??。
在 ??mmagent/videograph.py?? 中,它用了一個非常經典的數據結構——并查集 (Union-Find) 來高效地維護這些等價關系。當新的證據進來,比如發現 ??<face_1>??? 和 ??<voice_2>?? 也可能是同一個人,圖譜會通過加權投票的機制來動態更新連接,確保長期的一致性。大概是下圖這個感覺:

RL驅動的迭代式檢索
傳統RAG是一錘子買賣,搜到啥算啥。而 ??M3-Agent??? 包含一個控制模塊 ,在??mmagent/retrieve.py?? ,是一個會思考的分析模塊。
面對一個復雜問題,它會進行最多5輪的迭代檢索。比如第一輪搜“Tomasz是誰”,找到ID是??<character_4>???;第二輪搜“??<character_4>???的性格”,如果沒結果,它會推理出新策略,第三輪去搜“??<character_4>??作為CTO有哪些創新行為”,通過這種方式層層遞進,最終找到答案。
跑分數據很牛

最后
代碼開源的,???https://github.com/ByteDance-Seed/m3-agent??。
整個系統的核心就是構建一個更像人腦、更結構化的、可持續學習的長期記憶系統。本文本文轉載自??探索AGI????????,作者:獼猴桃

















