提速30倍，Meta重新定義了新一代RAG！

PaperAgent

發布于 2025-9-11 06:33

瀏覽

0收藏

LLM時代，RAG已成為知識密集型任務的標準范式。然而，RAG系統在處理長上下文時面臨兩個核心挑戰：

延遲高：Time-to-First-Token（TTFT）隨上下文長度呈二次增長；
內存貴：KV緩存隨token數線性增長，導致吞吐量下降。

傳統方法試圖通過稀疏注意力、上下文壓縮等手段緩解，而Meta超級智能Lab首次針對RAG的特殊結構進行優化。（Code、Paper鏈接在文末）

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

RAG的“隱藏結構”：塊對角注意力稀疏性

RAG上下文中的檢索段落往往：

語義差異大（多樣性檢索）；
交叉注意力弱（塊對角結構）；
大部分token與查詢無關。

圖7：不同段落間的注意力稀疏性

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

圖7：不同檢索段落間的注意力值顯著低于段落內部，表明交叉注意力稀疏。

REFRAG框架：壓縮-感知-擴展三步走

REFRAG提出一種無需修改LLM結構的高效解碼框架，核心思想是：

用壓縮的段落嵌入代替原始token，只在必要時展開完整上下文。

架構組成

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

圖1：REFRAG架構概覽

訓練策略：課程學習+強化學習雙輪驅動

1?? 課程學習（Curriculum Learning）

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

圖6：課程學習數據混合比例

重建任務：從chunk embedding還原原始token；
逐步增加難度：從1個chunk到L個chunk；
數據混合策略：早期簡單樣本多，后期復雜樣本多。

2?? 強化學習（RL-based Selective Expansion）

RL策略在所有壓縮率下均優于隨機/啟發式選擇策略。

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

獎勵函數：負困惑度（-perplexity）；
策略網絡：基于chunk embedding選擇展開段落；
目標：在壓縮率與性能之間找到最優平衡點。

實驗：更快、更強、更長

? 主實驗結果

30× TTFT加速，16×上下文外推

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

短上下文PPL

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

長上下文PPL

? RAG任務表現

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

圖4：在相同延遲下，REFRAG顯著優于LLaMA

圖4：在相同延遲預算下，REFRAG通過引入更多上下文，準確率提升1.22%（強檢索）與1.93%（弱檢索）。

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

消融實驗：每一步都很關鍵

提速30倍，Meta重新定義了新一代RAG！-AI.x社區

https://arxiv.org/pdf/2509.01092
REFRAG: Rethinking RAG based Decoding
https://github.com/facebookresearch/refrag

本文轉載自???PaperAgent??

標簽

RAG

LLM

弱檢索

贊

回復

舉報

回復

相關推薦

字節提出新一代數據集COCONut，比COCO粒度分割更密集

輕薄滴假象 ? 5659瀏覽 ? 0回復
YOLOv9：深度解析新一代實時目標檢測王者

sword_hero ? 8011瀏覽 ? 0回復
微軟重磅開源 GraphRAG：新一代 RAG 技術來了！

玄姐聊AGI ? 7985瀏覽 ? 0回復
蘋果發布新基準，重新定義大模型強弱！

51CTO技術棧 ? 3678瀏覽 ? 0回復
視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰Scaling Law

輕薄滴假象 ? 3525瀏覽 ? 0回復
下一代RAG：MemoRAG

PaperAgent ? 4360瀏覽 ? 0回復
Zyphra發布Zamba2-7B：新一代高性能小型語言模型

Halo咯咯 ? 4063瀏覽 ? 0回復
重新定義AI的可能性！

kede96 ? 5619瀏覽 ? 0回復
從 Cursor 看面向聊天編程（CHOP）：如何重新定義開發者與代碼的關系

凝固的雨_1 ? 3952瀏覽 ? 0回復
為什么多模態AI是下一個風口？深度解讀新一代LLM

芝士AI吃魚 ? 6927瀏覽 ? 0回復
Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 7484瀏覽 ? 0回復
別搞 GraphRAG 了，擁抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI ? 4637瀏覽 ? 0回復
五分鐘讀懂Manus平替：深度解析OpenManus 如何重新定義Multi Agent?

AI博物院 ? 8167瀏覽 ? 0回復
有望重新定義語言生成技術的擴散模型——LLaDA?

51CTO內容精選 ? 3653瀏覽 ? 0回復
忘掉 Manus 模型上下文協議MCP 正在重新定義智能體的未來

數智飛輪 ? 3306瀏覽 ? 0回復
別搞 GraphRAG 了，擁抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI ? 3712瀏覽 ? 0回復
Zhipu AI剛剛發布了GLM-4.5系列：重新定義帶有混合推理的開源代理AI

Halo咯咯 ? 5963瀏覽 ? 0回復
重新定義 RAG 新架構設計，10倍提升長文本處理慢問題

玄姐聊AGI ? 2007瀏覽 ? 0回復
深度解析新一代Agent框架Agno, 號稱比LangGraph快5000倍!

AI博物院 ? 645瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

提速30倍，Meta重新定義了新一代RAG！

RAG的“隱藏結構”：塊對角注意力稀疏性

REFRAG框架：壓縮-感知-擴展三步走

架構組成

訓練策略：課程學習+強化學習雙輪驅動

1?? 課程學習（Curriculum Learning）

2?? 強化學習（RL-based Selective Expansion）

實驗：更快、更強、更長

? 主實驗結果

? RAG任務表現

消融實驗：每一步都很關鍵

目錄