提速30倍,Meta重新定義了新一代RAG!
LLM時代,RAG已成為知識密集型任務的標準范式。然而,RAG系統在處理長上下文時面臨兩個核心挑戰:
- 延遲高:Time-to-First-Token(TTFT)隨上下文長度呈二次增長;
- 內存貴:KV緩存隨token數線性增長,導致吞吐量下降。
傳統方法試圖通過稀疏注意力、上下文壓縮等手段緩解,而Meta超級智能Lab首次針對RAG的特殊結構進行優化。(Code、Paper鏈接在文末)

RAG的“隱藏結構”:塊對角注意力稀疏性
RAG上下文中的檢索段落往往:
- 語義差異大(多樣性檢索);
- 交叉注意力弱(塊對角結構);
- 大部分token與查詢無關。
圖7:不同段落間的注意力稀疏性



圖7:不同檢索段落間的注意力值顯著低于段落內部,表明交叉注意力稀疏。
REFRAG框架:壓縮-感知-擴展三步走
REFRAG提出一種無需修改LLM結構的高效解碼框架,核心思想是:
用壓縮的段落嵌入代替原始token,只在必要時展開完整上下文。
架構組成

圖1:REFRAG架構概覽
訓練策略:課程學習+強化學習雙輪驅動
1?? 課程學習(Curriculum Learning)

圖6:課程學習數據混合比例
- 重建任務:從chunk embedding還原原始token;
- 逐步增加難度:從1個chunk到L個chunk;
- 數據混合策略:早期簡單樣本多,后期復雜樣本多。
2?? 強化學習(RL-based Selective Expansion)
RL策略在所有壓縮率下均優于隨機/啟發式選擇策略。

- 獎勵函數:負困惑度(-perplexity);
- 策略網絡:基于chunk embedding選擇展開段落;
- 目標:在壓縮率與性能之間找到最優平衡點。
實驗:更快、更強、更長
? 主實驗結果
30× TTFT加速,16×上下文外推

短上下文PPL

長上下文PPL
? RAG任務表現

圖4:在相同延遲下,REFRAG顯著優于LLaMA
圖4:在相同延遲預算下,REFRAG通過引入更多上下文,準確率提升1.22%(強檢索)與1.93%(弱檢索)。

消融實驗:每一步都很關鍵

https://arxiv.org/pdf/2509.01092
REFRAG: Rethinking RAG based Decoding
https://github.com/facebookresearch/refrag本文轉載自???PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















