精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×

發布于 2025-9-16 07:25
瀏覽
0收藏

一、RAG一些棘手的問題

檢索增強生成(RAG)通過把外部知識以“拼接文檔”形式喂給大模型,在多輪對話、開放域問答、Agent 等場景取得顯著效果。然而,該范式帶來兩個問題:

  • 延遲爆炸:輸入長度驟增,首詞延遲(TTFT)與 KV-Cache 顯存隨 token 數線性乃至二次方增長。
  • 信息稀疏:檢索返回的幾十篇文檔里,僅極少數片段與當前 query 真正相關;其余 token 對生成幾乎無貢獻,卻仍要參與全部注意力計算。

有一些緩解手段,但是效果有限。例如:

  • 稀疏注意力 / 線性注意力:把 O(n2) 降為 O(n) 或 O(n log n),但 KV-Cache 體積不變,TTFT 依舊隨序列長度線性增加。
  • 前綴壓縮 / 滑動窗口:只能丟棄最左側 token,無法處理“中間大段無用信息”的 RAG 場景。
  • Chunk 級編碼器(如 CEPE):把文檔先經編碼器壓成向量,再用交叉注意力注入解碼器,但仍以“token”為基本單元,未突破“所有 token 必須進 KV-Cache”的桎梏,且僅支持前綴壓縮,不支持多輪、任意位置壓縮。

二、4個問題的解決思路

問題

關鍵技術

工作原理簡述

不修改解碼器參數

的前提下,把 RAG 上下文“壓”到極小,卻保持生成質量

Chunk-level 表示替代 Token 序列

以 k 個 token 為一組,用輕量編碼器壓成一個向量,解碼器只在該向量上做注意力,輸入長度立即降為 1/k。

復用檢索階段已算好的文檔向量

,避免重復編碼

預計算 + 可復用 Chunk Embedding

檢索階段已產出文檔向量,直接緩存;推理時僅需輕量投影 φ(·) 對齊解碼器隱空間,零重復編碼。

在任意位置、任意粒度

做“壓縮-解壓”決策,以適配多輪對話、Agent 等復雜格式

“Compress-Anywhere” 自回歸掩碼

把壓縮向量當“特殊 token”插入原始序列任意位置,通過定制 attention mask 維持自回歸,支持多輪、中間摘要等格式。

在壓縮率可動態調整

的同時,保證訓練穩定、推理加速效果可預測

RL-based Selective Expansion

訓練一個策略網絡 πθ,按 chunk 重要性順序決定“哪些解壓回 token”,在推理階段可實時調整壓縮率,無需重新微調模型。

三、REFRAG

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區

3.1 REFRAG的輸入與輸出

  • 輸入:question token q?…q?,檢索返回文檔 d?…d?,總長度 T = n + m。
  • 分塊:文檔側每 k 個 token 切為一 chunk C?,得 L = ?m/k? 塊。
  • 編碼:輕量編碼器 M???(·)(RoBERTa 系列)輸出 chunk embedding c? = M???(C?)。
  • 投影:φ(c?) → e???? ∈ ??,與解碼器詞嵌入同維。
  • 解碼器輸入:[e?,…,e? ? question tokens;  e????,…,e???? ? compressed chunks]序列長度由 n + m 縮至 n + L(L ≈ m/k)。
  • 生成:標準自回歸,注意力只在 n+L 個表示上計算,復雜度 O((n+L)2) ≈ O(n2/k2)。

3.2 訓練三階段(穩定壓縮的關鍵)

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區

  1. 重建任務(Reconstruction)目的:讓 φ 與 M??? 學會“k 個 token → 一個向量 → 還原 k 個 token”的信息守恒。做法:凍結解碼器,僅訓練 M??? + φ;輸入前 s token,用 chunk 嵌入重建自身。
  2. 持續預訓練(CPT,Next-Paragraph Prediction)目的:讓解碼器“習慣”把 chunk 嵌入當上下文。做法:解凍解碼器,以“前 s token 的 chunk 嵌入”預測后 o token,采用課程學習
  • 階段 1 只重建 1 個 chunk,階段 9 重建 256 個 chunk,逐步加難度,防止梯度爆炸/欠擬合。
  1. 下游微調 + 選擇性解壓(SFT + RL Expansion)目的:適配 RAG、多輪對話、摘要等任務,并學會“重要 chunk 不解壓”。做法:
  • 先以 90 % 壓縮率混合輸入(90 % chunk 嵌入 + 10 % 原始 token)繼續微調。
  • 再用強化學習(PPO-GRPO)訓練策略 πθ,按順序挑選 T′ 個 chunk 恢復成 token;獎勵 = -perplexity。推理時,給定延遲預算,可動態選 T′,實現“同延遲更多文檔”或“同文檔更低延遲”。

3.3 復雜度與加速比

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區

記 s = 文檔側 token 數,k = 壓縮粒度,則

  • KV-Cache 內存:降為 1/k
  • TTFT 計算量:≈ 1/k2(短文本 1/k,長文本 1/k2)
  • 實驗峰值:k=32 時 TTFT 加速 30.85×,吞吐量最高 6.78×,perplexity 與 Full-Context 基線持平甚至更好。

四、REFRAG的流程

1.檢索端改造

  • 沿用現有雙塔向量檢索,僅加“保存 chunk 向量”邏輯;向量庫存 FP16,占空間 < 1 % 原文本。

2.編碼器離線蒸餾

  • 選 RoBERTa-Base 為教師,用 MSE 損失對齊 LLaMA 詞嵌入空間;訓練 1 epoch,8×A100 約 6 小時。

3.重建任務

  • 凍結 LLaMA,僅訓編碼器+2 層 MLP 投影;學習率 2e-4,batch 256,4 萬步即可。

4. CPT + 課程學習

  • 數據混合按表 8 幾何序列;9 個階段共 40 k 步,學習率 5e-5,FSDP 8 節點 64 卡,一天完成。

5.下游微調

  • RAG 數據 110 萬條,混合 5 域問答;90 % 壓縮率混合輸入,訓練 1 epoch,學習率 2e-5。

6.RL 策略訓練(可選)

  • 用 GRPO 組采樣 64 條軌跡,T′=L/4,clip=0.2,訓練 5 k 步即可上線;推理時按延遲預算選 T′。

7 部署

  • 緩存 chunk 向量放 CPU 內存,推理時異步預取;
  • batch=1 實測 A100 上 16 k token 上下文 TTFT 從 2.8 s → 90 ms。

五、實驗驗證與消融分析

5.1 主實驗結果

數據集:Arxiv、Book、PG19、Proof-pile + 16 項 RAG 基準(NQ、TQA、MMLU 等)基線:LLaMA-2-7B、LLaMA-32K、CEPE、REPLUG、LLaMAK(截斷匹配 token 數)指標:perplexity、ExactMatch、F1、Accuracy、TTFT、Throughput

模型

平均困惑度↓

TTFT 加速比↑

顯存節省

LLaMA-Full

1.00×

1.0×

0 %

CEPE

+2.1 %

2.0×

50 %

REFRAG16

-1.2 %

16.5×

93.75 %

REFRAG32

+0.8 %

30.8×

96.9 %

結論:在相同或更低困惑度前提下,REFRAG 把首詞延遲壓到 CEPE 的 1/3.75,顯存僅用 3 %。

5.2 下游任務抽樣

  • RAG(強檢索器):REFRAG8 與 LLaMA-FT 10-passage 相比,平均準確率 +1.22 %,延遲僅 1/5.26。
  • RAG(弱檢索器):REFRAG 因能裝 8× 更多文檔,在檢索質量差時優勢放大,平均 +1.93 %。
  • 多輪對話:TopiOCQA 6 輪場景,REFRAG8 比 LLaMA-FT 提升 5.6 %,因無需截斷歷史。
  • 長文檔摘要:Arxiv/Pubmed  Rouge-1 提升 3–5 點,同解碼 token 預算下顯著領先。

5.3 消融實驗

  1. 無課程學習:重建任務 perplexity 從 0.135 → 1.599,CPT 不收斂。
  2. 無重建預初始化:CPT 階段 perplexity 差 30 % 以上。
  3. 無 RL 選擇:固定壓縮率 8 的 REFRAG8 被“REFRAG16+RL 選 50 %”全面超越,驗證動態解壓>靜態低壓縮
  4. 編碼器大小:RoBERTa-Base→Large 僅降 0.2 % perplexity,解碼器 7B→13B 降 8 %,說明瓶頸在解碼器容量而非編碼器。

六、REFRAG與其它方案對比

方法

壓縮粒度

是否復用檢索向量

支持任意位置

動態壓縮

模型改動

LLMLingua

token

預算驅動

CEPE

token

否(僅前綴)

需改交叉注意

Compressive Transformer

segment

需從頭訓練

REFRAG

chunk

是(RL)

零解碼器參數

七、RAG改進的幾個方向

  1. 極端壓縮率(k≥64)下信息損失陡增,需探索非均勻分段層次壓縮
  2. 多模態擴展:文本-圖像混合 RAG 時,chunk 定義與對齊策略待研究。
  3. 在線學習:隨著知識庫更新,如何增量更新 chunk 向量而避免全量重算。
  4. 端側落地:chunk 向量緩存仍占內存,可結合量化+索引壓縮進一步瘦身。

八、結論

REFRAG 重新審視了 RAG 的“長上下文”假設,指出其注意力矩陣的塊對角稀疏性使得“token-level 全計算”成為巨大浪費。

通過“先壓縮、再感知、后擴展”,在零解碼器參數、零生成質量損失的前提下,把首詞延遲壓到現有工作的 1/3.75,顯存節省 90 % 以上,并支持任意位置、動態壓縮的復雜場景。

實驗覆蓋 RAG、多輪對話、長文摘要三大任務,加速比 6–30× 全面領先,為“大模型+知識庫”在 web-scale、Agent 等延遲敏感場景落地提供了可工程化、可擴展的新范式。

??https://arxiv.org/pdf/2509.01092??

??https://github.com/simulanics/REFRAG??

本文轉載自???CourseAI???,作者:CourseAI

已于2025-9-16 07:30:53修改
收藏
回復
舉報
回復
相關推薦
国产中文字幕一区二区三区| 99久久精品免费看国产小宝寻花| 日本亚洲视频在线| 精品精品国产国产自在线| 国产人妻精品午夜福利免费| 成人片免费看| 亚洲女人的天堂| 欧美极品色图| 99国产精品欲| 天堂蜜桃一区二区三区 | av网站大全在线| 91美女在线观看| 亚洲va码欧洲m码| 久久久精品毛片| 欧美人成网站| 中文字幕成人在线| 亚洲av无码一区二区三区网址| 91伊人久久| 午夜精品久久久久久久| 在线视频福利一区| 毛片免费在线播放| 成人久久久精品乱码一区二区三区 | 91精品国产91热久久久做人人| 久久久久久免费看| 福利视频在线| 国产精品伦理一区二区| 久久精品ww人人做人人爽| av免费在线不卡| 美女在线观看视频一区二区| 欧洲精品久久久| 国产在线视频卡一卡二| 亚洲欧洲日韩| 色婷婷综合成人av| 一级片视频免费看| 亚洲精品白浆高清| 亚洲黄色在线观看| 无码人妻一区二区三区一| 亚洲精品69| 欧美日韩另类一区| 亚洲无吗一区二区三区| 625成人欧美午夜电影| 午夜电影网亚洲视频| 国产1区2区3区中文字幕| 免费黄色电影在线观看| 亚洲欧洲99久久| 亚洲高清乱码| 在线观看a视频| 欧美国产成人精品| 神马影院一区二区| 国产98在线| 国产精品女同一区二区三区| 日本精品免费| 成人在线高清视频| 国产精品素人视频| 一级特黄录像免费播放全99| 91亚洲欧美| 中文字幕中文乱码欧美一区二区| 亚洲精品在线免费看| 99国产在线| 日本欧美一区二区三区不卡视频| 九一精品国产| 亚洲香蕉成视频在线观看 | 国产伦精品一区二区三区免费优势| 日韩视频免费观看高清完整版在线观看 | 成人短视频下载| 国产女主播一区二区三区| 天堂中文字幕av| 91色九色蝌蚪| 日韩一区不卡| 毛片在线播放a| 一区二区成人在线观看| 国产片侵犯亲女视频播放| av手机在线观看| 一本到高清视频免费精品| 免费黄色一级网站| 国内精品视频| 亚洲精品97久久| 国产 xxxx| 成人在线免费观看网站| 裸体女人亚洲精品一区| 精品视频久久久久| 久久精品国语| 91亚洲人电影| 天天av综合网| 中文字幕一区二区三区四区不卡| 欧美美女黄色网| 九色porny自拍视频在线播放| 日本高清免费不卡视频| 午夜影院免费版| 色婷婷av一区二区三区丝袜美腿| 中文字幕av一区二区| 好吊色视频在线观看| 午夜综合激情| 亚洲一区二区三| 日本一区二区三区在线观看视频| 国产精品毛片久久久久久久| 国产天堂视频在线观看| 91在线亚洲| 亚洲国产精品久久精品怡红院| 国产精品美女高潮无套| 国产一区视频在线观看免费| 国产精品第2页| 丰满人妻妇伦又伦精品国产| 欧美韩日一区二区三区四区| 国产精品久久久影院| 日本.亚洲电影| 亚洲成人a级网| 手机免费观看av| 亚洲精品美女91| 亚洲aaa激情| 不卡在线视频| 欧美午夜激情在线| 欧美丰满熟妇bbb久久久| 日韩精品免费| 日韩美女免费视频| 日本美女一级片| 亚洲欧美国产三级| 日日躁夜夜躁aaaabbbb| 免费成人av| 97视频在线播放| 亚洲国产精品久久久久爰性色 | 五月婷婷一区二区| 日本美女一区二区三区视频| 精品免费视频123区| 特级毛片在线| 91精品久久久久久久99蜜桃| 国产精品美女高潮无套| 久久精品女人| 美日韩精品免费| 高清在线视频不卡| 欧美成人欧美edvon| 成年人二级毛片| 美女一区二区视频| 亚洲亚洲精品三区日韩精品在线视频| 蜜臀久久精品| 日韩国产欧美精品一区二区三区| 免费在线观看日韩| 国产91精品一区二区| 先锋影音男人资源| 二区三区精品| 精品视频9999| 粉嫩av一区二区夜夜嗨| 亚洲一区二区三区四区在线观看| 一级黄色大片儿| 久久久久午夜电影| 成人午夜激情网| 国产激情在线| 精品毛片乱码1区2区3区| 欧美三级在线免费观看| 国产99久久久国产精品| 4444亚洲人成无码网在线观看| 受虐m奴xxx在线观看| 先锋影音在线资源站91| 91麻豆精品91久久久久久清纯| 91视频青青草| 国产精品亚洲一区二区三区在线 | 你懂的网址国产 欧美| 18成人免费观看网站下载| 在线免费av导航| 欧美成人一区二区| 99热国产在线观看| 久久久久久久久久美女| 冲田杏梨av在线| 91视频一区| 成人三级在线| 都市激情亚洲综合| 中文字幕久热精品视频在线| 一区二区小视频| 曰韩精品一区二区| 右手影院亚洲欧美| 美女看a上一区| 亚洲啊啊啊啊啊| 亚洲精品456| 国产欧美日韩精品专区| 91在线中文| 亚洲第一精品夜夜躁人人爽| 69亚洲精品久久久蜜桃小说| 国产精品色在线| 日本久久黄色| 亚洲第一综合色| 成年人小视频在线观看| 午夜在线播放视频欧美| 五月天色一区| 97久久亚洲| 国产成人精彩在线视频九色| 麻豆视频在线| 日韩av在线播放资源| 国产女优在线播放| 亚洲图片欧美一区| 国产一区二区三区四区在线| 国产高清视频一区| 久久国产色av免费观看| 欧美福利在线| 日韩在线国产| 成人黄色av网址| 国产在线999| 偷拍自拍在线看| 久久成人亚洲精品| 精品视频三区| 精品国产乱码久久久久久浪潮| 久久人妻免费视频| 亚洲卡通动漫在线| 丰满少妇高潮一区二区| 国产精品一区在线观看你懂的| 凹凸国产熟女精品视频| 欧美.www| 亚洲日本无吗高清不卡| 欧美美女在线直播| 99久久国产免费免费| 美女写真久久影院| 性亚洲最疯狂xxxx高清| av大大超碰在线| 中文字幕日韩在线观看| 亚洲三区在线观看无套内射| 日韩视频一区二区三区在线播放 | 欧美精品一二三| www.中文字幕在线观看| 亚洲男人电影天堂| 亚洲激情图片网| 久久久91精品国产一区二区精品 | 亚洲黄色av片| 视频一区在线视频| 北条麻妃69av| 一本久久综合| 精品一区二区三区无码视频| 婷婷激情图片久久| 天堂精品一区二区三区| 欧美a一欧美| 国产精品一区二区三区在线观| 国产精品亚洲欧美日韩一区在线| 国产精品com| 欧美片第一页| 日本国产欧美一区二区三区| 成人免费观看在线观看| 欧美国产日韩一区二区在线观看 | gogogo高清在线观看一区二区| 精品视频导航| 亚欧洲精品视频在线观看| 国产精品一区二区欧美| caoporn成人免费视频在线| 91在线短视频| 18国产精品| 成人一区二区三区四区| 高潮按摩久久久久久av免费| 国产精品久久久一区二区三区| 91精品日本| 国产视频精品网| 国产伦精品一区二区三区在线播放| 国产精品久久久久久久久久直播 | 亚洲美女视频网| 精品一二三区视频| 在线观看日韩欧美| 天天影视久久综合| 欧美精品午夜视频| 国产美女一区视频| 55夜色66夜色国产精品视频| 高清不卡av| 国产精品一区久久久| 亚洲伦理网站| 98国产高清一区| 国产精品videossex| 91污片在线观看| 国产a级一级片| 久久精品官网| 最新天堂中文在线| 国产电影一区在线| 99久久人妻精品免费二区| 久久久亚洲高清| 999精品在线视频| 夜夜夜精品看看| 4438国产精品一区二区| 欧美色图一区二区三区| 国产激情无套内精对白视频| 亚洲第一区中文99精品| 九一在线视频| 裸体女人亚洲精品一区| 国产在线88av| 国产精品日韩欧美综合| 999久久久精品一区二区| 久久婷婷国产综合尤物精品| 日韩av自拍| 热99这里只有精品| 免费观看日韩电影| 国产69视频在线观看| 久久久久久久电影| 人妻少妇精品一区二区三区| 精品福利樱桃av导航| 又骚又黄的视频| 欧美精品一区二区蜜臀亚洲| seseavlu视频在线| 久久久久久久国产| 成人精品国产亚洲| 国产乱码精品一区二区三区卡 | 国产一线二线三线女| 久久综合九色| 国产无套精品一区二区三区| 国产无人区一区二区三区| 免费网站看av| 欧美在线一二三四区| 理论片中文字幕| 久久精品国产视频| 欧美momandson| 国产精品国产三级欧美二区 | 欧美成人一级| 亚洲国产欧美日韩| 国产精品老牛| 男人女人拔萝卜视频| 国产精品人妖ts系列视频| 久久不卡免费视频| 日韩女优av电影在线观看| √天堂资源地址在线官网| 日本一区二区三区四区视频| 亚洲国产精品免费视频| 一区二区91美女张开腿让人桶| 国产精品试看| 中文在线观看免费视频| 亚洲人成网站在线| 中文字幕乱码在线观看| 精品视频久久久久久久| 丰满大乳少妇在线观看网站| 91精品久久久久久久| 国产乱码精品一区二区亚洲 | 亚洲国产一区自拍| 免费看电影在线| 亚洲aⅴ男人的天堂在线观看| 日韩精品久久久久久久电影99爱| 毛片av免费在线观看| 国产精选久久| 日韩精品视频中文在线观看| 2020国产在线视频| 91色视频在线观看| 91蜜臀精品国产自偷在线| 国产区二区三区| 欧美国产精品久久| 中文字幕一区二区三区四区视频 | 中文在线资源| 久久精品日产第一区二区三区乱码 | 精品久久久91| 国产精品美女久久久久| 精品久久免费观看| 国产精品自在欧美一区| 欧美特级一级片| 日韩欧美一二三| 日本动漫同人动漫在线观看| 91免费高清视频| 欧美区一区二| 中文字幕在线播放一区| 精品日韩视频在线观看| 免费在线黄色网址| 国产精品福利小视频| 日韩av大片| 超碰在线免费av| 亚洲专区一二三| 污视频在线免费观看| 日本亚洲欧美成人| 精品国内自产拍在线观看视频 | 69视频免费在线观看| 亚洲欧美在线看| 久久精品资源| a级片一区二区| 不卡一区二区在线| 国产精品久久久久久久久久精爆| 在线观看国产成人av片| 高清国产一区二区三区四区五区| 日本一级黄视频| 91在线你懂得| 中文字幕一区二区人妻| 成人444kkkk在线观看| 国产福利一区二区精品秒拍| 国产女大学生av| 国产精品蜜臀av| 亚洲国产精品久久久久久久| 青青草国产精品一区二区| 成人精品电影| www日本在线观看| 91黄色在线观看| av毛片在线免费看| 鲁鲁狠狠狠7777一区二区| 另类小说综合欧美亚洲| 精国产品一区二区三区a片| 亚洲裸体xxxx| 99精品视频在线免费播放 | 澳门成人av网| 超碰在线免费观看97| youjizz国产精品| 一级久久久久久久| 久久免费国产视频| 成人高清电影网站| 三级视频网站在线观看| 欧美性视频一区二区三区| 性国产高清在线观看| 日本高清久久一区二区三区| 国产精品18久久久久久久久| 特黄视频免费看| 欧美成人四级hd版| 国产欧美亚洲精品a| 国产免费一区二区三区最新6| 欧美网站一区二区| 久草在线资源福利站| 亚洲黄色网址在线观看|