精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

發布于 2024-10-11 16:01
瀏覽
0收藏

一、背景

本文我們繼續介紹一個針對超長上下文的 LLM 推理加速工作,同樣是 Token 稀疏化的方案,來解決 LLM 在超長序列場景計算量大、GPU 顯存消耗大的問題,不過結合了 ANN 檢索,可以實現更高的精度。

對應的論文為:[2409.10516] RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

二、摘要

本文中作者提出了 RetrievalAttention,無需訓練就可以加速 Attention 計算。為了利用 Attention 的動態稀疏特性,RetrievalAttention 在 CPU 內存中使用 KV Cache 構建近似檢索(ANN)索引,并在生成過程中通過向量檢索識別最相關的索引。由于 Query 向量和 Key 向量之間存在 Out-Of-Distribution(OOD)問題,現成的 ANN 檢索仍然需要掃描 O(N) 數據(通常占所以 Key 的 30%)進行準確檢索,無法利用高稀疏性。

為了解決這個挑戰,RetrievalAttention 采用注意力感知向量檢索算法,可以調整 Query 只訪問 1-3% 的數據,從而實現亞線性時間復雜度。RetrievalAttention 大幅降低了長上下文 LLM 推理的成本,大幅降低 GPU 顯存需求,同時保持模型準確性。特別的,RetrievalAttention 只需要 16GB 內存就可以在具有 8B 參數的 LLM 上支持 128K Token的推理,在單個 RTX4090(24GB)上可以在 0.188s 內生成一個 Token。

如下圖 Figure 1 所示為本文方法與幾種常見方案的對比(PS:可以看出,本文方案相比之前 Token 稀疏化方案,是在犧牲一定推理速度的情況下提升精度):

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

三、方法

3.1 背景

使用 ANN 來識別關鍵 Token 有個獨特的挑戰:當前大部分的 ANN 引擎都假設 Query 向量和 Key 向量滿足相同的分布,以此來實現高召回率。作者在這篇論文中首次提出這種假設在 Attention 機制中不成立。Query 的這種 OOD 特性損壞了 ANN 的預期檢索質量,從而導致不得不訪問更多的數據來保持正確性,作者實驗表明,為了維持可接受的準確率,至少需要掃描 30% 的 Key 向量。

如下圖 Figure 2 所示:

  • (a)Attention Score 具有非常高的稀疏性,64000 個 Token,只有不到 500 Token 的 Score 大于 10-6。
  • (b)Q 和 Q 或者 K 和 K 的相關性很高,而 Q 和 K 的相關性很差,需要掃描 30% 左右的 Token 才能保證 0.8 左右的召回率。
  • (c)同樣說明了 Q 和 K 的距離比較遠。?

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

3.2 概覽

本文的工作主要聚焦于 Token Decoding 階段,會假設 Prefill 階段已經執行完成,比如通過 Context Caching 方案或 Prefill 和 Decoding 分離方案。

如下圖 Figure 3(a)所示為本文方案 RetrievalAttention 的概覽,其利用 CPU 側的 ANN 檢索來實現近似 Attention 計算,為了支持長序列,也會將所有 KV Cache Offload 到 CPU 內存以便構建索引。如圖(b)所示是為了解決 OOD 問題而采用的索引機制。

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

3.3 近似 Attention

具體來說,不使用完整的 Attention Score,而是采用最相關的 KV 向量來近似 Attention Score:

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

3.4 Attention 感知向量檢索

對于每對 Key 和 Value,首先確定是放在 CPU Memory 還是 GPU Memory(方法見下一小節)。然后 Offload 到 CPU 內存的 Key 和 Value 會使用 Key 來構建索引,并使用 Query 來檢索。

為了加速 Token 生成過程中的向量檢索速度,RetrievalAttention 利用 Prefill 階段的現有 Query 來指導 Key 向量的索引構建。如上圖 Figure 3(b)所示,RetrievalAttention 顯式的建立從 Query 向量到其最近的 Key 向量的連接(即精確的 K 個最近鄰,或 KNN)。KNN 結果可以通過 GPU 高效計算,形成從 Query 向量分布到 Key 向量分布的映射。使用這種結構,Decoding 的 Query 向量查詢時可以首先查詢最近的 Query 向量,然后將其映射為 Key 向量。

因此,之前的 Query 向量充當了解決 OOD 問題的橋梁。然而,這種結構在內存開銷和搜索效率方面仍然存在缺陷,因為除了 Key 向量之外,還需要存儲和訪問 Query 向量。為了解決這個問題,作者利用先進的跨模態 ANN 索引 RoarGraph 中的投影技術來消除 Query 向量。具體來說,通過使用 Query 向量和 Key 向量的連接關系,將 KNN 連接投影到 Key 向量中,從而有效地簡化搜索。此外,此方法也允許對未來的 Query 向量進行高效的索引遍歷。

作者實驗結果表明,通過這種 Query 和 Key 的連接關系進行有效建模,向量數據庫只需掃描 1-3% 的 Key 向量即可達到高召回率,與 IVF 索引相比,索引搜索延遲大幅降低 74%。

3.5 CPU 和 GPU 協同執行

為了利用 GPU 并行性加速注意力計算,RetrievalAttention 將注意力計算分解為兩組不相交的 KV Cache 向量:GPU 上的可預測向量和 CPU 上的動態向量,然后將兩部分 Attention 輸出合并在一起作為完整的 Attention 輸出。

具體來說,利用 Prefill 階段觀察到的模式來預測 Token 生成過程中持續激活的 KV 向量。與 StreamingLLM 類似,作者將固定的幾個初始 Token 和最近窗口內的 Token 作為靜態 Token,持久化在 GPU 上。RetrievalAttention 也可以適配更復雜的靜態模式,以便實現低推理成本和高準確性的平衡。為了最大限度減少通過慢速 PCIe 的數據傳輸,RetrievalAttention 在 CPU 和 GPU 上獨立計算 Attention,然后將其組合起來,這個靈感來自 FastAttention([2205.14135] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness)。 

四、評估

4.1 實驗配置

機器包含三個:

  • RTX 4090 GPU(24G 顯存),Intel i9-10900X CPU(20 Core),128 GB 內存。
  • A100 GPU(80GB 顯存),AMD EPYC CPU(24 Core)。
  • A100 GPU(80GB 顯存),AMD EPYC 7V12 CPU(48 Core),1.72TB 內存。

模型包含三個:

  • LLaMA-3-8B-Instruct-262K
  • Yi-6B-200K
  • Yi-9B-200K

對比框架包括:

  • Full Attention 的 vLLM
  • StreamingLLM
  • SnapKV
  • InfLLM

基準測試包括:

  • ∞-Bench
  • RULER
  • Needle-in-a-haystack

4.2 長文本任務精度

如下圖 Table 2 所示,本文提出的 RetrievalAttention 明顯優于之前的方案,平均精度非常接近 Full Attention。當然,部分模型上 Flat(暴露檢索索引數據) 會略好于 RetrievalAttention,不過差距不大。

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

4.3 時延評估

如下圖 Table 6 所示,作者首先驗證了本文提出的檢索方式的有效性,可以看出,提出的 RetrievalAttention 相比 Flat 和 IVF 可以提供 4.9x 和 1.98x 的加速,證明了檢索機制的有效性:

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

如下圖 Table 4 所示,作者也與之前的其他稀疏化方案進行對比,可以看出,之前的方案往往采用固定的 Token 數,因此隨著序列變長并沒有明顯增加時延,而本文的方法會略微增加。同時,本文方法推理 Latency 相比之前方法明顯增加,大概是之前方法 Latency 的 3x-6x。然而其仍然明顯低于 Full Attention(FlexGen) 的結果。相當于在效果和速度之間的折衷。

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

如下圖 Table 7 和 Table 8 為在 A100 上的結果,結論類似,不過在 100K 和 200K 時其 Latency 會超過 vLLM:

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

五、參考鏈接

  1. ???https://arxiv.org/abs/2409.10516???
  2. ???https://arxiv.org/abs/2205.14135????

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
精品免费囯产一区二区三区| 蜜桃精品一区二区| 爱搞国产精品| 欧美国产在线观看| 亚洲最大成人在线| 91美女免费看| 香蕉视频国产精品| 亚洲精品国产精品国自产观看浪潮 | 丰满熟女一区二区三区| 午夜在线播放视频欧美| 日韩有码视频在线| 中文字幕日韩三级片| 婷婷成人av| 欧美日韩性视频| 二级片在线观看| 欧美黄色小说| 粉嫩13p一区二区三区| 国产成人中文字幕| 久青草视频在线观看| 日韩专区精品| 亚洲日本欧美日韩高观看| 日批免费观看视频| 日韩欧国产精品一区综合无码| 亚洲成av人影院在线观看网| 中文字幕一区二区中文字幕| 毛片在线播放网站| 成人国产精品免费观看动漫| 成人淫片在线看| 国产亚洲欧美日韩高清| 亚洲精品影院在线观看| 欧美成人午夜剧场免费观看| 国产极品视频在线观看| 亚洲欧洲av| 亚洲国产精品99| 丰满人妻一区二区三区53视频| 欧美va在线观看| 欧美小视频在线观看| av日韩一区二区三区| 成人免费看片| 亚洲少妇最新在线视频| 亚洲开发第一视频在线播放| 福利视频在线导航| 2021中文字幕一区亚洲| 精品一区二区三区自拍图片区| 亚洲AV无码精品国产| 经典三级在线一区| 国产一区二区丝袜高跟鞋图片| 日韩精选在线观看| 丝瓜av网站精品一区二区| 欧美亚洲日本网站| 中文在线第一页| 销魂美女一区二区三区视频在线| 好色先生视频污| 97成人免费视频| 美女一区二区久久| 国产精品久久二区| 一区二区视频网站| 毛片av一区二区| 国产欧美日韩精品在线观看| 一区二区视频免费观看| 韩日精品视频一区| 91观看网站| 亚洲经典一区二区| hitomi一区二区三区精品| 国内精品视频免费| 欧美婷婷久久五月精品三区| 国产亚洲欧美一区在线观看| 视频二区一区| 国产丝袜在线| 亚洲国产婷婷综合在线精品| 国产人妻777人伦精品hd| 91超碰在线免费| 色综合天天综合给合国产| 蜜臀av午夜一区二区三区| 国产经典一区| 欧美一区二区视频观看视频| caopor在线| 免费视频一区三区| 日韩中文字幕精品| 久操免费在线视频| 久久精品麻豆| 成人激情在线观看| 女人18毛片一区二区三区| 久久久另类综合| 亚洲欧洲三级| 黄页网站大全在线免费观看| 欧美日韩另类在线| 日本中文字幕精品—区二区| 无人区乱码一区二区三区| 国产视频精品xxxx| 女性裸体视频网站| 亚洲精品社区| 91久久国产婷婷一区二区| 蜜臀av在线观看| 欧美激情一二三区| 丁香婷婷综合激情| 电影网一区二区| 日韩一区二区三区电影| av小说在线观看| 欧美一区网站| 国产精品久久二区| 熟妇高潮一区二区高潮| 国产精品久久久久久久久免费丝袜| 日本福利视频在线观看| 澳门av一区二区三区| 精品日韩av一区二区| 日韩一级av毛片| 影音先锋在线一区| 成人免费黄色网| 美女做暖暖视频免费在线观看全部网址91 | 日韩在线观看一区| 国产69久久精品成人看| 99在线精品视频免费观看软件| 久久久久久久免费视频了| 999久久欧美人妻一区二区| 香蕉成人影院| 日韩电影视频免费| 欧美日韩偷拍视频| 久久精品国产亚洲高清剧情介绍| 久久国产精品精品国产色婷婷| 国产在线观看免费麻豆| 欧美亚洲国产一区二区三区| 中文字幕一区二区久久人妻网站| 欧美黄污视频| 91欧美激情另类亚洲| 国产在线超碰| 欧美日韩国产一区在线| 少妇性l交大片7724com| 欧美激情777| 国产高清在线不卡| 天堂影院在线| 精品成人国产在线观看男人呻吟| xxxx国产视频| 欧美福利影院| 91在线看www| 激情影院在线观看| 欧美日韩国产123区| 欧美激情 一区| 老牛国产精品一区的观看方式| 狠狠色综合色区| 99爱在线视频| 日韩电影中文 亚洲精品乱码| 久久视频免费看| 成人福利视频在线| www.在线观看av| 国产精品chinese在线观看| 欧美激情视频在线观看| 99久久精品免费看国产交换| 亚洲欧美激情小说另类| 亚洲欧美日本一区二区| 99国产**精品****| 91精品视频网站| 性欧美猛交videos| 欧美大片在线观看| 国产稀缺真实呦乱在线| 不卡的av网站| 黄www在线观看| 国内黄色精品| 国产一区二区在线免费视频| 免费观看久久久久| 7777精品伊人久久久大香线蕉超级流畅| 蜜桃av.com| 国产精品一二三区在线| 国产精品久久久久久久久电影网| 动漫3d精品一区二区三区乱码| 久久免费观看视频| 色视频免费在线观看| 91国产免费看| 91久久国产综合| 成人久久18免费网站麻豆| a在线视频观看| 欧美少妇性xxxx| 亚洲精品日韩激情在线电影| 九色91在线| 亚洲人成啪啪网站| 一区二区三区日| 亚洲一区二区精品久久av| 鲁大师私人影院在线观看| 青娱乐精品视频在线| 在线无限看免费粉色视频| 在线精品国产亚洲| 日本亚洲欧洲色| jyzzz在线观看视频| 日韩精品中文字幕一区 | 欧美日韩国产a| 国产精品日日夜夜| 国产欧美一区二区精品仙草咪| 亚洲精品中文字幕无码蜜桃| 中文av一区| 欧美精品一区二区三区在线看午夜| 99久久精品一区二区成人| 日韩在线视频一区| 污污网站免费在线观看| 欧美色倩网站大全免费| 精品小视频在线观看| 久久久99久久精品欧美| 超碰91在线播放| 久久久夜精品| 色婷婷777777仙踪林| 在线成人动漫av| 亚洲一区久久久| 电影一区电影二区| 97香蕉超级碰碰久久免费的优势 | 欧美高清在线播放| 国产精品久久一区二区三区不卡| 日韩精品一区二区三区在线播放 | 麻豆高清免费国产一区| 欧美激情 国产精品| 亚洲成人一区| 日韩资源av在线| 精品国内亚洲2022精品成人| 91九色国产在线| 亚洲精品555| 91禁外国网站| 成人性生交大片免费看网站| 久久精品99久久久久久久久| 番号在线播放| 精品视频在线观看日韩| 亚洲精品无码久久久| 欧美精品亚洲一区二区在线播放| 日本一区二区免费电影| 亚洲一区二区在线免费观看视频| 蜜桃av.com| 国产精品色在线| 伊人网在线视频观看| 国产91精品免费| 91丝袜超薄交口足| 裸体一区二区三区| 最近中文字幕一区二区| 久久青草久久| 国产美女三级视频| 中文亚洲免费| 日韩亚洲欧美视频| 影音先锋一区| 男人日女人视频网站| 欧美日韩国产一区精品一区| 400部精品国偷自产在线观看| 久久一本综合| 亚洲国产成人不卡| 日韩精品二区| 亚洲国产精品综合| 欧美手机在线| 一本久道久久综合| 色狮一区二区三区四区视频| 亚洲精品电影在线一区| 日本一区二区三区视频| 亚洲欧洲国产日韩精品| 三级电影一区| 国产女主播av| 亚洲国产国产亚洲一二三| 欧美久久久久久久久久久久久久| 欧美天天在线| 国产精品专区在线| 国产毛片久久| 亚洲精品乱码久久久久久自慰| 日韩精品电影一区亚洲| 九九热在线免费| 精品系列免费在线观看| 激情小说欧美色图| 菠萝蜜视频在线观看一区| aaaa黄色片| 久久久美女艺术照精彩视频福利播放| 精品无码人妻一区二区免费蜜桃| 日本一区二区三级电影在线观看| 国精产品视频一二二区| 综合av第一页| 久久久久香蕉视频| 欧美色播在线播放| 中文av免费观看| 7777精品伊人久久久大香线蕉的| 亚洲精品久久久久久久久久| 亚洲精品第一国产综合精品| 加勒比一区二区三区在线| 日韩在线视频一区| 男男gaygays亚洲| 日本一本a高清免费不卡| 亚洲高清国产拍精品26u| 国产成人女人毛片视频在线| 天天躁日日躁狠狠躁欧美| 亚州欧美一区三区三区在线 | 99久久精品国产色欲| 亚洲国产私拍精品国模在线观看| 国产中文字幕在线视频| 久久躁日日躁aaaaxxxx| 僵尸再翻生在线观看免费国语| 国产成人精品久久二区二区| 精品国产一区二区三区性色av| 精品国产乱码一区二区三区四区 | 精品国偷自产在线视频99| 92久久精品| 国产免费一区二区三区在线观看| 香蕉免费一区二区三区在线观看| 欧美18视频| 欧美国产激情| 午夜宅男在线视频| eeuss鲁片一区二区三区在线观看| 国产精品免费无码| 亚洲一区欧美一区| 在线观看免费高清视频| 亚洲国产美女久久久久| 久草资源在线| 日韩免费av片在线观看| aaa国产精品视频| 一区二区三区免费看| 国产欧美日本| 久草福利在线观看| 国产精品女主播在线观看| 日韩欧美视频在线免费观看| 欧美一区二区视频在线观看2020| 精品亚洲综合| 午夜精品一区二区三区av| 国产一区一区| 亚洲精品中文字幕在线| 蜜桃视频一区| 黑丝av在线播放| 亚洲一区av在线| 99精品国产99久久久久久97| 在线一区二区日韩| 玛雅亚洲电影| 久久一区二区三区欧美亚洲| 欧美日本免费| 97人人模人人爽人人澡| 亚洲欧洲精品成人久久奇米网 | 欧美成人一区二区三区| 9色在线观看| 国产精品扒开腿做爽爽爽视频| 日本亚洲不卡| www.99热这里只有精品| 成人丝袜18视频在线观看| 国产女人18水真多毛片18精品| 欧美亚洲日本一区| 黄色美女网站在线观看| 秋霞成人午夜鲁丝一区二区三区| 女同久久另类99精品国产| 可以看毛片的网址| 懂色av中文一区二区三区| 欧美成人精品欧美一级私黄| 日韩一级免费一区| 一区二区三区伦理| 91偷拍精品一区二区三区| 欧美成人日韩| 四虎国产精品免费| 亚洲一区在线视频| 刘亦菲毛片一区二区三区| 欧美激情图片区| 欧美黄色影院| 北条麻妃在线观看| 国产亚洲短视频| 中文字幕精品一区二区精| 最近免费中文字幕视频2019| 国产精品99精品一区二区三区∴| 亚洲一区二区三区精品在线观看| 美腿丝袜在线亚洲一区| 日韩av毛片在线观看| 欧美一区二区啪啪| 久草在线视频网站| 久久久久久欧美精品色一二三四| 国产精品久久久免费| www.av欧美| 欧美日韩一区二区欧美激情 | 亚洲婷婷国产精品电影人久久| 国产精品无码专区av免费播放| 欧美猛交免费看| 丁香五月缴情综合网| av动漫在线观看| 亚洲国产成人午夜在线一区| 国产熟女一区二区三区五月婷 | 国产又色又爽又黄的| 亚洲欧美综合v| av在线国产精品| 久久99久久99精品| 国产性色一区二区| 一区二区三区免费在线| 久久人人看视频| 狠狠综合久久av一区二区蜜桃| 第一区免费在线观看| 夜夜亚洲天天久久| 嫩草研究院在线| 91日本在线观看| 99视频精品| 美女三级黄色片| 欧美精品一区二区三区在线| 欧美性理论片在线观看片免费| 天天干天天色天天爽| av色综合久久天堂av综合| 国产情侣免费视频| 欧美日韩国产成人在线观看| 久久综合亚洲| 中文字幕第10页| 一本大道久久a久久综合婷婷 | 亚洲国产一区二区视频| 高h视频在线| 国产主播一区二区三区四区| 蜜臀av一级做a爰片久久| 日本在线视频免费| 日韩在线观看视频免费| 亚洲第一福利社区| 色网站在线视频| 日本道在线观看一区二区| 宅男在线观看免费高清网站 |