精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作

發布于 2024-5-30 10:51
瀏覽
0收藏

一、背景

在 LLM 推理中,常常會采用 KV Cache 來緩存之前 Token 的中間結果,以顯著減少重復計算,從而降低自回歸生成中的延遲。然而,KV Cache 的大小與序列長度成正比,在處理長序列時會面臨極大的挑戰。尤其當前許多模型開始支持幾百 K 甚至幾 M 的序列長度,進一步凸顯了 KV Cache 的問題,因此很多研究工作致力于降低 KV Cache 的占用。

本文中簡單介紹幾個最新的工作,包括 SnapKV、YOCO、CLA、Layer-Condensed KV Cache、MiniCache 以及 PyramidInfer,它們都試圖降低緩解 KV Cache 的壓力。關于 GQA、MQA、DeepSeek MLA 以及量化相關的工作我們已經在之前進行了介紹,這里不再贅述。

二、KV Cache 大小

KV Cache 的大小與模型配置(層數,hidden_size,Attention head 個數等)以及序列長度、Batch Size 成正比。其中單個 Token 對應的 KV Cache 大小與模型配置相關,并且是固定的,這里將其稱為單位 KV Cache 計算公式為:

sum_token = (hidden_size /  num_attention_heads * num_key_value_heads) * num_hidden_layers * 2(k, v)

而總的 KV Cache 大小為:

sum = sum_token * seq_len * batch_size

batch_size 和 seq_len 越大,KV Cache 越大,如下圖所示為 LLaMA2-7B 模型的 batch_size 和 seq_len 對應的 KV Cache 大小(默認 FP16 精度):

  • 當 batch_size * seq_len 為32K時,比如 batch_size 為 1,seq_len 為 32K,其 KV Cache 大小為16GB,甚至超過模型權重大小 14GB。
  • 當 batch_size * seq_len 為128K時,比如 batch_size 為 1,seq_len 為 128K,其 KV Cache 大小為 64GB,加上模型權重 14GB 甚至快要超過 A100 GPU 的 80GB 顯存限制。?

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

三、SnapKV

[2404.14469] SnapKV: LLM Knows What You are Looking for Before Generation 的核心思路比較簡單,如下圖 Figure 1 所示,在 Prefill 階段不是保留所有輸入 Token 的 KV Cache,而是采用稀疏化的方式,針對每個 Attention Head 將 Prompt 分為 Prefix 和 Window 兩部分;然后,通過 Window 中 Token 與 Prefix 中 Token 的 Attention Score 來選擇稀疏化的 Token;最后,將它們的 KV Cache 和 Window 中 Token 的 KV Cache 一起作為 Prompt 的 KV Cache。需要說明的是:每個 Attention Head 中從 Prefix 里挑選的 Token 可能不同。此外,Decoding 階段也不會再更新 Prompt 的 KV Cache。

SnapKV 在處理 16K Token 的輸入時,可以獲得 3.6x 的加速,內存效率提升 8.2x。同時在 16 個長序列數據集上保持了與基線模型相當的精度。此外,使用 Huggingface 可以在單個 A100-80GB GPU 上處理 380K 上下文 Token 的任務。

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

四、YOCO

在 [2405.05254] You Only Cache Once: Decoder-Decoder Architectures for Language Models 中,作者只保留一層全局的 KV Cache。這種設計可以大大降低 GPU 顯存的需求,加快 Prefill 階段。如下圖所示,YOCO 模型與常規 Decoder-Only LLM 的區別有幾點:

  • 前 L/2 層(Self-Decoder)使用Efficient Self-Attention,實際上就是滑動窗口 Self-Attention或作者之前論文提出的Multi-Scale Retention。其只用保存窗口內的 KV Cache 即可。
  • 第 L/2 層的 KV Cache 作為Global KV Cache。也就是只有一層有全局 KV Cache。
  • 后 L/2 層(Cross-Decoder)使用Global Cross Attention,對應的 KV 為上一步的 Global KV Cache,也就是后續所有 L/2 層的 Cross Attention 的 KV Cache 都是相同的。?

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

五、CLA

[2405.12981] Reducing Transformer Key-Value Cache Size with Cross-Layer Attention 中作者同樣采用 Cross-Attention 機制來降低 KV Cache。不同的是作者并非采用固定層作為 Cross-Attention 的輸入,而是采用相鄰層,如下圖左圖所示。最簡單的方式就是隔層共享,稱作 CLA2,實際也可以每 3 層共享,稱作 CLA3,如下圖右圖所示。此外,這種方法與 MQA 和 GQA 等修改 Attention Head 的方案是兼容的。CLA2 顯存減小 2x,CLA3 顯存減小 3x。

作者訓練 1B 和 3B 參數模型模型實驗表明,CLA 相比傳統的 MQA 在顯存占用、準確性方面可以實現帕累托改進,從而實現更長的序列長度和更大的 Batch Size。(PS:但并不意味著可以優于現在廣泛采用的 GQA?)

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

六、Layer-Condensed KV Cache

在 [2405.10637] Layer-Condensed KV Cache for Efficient Inference of Large Language Models 中,作者同樣采用了僅計算和緩存少量層 KV Cache 的方案,從而顯著節約顯存消耗并提升吞吐量。如下圖 Figure 1 所示,僅保留最后一個 Transfomer Block 層的 KV Cache,當生成后續 Token 時其對應的 KV Cache 都從最后一層取。

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

七、MiniCache

在 [2405.14366] MiniCache: KV Cache Compression in Depth Dimension for Large Language Models 中,作者觀察到 KV Cache 在 LLM 中的深層部分的相鄰層之間表現出了高度相似性,可以基于這些相似性對 KV Cache 進行壓縮。此外,作者還引入了 Token 保留策略,對高度不同的 KV Cache 不進行合并。并且這種方法可以與其他的 KV Cache 量化方案正交使用。

作者在 LLaMA-2、LLaMA-3、Phi-3、Mistral 和 Mixtral 等模型上進行實驗,在 ShareGPT 數據集上,采用 4 Bit MiniCache LLaMA–7B 與 FP16 全量 KV Cache 相比實現了 5.02x 的壓縮比,推理吞吐提高約 5 倍,顯存占用減少 41%,同時性能幾乎無損。

如下圖 Figure 3 所示為其壓縮策略和保留策略:

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

如下圖 Figure A 所示為其詳細的執行流程:

  • 1. 獲取 KV Cache:在 Prefill 階段,逐層生成 KV Cache。
  • 2. 跨層合并:當到達合并開始層 S 時,將當前層 L 的 KV Cache 與前一層 L-1 的 KV Cache 進行合并,以減少冗余。
  • 3. 緩存:將合并后的 KV Cache 存儲起來,以便將來使用。
  • 4. 刪除:在 Decoding 階段,刪除不必要的或冗余的 KV Cache,以優化內存使用。
  • 5. 加載和生成:獲取所需的 KV Cache,用于生成輸出。
  • 6. 恢復:對獲取的 KV Cache 應用誤差抑制機制,包括 rescaling 和 retention recovery,以最小化合并和壓縮過程中引入的誤差。
  • 7. 更新:在恢復階段后,使用最終的 KV Cache 更新共享的 KV Cache。


MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

八、PyramidInfer

在 [2405.12532] PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference 中,作者發現影響未來生成的關鍵 KV 的數量逐層減少,并且可以通過注意力權重的一致性來提取這些關鍵 KV。基于這些發現,作者提出了 PyramidInfer,通過逐層保留關鍵上下文來壓縮 KV Cache。PyramidInfer 在不犧牲性能的情況下計算更少的 KV,并節約大量顯存。實驗結果表明,與 Accelerate 相比,PyramidInfer 的吞吐提高了 2.2 倍,KV Cache 的顯存占用減少了 54% 以上。

如下圖 Figure 2 所示為 PyramidInfer 與 StreamingLLM 和 H2O 的區別,PyramidInfer 中 KV Cache 會逐層遞減,越往后越稀疏(PS:如果是這樣,那么 Layer-Condensed KV Cache 中只保留最后一層的方案是不是不太合理):

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

PyramidInfer 的執行過程如下圖 Figure 6 所示:

  • 在 Prefill 階段,PyramidInfer 只保留每層的關鍵上下文(Pivotal Context, PvC)來壓縮 KV Cache。
  • 在 Decoding 階段,PyramidInfer 根據新的最近的 Token 來更新 PvC。?

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

如下圖 Table 1 所示,PyramidInfer 在使用更少 KV Cache 的情況下獲得更快的推理速度:

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

如下圖 Figure 11 所示,作者進一步測試了 PyramidInfer 在更多 Batch Size 下的表現,其在比較小 Batch Size 時幾乎沒有加速,主要是因為減少 KV Cache 還需要一些額外的計算;而在比較大的 Batch Size 能獲得更大的加速比。而 Full Cache 當 Batch Size 大于 32 吞吐反而降低:(PS:這個降低不太符合預期,通常來說隨著 Batch Size 的增加,計算密度會更高,相應的吞吐也應該更高,而且在 32 左右還遠沒有到 Compute Bound)。

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

九、參考鏈接

  1. ??https://arxiv.org/abs/2404.14469??
  2. ??https://arxiv.org/abs/2405.05254??
  3. ??https://arxiv.org/abs/2405.12981??
  4. ??https://arxiv.org/abs/2405.10637??
  5. ??https://arxiv.org/abs/2405.14366??
  6. ??https://arxiv.org/abs/2405.12532??

本文轉載自 ??AI閑談??,作者: AI閑談

已于2024-5-30 12:10:20修改
收藏
回復
舉報
回復
相關推薦
日韩av电影手机在线| 精品成人一区二区三区四区| 婷婷四月色综合| 国产精品久久久国产盗摄| 一区二区电影| 精品视频—区二区三区免费| 午夜两性免费视频| av免费不卡| 日本一区二区三区四区| 99re热精品| chinese国产精品| 亚洲xxx拳头交| 国产视频精品va久久久久久| 久久6免费视频| 看黄在线观看| 亚洲色图19p| 欧美福利一区二区三区| 国产免费一区二区三区最新不卡| 亚洲精品美女| 久久九九全国免费精品观看| 国产高清自拍视频| 久久精品九色| 欧美亚州韩日在线看免费版国语版| 老司机av福利| 国产日产精品久久久久久婷婷| 国产经典欧美精品| 国产精品久久久久久久久男| 国产午夜激情视频| 亚洲精品国产首次亮相| 在线日韩日本国产亚洲| 中文乱码人妻一区二区三区视频| 99精品国产九九国产精品| 欧美日韩一区二区免费视频| 超薄肉色丝袜足j调教99| 岛国最新视频免费在线观看| bt7086福利一区国产| 51精品国产人成在线观看 | 97在线观看视频国产| 在线观看亚洲网站| 成人午夜av| 亚洲男人天堂网| 毛茸茸free性熟hd| 久久久久毛片免费观看| 欧美精品乱码久久久久久| 成人免费毛片播放| 欧美电影免费看| 黑人巨大精品欧美一区二区免费| av女优在线播放| 人人超在线公开视频| 亚洲图片激情小说| 亚洲高清123| 日韩在线资源| 亚洲欧洲精品一区二区三区不卡| 亚洲精品日韩精品| 五月天婷婷在线视频| 欧美激情一区三区| 日韩性感在线| 香港伦理在线| 国产精品久久久久一区二区三区共| 新呦u视频一区二区| 触手亚洲一区二区三区| 日本一区二区久久| 亚洲在线欧美| jizz性欧美| 一区二区三区国产精品| 日本一级黄视频| av日韩国产| 欧美性xxxx极品hd满灌| 国产成人亚洲精品无码h在线| 一个人www视频在线免费观看| 动漫精品一区二区| 福利在线一区二区三区| 国产成人福利夜色影视| 欧美精品一二三| 波多野结衣三级视频| 国产精品流白浆在线观看| 亚洲级视频在线观看免费1级| 免费中文字幕av| 国产一区二区在线| 久久精品国亚洲| 国产亚洲精品久久久久久打不开| 中国女人久久久| 国产精品久久久久久搜索 | 日韩中文字幕麻豆| 国产欧美日韩专区发布| 精品国产乱码久久久久久蜜臀网站| 国产69精品久久99不卡| 久久久久成人精品免费播放动漫| 加勒比一区二区三区在线| 中文字幕在线不卡一区二区三区| 欧美日韩中文字幕在线播放| 蜜桃视频动漫在线播放| 欧美伊人久久大香线蕉综合69| 国产精品999.| 中文字幕伦av一区二区邻居| 日韩中文字幕在线免费观看| 精品无码av在线| 全部av―极品视觉盛宴亚洲| 99re国产| 成年人视频免费在线观看| 亚洲精品国产无套在线观| 97xxxxx| 国产精品毛片无码| 日韩av中文字幕在线| 精品伦精品一区二区三区视频密桃| 午夜精品网站| 国产精品高清免费在线观看| 亚洲第一视频在线| 欧美激情中文不卡| 久久久久久免费看| 亚洲精品伊人| 亚洲欧美日韩中文视频| 亚洲天堂黄色片| 人人狠狠综合久久亚洲| 精品国产一区二区三区麻豆小说 | 欧美www在线| 无码视频一区二区三区| 国产不卡高清在线观看视频| 日韩黄色影视| 色戒汤唯在线观看| 欧美成人伊人久久综合网| 国产破处视频在线观看| 亚洲在线观看| 国产精品二区在线观看| 日本中文字幕电影在线免费观看 | 超碰97成人| 久久精品视频在线| 无码人妻精品一区二区50| 成人免费观看男女羞羞视频| www.午夜色| 国产69精品久久久久9999人| 亚洲天堂网在线观看| 日韩精品手机在线| 不卡的电视剧免费网站有什么| 无颜之月在线看| 国产精品国产三级在线观看| 色婷婷综合久久久久| 波多野结衣午夜| 久久久久久久久97黄色工厂| 国产中文字幕免费观看| 精品资源在线| 韩日精品中文字幕| 精品久久久无码中文字幕| 亚洲日穴在线视频| 天天色综合天天色| 北条麻妃国产九九九精品小说| 2019av中文字幕| 天堂在线视频免费| 性做久久久久久久免费看| 在线看黄色的网站| 亚洲国产电影| 精品欧美国产一区二区三区不卡| 成全电影大全在线观看| 精品久久久久久久久久久久久久久| 波多野结衣不卡视频| 国产乱国产乱300精品| 少妇高潮大叫好爽喷水| 国产一区二区三区免费观看在线| 久久综合久久八八| 精品毛片在线观看| 性做久久久久久| 丝袜美腿中文字幕| 日韩和欧美一区二区| 日韩欧美视频第二区| 主播大秀视频在线观看一区二区| 伊人av综合网| 国产伦一区二区| 亚洲精品高清在线观看| 四虎成人免费视频| 国产精品久久久久久久久久妞妞| 欧美日韩电影一区二区三区| 欧美free嫩15| x99av成人免费| 亚洲男人天堂久久| 黑人巨大精品欧美一区二区一视频 | 在线视频不卡一区二区| 爱情电影网av一区二区| 欧美国产日韩在线| 少妇人妻一区二区| 欧美综合一区二区| 农村妇女精品一区二区| 不卡av在线网| 九九热99视频| 激情欧美丁香| 日本一区免费看| 国产一区二区在线观| 韩国三级电影久久久久久| 国产在线中文字幕| 日韩欧美精品在线视频| 成人精品免费在线观看| 国产精品素人视频| 四虎永久免费观看| 日韩二区在线观看| 激情成人开心网| 国产在线日韩精品| 99国产视频| 国产成人毛片| 午夜精品在线视频| 在线免费看黄| 日韩不卡中文字幕| 国产精品污视频| 黑人精品xxx一区一二区| 亚洲视频重口味| 久久综合国产精品| 妖精视频在线观看| 免费在线亚洲欧美| 大地资源网在线观看免费官网| 亚洲精品亚洲人成在线观看| 92国产精品久久久久首页| 另类激情视频| 欧美激情亚洲自拍| 日韩在线资源| 在线观看不卡av| 天堂在线中文网| 日韩欧美国产精品| 一卡二卡三卡在线| 日本高清不卡一区| 日韩av无码中文字幕| 成人免费在线播放视频| 免费在线观看污| 99久久伊人久久99| 中文字幕永久免费| 国产在线视视频有精品| 免费黄色一级网站| 亚久久调教视频| 国产二区视频在线| 综合激情网站| 中文字幕av久久| 日韩欧美自拍| 亚洲不卡中文字幕| 国产一区2区| 欧美国产视频在线观看| 久久中文资源| 国产区一区二区| 亚洲天堂中文字幕在线观看| 91九色蝌蚪国产| 久久伊人国产| 国产日韩精品电影| 国产精品亚洲成在人线| 国产xxx69麻豆国语对白| 亚洲风情在线资源| 欧洲美女免费图片一区| 在线看片福利| 日韩av快播网址| 高清av不卡| 国产成人小视频在线观看| 女生影院久久| 国产精品成人品| 国产精品久久乐| 国产一区私人高清影院| 亚洲18在线| 91传媒在线免费观看| 日韩最新av| eeuss一区二区三区| 风间由美一区二区av101| 国产精品久久国产精品| 欧美挤奶吃奶水xxxxx| 久久久久一区二区三区| 欧美女优在线视频| 少妇精品久久久久久久久久| 久久精品99久久无色码中文字幕| 一区二区三区四区不卡| 91精品蜜臀一区二区三区在线| 9色视频在线观看| 亚洲精品孕妇| 男女曰b免费视频| 另类中文字幕网| 超碰人人cao| 99久久综合国产精品| 88久久精品无码一区二区毛片| 中文字幕欧美激情| 少妇人妻丰满做爰xxx| 亚洲一区在线观看免费| 在线观看免费av片| 欧美日韩一级大片网址| 99久久久国产精品无码网爆| 精品国产乱码久久久久久老虎| 日日夜夜精品免费| 国产一区二区三区精品久久久| 黄色网址视频在线观看| 国a精品视频大全| 国模一区二区| www 成人av com| 妖精视频一区二区三区| 亚洲免费av网| 国产欧美精品久久| xxxx在线免费观看| 成人av资源站| 日本精品久久久久中文| 亚洲一区二区精品视频| 99re热视频| 精品国精品国产| 国产51人人成人人人人爽色哟哟| 久热精品视频在线观看| 国产不卡网站| 亚洲自拍偷拍视频| 竹菊久久久久久久| 成人av在线不卡| 青青青爽久久午夜综合久久午夜| 亚洲欧美激情一区二区三区| 国产亚洲精品资源在线26u| 欧美成人精品欧美一级私黄| 在线观看www91| 国产小视频免费观看| 色吧影院999| 中文字幕在线看片| 国产91视觉| 色777狠狠狠综合伊人| 免费成人午夜视频| 国产乱色国产精品免费视频| 亚洲天堂久久新| 亚洲成人精品一区二区| 国产一区二区在线视频观看| 亚洲精品国产综合区久久久久久久| 日本不卡不卡| 日韩免费观看网站| 精品三级av在线导航| eeuss中文| 蜜臀av性久久久久蜜臀aⅴ四虎| 91视频啊啊啊| 亚洲成年人影院| www.国产黄色| 欧美成年人视频| 亚州欧美在线| 亚洲视频欧美在线| 日日嗨av一区二区三区四区| 五十路六十路七十路熟婆| 一区二区欧美国产| 国产三级视频在线播放| 最近日韩中文字幕中文| 性欧美freehd18| 日本亚洲自拍| 视频一区在线播放| 国产三级视频网站| 天天色天天操综合| 天天躁日日躁狠狠躁喷水| 欧美劲爆第一页| 亚洲综合网站| 国产成人在线小视频| 国产精品一级片在线观看| 色老板免费视频| 9191久久久久久久久久久| 毛片av在线| 亚洲综合日韩在线| 欧美特黄视频| 亚洲熟女一区二区| 丁香五六月婷婷久久激情| 神马久久久久| 97国产精品视频| 色老板在线视频一区二区| 久久久免费视频网站| 久久青草国产手机看片福利盒子| 天堂在线免费观看视频| 亚洲欧美日韩一区二区三区在线| 韩日精品一区二区| 日本一区二区在线视频| 青青青伊人色综合久久| 手机在线中文字幕| 日韩一区二区免费在线观看| 久久av色综合| 乱一区二区三区在线播放| 日韩av一区二区三区| 亚洲AV成人无码网站天堂久久| 欧美精品在线一区二区| 五月花成人网| 久久青青草综合| 日本sm残虐另类| 欧美三级在线免费观看| 亚洲国产精品一区二区三区| 最近高清中文在线字幕在线观看1| 欧美一区二区三区电影在线观看| 欧美aaa在线| 免费人成年激情视频在线观看| 亚洲国产精品视频在线观看| 香蕉视频亚洲一级| 黄色一级片网址| 北岛玲一区二区三区四区| 69av视频在线观看| 欧美成人精品在线| 亚洲精品中文字幕99999| 免费涩涩18网站入口| 亚洲激情在线播放| 每日更新在线观看av| 91亚洲va在线va天堂va国| 亚洲精品系列| 精品无码一区二区三区蜜臀| 亚洲第一级黄色片| 成人av色网站| 草b视频在线观看| 国产嫩草影院久久久久| 亚洲爆乳无码一区二区三区| 热久久视久久精品18亚洲精品| 天天超碰亚洲| 日本xxx在线播放| 91精品国产欧美日韩| 成人福利av| 大陆极品少妇内射aaaaaa| 国产日本一区二区| 欧美 日韩 国产 成人 在线 91| 国产精品a久久久久久|