精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

2.5%KV緩存保持大模型90%性能,大模型金字塔式信息匯聚模式探秘

人工智能
為了評估PyramidKV的表現(xiàn),作者使用最新的開源大模型Llama-3-8B-Instruct和Mistral-7B-Instruct,來對PyramidKV和其他方法進(jìn)行對比。

用KV緩存加速大模型的顯存瓶頸,終于迎來突破。

北大、威斯康辛-麥迪遜、微軟等聯(lián)合團(tuán)隊(duì)提出了全新的緩存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。

這下再也不用擔(dān)心KV占用的顯存容量過高,導(dǎo)致顯卡不夠用了。

圖片圖片

該方法名為PyramidKV,顧名思義,在KV緩存壓縮的過程中融入了金字塔型的信息匯聚方式。

在內(nèi)存受限的情況下,PyramidKV表現(xiàn)非常出色,既保留了長上下文理解能力,又顯著減少了內(nèi)存使用。

目前,PyramidKV相關(guān)代碼已經(jīng)在GitHub開源。

引入金字塔信息匯聚方式

隨著模型尺寸的增大,推理需要的時(shí)間越來越多。KV cache作為推理加速的關(guān)鍵技術(shù),通過緩存之前的解碼步驟中計(jì)算出的Transformer的K和V矩陣減少后續(xù)解碼時(shí)間。

但是,隨著序列長度增大,需要緩存的KV cache會(huì)快速增長,占用大量顯存。針對這一問題,之前的工作設(shè)計(jì)策略是對KV cache進(jìn)行壓縮。

實(shí)際上,長文本的推理加速和顯存節(jié)省作為一個(gè)重要的話題,這涉及到廣泛的大模型下游應(yīng)用,比如檢索增強(qiáng)生成(Retrieval-Augmented Generation)、上下文學(xué)習(xí)(In-Context Learning)受到廣泛關(guān)注。

KV cache及KV cache的壓縮能否有效幫助長文本實(shí)現(xiàn)推理加速成為廣受關(guān)注的研究方向。

采用均一壓縮策略,是最佳方案嗎?

傳統(tǒng)壓縮方法的一個(gè)共同特點(diǎn)是,均對每個(gè)Transformer層使用同樣的KV cache壓縮設(shè)置,使用同樣的方法壓縮到同樣的長度。

圖片圖片

但PyramidKV團(tuán)隊(duì)發(fā)現(xiàn),對KV cache進(jìn)行極致壓縮情況下上述方法的表現(xiàn),發(fā)現(xiàn)當(dāng)超長文本壓縮到極致小的KV大小時(shí)(從32k 長度壓縮到64,即保留0.2%的KV cache長度)時(shí),會(huì)面臨嚴(yán)重的性能減弱。

于是作者提出了疑問:對每個(gè)Transformer層將KV cache壓縮到同樣的大小是否為最優(yōu)方案?

為了回答上述問題,研究團(tuán)隊(duì)對大模型進(jìn)行檢索增強(qiáng)生成的機(jī)制進(jìn)行深入分析。

作者研究了Llama模型進(jìn)行多文檔問答的逐層注意力圖,發(fā)現(xiàn)了注意力層中的金字塔形信息匯聚模式(Pyramidal Information Funneling)的存在:

  • 在模型的低層(例如第0層)中,注意力得分呈現(xiàn)近似均勻分布,這表明模型在較低層時(shí)從所有可用內(nèi)容中全局聚合信息,而不會(huì)優(yōu)先關(guān)注特定的段落。
  • 當(dāng)編碼信息進(jìn)行到中間層(6-18)時(shí),逐漸轉(zhuǎn)變?yōu)榫劢乖诙温鋬?nèi)部的注意力模式 (Localized Attention)。在這個(gè)階段,注意力主要集中在同一文檔內(nèi)的Token上,表明模型在單個(gè)段落內(nèi)進(jìn)行了段落內(nèi)部的信息聚合。
  • 這種趨勢在上層(24-30)繼續(xù)并加強(qiáng),本文觀察到了“Attention Sink”和“Massive Activation”現(xiàn)象。

在這些層中,注意力機(jī)制極大地集中在少數(shù)幾個(gè)關(guān)鍵Token上,因此只需要保留這些關(guān)鍵Token就能讓輸出保持一致并且減少顯存占用。

圖片圖片

這種注意力分配模式,即極高的注意力得分,表明模型已將信息聚合到這些關(guān)鍵標(biāo)記中。

這種注意力現(xiàn)象顯示了大模型對大量復(fù)雜的信息的進(jìn)行編碼的機(jī)制,最終得到生成準(zhǔn)確答案所需的最關(guān)鍵信息。

根據(jù)以上的發(fā)現(xiàn),作者認(rèn)為之前的工作對所有Transformer層統(tǒng)一處理是低效的,因此不同Transformer層的注意力稀疏程度并不相同。在低層能觀察到特別稠密的注意力,而在較高層則可以觀察到非常稀疏的注意力。

因此,在不同層之間使用固定的 KV 緩存大小可能會(huì)導(dǎo)致性能不佳。這些方法可能在較高層的稀疏注意力中保留許多不重要的 tokens,而忽略了較低層密集注意力中的許多重要的 tokens。

每層注意力特點(diǎn)不同,分層施策才是正解

于是,作者選擇了通過基于注意力模式動(dòng)態(tài)分配緩存預(yù)算來提高壓縮效率。

具體而言,PyramidKV在信息更加分散的較低層分配更多的KV cache緩存,而在信息集中于少數(shù)關(guān)鍵tokens的較高層減少KV cache緩存。

一旦為每一層確定了KV緩存預(yù)算,PyramidKV在每一個(gè)Transformer層中選擇根據(jù)注意力選擇要緩存的KV。

最后的部分Token的KV緩存,即Instruction Token,會(huì)在所有Transformer層中保留。

根據(jù)UIUC、普林斯頓等提出的SnapKV方法,剩余的KV的選擇由從這些Instruction Token中獲得的對其他的Token注意力分?jǐn)?shù)來指導(dǎo)——

接收到更高注意力分?jǐn)?shù)的Token被認(rèn)為與生成過程更相關(guān),因此其KV狀態(tài)優(yōu)先保存在GPU緩存中。

圖片圖片

2.5%的KV cache,保持90%模型性能

為了評估PyramidKV的表現(xiàn),作者使用最新的開源大模型Llama-3-8B-Instruct和Mistral-7B-Instruct,來對PyramidKV和其他方法進(jìn)行對比。

測試示例以生成格式進(jìn)行評估,所有任務(wù)的答案均通過貪婪解碼生成,并使用 LongBench來評估PyramidKV在處理長上下文輸入任務(wù)中的表現(xiàn)。

LongBench是一個(gè)精心設(shè)計(jì)的基準(zhǔn)測試套件,用于測試語言模型處理長文檔和復(fù)雜信息序列的能力。

該基準(zhǔn)測試旨在對長上下文輸入進(jìn)行多任務(wù)評估,包括17個(gè)數(shù)據(jù)集,涵蓋單文檔問答、多文檔問答、摘要生成、少樣本學(xué)習(xí)、合成數(shù)據(jù)和代碼生成等任務(wù)。

數(shù)據(jù)集的平均輸入長度從1235個(gè)到18409個(gè)tokens不等,需要大量的內(nèi)存來管理KV緩存。

對于所有這些任務(wù),作者都遵循 LongBench推薦的標(biāo)準(zhǔn)指標(biāo)。

結(jié)果,在64、96、128、256和512個(gè)KV cache緩存大小的設(shè)定下,PyramidKV在LongBench中均取得了優(yōu)于baseline的效果。

圖片圖片

在此基礎(chǔ)上,作者還研究了兩種不同的操作場景——節(jié)省內(nèi)存場景(Memory-Efficient Scenario)和保持性能場景(Performance-Preserving Scenario),分別用于在內(nèi)存和模型性能之間進(jìn)行權(quán)衡。

PyramidKV在Longbench的多個(gè)任務(wù)和平均得分上均取得了優(yōu)于baseline的效果。

值得注意的是,PyramidKV在size為128的設(shè)定下,在TREC任務(wù)(上下文學(xué)習(xí)問答挑戰(zhàn))中表現(xiàn)出顯著優(yōu)越的性能,相較于baseline,提高了20.的ACC結(jié)果。

圖片圖片

總體而言,PyramidKV僅用12%的KV緩存就能保持完整的性能,并且在各種KV緩存大小的設(shè)定下和不同主干模型中始終優(yōu)于其他方法,特別是在僅保留約128(0.7%)KV cache緩存的節(jié)省內(nèi)存場景中,其性能優(yōu)勢尤為明顯。

在具體任務(wù)的檢查中,PyramidKV在TREC任務(wù)(上下文學(xué)習(xí)問答挑戰(zhàn))中表現(xiàn)出顯著優(yōu)越的性能,僅僅使用64的KV cache緩存大小(原始輸入是5k長度)就能達(dá)到90%的性能。

這表明模型有效地聚合了樣本中的任務(wù)信息,突出了在上下文學(xué)習(xí)任務(wù)上進(jìn)一步研究的潛力。

下面的表則展示了PyramidKV使KV緩存的占用減少的情況。作者評估了Llama-3-8B-Instruct的內(nèi)存消耗。

具體來說,作者發(fā)現(xiàn)在固定批量大小為1、輸入長度為8192、模型權(quán)重為fp16格式的情況下,PyramidKV在不同緩存大小下顯著減少了KV緩存的內(nèi)存,還一定程度上保留了任務(wù)性能。

圖片圖片

為了進(jìn)一步理解PyramidKV在LongBench上的性能,作者還進(jìn)行了“大海撈針”實(shí)驗(yàn),將PyramidKV與SnapKV進(jìn)行比較,并且對比128大小的KV緩存和完整的KV緩存。

在輸入序列長度在2000到4000之間的中等上下文情況下,SnapKV在“大海撈針”測試中產(chǎn)生了越來越多的錯(cuò)誤案例。

在輸入序列長度超過6000的長上下文情況下,SnapKV顯著降低了LLMs在評估中的性能。

相比之下,PyramidKV在大多數(shù)情況下減輕了這種弱化效應(yīng)。下圖展示了定量結(jié)果。分?jǐn)?shù)越高、顏色越淺,表示著檢索能力越強(qiáng)。

在該任務(wù)的平均得分中,完整KV得分為65.0,PyramidKV得分為62.6,而SnapKV得分為57.3。

圖片圖片

此外,作者的實(shí)驗(yàn)表明,PyramidKV在上下文學(xué)習(xí)(In-Context Learning)的少樣本學(xué)習(xí)任務(wù)中顯著優(yōu)于其他方法。

這表明KV cache緩存壓縮在上下文學(xué)習(xí)中的應(yīng)用前景廣闊,這種方法有可能在受限的內(nèi)存條件下實(shí)現(xiàn)更多樣本的引入。

論文地址:https://arxiv.org/abs/2406.02069項(xiàng)目主頁:
https://zefan-cai.github.io/PyramidKV.github.io/

GitHub:https://github.com/Zefan-Cai/PyramidKV

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-06-18 11:16:50

大模型性能KV-Cache

2025-02-17 10:49:49

2025-07-09 09:25:10

2024-12-30 13:13:35

2025-06-23 10:08:22

2019-07-04 17:42:57

開發(fā)技能模型

2023-11-03 07:47:12

機(jī)器資源大模型:

2025-02-20 09:27:46

2019-12-17 14:24:11

CPU緩存偽共享

2025-03-31 00:33:00

2025-03-06 07:28:31

DeepSeek大模型人工智能

2023-07-28 08:08:09

大淘寶數(shù)據(jù)模型數(shù)據(jù)治理

2025-07-08 03:22:00

大模型參數(shù)AI

2024-04-15 13:51:03

模型LLMLLMs

2023-10-28 13:29:27

2020-04-08 08:00:00

開發(fā)者金字塔模型

2022-06-02 10:29:23

神經(jīng)網(wǎng)絡(luò)AI計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国语自产精品视频在线看抢先版图片| 亚洲午夜私人影院| 成人免费淫片视频软件| 麻豆一区二区三区精品视频| 米奇精品关键词| 欧美日韩综合视频网址| 亚洲天堂电影网| 亚洲狼人综合网| 日本不卡在线视频| 欧美国产极速在线| 日本爱爱爱视频| 中文在线综合| 亚洲综合丁香| 日韩中文字幕国产| 精品国产一区在线| 成人午夜激情视频| www日本高清| 国产综合网站| 宅男66日本亚洲欧美视频| 色综合久久久无码中文字幕波多| 欧美gay视频| 亚洲免费大片在线观看| 青青草原成人| 韩国av免费观看| 欧美aaaa视频| 亚洲视频在线播放| 亚洲精品一二三四五区| 丝袜美腿av在线| 国产精品激情偷乱一区二区∴| 国内精品视频免费| 亚洲a视频在线| 精品中文字幕一区二区| 欧美在线观看日本一区| 18精品爽视频在线观看| 亚洲欧洲日韩| 中文字幕在线精品| 亚洲av毛片基地| 亚洲午夜久久| 亚洲精品成人免费| 中文字幕在线视频播放| jizz一区二区三区| 亚洲日本在线a| 中文字幕一区二区三区有限公司 | 黄色视屏网站在线免费观看| 粉嫩在线一区二区三区视频| 91在线中文字幕| 一区二区三区精彩视频| 亚洲国产一成人久久精品| 亚洲无限av看| www.狠狠爱| 一本久久青青| 国产亚洲视频在线| 色屁屁草草影院ccyy.com| 免费欧美一区| 亚洲人成电影在线观看天堂色| 魔女鞋交玉足榨精调教| 九热爱视频精品视频| 国产婷婷色综合av蜜臀av| 成人免费无码大片a毛片| 神马香蕉久久| 亚洲欧美精品一区| 亚洲毛片亚洲毛片亚洲毛片| 欧美国产偷国产精品三区| 日韩视频―中文字幕| 多男操一女视频| 亚洲综合小说| 久久免费福利视频| 国产日产精品一区二区三区| 亚洲综合精品国产一区二区三区 | 国产欧美精品日韩| 精人妻无码一区二区三区| 人人爽香蕉精品| 国产日韩欧美自拍| a天堂视频在线| 青青草91久久久久久久久| 亚洲天堂av电影| 少妇太紧太爽又黄又硬又爽小说| 欧美3p在线观看| 欧美乱大交做爰xxxⅹ性3| 免费在线视频一区二区| 青青草成人影院| 俺去亚洲欧洲欧美日韩| 欧美日韩人妻精品一区二区三区 | 妺妺窝人体色www在线小说| 在线能看的av网址| 在线欧美小视频| 男人天堂av片| 东京一区二区| 欧美精品日日鲁夜夜添| 野战少妇38p| 91精品福利观看| 91精品国产综合久久久久久漫画| 风韵丰满熟妇啪啪区老熟熟女| 日韩欧美ww| 日韩在线中文字幕| 久久久久国产精品夜夜夜夜夜| 国产一区二区三区的电影| 国产精品中文久久久久久久| 丰满大乳国产精品| 国产精品亚洲一区二区三区妖精| 国产伦精品一区二区三区四区视频 | 91精品国产91久久久久久不卡| 久久人人爽人人爽人人| 久久国产精品99国产| 成人乱色短篇合集| 免费av在线电影| 亚洲精品成人悠悠色影视| 欧美成人精品欧美一级乱| 久久久91麻豆精品国产一区| 亚洲欧美国产另类| 久久久全国免费视频| 日本亚洲一区二区| 精品一区久久| 怡红院在线播放| 欧美日韩视频在线一区二区| 亚洲图片综合网| 一区二区三区四区电影| 国产精品成人一区二区| 91传媒免费观看| 久久看片网站| 国产伦精品一区二区三区| 免费在线毛片网站| 欧美影视一区二区三区| 亚洲最大成人网站| 亚洲午夜一级| 91九色对白| 日本高清视频在线观看| 在线观看国产日韩| 右手影院亚洲欧美| 中文国产一区| 国产精品麻豆免费版| www.在线视频| 亚洲精品国产精华液| 男女啪啪网站视频| 欧美日本成人| 日韩av大片在线| 色婷婷视频在线| 亚洲一区在线观看免费观看电影高清 | 亚洲成人av免费在线观看| 欧美日韩在线大尺度| 96精品久久久久中文字幕| 免费大片黄在线观看视频网站| 欧美午夜一区二区三区 | 精品人妻一区二区三区蜜桃| 成人免费在线视频| 亚洲午夜激情影院| 欧美性生交大片免费| 欧美视频在线播放一区| 亚洲一级大片| 欧美精品性视频| 99久久精品国产成人一区二区| 136国产福利精品导航| 亚洲精品第三页| 99久久99久久精品国产片桃花| 国产九九精品视频| 黄色片免费在线观看| 91精品国产aⅴ一区二区| caoporn91| 国产成人在线色| 精品少妇在线视频| 日韩电影不卡一区| 国产成人精品视频在线| 在线观看视频二区| 国产精品色婷婷| 中文字幕22页| 永久亚洲成a人片777777| 不卡视频一区| 人成在线免费网站| 国产一区二区动漫| 97人妻精品一区二区三区软件| 亚洲人成伊人成综合网小说| 国产无套精品一区二区三区| av成人天堂| 天堂精品视频| 亚洲国产精品传媒在线观看| 色婷婷激情综合| 亚洲第一黄色网址| 久久久www| 亚洲区一区二区三区| 高清一区二区中文字幕| 欧美激情精品久久久| 天天操天天操天天操| 欧美色图第一页| 国产黄在线免费观看| 成人激情视频网站| 激情六月丁香婷婷| 98精品视频| 国产视频一区二区三区四区| 精品国模一区二区三区| 91精品国产综合久久久久| 久久这里只有精品国产| 国产欧美一区二区精品忘忧草| 欧美一级视频在线| 国产欧美成人| 中文字幕一区二区三区有限公司 | 欧美无乱码久久久免费午夜一区| 三级在线观看免费大全| 91免费看视频| 欧美专区第二页| 性xx色xx综合久久久xx| 中国黄色录像片| 免费av一区| 成人欧美一区二区三区视频xxx| 欧美黄色三级| 亚州国产精品久久久| 国产精品久久久久久免费| 亚洲成av人片www| 国产成人av免费在线观看| 久久久亚洲精品石原莉奈| 九色在线视频观看| 在线看片不卡| 日韩欧美一区二区三区四区五区| 成人春色在线观看免费网站| 久久久久久久一区二区三区| 亚洲国产999| 欧美视频在线观看一区| 日韩精品视频播放| 一区二区三区在线影院| 综合 欧美 亚洲日本| 26uuu国产一区二区三区| 日本人添下边视频免费| 国产一区二区三区不卡在线观看| 激情网站五月天| 亚洲精品1234| 欧美高清中文字幕| 伊人久久大香线蕉精品组织观看| 天天爽天天狠久久久| 伊人久久大香线蕉| 久久av一区二区三区亚洲| 成人高潮a毛片免费观看网站| 91免费在线视频网站| 欧美日韩va| 国产精品日韩精品| 51一区二区三区| 国产激情视频一区| 久久久一本精品| 日韩免费中文字幕| 欧美无毛视频| 国产精品99久久久久久人 | 你懂的免费在线观看| 欧美本精品男人aⅴ天堂| 国产又粗又猛又爽又黄视频| 欧美日本免费一区二区三区| 亚洲一区中文字幕在线| 欧美三区免费完整视频在线观看| 亚洲大尺度在线观看| 在线亚洲人成电影网站色www| 无码人妻精品一区二区三区蜜桃91 | 亚洲天堂资源| 国产91色在线|免| av一区在线| 国产精品偷伦一区二区| 久久国内精品| 亚洲影院色无极综合| 亚洲一区电影| 久久精品国产第一区二区三区最新章节| 欧洲亚洲一区二区三区| 欧美精品一区三区在线观看| 国产精品久久久久久吹潮| 国产成人91久久精品| 国产麻豆久久| 91精品久久久久久久久久| 欧美影院精品| 精品亚洲欧美日韩| 精品国内自产拍在线观看视频| 亚洲不卡1区| 1区2区3区欧美| 免费一级黄色录像| 18成人在线视频| 国产一级生活片| 欧美日韩精品中文字幕| 在线永久看片免费的视频| 欧美三级三级三级爽爽爽| 国产精品久久久久毛片| 日韩欧美一区二区在线视频| 深爱激情五月婷婷| 一区二区三区视频免费在线观看| 黄在线免费看| 国模私拍视频一区| 日韩成人亚洲| 成人久久久久爱| 久久99精品国产自在现线| 青青草原成人| 欧美另类综合| 欧美日韩在线免费播放| 精品午夜久久福利影院| 国产精品第七页| 国产精品乱码一区二区三区软件 | 国产拍揄自揄精品视频麻豆| 国产色无码精品视频国产| 精品av在线播放| 亚洲一区二区三区高清视频| 欧美精品一区二区三区蜜桃视频 | 精品国产一区二区三区av片| 黄色高清视频网站| 超薄丝袜一区二区| 国产男女在线观看| 久久综合九色| 超碰人人草人人| av成人免费在线| 大吊一区二区三区| 亚洲h在线观看| 一区二区视频网站| 色婷婷av一区| 国产精品一区二区黑人巨大| 亚洲国产精品久久久久久| 伊人免费在线| 57pao国产成人免费| 精品一区二区三区中文字幕| 欧美不卡在线一区二区三区| 亚洲经典一区| 亚欧在线免费观看| av一二三不卡影片| 九九热最新地址| 欧美系列亚洲系列| 色资源在线观看| 欧美激情一区二区三区在线视频观看| 日本精品裸体写真集在线观看| 成人在线资源网址| 91精品91| xxww在线观看| 久久九九影视网| 国产特黄大片aaaa毛片| 欧美大肚乱孕交hd孕妇| 香蕉视频在线看| 国产精品电影观看| 国产欧美一区| 妺妺窝人体色www在线小说| 成人一区二区视频| 在线免费日韩av| 4438亚洲最大| 欧美尤物美女在线| 国产精品一区二区三区在线播放| 国产一区99| 毛片一区二区三区四区| 91免费视频观看| 亚洲GV成人无码久久精品| 欧美精品一区二区三区在线| 色呦呦在线视频| 666精品在线| 欧美激情在线| 亚洲欧洲日韩综合| 一区二区在线免费| 亚洲爱情岛论坛永久| 欧美大荫蒂xxx| 亚洲一区二区电影| 91黄色在线看| 成人精品高清在线| 日韩精品在线免费看| 亚洲国产欧美一区| 欧美巨大丰满猛性社交| 久中文字幕一区| 久久国产主播| 日本高清黄色片| 777a∨成人精品桃花网| 91精品国产91久久久久久青草| 91夜夜揉人人捏人人添红杏| 欧美一区久久| 四虎精品一区二区| 精品久久久久久久久久国产| 欧美xxx.com| 国产精品久久久久99| 久久影视一区| 国产精品19p| 欧美日韩裸体免费视频| 久久天堂电影| 成人国内精品久久久久一区| 欧美日韩免费| 色天使在线视频| 欧洲精品一区二区| 成人国产免费电影| 国产日韩欧美一区二区三区四区| 国产欧美亚洲一区| 手机毛片在线观看| 欧美一级在线视频| 天堂电影一区| 亚洲韩国在线| 成人综合婷婷国产精品久久蜜臀| 国产精品久久久久久99| 在线视频日本亚洲性| 一区二区网站| 成人一级片网站| 综合久久久久久久| 天堂中文在线8| 欧美日韩国产成人在线| 美女扒开腿让男人桶爽久久动漫| 亚洲 中文字幕 日韩 无码| 中文字幕亚洲成人| 深夜影院在线观看| 成人精品一区二区三区电影免费 | 亚洲国产天堂| 欧美日韩一区在线视频| 久久99精品视频| 日本一级淫片色费放| 中文字幕不卡av| 国产伦理久久久久久妇女 | 中国一级黄色录像| 久久男人中文字幕资源站| 一级免费在线观看| 爽爽爽爽爽爽爽成人免费观看|