精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長(zhǎng)序列推理不再卡頓!北大華為KV緩存管理框架實(shí)現(xiàn)4.7倍推理加速

人工智能 新聞
來自北京大學(xué)與華為的研究團(tuán)隊(duì)聯(lián)合提出了LouisKV——一個(gè)專為長(zhǎng)輸入、長(zhǎng)輸出等各類長(zhǎng)序列場(chǎng)景設(shè)計(jì)的高效KV cache 檢索框架。

北大華為聯(lián)手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍!

大模型處理長(zhǎng)序列時(shí),KV cache的內(nèi)存占用隨序列長(zhǎng)度線性增長(zhǎng),已成為制約模型部署的嚴(yán)峻瓶頸。

為此,來自北京大學(xué)與華為的研究團(tuán)隊(duì)聯(lián)合提出了LouisKV——一個(gè)專為長(zhǎng)輸入、長(zhǎng)輸出等各類長(zhǎng)序列場(chǎng)景設(shè)計(jì)的高效KV cache 檢索框架。

它通過創(chuàng)新的語(yǔ)義感知檢索策略與解耦的精細(xì)化管理機(jī)制,在幾乎不損失模型精度的前提下,實(shí)現(xiàn)了高達(dá)4.7倍的推理加速,為突破LLM長(zhǎng)序列推理瓶頸提供了全新的解決方案。

關(guān)鍵洞察

傳統(tǒng)上,學(xué)術(shù)界與工業(yè)界提出了多種KV cache優(yōu)化方案,其中KV Cache Retrieval是極具前景的方向之一。

該類方法將完整的KV cache卸載至容量更大的CPU內(nèi)存中,并在推理時(shí)僅將最關(guān)鍵的KV子集檢索回GPU進(jìn)行計(jì)算,從而有效緩解GPU 顯存壓力。

然而,現(xiàn)有的KV retrieval方法仍面臨著效率精度的雙重瓶頸:

  • 現(xiàn)有方法通常在生成每個(gè) token 時(shí)都觸發(fā)一次檢索操作,這引入了重要性評(píng)估的計(jì)算開銷與 CPU-GPU 間的數(shù)據(jù)傳輸開銷。在需要生成數(shù)千甚至數(shù)萬(wàn) token 的長(zhǎng)輸出任務(wù)中,檢索操作帶來的累積開銷尤為突出,導(dǎo)致模型推理效率不高;
  • 現(xiàn)有方法普遍采用固定大小的頁(yè)(page)作為檢索的基本單元。這種粗粒度的劃分方式,常常導(dǎo)致被檢索的頁(yè)中僅包含少量真正關(guān)鍵的 KV 條目,而大量無(wú)關(guān)條目占用了寶貴的 CPU-GPU 帶寬和 GPU 上的緩存預(yù)算。這不僅造成了數(shù)據(jù)傳輸?shù)睦速M(fèi),更重要的是,在有限的預(yù)算下,它擠占了本可以留給其他更關(guān)鍵信息的位置,導(dǎo)致模型推理精度的下降。

為了設(shè)計(jì)更高效的檢索策略,研究團(tuán)隊(duì)首先對(duì)不同長(zhǎng)序列任務(wù)中關(guān)鍵 KV 的訪問模式進(jìn)行實(shí)驗(yàn)分析,得到了兩個(gè)關(guān)鍵洞察。

一是訪問模式的時(shí)序局部性。

該特性表現(xiàn)為,在解碼過程中生成一個(gè)語(yǔ)義連貫的segment時(shí),segment內(nèi)相鄰token所關(guān)注的關(guān)鍵KV集合高度重疊。

如下圖(a)和(b)左下角的相似度曲線所示,在生成當(dāng)前segment的過程中,相鄰token關(guān)鍵KV集合的Jaccard相似度始終維持在0.8以上。

該現(xiàn)象符合直覺,在數(shù)學(xué)推導(dǎo)的某一步驟中,其內(nèi)部的各個(gè)token會(huì)持續(xù)關(guān)注相同的上文引理或條件。

這一洞察揭示了逐 token 檢索策略的內(nèi)在冗余性——既然模型在同一語(yǔ)義段內(nèi)的關(guān)注點(diǎn)保持穩(wěn)定,頻繁的檢索便非必要。

二是關(guān)鍵KV的分布模式差異性

該特性指關(guān)鍵KV在長(zhǎng)輸入序列和長(zhǎng)輸出序列中通常表現(xiàn)出差異的分布模式:

  • 長(zhǎng)輸入序列中的稀疏分布:在長(zhǎng)文檔問答(圖a)等任務(wù)中,生成答案所需的關(guān)鍵信息在長(zhǎng)篇輸入中呈稀疏、離散的分布狀態(tài);
  • 長(zhǎng)輸出序列中的密集分布:在數(shù)學(xué)推理(圖b)等任務(wù)中,模型的注意力會(huì)高度集中于先前生成的中間步驟,使得關(guān)鍵 KV 在局部區(qū)域內(nèi)呈現(xiàn)密集分布。

這一洞察啟發(fā)我們,傳統(tǒng)的、粗粒度的頁(yè)式KV檢索策略過于粗糙,無(wú)法高效應(yīng)對(duì)輸入輸出序列不同的注意力分布模式。

核心設(shè)計(jì)

基于上述洞察,研究團(tuán)隊(duì)提出了一個(gè)高效的KV cache檢索框架 LouisKV。該框架通過算法與系統(tǒng)的協(xié)同設(shè)計(jì),解決了現(xiàn)有方法的瓶頸。

其核心包含三大創(chuàng)新。

首先是語(yǔ)義感知的KV檢索策略(Semantic-Aware KV Retrieval),為利用時(shí)序局部性,LouisKV摒棄了“逐token檢索”的低效模式,引入了一種自適應(yīng)的檢索策略。

如下圖(a)所示,該策略通過輕量級(jí)機(jī)制監(jiān)控語(yǔ)義變化。在每個(gè)解碼步,它會(huì)計(jì)算當(dāng)前token與前一token的query向量之間的余弦相似度r。

  • 若r高于閾值τ,表明模型關(guān)注點(diǎn)未發(fā)生顯著偏移,此時(shí)不觸發(fā)檢索,直接復(fù)用上一個(gè)token檢索得到的關(guān)鍵KV cache;
  • 僅當(dāng)r低于閾值τ,表明出現(xiàn)語(yǔ)義邊界,才觸發(fā)一次檢索操作,從CPU的KV cache pool中加載新的關(guān)鍵KV cache。

該策略的核心優(yōu)勢(shì)是將昂貴的檢索開銷均攤到多個(gè)token的生成過程中,極大地降低計(jì)算與數(shù)據(jù)傳輸帶來的總開銷,顯著提升推理效率。

第二是解耦的細(xì)粒度KV管理方案(Decoupled Fine-grained KV Management),為應(yīng)對(duì)分布差異性,LouisKV為輸入和輸出序列定制了不同的KV管理方式,以實(shí)現(xiàn)更精確的檢索。

  • 輸入序列(Prefill Stage):針對(duì)關(guān)鍵KV稀疏分布的特點(diǎn),LouisKV采用K-Means聚類。如圖(b)所示,它將語(yǔ)義上相似但物理位置上分散的KV聚合為語(yǔ)義簇(Semantic Clusters);
  • 輸出序列(Decode Stage):針對(duì)關(guān)鍵KV局部密集的特點(diǎn),LouisKV將連續(xù)生成的token組織成時(shí)序(Temporal Segments)。這與模型生成連貫推理步驟的行為天然對(duì)齊。

通過這種細(xì)粒度的管理,LouisKV創(chuàng)建的檢索單元(語(yǔ)義簇/時(shí)序段)與模型的實(shí)際注意力模式高度匹配,避免了傳統(tǒng)頁(yè)式管理中大量無(wú)關(guān)KV的冗余傳輸,顯著提升了檢索精度。

最后,為了將算法的理論優(yōu)勢(shì)完全轉(zhuǎn)化為運(yùn)行效率,LouisKV在底層進(jìn)行了內(nèi)核級(jí)系統(tǒng)優(yōu)化(Kernel-Level System Optimization)。

具體實(shí)現(xiàn)上,團(tuán)隊(duì)開發(fā)了定制化的Triton和CUDA內(nèi)核。內(nèi)核專門用于加速框架中的關(guān)鍵計(jì)算密集型操作,包括KV聚類和檢索過程。

通過軟硬件協(xié)同優(yōu)化,LouisKV確保了創(chuàng)新算法能夠高效地在硬件上運(yùn)行,實(shí)現(xiàn)了高吞吐率與低延遲的卓越性能。

實(shí)驗(yàn)結(jié)果

為了全面驗(yàn)證LouisKV的高效性,研究團(tuán)隊(duì)在多個(gè)主流的長(zhǎng)序列任務(wù)上進(jìn)行了詳盡測(cè)試。

這些任務(wù)涵蓋了長(zhǎng)輸入-短輸出(如文檔問答)、短輸入-長(zhǎng)輸出(如數(shù)學(xué)推理)和長(zhǎng)輸入-長(zhǎng)輸出(如長(zhǎng)文推理)等多種應(yīng)用場(chǎng)景。

實(shí)驗(yàn)結(jié)果表明,LouisKV成功地在推理精度和推理效率之間取得了當(dāng)前最佳的平衡。

推理精度層面,在所有12個(gè)基準(zhǔn)測(cè)試中,LouisKV的性能表現(xiàn)都極其接近將全部KV cache保留在GPU中的FullCache方案(灰色虛線),后者代表了理論上的精度上限。

同時(shí),無(wú)論是與KV cache dropping方法(如H2O、RaaS),還是與KV cache retrieval方法(如Arkvale、Quest)相比,LouisKV在同等KV cache預(yù)算下均展現(xiàn)出更優(yōu)的推理精度。

這證明了LouisKV的語(yǔ)義感知檢索和細(xì)粒度管理策略能夠精準(zhǔn)地識(shí)別并保留對(duì)模型推理最關(guān)鍵的信息,有效避免了精度損失。

推理效率上,LouisKV在三種典型的輸入輸出場(chǎng)景下表現(xiàn)出卓越的性能。

  • 大幅降低延遲:與先進(jìn)的KV檢索方法Arkvale相比,LouisKV實(shí)現(xiàn)了高達(dá)1.4倍至4.7倍的端到端推理加速;
  • 支持更大批量:當(dāng)處理大批量任務(wù)時(shí),F(xiàn)ullCache會(huì)因顯存不足而失效。相比之下,LouisKV能夠在此類高負(fù)載場(chǎng)景下穩(wěn)定運(yùn)行,從而顯著提升了系統(tǒng)的有效吞吐量。

這種顯著的效率提升主要得益于LouisKV對(duì)系統(tǒng)核心開銷的精準(zhǔn)優(yōu)化。相較于Arkvale ,LouisKV大幅降低了數(shù)據(jù)傳輸(Transfer)和重要性評(píng)估(Estimation)帶來的開銷。

論文地址:https://arxiv.org/abs/2510.11292

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-07 08:46:00

2025-09-26 10:58:03

AI視覺語(yǔ)言模型

2024-07-08 13:04:01

2025-05-27 15:28:11

模型訓(xùn)練AI

2023-09-12 14:45:18

2024-07-19 09:59:31

2024-12-30 13:13:35

2025-02-25 10:21:15

2025-06-16 14:41:07

模型開源AI

2025-03-14 11:56:52

2024-01-24 13:11:00

AI模型

2025-07-28 08:42:00

2025-10-14 08:58:00

2023-05-23 14:06:53

微軟研究

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-05-28 08:51:00

大模型華為LLM

2025-03-12 09:35:45

2025-10-21 08:54:00

微軟LLM模型

2025-06-11 14:39:50

AILLMMistral

2024-06-11 08:25:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久激情视频免费观看| 欧美性xxxxhd| www.久久草| 中文字幕激情小说| 日韩av在线中文字幕| 欧美精品1区2区| 日本在线xxx| 色网站在线看| 懂色av一区二区夜夜嗨| 日本精品免费观看| 精品国产乱码久久久久久鸭王1| 噜噜噜天天躁狠狠躁夜夜精品| 欧美午夜片在线观看| 欧洲精品在线播放| 国产九九在线| eeuss影院一区二区三区 | 亚洲电影观看| 亚洲色大成网站www久久九九| 久久精品国产精品青草色艺| 99国产揄拍国产精品| 久久精品一区二区国产| 欧美风情在线观看| 国产三级在线观看完整版| 久久黄色影视| 日韩免费视频一区二区| 色综合色综合色综合色综合| www.综合| 亚洲国产一区二区三区青草影视| 一本一生久久a久久精品综合蜜| 日本一级在线观看| 成人三级伦理片| 亚洲a级在线播放观看| 老熟妇一区二区三区| 亚洲第一伊人| 欧美黄色片免费观看| 欧美日韩色视频| 日韩欧美视频在线播放| 亚洲桃花岛网站| 中文字幕一区二区三区人妻电影| 第四色中文综合网| 欧美va天堂va视频va在线| 一级黄色大片儿| 日韩第二十一页| 欧美丝袜丝nylons| 亚洲一二三区av| 欧美二三四区| 色爱区综合激月婷婷| 99热成人精品热久久66| 自拍一区在线观看| 精品久久久久久国产91| 99热在线这里只有精品| 碰碰在线视频| 色婷婷久久99综合精品jk白丝| 黄色动漫网站入口| 色在线视频观看| 色综合一个色综合亚洲| 少妇人妻互换不带套| 香蕉久久免费电影| 欧美写真视频网站| 亚洲精品综合在线观看| 精品国产亚洲一区二区三区| 日韩欧美色电影| 中文字幕乱视频| 奇米影视777在线欧美电影观看| 亚洲国产欧美久久| 偷拍夫妻性生活| 日韩精品一卡| 美日韩精品免费视频| 国产亚洲欧美久久久久| 国产精品久久国产愉拍| 奇米成人av国产一区二区三区| 不卡av电影在线| 久久精品国产一区二区| 99一区二区| 色欲av永久无码精品无码蜜桃 | 久久电影网站| 亚洲国产精品欧美一二99| 国产白丝袜美女久久久久| 88xx成人免费观看视频库| 欧美日韩亚洲综合| 99riav国产精品视频| 日韩极品少妇| 日韩最新中文字幕电影免费看| 色婷婷在线视频观看| 日韩亚洲精品在线| 国产精品久久久久久久午夜| 国产视频手机在线观看| 99久久免费精品高清特色大片| 日韩福利一区二区三区| 1区2区在线观看| 日韩欧美在线字幕| 三级av免费看| 自拍偷拍精品| 美女扒开尿口让男人操亚洲视频网站| 五月天婷婷综合网| 国内精品伊人久久久久av影院 | 欧美日韩一区二区精品| 在线观看免费黄网站| 一区二区在线视频观看| 在线免费看av不卡| 日韩免费一级片| 久久精品国产免费| 久热国产精品视频一区二区三区| 欧洲不卡视频| 欧美性69xxxx肥| 亚洲av午夜精品一区二区三区| 国产一区二区三区站长工具| 色综合久久88| 在线免费观看一级片| 高清视频一区二区| 天天成人综合网| 日韩在线免费| 日韩成人在线电影网| 日日噜噜夜夜狠狠久久波多野| 天堂一区二区在线免费观看| 春色成人在线视频| 日本网站在线免费观看视频| 一本色道久久综合亚洲91| 动漫av在线免费观看| 色琪琪久久se色| 日本亚洲欧美三级| 欧美 日韩 国产 在线| 亚洲天堂福利av| 熟女人妇 成熟妇女系列视频| 国产毛片精品| 欧美国产欧美亚洲国产日韩mv天天看完整| 中文字幕日本视频| 久久综合九色综合欧美亚洲| 97超碰人人澡| 成人台湾亚洲精品一区二区 | 美女黄毛**国产精品啪啪| 色女人在线视频| 日韩亚洲欧美成人一区| 亚洲一区电影在线观看| 美腿丝袜亚洲三区| 欧美日韩精品免费在线观看视频| 九色porny丨入口在线| 精品国产乱码久久久久久牛牛| 久久久久久久久毛片| 激情国产一区二区| 在线成人性视频| 欧美videos粗暴| 日韩中文字幕国产| 亚洲熟妇av乱码在线观看| 亚洲国产精品v| 欧美性猛交久久久乱大交小说| 九色精品国产蝌蚪| 国产精品69精品一区二区三区| 神马精品久久| 色婷婷国产精品综合在线观看| 黄色在线观看av| 蜜乳av另类精品一区二区| 欧美日韩电影一区二区三区| 中文在线а√天堂| 亚洲香蕉成人av网站在线观看| 伊人成年综合网| 国产精品视频一二| 亚洲第一天堂久久| 欧美在线亚洲综合一区| 国产精品乱码一区二区三区| 国产高潮在线| 亚洲人成在线播放| 亚洲午夜精品久久久| 1区2区3区国产精品| 三级网站免费看| 亚洲视频狠狠| 欧美乱偷一区二区三区在线| av在线日韩| 久久这里只有精品视频首页| 性少妇videosexfreexxx片| 亚洲成在线观看| 中文字幕一区二区三区人妻| 秋霞av亚洲一区二区三| 永久免费在线看片视频| 久久综合五月婷婷| 国产精品极品美女在线观看免费| 九色porny丨首页在线| 精品国产免费一区二区三区四区| 亚洲免费在线观看av| 国产欧美一区二区精品性色超碰| 亚洲天堂2018av| 红桃视频国产一区| 日韩精品无码一区二区三区| av日韩久久| 1769国产精品| 欧美成人精品一区二区男人看| 精品国产精品网麻豆系列| 国产精品suv一区| 亚洲美女区一区| 不卡一区二区在线观看| 精品一区二区三区蜜桃| 青青青国产在线观看| 日韩欧美精品综合| 精品九九九九| 欧美.com| 国产精品久久久久免费a∨大胸| 欧美人与性动交α欧美精品图片| 亚洲精品一区中文| 国产高清免费在线观看| 色菇凉天天综合网| 日操夜操天天操| 亚洲色图丝袜美腿| 亚洲av无码一区二区三区人| 国产麻豆午夜三级精品| 国产深夜男女无套内射| 亚洲天堂免费| 日本日本精品二区免费| 国产精品白丝av嫩草影院| 国产热re99久久6国产精品| 欧美极品videos大乳护士| 欧美成人全部免费| 草碰在线视频| 亚洲精品久久久久中文字幕二区| 国产片高清在线观看| 欧洲人成人精品| 欧美日韩乱国产| 亚洲福利视频一区| 黄色录像一级片| 中文字幕精品一区二区三区精品| 亚洲中文字幕一区| 国产.欧美.日韩| 北条麻妃亚洲一区| 蜜桃av一区二区| 一区二区在线播放视频| 午夜亚洲性色视频| av免费看网址| 亚洲大胆在线| 国产一区二区三区小说| 中文在线播放一区二区| 2025韩国大尺度电影| 日韩精品四区| 亚洲乱码一区二区三区| 精品视频97| 日韩精品极品视频在线观看免费| 亚洲人成精品久久久| 精品中文字幕人| 日韩影视高清在线观看| 精品欧美国产一区二区三区不卡| 欧美 日韩 国产 在线| 亚洲欧美清纯在线制服| 一区二区三区四区五区视频| 精品国产一区二区三区四区| 欧美精品亚洲精品| 香蕉精品久久| 免费h精品视频在线播放| 日本成人7777| 噜噜噜噜噜久久久久久91| 天美av一区二区三区久久| 久久亚洲高清| 综合亚洲自拍| 日韩久久精品一区二区三区| 欧美一区二区麻豆红桃视频| 日本一区二区久久精品| 欧美偷拍自拍| 国产高清免费在线| 亚洲一区二区日韩| www.男人天堂网| 亚洲国产高清一区| 欧美日韩亚洲一| 久久午夜电影| 91女神在线观看| 久久91精品国产91久久小草| 操人视频免费看| 成人一区在线看| 波多野结衣福利| 国产精品卡一卡二卡三| 国产av 一区二区三区| 亚洲国产精品一区二区久久 | 亚洲天堂精品一区| 国产精品高清亚洲| 欧美日韩亚洲国产另类| 性做久久久久久久久| 天天干天天干天天| 欧美日韩国产成人在线免费| av观看在线免费| 亚洲精品suv精品一区二区| 黄色在线视频观看网站| 久久精品国产亚洲一区二区| 美女网站视频在线| 国产成人精品久久久| 国产999精品在线观看| 国产一区二区在线观看免费播放| 久久99青青| 久久亚洲a v| 久久久久网站| 秋霞午夜鲁丝一区二区| 久久色在线观看| 三级黄色录像视频| 狠狠操狠狠色综合网| 91精品国自产| 亚洲国产精品久久久久久| 大乳在线免费观看| 欧美激情亚洲国产| 91精品美女| 国产精品亚洲综合| 98精品视频| 国产亚洲综合视频| 国产曰批免费观看久久久| 国产精品无码永久免费不卡| 亚洲三级电影网站| 久久久久久无码精品大片| 欧美大片免费久久精品三p| 国产三级在线| 97久久久久久| 国产一区2区在线观看| 欧美另类视频在线| 亚洲三级电影在线观看| 免费av不卡在线| 国产片一区二区| 国产 欧美 日韩 在线| 欧美一区二区私人影院日本| 国产免费av在线| 91精品国产乱码久久久久久久久| 国产精品va视频| 一本一道久久a久久精品综合| 国产日韩欧美一区| 人妻 丝袜美腿 中文字幕| 亚洲欧洲av一区二区三区久久| 四虎成人在线观看| 亚洲精品98久久久久久中文字幕| 国产精品剧情一区二区在线观看| 国产精品扒开腿做爽爽爽的视频| 欧美一级色片| 国产av人人夜夜澡人人爽麻豆| 国产乱子伦一区二区三区国色天香| 少妇愉情理伦三级| 91福利区一区二区三区| 日韩三级电影网| 26uuu国产精品视频| 国产精品tv| 拔插拔插海外华人免费| 国产一二精品视频| 久久成人小视频| 欧美欧美午夜aⅴ在线观看| 国产黄色在线| 国产成人精品久久二区二区91 | 成人小视频免费观看| 日韩一区二区三区四区在线| 欧美老肥妇做.爰bbww| 日本在线播放| 91久久精品视频| 亚州av乱码久久精品蜜桃 | 成人免费视频一区| 亚洲精品午夜久久久久久久| 亚洲国产精品99| 九色porny自拍视频在线观看| 国新精品乱码一区二区三区18 | 国产精品久久久毛片| 欧美韩日一区二区三区| 中文字幕视频在线播放| 色香阁99久久精品久久久| avtt久久| 日韩av新片网| 91麻豆福利精品推荐| 伦av综合一区| 在线观看日韩av| 一级欧美视频| 乱熟女高潮一区二区在线| 成人亚洲一区二区一| 国产精品男女视频| 亚洲香蕉伊综合在人在线视看| 国产精品久久久久久吹潮| 亚洲第一页在线视频| 国产91精品久久久久久久网曝门 | 日韩人妻无码精品综合区| 在线一区二区三区四区| 91社区在线高清| 96pao国产成视频永久免费| 欧美特黄一级| 97人妻精品一区二区免费| 欧美人动与zoxxxx乱| 日韩另类在线| 久久久久久久久一区二区| 热久久一区二区| 日本精品人妻无码77777| 日韩激情在线视频| 成人国产网站| 免费观看亚洲视频| 国产校园另类小说区| 一区二区久久精品66国产精品 | 白白色 亚洲乱淫| 精品国产xxx| 欧美成人自拍视频| 亚洲区小说区图片区qvod按摩| 91国内在线播放| 亚洲1区2区3区4区| 97超碰国产一区二区三区| 国产精品视频在线免费观看| 日韩精品色哟哟| 国产真实乱人偷精品视频| 国产一区二区三区在线观看网站| 日本在线成人| 国产无套粉嫩白浆内谢的出处| 依依成人综合视频| 精品影院一区| 国产精品久久久久免费 | avtt香蕉久久| 制服丝袜亚洲网站| 韩国精品主播一区二区在线观看 | 成人亚洲欧美|