精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

吞吐量提升近30倍!田淵棟團隊最新論文解決大模型部署難題

人工智能 新聞
大語言模型在實際部署中,存在內存和輸入長度限制的問題。最近,田淵棟團隊一舉解決這兩大難題,將推理系統的吞吐量提高了近30倍。

大型語言模型 (LLM) 在今年可謂是風光無限。不過驚艷的效果背后是一個巨大的模型以及夸張的硬件資源。

LLM在現實中部署時通常會面臨兩個難題:昂貴的KV緩存成本,以及對長序列的泛化能力差。

近日,田淵棟團隊發表了一篇論文,成功解決以上兩個難題,并將推理系統的吞吐量提高了近30倍!

論文地址:https://arxiv.org/pdf/2306.14048.pdf

代碼地址:https://github.com/FMInference/H2O

這個成果也將在NeurIPS'23上展示。

下面,我們來看一下這兩個難題的具體情況,以及論文提供的解決方案。

首先是緩存,KV緩存用于存儲生成過程中的中間注意力鍵和值,以避免重新計算。

通常,除了模型參數外,還會將大量瞬態信息(KV緩存)存儲在GPU內存中,這部分的內存占用,與序列長度和批處理大小線性相關。

例如,一個輸入批次大小為128、序列長度為1024的300億參數模型需要180GB的KV緩存。

其次,由于硬件限制,LLM會以固定的序列長度進行預訓練(例如Llama-2使用固定長度4K的序列)。

然而,這其實也對推理過程中的注意力窗口施加了限制,使得模型在面對更長輸入序列時無法發揮作用,阻礙了更廣泛的應用。

對此,論文提出了一種實現KV緩存的新方法,顯著減少了內存占用,且在長輸入序列的任務中表現良好。

方法基于這樣一個事實:在計算注意力分數時,一小部分tokens貢獻了大部分的價值,——這里稱這些tokens為Heavy Hitters (H2)。

通過綜合調查,作者發現H2的出現是自然的,且與文本中詞組的頻繁共現密切相關,而去除它們會導致顯著的性能下降。

基于此,作者提出了Heavy Hitter Oracle( H2O ),一種KV緩存逐出策略,可動態保持最近的tokens和H2 tokens的平衡。

另外,作者將KV緩存驅逐表述為一個動態的子模塊問題,為提出的驅逐算法提供了理論保證。

最后,作者使用OPT、LLaMA和GPT-NeoX在各種任務中驗證算法的準確性。

其中,在OPT-6.7B和OPT-30B上實現的H2O,將DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個推理系統的吞吐量分別提高了29倍、29倍 和3倍,且在相同的批量大小下,H2O最多可以減少1.9倍 的延遲。

論文細節

上圖為在 LLM 生成中部署不同 KV 緩存策略的符號圖;左下為H2O的框架概述;右下為不同策略下的準確性與內存消耗的對比。

我們可以看出,將前幾種方法應用于預訓練的LLM ,會導致高未命中率并降低精度。

解決KV緩存問題,面臨著三個技術挑戰。

首先,目前尚不清楚是否可以限制KV緩存的大小——原則上,每個解碼步驟可能需要訪問所有先前的注意力鍵和值。

其次,確定保持生成準確性的最佳逐出策略是一個組合問題。

最后,即使可以暴力解開最佳策略,在實際應用程序上部署也是不可行的。

幸運的是,作者通過研究發現了一些有趣的結果。

小緩存大小的稀疏性:即使在密集訓練時,LLM的注意力矩陣在推理時也有超過95% 的稀疏率(圖a)。這適用于各種預訓練的LLM。

因此,在每個生成步驟中,只需要5% 的KV緩存就足以解碼相同的輸出tokens,這表明KV緩存大小最多可以減少20倍,而不會降低精度。

Heavy Hitters( H2 ):注意力區塊中所有tokens的累積注意力分數都遵循冪律分布(圖b)。這表明存在一小群有影響力的tokens,這些tokens在生成過程中至關重要,是重量級tokens ( H2 )。這使我們可以擺脫組合搜索問題,并確定保持準確性的逐出策略。

低成本策略的貪婪算法:在每個解碼步驟中保留基于局部統計數據的H2(僅將前面tokens的注意力分數相加)與考慮未來tokens的注意力一樣有效(圖d)。

基于上述內容,作者定義了在大小受限的KV緩存中, LLM的生成過程,并提出了Heavy-Hitter Oracle ( H2O ),該框架利用了上面提到的性質,并使用簡單、低成本的驅逐策略。

方法與分析

LLM的生成過程包括兩個不同的階段:

提示階段:使用輸入序列來生成KV緩存(由鍵和值嵌入組成),類似于LLM訓練期間采用的前向傳遞;

tokens生成階段:利用和更新KV緩存以增量方式生成新tokens 。每個生成步驟都依賴于先前生成的tokens。

本文的重點是在tokens生成階段提高KV緩存的注意力效率,從而加速LLM推理。

作者定義了具有有限KV緩存大小的生成過程,包括注意力查詢矩陣Q和鍵矩陣K。

驅逐策略:

圖片

以及采用了驅逐策略的生成過程:

圖片

接下來討論在不降低精度的情況下,減少KV緩存大小的可能性。

上圖中,(a)表示預訓練OPT模型中的注意力稀疏性;(b)表示累積注意力分數相對于相應單詞的分布(紅色散點)和數據中單詞的共現次數(灰色曲線),x軸表示詞匯表中的單詞索引;(c)表示具有完整KV緩存的基線模型與本文模型(H2O)的性能比較;(d)表示具有完整KV緩存的基線模型、具有局部統計量的H2O、具有全局統計量的H2O和僅具有最新KV(局部)的模型之間的比較。

給定由查詢矩陣Q和鍵矩陣K計算的歸一化注意力得分Softmax矩陣,將閾值設置為每行最大值的百分之一,并計算相應的稀疏度。

然后在Wiki-Text-103的驗證集上使用預訓練的OPT模型進行零樣本推理,繪制注意力塊內的逐層稀疏性,并可視化了歸一化的注意力得分矩陣。

結果如下圖所示,盡管LLM是密集訓練的,但由此產生的注意力得分矩陣是高度稀疏的,幾乎所有層的稀疏度都超過95%。

注意力塊的稀疏性表明,生成下一個tokens時,不需要訪問所有先前的鍵和值嵌入,所以可以逐出不必要的KV嵌入,也就減少了生成過程中對KV緩存的需求。

不過,逐出的策略需要謹慎,因為一旦驅逐了重要的KV,由于LLM生成的順序依賴性,可能會破壞LLM的性能。

作者研究發現,注意力區塊內所有tokens的累積注意力分數都遵循冪律分布,如下圖所示。

這表明存在一小部分在生成過程中至關重要的tokens,也就是前文談到的Heavy-Hitters (H2)。

此外,每個單詞的累積注意力分數(紅點)與它們在數據中的共現(灰色曲線)具有高度相關性。

作者基于以上現象設計了一種貪婪驅逐策略:

在生成過程中,當令tokens數量超過分配的KV緩存預算時,根據其累積的注意力分數統計數據,以及緩存中的本地tokens來保留重量級tokens。

一般而言,需要使用整個生成過程中的統計數據,才能得到最理想的結果,但這在實際部署中顯然是不可行的,因為無法訪問未來生成的tokens。

于是,作者進行了下圖的實驗,發現在每個解碼步驟中使用局部統計數據計算的局部H2 ,與考慮未來tokens的情況效果差不多(紅線和藍線)。

隨后,作者將這種動態注意力分數計算(有空間限制)定義為一種新的動態的子模塊問題(dynamic submodular type problem):

圖片

利用上面的形式定義KV緩存驅逐策略:

圖片

上圖展示了驅逐算法,以及說明性示例。這里假設KV緩存的預算大小為3 ,完成第四個解碼步驟后,根據累積的注意力分數逐出與第三個token關聯的KV嵌入,被逐出的KV嵌入在后續解碼步驟中將不可訪問。

另外,作者還提到了實際實現中的細節。比如,為了保證I/O效率,我們在驅逐存儲的KV時不會交換內存,而是直接填充新添加的KV。

實驗結果

論文的實驗選用了三個具有代表性的LLM模型系列,包括OPT,LLaMA和GPT-NeoX-20B 。

選取了8個評估任務:COPA , MathQA , OpenBookQA , PiQA , RTE , Winogrande , XSUM , CNN/Daily Mail 。

實驗的硬件采用NVIDIA A100 80GB GPU。

考慮到H2O所采用的緩存策略,這里除了完整的KV緩存(Full),還將本地緩存策略(Local)也作為基線方法。

由上面的圖和表可知:在不同的KV緩存預算下,本文提出的方法(H2O)在各種不同條件的測試中都優于Local策略。

同時,在低于20%的KV緩存預算之下,H2O實現了與全KV嵌入模型(Full)相當的性能,且在更具挑戰性的長序列生成任務、XSUM和CNN/Daily Mail中表現良好。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-02 10:28:03

2024-11-01 20:25:28

2024-11-01 13:30:56

2024-02-26 00:20:00

AI模型

2024-12-19 09:48:07

2024-12-12 09:00:00

2024-05-23 16:41:40

2025-05-09 02:00:00

代碼接口吞吐量

2024-12-13 13:58:53

2023-12-01 14:36:33

模型數據

2024-12-27 13:59:33

數據訓練模型

2025-09-11 02:00:00

2023-06-28 18:10:27

羊駝家族大模型集體進化

2025-10-08 10:19:29

2023-06-30 09:49:23

模型Meta

2022-05-26 15:17:54

訓練模型

2024-10-28 08:50:00

2025-03-03 09:16:00

Meta模型預測

2022-12-25 13:46:37

生成器

2023-03-17 08:28:17

GPT-4AI
點贊
收藏

51CTO技術棧公眾號

亚洲国产第一区| 日韩黄色短视频| 91麻豆国产视频| 欧美日韩ab| 日韩电影免费观看在线观看| 国产视频一视频二| 色欧美激情视频在线| 高清不卡一区二区在线| 日韩免费黄色av| 一级黄色录像视频| 国产成人av| 日韩精品一区二区三区在线播放| 亚洲中文字幕无码专区| 日韩av中文| 99re视频精品| 91精品国产99久久久久久红楼| 国产成人无码精品久在线观看| 日韩精品久久| 亚洲国产高清自拍| 欧美丝袜在线观看| av日韩电影| 亚洲一区在线观看视频| 手机成人在线| 午夜影院免费视频| 国产福利电影一区二区三区| 国产精品video| 伊人国产在线观看| 91精品秘密在线观看| 亚洲免费小视频| 大尺度在线观看| 95精品视频| 91久久精品午夜一区二区| 青青青在线观看视频| 午夜视频在线看| 国产欧美日韩激情| 免费观看成人在线| 香蕉久久一区二区三区| 国产成人99久久亚洲综合精品| 国产精品专区h在线观看| 日韩欧美一级视频| 在线高清一区| 欧美精品video| 国产va在线播放| 亚洲va在线| 精品国产欧美一区二区五十路 | 高清国产mv在线观看| 久久精品国产久精国产爱| 国产97在线|日韩| 久久久精品毛片| 麻豆91精品| 日韩av免费一区| 人人草在线观看| 久久久久久夜| 日本午夜精品理论片a级appf发布| 亚洲精品77777| av成人黄色| 91av视频在线播放| 伊人手机在线视频| 免费视频久久| 国产精品成人va在线观看| 亚洲无码精品一区二区三区| 日韩综合小视频| 国产精品免费观看在线| 亚洲一区二区色| 国精产品一区一区三区mba视频| 成人亲热视频网站| 国产女人18毛片18精品| 国产91精品露脸国语对白| 99久久99久久| 色wwwwww| 国产三级一区二区| 在线码字幕一区| 在线你懂的视频| 亚洲成人免费影院| 18岁视频在线观看| 91精品一区| 亚洲成人动漫在线播放| 一本色道久久综合亚洲精品图片| 精品一级毛片| 欧美成人精品影院| 欧美亚韩一区二区三区| 日本vs亚洲vs韩国一区三区| 成人免费在线视频网站| 欧美一区二区公司| 久久精品视频在线看| 中文字幕一区二区三区四区五区六区| 91一区二区三区在线| 性做久久久久久久久| 日韩视频在线免费看| 91麻豆精品国产综合久久久 | 欧美性xxxx在线播放| 亚洲福利精品视频| 91久久精品无嫩草影院| 日韩精品亚洲视频| a级黄色免费视频| 红桃视频国产一区| 国产精品精品久久久久久| 亚洲av综合色区无码一区爱av | 极品视频在线| 欧美日韩精品专区| 久久久久成人精品无码中文字幕| 精品福利久久久| 欧美成人一二三| 亚洲黄网在线观看| 丰满岳乱妇一区二区三区| 欧美自拍资源在线| 九色91在线| 欧美日韩一区高清| 丰满大乳奶做爰ⅹxx视频| 久久精品国内一区二区三区水蜜桃 | 成人h在线播放| 成年人在线视频免费观看| 亚洲一区二区三区四区五区黄 | www日韩中文字幕在线看| 欧美亚洲天堂网| 久草热8精品视频在线观看| 久久久一本精品99久久精品| 国产一二区在线| 色菇凉天天综合网| 性囗交免费视频观看| 婷婷激情综合| 国产精品扒开腿做| 嫩草在线播放| 姬川优奈aav一区二区| 91蝌蚪视频在线| 色男人天堂综合再现| 日本欧美国产在线| 天天操天天干天天操| 亚洲精品国产视频| 手机版av在线| 奇米影视亚洲| 国产精品国产亚洲伊人久久| 亚洲av毛片成人精品| 亚洲综合色网站| 成人性生交视频免费观看| 日本a级不卡| 国产经典一区二区| 精品亚洲成a人片在线观看| 香蕉成人啪国产精品视频综合网| 91精品国产高清91久久久久久 | 天天爽夜夜爽夜夜爽| 一区二区成人在线视频| 国内自拍第二页| 久久久久亚洲| 91在线视频导航| www.在线视频| 日韩欧美国产综合在线一区二区三区 | 久久久久免费精品| 蜜臀av免费一区二区三区| 97色伦亚洲国产| 手机av在线免费观看| 亚洲成人你懂的| 熟妇高潮精品一区二区三区| 中文精品在线| 欧美日韩亚洲一区二区三区在线观看| 亚洲福利影院| 亚洲夜晚福利在线观看| 欧美日韩 一区二区三区| 欧美激情一区二区在线| 在线观看日本一区二区| 亚洲不卡av不卡一区二区| 91久久久久久久| 天堂8中文在线| 欧美精品一区二区久久久| 日本a在线观看| 91在线观看一区二区| 麻豆av免费在线| 日韩av在线播放网址| 91欧美精品午夜性色福利在线| av观看在线| 亚洲第一精品福利| 国产又大又黄又粗| 亚洲国产精品ⅴa在线观看| 国产九九热视频| 欧美日韩国产欧| 激情伦成人综合小说| 唐人社导航福利精品| 日韩中文字幕免费看| 国产成人精品无码高潮| 精品久久久视频| jizzjizzjizz国产| 国产成人精品在线看| 凹凸国产熟女精品视频| 日韩精品免费| 激情小说综合网| 国产极品嫩模在线观看91精品| 精品精品国产国产自在线| 亚洲免费国产视频| 精品视频一区三区九区| 国产乡下妇女做爰毛片| 国产精品热久久久久夜色精品三区| 一二三av在线| 亚洲尤物在线| 亚洲区成人777777精品| 天堂网av成人| 亚洲一区二区日本| 欧洲一级精品| 久久久久久69| 日本视频在线播放| 日韩精品黄色网| 国产男女无套免费网站| 色天使久久综合网天天| 九九热国产精品视频| 久久精品视频免费| 精品人妻一区二区三| 99精品免费视频| 91手机视频在线| 国产精品美女久久久久久不卡| 7777奇米亚洲综合久久 | 欧美性一区二区| 日本免费一二三区| 亚洲精品国产一区二区三区四区在线| 好吊日免费视频| 成人永久免费视频| 中文字幕 日韩 欧美| 免费一级欧美片在线播放| www.国产亚洲| 91精品国产自产在线观看永久∴| 欧美一进一出视频| 卡一精品卡二卡三网站乱码 | 日韩最新在线| 成人资源av| 免费观看性欧美大片无片| 国产精品免费在线免费| 秋霞伦理一区| 国外成人性视频| 精精国产xxxx视频在线中文版| 中文字幕亚洲欧美| 波多野结衣在线网站| 国产视频在线一区二区| 性感美女福利视频| 亚洲第一精品福利| 日本国产在线观看| 亚洲成人黄色在线| 日韩中文字幕观看| 精品久久久久99| www.黄色片| 日韩亚洲欧美高清| 国产福利资源在线| 日韩片之四级片| 亚洲免费黄色片| 精品国产精品一区二区夜夜嗨| 国产chinasex对白videos麻豆| 欧美日韩成人综合| 91av久久久| 欧美另类z0zxhd电影| 国产一区二区三区成人| 91麻豆精品国产91久久久使用方法| 亚洲熟妇无码久久精品| 欧美日韩日日骚| 一级黄色片在线观看| 欧美高清dvd| 国产乱码久久久久| 日韩欧美国产电影| 天堂成人在线观看| 亚洲女同精品视频| 国产在线你懂得| 中文字幕亚洲二区| wwwav在线| 欧美精品久久久久久久久| av资源在线看片| 2021国产精品视频| 在线看片福利| 国产精品视频自在线| 亚洲精品aaa| 国产二区不卡| 日韩高清电影免费| 欧美一区少妇| 欧美高清视频手机在在线| 成人在线观看毛片| 亚洲茄子视频| 欧美激情精品久久久久久小说| 日韩电影在线观看电影| 爱豆国产剧免费观看大全剧苏畅 | 亚洲a中文字幕| 9l视频自拍九色9l视频成人| 久久久久久久久久久久久久一区 | 99v久久综合狠狠综合久久| 9.1成人看片免费版| 亚洲欧洲精品天堂一级| 久久婷婷一区二区| 色成年激情久久综合| av综合在线观看| 精品一区二区三区四区| 成年人视频免费在线观看| 久久999免费视频| 亚洲欧美韩国| 亚洲va欧美va国产综合剧情| 精品国产午夜肉伦伦影院| 特级西西444www大精品视频| 91精品国产自产拍在线观看蜜| 尤物av无码色av无码| 精品亚洲porn| 午夜视频在线观看国产| 国产精品国产馆在线真实露脸 | 欧美日韩一区二区在线观看视频| 性生活黄色大片| 亚洲天堂成人在线| 日本片在线看| 国产精品网址在线| 美日韩黄色大片| 91免费视频黄| 日韩综合一区二区| 高清中文字幕mv的电影| 中文字幕制服丝袜成人av| 久久久久久久久影院| 91 com成人网| 成年人在线视频| **欧美日韩vr在线| 中文字幕一区图| 亚洲欧美影院| 性久久久久久| 亚洲一区二区三区黄色| 亚洲欧洲日韩综合一区二区| 亚洲成人第一网站| 亚洲国产高清福利视频| 四虎亚洲精品| 国产日韩欧美在线播放| 国产一区二区精品福利地址| 青青青青草视频| 国产成人免费高清| 国产人妻精品一区二区三区不卡| 欧洲一区在线观看| 欧美在线观看在线观看| 久久久久国产一区二区三区| 国产亚洲久久| 天天综合中文字幕| 蜜臀久久99精品久久久久宅男| 亚洲精品成人无码熟妇在线| 午夜激情综合网| 成人毛片视频免费看| 欧美高清在线观看| 亚洲91网站| 欧美精品在欧美一区二区| 精品一区二区三区日韩| 天天操天天摸天天舔| 欧美性生活久久| 成人18在线| 国产欧美一区二区三区四区| 大色综合视频网站在线播放| 免费在线观看的毛片| 欧美国产一区二区在线观看| 亚洲 日本 欧美 中文幕| 亚洲欧美日本另类| 欧美特黄aaaaaaaa大片| 麻豆一区区三区四区产品精品蜜桃| 国产精品普通话对白| 亚洲欧美在线不卡| 色综合咪咪久久| 国产日本在线视频| 国产精品普通话| 久久国产亚洲| 日韩精品在线播放视频| 亚洲一区二区三区爽爽爽爽爽| 蜜臀av免费在线观看| 91sa在线看| 国产尤物久久久| 小明看看成人免费视频| 亚洲摸摸操操av| 六月婷婷综合网| 777777777亚洲妇女| 日韩精品丝袜美腿| 一区二区在线不卡| 久久99国产乱子伦精品免费| 久久国产高清视频| 欧美精品久久99久久在免费线 | 国内免费精品永久在线视频| 亚洲精品一区在线| 亚洲精品免费在线看| 国内精品在线播放| 欧美成人三级视频| 亚洲国产精品视频在线观看 | 亚洲黄色片在线观看| 三级网站在线看| 国产成人a亚洲精品| 婷婷亚洲五月色综合| 日本成人在线免费观看| 亚洲成a人片综合在线| 四虎电影院在线观看| 国产精品爽爽爽| 欧美理论在线| 亚洲av无码久久精品色欲| 天天综合网天天综合色| 国产在线视频你懂得| 亚洲一区免费网站| 在线看片成人| 纪美影视在线观看电视版使用方法| 欧美日韩一区国产| 交100部在线观看| 亚洲视频在线二区| av中文字幕在线不卡| 国产午夜无码视频在线观看| 欧美日韩999| 久久爱www成人| 日本人视频jizz页码69| 一区二区成人在线观看| 每日更新av在线播放| 91福利视频导航| 亚洲制服少妇| 九九视频在线观看|