精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

別再「浪費」GPU了,FlashAttention重磅升級,實現長文本推理速度8倍提升

人工智能
處理小說、法律文件等長文本是大模型的一個重要應用方向,但也面臨速度上的挑戰。FlashAttention 作者 Tri Dao 等人提出的「Flash-Decoding」通過充分利用 GPU,可以將大模型的長上下文推理速度提高至 8 倍。

最近,像 ChatGPT 或 Llama 這樣的大型語言模型(LLM)引起了前所未有的關注。然而,它們的運行成本仍然極高。雖然生成單個響應可能僅需 0.01 美元(在 AWS 上的 8xA100 實例上運行幾秒鐘),但當擴大規模以滿足數十億用戶的需求時,成本會迅速累積。而且,這些用戶可能每天與 LLM 進行多次互動。某些用例的成本更高,例如代碼自動生成,因為它會隨著每次輸入新字符而運行。隨著 LLM 應用的不斷增加,即使在生成時間方面實現細微的效率提升,也將產生巨大的影響。

LLM 推理(或「解碼」)是一個迭代的過程:token 逐個生成。生成包含 N 個 token 的完整句子需要通過模型進行 N 次前向傳遞。幸運的是,我們可以緩存先前計算的 token:這意味著單個生成步驟不依賴于上下文長度,除了一個單獨的操作 —— 注意力。這個操作導致上下文長度不能很好地擴展。

在 LLM 的重要新興用例中,有一些需要利用更長的上下文。只有擁有了更長的上下文窗口,LLM 才能對更長的文檔進行推理,無論是總結文檔還是回答其中的問題。此外,它們還可以保持更長的對話歷史,甚至在編寫代碼之前處理整個代碼庫。舉個例子,在 2022 年,大多數 LLM 的上下文長度最多為 2k(例如 GPT-3),但現在,有些開源 LLM 已經可以擴展到 32k(比如 Llama-2-32k),甚至有些模型已經達到了 100k(比如 CodeLlama)。在這些情境中,注意力操作在推理過程中占據了相當大的時間比例。

在擴展 batch size 維度時,即使上下文相對較短,注意力也可能成為一個瓶頸。這是因為隨著 batch 維度的增加,需要讀取的內存量也會增加,而對于模型的其余部分,內存需求只取決于模型的大小。

為了解決上述問題,FlashAttention 的作者 Tri Dao 等人提出了一項名為「Flash-Decoding」的技術,它顯著加速了推理過程中的注意力計算,使長序列的處理生成速度提高到了原來的 8 倍。其主要思想是以最快的速度并行加載鍵和值,然后分別重新縮放和合并結果,以維持正確的注意力輸出。

解碼時的多頭注意力

在解碼期間,生成的每個新 token 都需要關注所有先前的 token,以計算:softmax (queries @ keys.transpose) @ values

這個操作已經在訓練階段通過 FlashAttention 進行了優化(包括最近的 v1 和 v2 版本),瓶頸是讀寫中間結果的內存帶寬(如 Q @ K^T)。然而,這些優化并不直接適用于推理情況,因為瓶頸不同。在訓練中,FlashAttention 并行處理 batch size 和查詢長度兩個維度。而在推理過程中,查詢長度通常為 1:這意味著,如果 batch size 小于 GPU 上的流多處理器(streaming multiprocessor,SM)數量(例如 A100 有 108 個),該操作只會利用 GPU 的一小部分!特別是在處理長上下文時,情況尤為明顯,因為它需要較小的 batch size 以適應 GPU 內存。當 batch size 為 1 時,FlashAttention 將使用不到 1% 的 GPU!

FlashAttention 只在查詢塊和 batch size 之間并行,并且在解碼期間不會設法占用整個 GPU

使用矩陣乘法基元也能執行注意力計算,這樣就不需要使用 FlashAttention 了。在這種情況下,該操作會占用整個 GPU,但會啟動許多寫入和讀取中間結果的內核,因此并不是最優的做法。

更快的注意力解碼:Flash-Decoding

新方法 Flash-Decoding 基于 FlashAttention,同時引入了一個新的并行維度:鍵值序列的長度。它綜合了上述兩種方法的優點。與 FlashAttention 類似,它在全局內存中存儲的額外數據很少。然而,只要上下文足夠長,即使 batch size 較小,它也能充分利用 GPU。

Flash-Decoding 也在鍵和值之間并行化,代價是一個小的最終歸約(reduction 步驟。

Flash-Decoding 主要有三個工作步驟:

  • 首先,將鍵 / 值分成更小的塊;
  • 使用 FlashAttention 并行計算查詢與每個這些分塊的注意力,為每行和每個分塊額外寫入一個標量值:注意力值的 log-sum-exp
  • 最后,通過對所有分塊進行歸約來計算實際輸出,使用 log-sum-exp 來調整每個分塊的貢獻。

這一切之所以可行,都是因為注意力 /softmax 可以進行迭代計算。在 Flash-Decoding 中,它在兩個級別上被使用:在分塊內部(類似 FlashAttention),以及跨分塊進行最終的歸約計算。

實際操作中,步驟(1)不涉及任何 GPU 操作,因為鍵 / 值塊是完整鍵 / 值張量的視圖。然后,有兩個獨立的核函數,分別用于執行步驟(2)和(3)。

在 CodeLlama 34B 上進行的基準測試

為了驗證上述新方法,研究者對 CodeLLaMa-34b 的解碼吞吐量進行了基準測試。該模型與 Llama 2 具有相同的架構,一般來說,結果應該適用于許多大型語言模型。研究者在不同序列長度下(從 512 到 64k),以 tok/s 為單位來測量解碼速度,并比較了多種計算注意力的方式:

  • Pytorch:使用純粹的 PyTorch 基元來運行注意力計算(不使用 FlashAttention);
  • FlashAttention v2;
  • FasterTransformer:使用 FasterTransformer 的注意力內核;
  • Flash-Decoding;

以及一個上限值,該值計算了從內存中讀取整個模型和 KV-cache 所需的時間

對于非常大的序列,Flash-Decoding 可以將解碼速度提高至 8 倍,并且比其他方法的擴展性要好得多。

在 prompt 比較小時,所有方法表現接近。但是當序列長度從 512 增加到 64k 時,除了 Flash-Decoding,其他方法的可擴展性都很差。在 Flash-Decoding 的這種模式下(batch size 為 1),擴展序列長度對生成速度的影響很小。

組件級微基準測試

研究者還在 A100 上對多頭注意力進行了微基準測試,輸入為 f16,考慮了不同的序列長度和 batch size。他們將 batch size 設置為 1,并且使用 16 個 128 維的查詢頭,以及 2 個鍵 / 值頭(分組查詢注意力),這與在 4 個 GPU 上運行的 CodeLLaMa-34b 使用的維度相匹配。

上述微基準測試展示了多頭注意力的運行時間,單位為微秒。Flash-Decoding 在序列長度擴展到高達 64k 時,幾乎實現了恒定的運行時間。

之前測量的高達 8 倍的端到端加速是可能的,因為注意力本身的速度比 FlashAttention 快高達 50 倍。在序列長度達到 32k 之前,注意力的時間大致是恒定的,因為 Flash-Decoding 能夠完全利用 GPU。

使用 Flash-Decoding

Flash-decoding 可以在以下鏈接中找到:

  • FlashAttention 包,從 v2.2 開始:https://github.com/Dao-AILab/flash-attention/tree/main
  • xFormers 包(搜索 xformers.ops.memory_efficient_attention),從 0.0.22 開始:調度程序將根據問題的大小自動使用 Flash-Decoding 或 FlashAttention 方法。當這些方法不受支持時,它可以調度到一個高效的 triton 內核,該內核實現了 Flash-Decoding 算法。

一個完整的使用 LLaMa v2 / CodeLLaMa 的解碼示例可以在 FlashAttention  repo 和 xFormers  repo 中找到。此外,作者還提供了一個簡單的 LLaMa v1/v2 模型的高效解碼代碼示例,旨在快速、易讀、有教育意義和易于修改。

參考鏈接:https://princeton-nlp.github.io/flash-decoding/

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2023-03-22 13:53:26

芯片英偉達

2023-06-27 13:49:00

GPU通信RLHF

2025-04-21 09:07:00

2024-08-12 12:27:03

2025-09-09 05:00:00

2024-11-28 10:04:14

2025-10-14 08:58:00

2023-01-08 13:22:03

模型

2024-03-18 09:02:53

AI模型

2021-12-27 06:57:40

Maven工具性能

2023-07-18 14:19:00

模型AI

2025-02-27 09:09:45

2024-09-10 13:30:00

2024-11-08 15:00:00

AI模型

2025-03-12 09:35:45

2025-07-08 09:10:00

2020-06-19 10:33:16

阿里AIICML

2023-01-18 09:51:56

模型開源

2022-05-11 14:45:48

模型人工智能
點贊
收藏

51CTO技術棧公眾號

蜜桃视频第一区免费观看| 日韩欧美中文字幕电影| 亚洲九九爱视频| 国产精品伊人日日| 国产成人在线观看网站| 要久久电视剧全集免费| 欧美乱熟臀69xxxxxx| 男人添女人下部视频免费| 天天干天天舔天天射| 全国精品久久少妇| 欧美日韩成人网| 一起草在线视频| 欧美综合社区国产| 一区2区3区在线看| 手机在线观看国产精品| www.黄色国产| 日本欧美韩国一区三区| 欧美激情xxxx| youjizz亚洲女人| 国产精品香蕉| 在线观看一区二区精品视频| 久草免费福利在线| 欧美激情办公室videoshd| 成人性色生活片| 国产女同一区二区| 伊人手机在线视频| 欧美日韩专区| 精品国产一区久久久| 一出一进一爽一粗一大视频| 91精品一区| 欧美亚洲高清一区| 国产黄色一级网站| 激情网站在线| 亚洲三级小视频| 色中色综合成人| 青青操视频在线| 成人动漫一区二区| 97欧洲一区二区精品免费| 姑娘第5集在线观看免费好剧| 日韩视频在线一区二区三区 | 午夜不卡av在线| 性做爰过程免费播放| 成人av毛片| 久久久91精品国产一区二区精品| 国产精品一区二区三区观看| 国产日韩精品suv| 久久99国产精品免费| 国产精品福利网站| 国产第一页在线观看| 亚洲专区欧美专区| 97视频色精品| 国产一级片免费观看| 欧美日本二区| 久久久久国产一区二区三区| 欧美精品一区二区成人| 综合久久十次| 欧美伦理91i| 精品97人妻无码中文永久在线| 一区二区三区在线电影| 久久不射热爱视频精品| 手机在线免费看片| 欧美~级网站不卡| 色综合色综合久久综合频道88| 色在线观看视频| 欧美另类综合| 97久久精品视频| 久久久久亚洲av成人毛片韩| 乱人伦精品视频在线观看| 日本91av在线播放| 欧美成人一区二区视频| 六月丁香综合在线视频| 成人黄色午夜影院| 国产伦子伦对白视频| 国产一区二区伦理片| 99r国产精品视频| 性xxxx视频播放免费| 久久久一区二区三区| 欧美在线一区二区三区四区| 91视频在线观看| 亚洲人成在线播放网站岛国| 免费视频爱爱太爽了| 午夜影院在线播放| 欧美亚洲图片小说| 韩国美女久久| 亚洲精品一区av| 欧美片在线播放| 97超碰免费在线观看| 粉嫩精品导航导航| 亚洲欧美日韩网| 毛片视频免费播放| 中文字幕一区二区三区乱码图片 | 成人免费视频网站入口| 日本精品一二区| 国产欧美一区二区三区沐欲| 亚洲欧洲另类精品久久综合| 羞羞的网站在线观看| 亚洲成人一区二区在线观看| 精品视频一区二区在线| 天天综合在线观看| 亚洲激情视频在线播放| 国精产品视频一二二区| 亚洲高清资源| 国产激情久久久| 精品人妻av一区二区三区| 久久日韩粉嫩一区二区三区| 咪咪色在线视频| 涩涩涩在线视频| 91精品黄色片免费大全| 老鸭窝一区二区| 久久久久国产精品| 日本一本a高清免费不卡| 国产xxxxxx| 国产三级欧美三级日产三级99 | 精品一区二区三区国产| 日本福利在线| 色悠久久久久综合欧美99| 亚洲色图欧美自拍| 国产乱码精品一区二区三区四区| 美日韩丰满少妇在线观看| 中文字幕xxxx| 成人app下载| 最近中文字幕免费mv| 偷拍自拍在线看| 欧美成人vps| 亚洲一区电影在线观看| 丝袜诱惑制服诱惑色一区在线观看| 3d蒂法精品啪啪一区二区免费| 国产免费视频在线| 亚洲成精国产精品女| 一级片黄色免费| 日韩电影免费网站| 日韩免费av在线| 香港三日本三级少妇66| 亚洲一区二区综合| 伦伦影院午夜理论片| 水蜜桃久久夜色精品一区| 日韩av电影国产| 深夜福利视频在线观看| 亚洲韩国精品一区| 在线播放国产视频| 中文字幕一区二区三区在线视频| 国产日韩av在线播放| 黄色网址在线播放| 一本大道综合伊人精品热热 | 国产精品国产成人国产三级| 日韩精品无码一区二区三区免费| 日日天天久久| 91av视频导航| 涩涩视频在线观看免费| 色综合网色综合| 亚洲欧洲久久久| 丝袜亚洲另类欧美综合| 国产精品久久久久久久久久久久午夜片 | 91大学生片黄在线观看| 懂色av色香蕉一区二区蜜桃| 日韩专区在线播放| 96日本xxxxxⅹxxx17| 1000部国产精品成人观看| 日本一二区免费| 999国产精品| 91久久国产综合久久91精品网站| 岛国中文字幕在线| 欧美大胆人体bbbb| 国产香蕉在线视频| 91视视频在线直接观看在线看网页在线看| 国产av麻豆mag剧集| 日韩理论电影中文字幕| 青草青草久热精品视频在线观看| 嫩草精品影院| 欧美色区777第一页| 成人自拍小视频| 国产成人av电影在线观看| 成人免费性视频| 秋霞蜜臀av久久电影网免费| 日本成人精品在线| av片在线看| 日韩欧美国产精品一区| 日韩欧美亚洲一区二区三区| 91在线观看视频| 亚洲 中文字幕 日韩 无码| 久久影院一区| 翡翠波斯猫1977年美国| 欧美xxx视频| www.久久久久| 日本成人动漫在线观看| 91黄色免费观看| 国产一二三区精品| 99re这里都是精品| 狠狠操狠狠干视频| 日韩香蕉视频| 亚洲日本精品国产第一区| 亚洲专区**| 日韩女优在线播放| 一色桃子av在线| 亚洲男人天堂视频| 99久久久国产精品无码免费| 精品国产1区2区| 日韩在线观看免| 91片黄在线观看| 天堂av.com| 羞羞答答国产精品www一本| 偷拍盗摄高潮叫床对白清晰| 欧美色资源站| 亚洲一区二区三区777| 一二三四视频在线中文| 操日韩av在线电影| 国产专区在线播放| 亚洲成人久久久| 国产又粗又猛又色又| 日韩欧美精品中文字幕| 曰本女人与公拘交酡| 亚洲国产高清在线| 成人免费无码大片a毛片| 黄色精品一二区| 日本成人黄色网| 亚洲每日在线| 成人短视频在线观看免费| 日韩精品91| 欧美连裤袜在线视频| av成人男女| 亚洲影院色无极综合| 国产一区二区主播在线| 456国产精品| 另类视频在线| 久久高清视频免费| 男人天堂久久久| 一区二区三区国产在线观看| 亚洲av电影一区| 日韩午夜av电影| 国产精品视频久久久久久| 色综合天天天天做夜夜夜夜做| 国产一级特黄a高潮片| 亚洲色图.com| 欧美色视频一区二区三区在线观看| 久久精品免视看| 亚洲自拍偷拍一区二区| 99久久国产免费看| 欧产日产国产精品98| 国产精品99久| 91丨porny丨九色| 国产一区二区三区在线观看精品 | 99精品国产视频| 黄色性视频网站| 成人综合激情网| 无码av免费精品一区二区三区| 国产精品99久久久久久久女警| 在线黄色免费看| 精品一区二区三区香蕉蜜桃 | 国产一区影院| 国产精品自产拍高潮在线观看| 性感美女一区二区在线观看| 人九九综合九九宗合| 亚洲第一会所001| 国产999精品久久久影片官网| 欧美xxx性| 国产精品美女久久久久av超清| 全球最大av网站久久| 国产精品女主播视频| 国产一区高清| 99se婷婷在线视频观看| 韩国精品福利一区二区三区| 韩国成人一区| 国产精品日韩精品中文字幕| 日本一区二区三区精品视频| 成人写真视频| 一区二区三区四区欧美| 亚洲天堂免费| 国产天堂视频在线观看| 亚洲美女视频在线免费观看| 国产午夜福利视频在线观看| 久久一区精品| 成人黄色一级大片| 成人网男人的天堂| 蜜桃传媒一区二区亚洲av| 日本一区二区三区在线不卡 | 99青草视频在线播放视| 精品国产一区二区三区四区在线观看 | 国产精品久久久久久久久夜色| 欧美在线观看视频在线| 99精品久久久久久中文字幕| 精品99一区二区三区| 久久精品a一级国产免视看成人 | 日韩三级免费| 欧洲亚洲免费在线| av在线国产精品| 国产日韩欧美一区二区三区四区| 国产91久久精品一区二区| 中文精品一区二区三区| 亚洲大胆av| 一级片视频免费观看| 国产成人综合网站| 人人人妻人人澡人人爽欧美一区| 亚洲视频1区2区| 欧美另类一区二区| 欧美裸体bbwbbwbbw| 五月天婷婷在线播放| 日韩三级影视基地| 亚洲精华液一区二区三区| 成人激情av在线| 亚洲区小说区图片区qvod| 青少年xxxxx性开放hg| 小嫩嫩精品导航| 精品人妻一区二区乱码| 国产欧美日韩中文久久| 国产无码精品在线播放| 欧美日韩国产另类不卡| 亚洲三区在线观看无套内射| 久久伊人色综合| 欧美日韩大片| 国产偷国产偷亚洲高清97cao| 天天av综合| 热久久精品免费视频| 99视频精品全部免费在线| 天天看天天摸天天操| 91极品美女在线| 午夜黄色小视频| 欧美精品videosex牲欧美| **国产精品| 天堂√在线观看一区二区| 9色国产精品| 九色91porny| 日韩毛片高清在线播放| 日韩久久久久久久久久| 亚洲久久久久久久久久久| 不卡av免费观看| 99c视频在线| 你懂的亚洲视频| 亚洲一二三不卡| 中文字幕在线一区免费| 欧美不卡一区二区三区四区| www.久久伊人| 久久精品中文字幕一区| 成人国产精品入口免费视频| 久久综合婷婷综合| 国产欧美丝祙| 国产黑丝一区二区| 亚洲国产毛片aaaaa无费看 | 日韩黄色中文字幕| 欧美性生交xxxxxdddd| 天堂av资源在线| 国a精品视频大全| 成人性生交大片免费看中文视频| 欧美一区二区三区综合| 狠狠色伊人亚洲综合成人| 大吊一区二区三区| 欧美日韩国产精品成人| 视频一区二区三区不卡| 91精品久久久久| 久久久久免费av| 在线观看免费视频污| 曰韩精品一区二区| 性一交一乱一透一a级| 欧美大片网站在线观看| 爱爱精品视频| 欧美精品一区免费| 久久一区二区三区四区| 欧美一区二区三区网站| 亚洲人成在线免费观看| 99久久伊人| 法国空姐在线观看免费| 国产成人午夜片在线观看高清观看 | 免费精品国产的网站免费观看| 丁香啪啪综合成人亚洲| 国产日产欧美一区二区视频| 中文字幕乱码人妻二区三区| 国产一级揄自揄精品视频| 日本在线中文字幕一区二区三区| 亚洲精品在线视频观看| 韩国一区二区在线观看| 久久久精品91| 日韩精品www| 成人国产在线| www.69av| 91麻豆精品在线观看| 久久精品久久久久久久| 日韩在线资源网| 7777精品| 国产精品久久久久9999小说| 亚洲丝袜另类动漫二区| 三级在线观看网站| 国产精品久久久久久一区二区| 亚洲精品成人无限看| 亚洲成人av免费在线观看| 欧洲亚洲国产日韩| 成人在线观看免费网站| 精品国产一区二区三区免费 | 美女爆乳18禁www久久久久久 | 一级特黄大欧美久久久| 日本免费一区二区三区最新| 成人黄色片网站| 国产亚洲福利| 色老板免费视频| 日韩av中文字幕在线播放| 亚洲高清影院| 欧美日韩二三区| 亚洲日本欧美天堂| 青青青草原在线| 999在线免费观看视频| 免费一级片91| 国产成人综合欧美精品久久|