精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行

發布于 2024-4-16 12:41
瀏覽
0收藏

從國際頂流 GPT-4 128K、Claude 200K 到國內「當紅炸子雞」支持 200 萬字上下文的 Kimi Chat,大語言模型(LLM)在長上下文技術上不約而同地卷起來了。當全世界最聰明的頭腦都在卷一件事的時候,這件事的重要性和難度就自然不言自明。


極長的上下文可以極大拓展大模型的生產力價值。隨著 AI 的普及,用戶已經不再滿足于調戲大模型幾個腦筋急轉彎,用戶開始渴望利用大模型來真正提高生產力。畢竟從前花一周憋出來的 PPT,現在只需要喂給大模型一串提示詞和幾份參考文檔就分分鐘生成出來,打工人誰能不愛呢?


新型高效序列建模方法比如:Lightning Attention (TransNormerLLM), State Space Modeling (Mamba), Linear RNN (RWKV, HGRN, Griffin) 等最近成為炙手可熱的研究方向。研究人員渴望通過改造已經 7 歲高齡的 Transformer 架構,獲得性能與之旗鼓相當,但復雜度僅為線性的新型架構。這類方法專注于模型架構設計,并提供了基于 CUDA 或 Triton 的硬件友好實現,使其能夠像 FlashAttention 一樣在單卡 GPU 內部高效計算。


與此同時,另一個長序列訓練的殺手锏:序列并行獲得了越來越多的關注。通過把長序列在序列維度切分為多個等分短序列,再將短序列分散至不同 GPU 卡并行訓練,再輔以卡間通信便達到了序列并行訓練的效果。從最早出現的 Colossal-AI 序列并行、到 Megatron 序列并行、再到 DeepSpeed Ulysses、以及近期的 Ring Attention,研究人員不斷設計更加優雅高效的通信機制以提升序列并行的訓練效率。當然這些已知方法全部是為傳統注意力機制設計的,本文中我們稱之為 Softmax Attention。這些方法也已經有各路大神做了精彩分析,本文不過多探討。


那么問題來了。如何讓新型高效序列建模方法實現序列并行,從而跨越單卡 GPU 顯存限制實現真正意義的無限序列長度(當然你得有無限 GPU)的高效大語言模型訓練,成為了一個開放的問題。已經成熟的序列并行方法如 DeepSpeed Ulysses, Megatron-SP 當然可以應用在線性序列建模方法上,但以 Softmax Attention 為設計藍本的它們注定天生不是最優解。

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

  • 論文標題:Linear Attention Sequence Parallelism
  • 論文地址:https://arxiv.org/abs/2404.02882
  • LASP代碼地址:https://github.com/OpenNLPLab/LASP


本文即將介紹的 LASP 便應運而生。來自上海人工智能實驗室的研究人員提出了 Linear Attention Sequence Parallelism (LASP) 方法以充分利用 Linear Attention 的線性右乘特性實現高效的序列并行計算。在 128 卡 A100 80G GPU、TransNormerLLM 1B 模型、FSDP backend 的配置下,LASP 可以最高將序列長度擴展至 4096K,即 4M。與成熟的序列并行方法相比,LASP 可訓練的最長序列長度是 Megatron-SP 的 8 倍、DeepSpeed Ulysses 的 4 倍,速度則分別快了 136% 和 38%。


值得注意的是,雖然方法的名字包含 Linear Attention,LASP 并不局限于 Linear Attention 方法,而是可以廣泛應用于包括 Lightning Attention (TransNormerLLM),  State Space Modeling (Mamba), Linear RNN (RWKV, HGRN, Griffin) 等在內的線性序列建模方法。

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 方法介紹


為了充分理解 LASP 的思路,讓我們先回顧下傳統 Softmax Attention 的計算公式:O=softmax ((QK^T)⊙M) V,其 Q, K, V, M, O 分別為 Query, Key, Value, Mask 和 Output 矩陣,這里的 M 在單向任務(如 GPT)中是一個下三角的全 1 矩陣,在雙向任務(如 BERT)中則可以忽略,即雙向任務沒有 Mask 矩陣。我們下面將 LASP 拆為四點進行解釋:


Linear Attention 原理


Linear Attention 可以視為 Softmax Attention 一種變體。Linear Attention 去除了計算成本高昂的 Softmax 算子,Attention 的計算公式可以寫為 O=((QK^T)⊙M) V 的簡潔形式。但由于單向任務中 Mask 矩陣 M 的存在,使得該形式依然只能進行左乘計算(即先計算 QK^T),從而不能獲得 O (N) 的線性復雜度。但對于雙向任務,由于沒有 Mask 矩陣的存在,其計算公式可以進一步簡化為 O=(QK^T) V。Linear Attention 的巧妙之處在于,僅僅利用簡單的矩陣乘法結合律,其計算公式就可以進一步轉化為:O=Q (K^T V),這種計算形式被稱之為右乘,可見 Linear Attention 在這種雙向任務中可以達到誘人的 O (N) 復雜度!

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 數據分發


LASP 首先將長序列數據從序列維度切分為多個等分的子序列,再將子序列分散發送至序列并行通信組內的所有 GPU,使得每張 GPU 上各有一段子序列,以供后續序列并行的計算使用。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 核心機制


隨著 decoder-only 的類 GPT 形式的模型逐漸成為 LLM 的事實標準,LASP 的設計充分考慮了單向 Casual 任務的場景。由切分后子序列 Xi 計算而來的便是按照序列維度切分的 Qi, Ki, Vi,每一個索引 i 對應一個 Chunk 和一個 Device(即一張 GPU)。由于 Mask 矩陣的存在,LASP 作者巧妙地將各個 Chunk 對應的 Qi, Ki, Vi 區分為兩種,即:Intra-Chunk 和 Inter-Chunk。其中 Intra-Chunk 為 Mask 矩陣分塊后對角線上的 Chunk,可以認為仍然有 Mask 矩陣的存在,依然需要使用左乘;Inter-Chunk 則為 Mask 矩陣非對角線上的 Chunk,可以認為沒有 Mask 矩陣的存在,可以使用右乘;顯然,當切分的 Chunk 越多時,對角線上的 Chunk 占比越少,非對角線上的 Chunk 占比越多,可以利用右乘實現線性復雜度 Attention 計算的 Chunk 就越多。其中,對于右乘的 Inter-Chunk 的計算,前向計算時每個設備需要使用點對點通信 Recive 上一個設備的 KV,并 Send 自己的更新后的 KV 給下一個設備。反向計算時則正好相反,只是 Send 和 Recive 的對象變為了 KV 的梯度 dKV。其中前向計算過程如下圖所示:


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 代碼實現

為了提高 LASP 在 GPU 上的計算效率,作者對 Intra-Chunk 和 Inter-Chunk 的計算分別進行了 Kernel Fusion,并將 KV 和 dKV 的更新計算也融合到了 Intra-Chunk 和 Inter-Chunk 計算中。另外,為了在反向傳播過程中避免重新計算激活 KV,作者選擇在前向傳播計算后立即將其存儲在 GPU 的 HBM 中。在隨后的反向傳播過程中,LASP 直接訪問 KV 以供使用。需要注意的是,存儲在 HBM 中的 KV 大小為 d x d,完全不受序列長度 N 的影響。當輸入序列長度 N 較大時,KV 的內存占用變得微不足道。在單張 GPU 內部,作者實現了由 Triton 實現的 Lightning Attention 以減少 HBM 和 SRAM 之間的 IO 開銷,從而加速單卡 Linear Attention 計算。


想要了解更多細節的讀者,可以閱讀論文中的 Algorithm 2(LASP 前向過程)和 Algorithm 3(LASP 反向過程),以及文中詳細的推導過程。


通信量分析


LASP 算法中需要注意前向傳播需要在每個 Linear Attention 模塊層進行 KV 激活的通信。通信量為 Bd^2/h,其中 B 是 batch 大小,h 是頭數。相比之下,Megatron-SP 在每個 Transformer 層中的兩個 Layer Norm 層之后分別使用了一次 All-Gather 操作,并在 Attention 和 FFN 層之后分別使用了一次 Reduce-Scatter 操作,這導致其通信量為 2BNd + 4BNd/T,其中 T 為序列并行維度。DeepSpeed-Ulysses 使用了 All-to-All 集合通信操作來處理每個 Attention 模塊層的輸入 Q, K, V 和輸出 O,導致通信量為 4BNd/T。三者的通信量對比如下表所示。其中 d/h 是頭維度,通常設置為 128。在實際應用中,當 N/T>=32 時,LASP 便能夠實現最低的理論通信量。此外,LASP 的通信量不受序列長度 N 或子序列長度 C 的影響,這對于跨大型 GPU 集群的極長序列并行計算是一個巨大的優勢。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

Data-Sequence 混合并行


數據并行(即 Batch-level 的數據切分)已經是分布式訓練的常規操作,在原始數據并行(PyTorch DDP)的基礎上,已經進化出了更節省顯存的切片式數據并行,從最初的 DeepSpeed ZeRO 系列到 PyTorch 官方支持的 FSDP,切片式數據并行已經足夠成熟并被越來越多用戶使用。LASP 作為 Sequence-level 的數據切分方法,可以能夠和包括 PyTorch DDP, Zero-1/2/3, FSDP 在內的各種數據并行方法兼容使用。這對 LASP 的使用者來說無疑是好消息。


精度實驗


在 TransNormerLLM (TNL) 和 Linear Transformer 上的實驗結果表明,LASP 作為一種系統優化方法能夠和各種 DDP backends 結合,并均能達到與 Baseline 持平的性能。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

可擴展性實驗


得益于高效的通信機制設計,LASP 可以輕松擴展至上百卡 GPU,并保持很好的可擴展性。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

速度對比實驗


與成熟的序列并行方法 Megatron-SP 和 DeepSpeed-Ulysses 對比,LASP 可訓練的最長序列長度是 Megatron-SP 的 8 倍、DeepSpeed-Ulysses 的 4 倍,速度則分別快了 136% 和 38%。

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

結語


為了方便大家試用,作者已經提供了一個即裝即用的 LASP 代碼實現,無需下載數據集和模型,只需 PyTorch 分分鐘體驗 LASP 的極長極快序列并行能力。


代碼傳送門:https://github.com/OpenNLPLab/LASP


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/wPJsmgSAYgh3Si2eZ0_HzA??


收藏
回復
舉報
回復
相關推薦
亚洲精品之草原avav久久| 一区二区三区四区av| 国产欧美日韩丝袜精品一区| 黄色a级片在线观看| 91大神精品| 91精品1区2区| av 日韩 人妻 黑人 综合 无码| 日韩一区二区三区不卡| 日韩va亚洲va欧美va久久| 久久在线免费视频| 午夜视频在线观看国产| 国产精品.xx视频.xxtv| 亚洲成人动漫精品| 精品久久免费观看| 欧美女同网站| 国产精品18久久久久久久久 | av毛片在线免费看| 久久久久国产精品人| 91成人免费视频| 国产99免费视频| 亚洲啪啪91| 欧美超级乱淫片喷水| 在线视频第一页| 九九热hot精品视频在线播放| 欧美色欧美亚洲另类二区| 免费人成在线观看视频播放| 国产色在线 com| 99在线精品观看| 成人毛片网站| 国产欧美日韩综合精品一区二区三区| 视频一区视频二区中文| 性欧美亚洲xxxx乳在线观看| 欧美做爰啪啪xxxⅹ性| 欧美日韩伦理| 亚洲片在线观看| 特大黑人巨人吊xxxx| 欧美国产中文高清| 欧美一区二区三区的| 狠狠干狠狠操视频| 91成人抖音| 日韩欧美综合在线视频| 成人性免费视频| www欧美xxxx| 亚洲成在线观看| 日韩精品在线中文字幕| 欧美黄色视屏| 一二三四区精品视频| 成年人三级视频| 中文字幕免费高清电视剧网站在线观看| 国产精品三级在线观看| 亚洲啪啪av| 日本中文字幕在线2020| 亚洲欧洲在线观看av| 亚洲激情一区二区三区| 在线激情小视频| 国产精品久久99| 中国老女人av| 欧美色图天堂| 亚洲永久精品国产| 九九爱精品视频| 伊人久久av| 欧美三级电影在线观看| 欧美成年人视频在线观看| 黄色成人小视频| 欧美一区二区三区四区五区 | 丰满少妇久久久久久久| 国产不卡一区二区在线观看| 国精品人妻无码一区二区三区喝尿| 成人少妇影院yyyy| 久久久久久久久久久久久久一区 | 99久久久无码国产精品| 久久亚洲国产精品日日av夜夜| 先锋av资源站| 欧美激情在线一区二区三区| 亚洲啪啪av| 七七成人影院| 日本韩国欧美在线| 亚欧精品在线视频| 激情av综合| 国产一区二区三区视频| 女人18毛片毛片毛片毛片区二 | 欧美激情成人在线视频| 91久久国产视频| 免费欧美日韩国产三级电影| 国产中文日韩欧美| 六月丁香综合网| 国产蜜臀av在线一区二区三区| 国产精品美女在线播放| 99re6在线精品视频免费播放| 91精品91久久久中77777| 深爱五月综合网| 琪琪久久久久日韩精品| 中文字幕久久久av一区| 国产亚洲精品成人| 日产国产高清一区二区三区| av免费精品一区二区三区| 天天操天天射天天舔| 久久看人人爽人人| 欧美日韩中文字幕在线播放| 黄色成人免费网| 日韩欧美你懂的| 一级黄色片网址| 亚洲国产网站| 96sao精品视频在线观看| 亚洲欧美综合一区二区| 亚洲免费电影在线| 日日碰狠狠躁久久躁婷婷| 精品一区二区三区中文字幕视频 | 日本中文字幕在线观看| 欧美日韩一区二区精品| 亚洲色图欧美自拍| 国产亚洲欧美日韩在线观看一区二区 | 91久久久久| 成人亚洲激情网| 欧美18xxxxx| 亚洲成人在线观看视频| 一级做a免费视频| 国产亚洲一区二区三区啪| 欧美福利视频在线观看| 国产乱叫456在线| 国产欧美一区二区精品仙草咪| 精品人妻少妇一区二区| 欧美久久一区二区三区| 在线观看日韩视频| 日本视频在线观看免费| 成人的网站免费观看| av磁力番号网| 青青草国产一区二区三区| 亚洲毛片一区二区| 亚洲天堂日韩av| 成人免费视频app| 黄色网络在线观看| 精品国产一区二区三区2021| 日韩中文在线中文网在线观看 | 黄网在线免费看| 91精品蜜臀在线一区尤物| 国产性猛交xx乱| 视频一区视频二区中文字幕| 欧美久久综合性欧美| aaa在线播放视频| 欧美成人福利视频| 久久国产一级片| 精品亚洲成a人在线观看| 午夜一区二区三区| 亚洲精品555| 在线日韩中文字幕| 中文字幕人妻一区二区在线视频 | 国产人妖一区| 中文字幕亚洲欧美| 中文字幕视频免费观看| 国产精品乱码一区二三区小蝌蚪| 另类小说第一页| 欧美日韩在线二区| 成人免费在线视频网址| 黄色在线免费网站| 日韩亚洲欧美综合| 久久久久久久伊人| 91视视频在线观看入口直接观看www | 亚洲人成在线电影| 国产又粗又猛又爽又| 中文一区二区完整视频在线观看 | 天堂网中文字幕| 久久久三级国产网站| 三年中国国语在线播放免费| 日韩精品永久网址| 亚洲自拍小视频| 蜜臀久久精品| 一本色道久久88综合亚洲精品ⅰ| 中文字幕精品无码亚| 亚洲三级免费电影| 在线观看一区二区三区视频| 99re国产精品| 日韩高清国产一区在线观看| 日韩专区视频| 久久久久久久久久久av| 日韩大片b站免费观看直播| 欧美亚洲图片小说| 欧美黄色免费观看| 久久青草国产手机看片福利盒子 | 日韩区一区二| 欧美一级淫片丝袜脚交| 9191在线| 亚洲国产成人av在线| 亚洲精品一区二三区| 亚洲三级久久久| 国产呦小j女精品视频| 捆绑紧缚一区二区三区视频| 免费的av在线| 国产毛片一区二区三区| 亚洲影影院av| 激情开心成人网| 久久久久久91| 18视频免费网址在线观看| 欧美videos大乳护士334| 精品国产xxx| 亚洲自拍另类综合| 国产一级淫片久久久片a级| 白白色亚洲国产精品| 亚洲国产高清av| 国产亚洲综合精品| 黄色一级视频播放| av在线不卡顿| 久久日韩精品| 亚洲性视频在线| 国产日韩欧美夫妻视频在线观看 | 国产免费一区二区三区在线能观看| av网站免费在线观看| 国产亚洲美女精品久久久| 成人福利小视频| 欧美日韩高清影院| 四虎影院在线免费播放| 亚洲一区中文在线| 日本激情视频一区二区三区| 久久在线观看免费| 久久人妻少妇嫩草av蜜桃| 久久精品99国产精品日本| 国产精品va无码一区二区| 欧美99在线视频观看| 亚洲国产一区二区精品视频 | 欧美国产精品v| 97人妻天天摸天天爽天天| 懂色av中文一区二区三区| 在线观看国产一级片| 丝袜亚洲另类欧美| 欧美a在线视频| 一本色道久久精品| 男人的天堂狠狠干| 1024日韩| 国产精品久久..4399| 欧美日韩久久| 干日本少妇视频| 亚洲精品午夜av福利久久蜜桃| 亚洲欧洲精品一区| 成人毛片免费看| 三区精品视频观看| 欧美午夜精彩| 日韩欧美亚洲在线| 国产在视频线精品视频www666| 久久资源亚洲| 伊人久久大香线蕉无限次| 久久久综合香蕉尹人综合网| 狼人天天伊人久久| 狠狠色综合欧美激情| 日韩mv欧美mv国产网站| 好吊色欧美一区二区三区| 精品三级av在线导航| 激情小说综合区| 伊人久久大香线蕉综合网站 | 91成人精品视频| 超碰97免费观看| 欧美黄色一级视频| 欧美成人精品免费| 悠悠资源网久久精品| 成 年 人 黄 色 大 片大 全| 亚洲电影av| 国产精品宾馆在线精品酒店| 噜噜爱69成人精品| 日韩一级理论片| 久久成人综合网| 古装做爰无遮挡三级聊斋艳谭| 国产精品99久久久| 国产精品久久久久久久无码| 2023国产精品| 99re6热在线精品视频| 亚洲精品第1页| 在线观看中文字幕视频| 欧洲国产伦久久久久久久| 一本大道伊人av久久综合| 日韩一区二区三区四区| 日本久久一级片| 亚洲人成伊人成综合网久久久| 色多多视频在线观看| 欧美国产乱视频| 欧美电影h版| 成人日韩在线电影| 成人资源在线| 日韩成人av电影在线| 久久久国产精品| av之家在线观看| 青椒成人免费视频| 91人人澡人人爽| 国产女同性恋一区二区| 久久久久性色av无码一区二区| 日韩欧美大尺度| 国产欧美一区二区三区视频在线观看| 欧美成人在线直播| 国产精品影院在线| 欧美国产日韩二区| 欧美性suv| 999视频在线观看| 九九视频免费观看视频精品 | 日韩一级在线| 精品久久久99| 91麻豆成人久久精品二区三区| 五月婷婷综合激情网| 韩曰欧美视频免费观看| 国产精品久久婷婷| 国产视频精品久久久| 黄色在线免费| 国产精品国产三级国产专播精品人| 亚洲1区在线观看| 五月天久久狠狠| 国产精品婷婷| 久草免费资源站| 国产农村妇女毛片精品久久麻豆| 国产中文字字幕乱码无限| 欧美日韩久久久| 欧美一区二区视频| 久久久久久一区二区三区| 国产精品无码久久久久| 免费观看国产成人| 亚洲国产二区| 女人扒开腿免费视频app| 国产欧美日韩三区| 精品免费囯产一区二区三区| 欧美变态tickle挠乳网站| 在线观看a视频| 国产成人av网| 西野翔中文久久精品字幕| 欧美久久在线观看| 国产经典欧美精品| 国产美女久久久久久| 欧美亚洲高清一区二区三区不卡| 亚洲人在线观看视频| 久久久噜噜噜久久久| 国产精选久久| 国产对白在线播放| 久久99热99| 日韩欧美在线视频播放| 在线视频欧美区| 伦理片一区二区三区| 51久久精品夜色国产麻豆| 成人在线视频你懂的| 天堂а√在线中文在线| 国产自产视频一区二区三区| 亚洲欧美va天堂人熟伦 | 91国内揄拍国内精品对白| 北条麻妃在线一区二区免费播放 | 成人短视频app| 蜜桃av噜噜一区二区三区| 亚洲一卡久久| 97超碰在线免费观看| 黑人欧美xxxx| 男生女生差差差的视频在线观看| 欧美专区在线播放| 中文字幕精品影院| 久久久久久久少妇| 国产欧美日韩精品一区| 亚洲av人无码激艳猛片服务器| 亚洲一级黄色片| 九七电影院97理论片久久tvb| 亚洲精品不卡| 九一久久久久久| 精品欧美一区二区久久久久| 欧美成人高清电影在线| 成人影音在线| 麻豆成人小视频| 日本vs亚洲vs韩国一区三区二区 | 亚洲一区二区三区四区在线免费观看| 精品人妻伦一二三区久久| 久久欧美在线电影| 天海翼亚洲一区二区三区| 草草草在线视频| 中文字幕一区二| 黑人操亚洲女人| 日本一区二区在线播放| 成人精品天堂一区二区三区| 91pony九色| 亚洲国产综合91精品麻豆| 欧美精品久久久久久久久久丰满| 国产精品高清在线观看| 欧美电影三区| 成年女人免费视频| 91精品办公室少妇高潮对白| 国产激情在线| 蜜桃网站成人| 国产一区不卡视频| 91九色丨porny丨肉丝| 最近2019中文字幕mv免费看| 久久一级大片| 农村妇女精品一二区| 亚洲欧美综合另类在线卡通| 人妻va精品va欧美va| 国产精品国产亚洲伊人久久| 欧美日一区二区三区在线观看国产免| www.日本高清| 欧美精品久久99久久在免费线| 538视频在线| 在线观看成人av| 99久久免费视频.com| 91一区二区视频| 欧美性视频精品| 亚洲欧美文学| av黄色免费网站| 欧美成人vps| av日韩久久| 日本美女高潮视频| 亚洲超碰97人人做人人爱| 亚洲精品承认| 蜜桃视频在线观看91|