精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

天下苦英偉達久矣!PyTorch官方免CUDA加速推理,Triton時代要來?

人工智能 新聞
近日,PyTorch 官方分享了如何實現無 CUDA 計算,對各個內核進行了微基準測試比較,并討論了未來如何進一步改進 Triton 內核以縮小與 CUDA 的差距。

在做大語言模型(LLM)的訓練、微調和推理時,使用英偉達的 GPU 和 CUDA 是常見的做法。在更大的機器學習編程與計算范疇,同樣嚴重依賴 CUDA,使用它加速的機器學習模型可以實現更大的性能提升。

雖然 CUDA 在加速計算領域占據主導地位,并成為英偉達重要的護城河之一。但其他一些工作的出現正在向 CUDA 發起挑戰,比如 OpenAI 推出的 Triton,它在可用性、內存開銷、AI 編譯器堆棧構建等方面具有一定的優勢,并持續得到發展。

近日,PyTorch 官宣要做「無英偉達 CUDA 參與的大模型推理」。在談到為什么要 100% 使用 Triton 進行探索時,PyTorch 表示:「Triton 提供了一條途徑,使大模型 能夠在不同類型的 GPU 上運行,包括英偉達、AMD、英特爾和其他基于 GPU 的加速器。

此外 Triton 還在 Python 中為 GPU 編程提供了更高的抽象層,使得使用 PyTorch 能夠比使用供應商特定的 API 更快地編寫高性能內核。」

圖片

在 PyTorch 博客中討論了使用流行的 LLM 模型(例如 Meta 的 Llama3-8B 和 IBM 的 Granite-8B Code)實現 FP16 推理的方法,其中計算是 100% 使用 OpenAI 的 Triton 語言執行的。

對于使用基于 Triton 內核的模型生成單個 token 的時間,PyTorch 能夠實現在英偉達 H100 GPU 上 Llama 和 Granite 的 CUDA 內核主導工作流程的 0.76-0.78 倍性能,以及在英偉達 A100 GPU 上的 0.62-0.82 倍。

圖片

圖 1. 在英偉達 H100 和 A100 上,Llama3-8B 和 Granite-8B 的 Triton 和 CUDA 變體的推理吞吐量比較。設置:批大小 = 2,輸入序列長度 = 512,輸出序列長度 = 256

也許告別英偉達的時候真要來了。

圖片

Transformer 塊的組成

PyTorch 團隊首先對基于 Transformer 的模型中發生的計算進行細分。下圖顯示了典型 Transformer 塊的「內核(kernel)」。

圖片

圖 2

Llama3 架構的核心操作總結如下:

  • 均方根歸一化(RMSNorm)
  • 矩陣乘法:Fused QKV
  • RoPE
  • 注意力
  • 矩陣乘法:輸出投影
  • RMSNorm
  • 矩陣乘法:Fused Gate + Up Projection
  • 激活函數:SiLU
  • 點乘(Element Wise Multiplication)
  • 矩陣乘法:Down Projection

這些操作中的每一個都是通過在 GPU 上執行一個(或多個)內核來計算的。雖然每個內核的細節在不同的 Transformer 模型中可能有所不同,但核心操作保持不變。例如,IBM 的 Granite 8B Code 模型在 MLP 層中使用偏置,與 Llama3 不同。此類更改確實需要對內核進行修改。典型的模型是這些 Transformer 塊的堆疊,這些 Transformer 塊通過嵌入層連接在一起。

模型推理

典型的模型架構代碼與 PyTorch 啟動的 python model.py 文件共享。在默認的 PyTorch Eager Execution 模式下,這些內核都是使用 CUDA 執行的。為了實現 100% Triton 進行端到端 Llama3-8B 和 Granite-8B 推理,需要編寫和集成手寫 Triton 內核以及利用 torch.compile(生成 Triton 操作)。首先,PyTorch 用編譯器生成的 Triton 內核替換較小的操作,其次,PyTorch 用手寫的 Triton 內核替換更昂貴和復雜的計算(例如矩陣乘法和閃存注意力)。

Torch.compile 自動為 RMSNorm、RoPE、SiLU 和點乘生成 Triton 內核。使用 Nsight Systems 等工具,可以觀察到這些生成的內核,它們在矩陣乘法和注意力之間表現為微小的深綠色內核。

圖片

圖 3. 使用 torch.compile 跟蹤 Llama3-8B,顯示用于矩陣乘法和閃存注意力的 CUDA 內核。

對于上面的跟蹤,PyTorch 團隊注意到,在 Llama3-8B 樣式模型中,占 E2E 延遲 80% 的兩個主要操作是矩陣乘法和注意力內核,并且兩者仍然是 CUDA 內核。因此,為了彌補剩余的差距,PyTorch 團隊用手寫的 Triton 內核替換了 matmul 和注意力內核。

Triton SplitK GEMM 內核

對于線性層中的矩陣乘法,PyTorch 團隊編寫了一個自定義 FP16 Triton GEMM(通用矩陣 - 矩陣乘法)內核,該內核利用了 SplitK 工作分解。

GEMM 內核調優

為了實現最佳性能,PyTorch 團隊使用窮舉搜索方法來調整 SplitK GEMM 內核。Granite-8B 和 Llama3-8B 具有如下形狀的線性層:

圖 4. Granite-8B 和 Llama3-8B 線性層權重矩陣形狀。

每個線性層都有不同的權重矩陣形狀。因此,為了獲得最佳性能,必須針對每個形狀輪廓調整 Triton 內核。在對每個線性層進行調整后,PyTorch 能夠在 Llama3-8B 和 Granite-8B 上實現相對于未調整的 Triton 內核 1.20 倍的 E2E 加速。

Flash Attention 內核

PyTorch 團隊使用不同的配置,對現有 Triton flash attention 內核進行了評估,包括

  • AMD Flash
  • OpenAI Flash
  • Dao AI Lab Flash
  • XFormers Flash
  • PyTorch FlexAttention

PyTorch 團隊分別在 eager 模式和編譯模式下評估了每個內核的文本生成質量。下圖 5 為不同 Flash Attention 內核的比較。

上圖總結了 PyTorch 觀察到的開箱即用情況,并預計內核 2 到 5 可以在修改后滿足上述標準。不過這也表明,擁有一個可用于基準測試的內核通常只是將它用作端到端生產內核的開始。

PyTorch 團隊選擇在后續測試中使用 AMD flash attention 內核,它通過 torch.compile 進行編譯,并在 eager 和編譯模式下產生清晰的輸出。

為了滿足 torch.compile 與 AMD flash attention 內核的兼容性,PyTorch 團隊必須將它定義為 torch 自定義算子。并且封裝更復雜的 flash attention 內核遵循以下兩個步驟:

一是將函數封裝為一個 PyTorch 自定義算子。

圖片

二是向該算子添加一個 FakeTensor 內核,并在給定 flash 輸入張量的形狀(q、k 和 v)時,計算 flash 內核的輸出形狀。

圖片

在將 Triton flash 內核定義為一個自定義 op 后,PyTorch 團隊可以成功地對它進行編譯以實現端到端運行。

圖 6:在交換 Triton matmul 和 Triton flash attention 內核后,使用 torch.compile 的 Llama3-8B 軌跡。

從圖中可以看到,在集成 SplitK 矩陣乘法內核后,torch op 封裝 flash attention 內核,然后運行 torch.compile,即可實現使用 100% Triton 計算內核的前向傳遞。

端到端基準測試

PyTorch 團隊分別對運行 Granite-8B 和 Llama3-8B 模型的英偉達 H100 和 A100(單 GPU)進行了端到端測試,使用了兩種不同的配置來執行基準測試。

其中 Triton 內核配置使用了:

  • Triton SplitK GEMM
  • AMD Triton Flash Attention

CUDA 內核配置使用了

  • cuBLAS GEMM
  • cuDNN Flash Attention - Scaled Dot-Product Attention (SDPA)

在典型推理設置下,兩種 eager 和 torch 編譯模式的吞吐量和 inter-token 延遲如下圖所示。

圖 7:H100 和 A100 上 Granite-8B 和 Llama3-8B 單 token 生成延遲(批大小 = 2,輸入序列長度 = 512,輸出序列長度 = 256)。

總的來說,在 H100 上,Triton 模型最高可以達到 CUDA 模型性能的 78%;在 A100 上可以達到 82%。這些性能差距是由 matmul 和 flash attention 的內核延遲造成的。

微基準測試

下圖 8 為 Triton 和 CUDA 內核延遲比較(英偉達 H100 上運行 Llama3-8B)。輸入為一個任意 prompt(批大小 = 1,prompt 序列長度 = 44),以解碼延遲時間。

最后結果顯示,Triton matmul 內核比 CUDA 慢了 1.2 至 1.4 倍,而 AMD Triton Flash Attention 比 CUDA SDPA 慢了 1.6 倍。

以上結果凸顯了需要進一步提升 GEMM 和 Flash Attention 等核心原語內核的性能。最近的一些工作(如 FlashAttention-3、FlexAttention) 已經提出了更好地利用底層硬件和 Triton 的方法,PyTorch 希望在它們的基礎上實現更大加速。為了闡明這一點,PyTorch 團隊將 FlexAttention 與 SDPA、AMD’s Triton Flash 內核進行了比較。

PyTorch 團隊 正努力驗證 FlexAttention 的端到端性能。目前,FlexAttention 的初始微基準測試結果表明,在查詢向量較小的情況下,有望實現更長的上下文以及解碼問題形狀。

圖 9:英偉達 H100 SXM5 80GB 上 FlexAttention 內核基準測試(批大小 = 1,最大頭數 = 32,頭維數 = 128)。

未來工作

未來,PyTorch 團隊計劃探索進一步優化 matmuls 的方法,以便更好地利用硬件,并為基于 Triton 的方法實現更大的加速。

對于 flash attention,PyTorch 團隊計劃探索 FlexAttention 和 FlashAttention-3 等內核中使用到的技術,以幫助進一步縮小 Triton 與 CUDA 之間的差距。同時還將探索端到端 FP8 LLM 推理。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-01-11 14:57:10

2021-07-07 17:49:08

自動駕駛無人駕駛人工智能

2025-10-29 16:06:10

AI模型訓練

2020-01-10 10:09:50

程序員技能開發者

2025-08-07 09:13:00

2024-06-24 09:51:24

2024-10-18 14:46:51

2022-06-01 16:47:53

AI模型開源

2012-08-31 11:21:41

浪潮英偉達ICCE

2023-10-09 13:19:51

AI軟件

2023-05-22 09:42:12

AI檢測

2023-05-18 14:05:24

AI檢測

2012-05-11 11:32:52

英偉達CUDA編譯器

2021-07-29 15:40:50

編程語言計算模型

2024-12-05 13:50:00

AI大模型

2024-08-28 13:34:13

2023-05-18 07:30:16

OpenCLGPU平臺生態

2023-06-05 07:35:03

點贊
收藏

51CTO技術棧公眾號

久久国产主播精品| 一区二区欧美久久| 黄色片免费在线观看视频| 国产精品一区二区小说| 欧美一级性视频| 人人精品亚洲| 欧美性色xo影院| 欧美理论一区二区| 精品国产www| 国产精品传媒精东影业在线 | 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 久久伦理网站| 日本一级淫片色费放| 欧美黑人巨大videos精品| 色悠悠亚洲一区二区| 久久综合九九| 中文在线观看av| 欧美成人日韩| 日韩精品视频在线观看免费| 日本不卡二区| 一级片免费网站| 禁久久精品乱码| 亚洲图片欧美午夜| 在线视频一二区| 深夜成人在线| 最近中文字幕一区二区三区| 国产精品日韩欧美一区二区三区| 最新中文字幕一区| 精品视频在线一区| 成人免费视频网站在线观看| 原创国产精品91| 一区二区三区国产好的精华液| av有码在线观看| 夜夜嗨一区二区三区| 中文字幕成人精品久久不卡| 岛国av免费观看| 在线看黄色av| 成人精品一区二区三区四区 | 周于希免费高清在线观看| 久久久久国色av免费看影院| 亚洲精品免费在线视频| 国产91国语对白在线| 亚洲精品久久| 国产亚洲美女精品久久久| 白丝校花扒腿让我c| 日本国产欧美| 亚洲精品乱码久久久久久久久| 欧美一区二区综合| 黄色片网站免费在线观看| 亚洲免费影院| 亚洲精品国产精品国自产在线| 久久久久久久中文| 97caopor国产在线视频| 日本一区二区免费在线观看视频| 国产精品一区在线观看| 国产女人18毛片水真多| 日韩高清在线不卡| 日韩精品中文字幕有码专区| 亚洲第一成肉网| 久久不卡日韩美女| 欧美午夜免费电影| 日韩电影天堂视频一区二区| 亚洲黄色在线播放| 国产在线一区二区| 国产精选久久久久久| 手机在线看片1024| 日韩午夜黄色| 欧美激情欧美激情| 青青草原免费观看| 欧美一区二区三区免费看| 北条麻妃99精品青青久久| www久久久久久久| 欧美日韩123| 欧美制服丝袜第一页| 久精品国产欧美| 成人久久久精品国产乱码一区二区 | 亚洲午夜久久久| 麻豆中文字幕在线观看| 在线观看免费黄色| 国产精品天干天干在线综合| 日韩国产欧美一区| 女人偷人在线视频| 国产午夜精品一区二区三区视频 | 国内性生活视频| 19禁羞羞电影院在线观看| 亚洲国产视频在线| www.99热这里只有精品| 天堂中文在线8| 日韩一区二区久久| 国内精品国产三级国产在线专| 国产精品成人av久久| 精品av一区二区| 日韩欧美亚洲国产精品字幕久久久 | 国产精品免费av一区二区| 亚洲人成久久| 热99精品里视频精品| 三级视频在线观看| 免费看欧美女人艹b| 国产主播在线一区| 国产免费黄色录像| 成人av在线观| 久久人人97超碰人人澡爱香蕉| 亚洲色图狠狠干| 久久久99精品久久| 一区二区高清视频| 天堂av一区二区三区| 91麻豆精品一区二区三区| 九9re精品视频在线观看re6| 黄色片在线看| 成人精品免费网站| 欧美精品与人动性物交免费看| 黄色小视频在线观看| 国产日韩精品视频一区| 影音先锋亚洲视频| www.超碰在线| 欧美视频在线一区| 蜜桃视频无码区在线观看| 欧美一区 二区| 色伦专区97中文字幕| 欧美三级 欧美一级| 久久精品一区二区免费播放| 视频精品二区| 日韩成人免费视频| jizzjizzjizz国产| 91久久精品无嫩草影院 | 成人免费观看毛片| 欧美一区=区三区| 亚洲v中文字幕| 成人免费视频久久| 日韩三级精品| 亚洲视频综合网| 我家有个日本女人| 日韩av在线播放中文字幕| 91在线|亚洲| 国产精品成人无码| 国产不卡视频一区二区三区| 成人网在线视频| 人妻一区二区三区| 国产精品国产成人国产三级 | 99精品视频免费观看视频| 国产精品免费观看在线| 国产成人无码专区| 久久婷婷av| 成人动漫视频在线观看完整版| 99在线精品视频免费观看20| 91亚洲资源网| 欧美精品在欧美一区二区| 91av免费观看| 欧美亚洲大片| 亚洲国产精品人人爽夜夜爽| 久久免费看少妇高潮v片特黄| 久热国产精品| 亚洲一区久久久| 91在线看片| 亚洲美女视频在线观看| 欧美日韩亚洲自拍| 米奇777超碰欧美日韩亚洲| 欧美精品久久久久a| 亚洲成人av综合| 一区二区三区日本| 欧美xxxx日本和非洲| 伊人成年综合电影网| 国产 高清 精品 在线 a| 日韩成人伦理| 欧美精品一区二区三区蜜桃 | 一区二区在线看| 被黑人猛躁10次高潮视频| 91精品国产视频| 粉嫩精品一区二区三区在线观看| 亚洲奶水xxxx哺乳期| 亚洲аv电影天堂网| 国产手机在线视频| 久久久精品一品道一区| 亚洲人辣妹窥探嘘嘘| 欧美va久久久噜噜噜久久| 91久久中文字幕| 色呦呦网站在线观看| 亚洲精品国产精品国自产在线| 无码人妻丰满熟妇区五十路| 国产精品美女久久久久aⅴ国产馆| 奇米视频888| 亚洲小说欧美另类社区| 免费成人看片网址| 国外成人福利视频| 欧美黑人国产人伦爽爽爽| 色猫av在线| 欧美剧情电影在线观看完整版免费励志电影 | 久久久久久久久免费视频| 欧美一区二区国产| 国产网址在线观看| 国产日本亚洲高清| 精产国品一区二区三区| 国产美女精品| 亚洲一区二区三区乱码| 成人免费在线电影网| 国产成+人+综合+亚洲欧洲| 浪潮av一区| 日韩av在线天堂网| 国产精品久久久久精| 欧美日韩激情小视频| 91视频最新网址| av不卡免费在线观看| 一区二区免费av| 国产日韩欧美三级| 四虎影院一区二区| 久久超碰99| 国产成人精品福利一区二区三区 | 欧美性猛交xxxx富婆弯腰| 乱老熟女一区二区三区| caoporn国产一区二区| 中文字幕成人免费视频| 翔田千里一区二区| 欧美日韩中文字幕在线播放| 欧洲杯什么时候开赛| 国产精品一区在线观看| 国产精品久久久久久久久久辛辛| 欧美亚洲另类在线| 久久av色综合| 日韩一级大片在线观看| av图片在线观看| 亚洲视频中文字幕| 在线观看国产精品一区| 成人毛片在线观看| 九九九九九伊人| 日本伊人午夜精品| 久久无码高潮喷水| 亚洲在线不卡| 奇米狠狠一区二区三区| 国产一区二区高清视频| 香港久久久电影| 成人激情视频免费在线| 国产成人精品亚洲日本在线观看| 91黑丝高跟在线| 麻豆av在线免费观看| 久久精品夜夜夜夜夜久久| 91网在线播放| 永久555www成人免费| 青青草视频免费在线观看| 亚洲福利在线视频| 日韩永久免费视频| 精品国产伦一区二区三区观看方式 | 性色av蜜臀av浪潮av老女人 | 中文字幕5566| av中文字幕一区| 国产成人av无码精品| 成人在线视频一区二区| 中文字幕乱码在线人视频| 极品少妇一区二区三区精品视频 | 伊人情人网综合| av亚洲免费| 日韩久久久久久久| av在线不卡顿| 亚洲精品国产精品国自产| 精品国产一区二区三区小蝌蚪 | 视频一区二区三区国产| 精品成人私密视频| 天天干天天插天天操| 亚洲国产女人aaa毛片在线| 人妻无码中文字幕免费视频蜜桃| 亚洲第一黄色网| 天堂中文字幕在线| 亚洲欧美在线一区二区| av在线免费观看网| 日韩视频中文字幕| 中文国产字幕在线观看| 久久久久久久成人| 九色porny视频在线观看| 清纯唯美亚洲综合| 青青热久免费精品视频在线18| 国产欧美久久一区二区| 欧美a级大片在线| 粉嫩av免费一区二区三区| 久久夜色精品国产噜噜av小说| 久久久久久精| 日本久久综合| 国产911在线观看| 日韩高清一级| 欧美裸体网站| 欧美高清在线| 久久99久久99精品| 新67194成人永久网站| 91人人澡人人爽人人精品| 蜜臀久久久99精品久久久久久| 一女二男3p波多野结衣| 国产一区二三区| 亚洲av成人片色在线观看高潮| 久久久亚洲精品一区二区三区| 蜜桃传媒一区二区亚洲| 亚洲免费在线看| 午夜精品久久久久久久久久久久久蜜桃| 色婷婷综合久色| 国产精品福利电影| 亚洲精品成人网| 一级日本在线| 久久久久久久97| 福利一区二区免费视频| 粉嫩av四季av绯色av第一区 | 天堂av免费看| 亚洲精品影院在线观看| 欧美三级午夜理伦三级富婆| 成人综合婷婷国产精品久久蜜臀 | 亚洲奶汁xxxx哺乳期| 亚洲欧美福利视频| 秋霞在线午夜| 国产精品久久久久久av下载红粉 | 日本亚洲欧美三级| 激情综合五月| 秋霞毛片久久久久久久久| 国产精品99免费看| 免费cad大片在线观看| 久久经典综合| 最新中文字幕日本| 国产精品毛片大码女人| 日韩特黄一级片| 这里只有精品电影| 国产一区二区小视频| 亚洲国产97在线精品一区| 欧美极品视频| 人人爽久久涩噜噜噜网站| 久久三级中文| 亚洲国产一区二区精品视频 | 国产精品一在线观看| www插插插无码免费视频网站| 免费高清视频精品| 成人h动漫精品一区| 亚洲午夜精品网| aaa级黄色片| 色av吧综合网| 欧美色网在线| 欧美成ee人免费视频| 亚洲黄页一区| 免费看91视频| 亚洲人成小说网站色在线| 姑娘第5集在线观看免费好剧| 亚洲欧美综合另类中字| 蜜桃视频m3u8在线观看| 国产精品久久一区二区三区| 欧美一区二区| 韩国一区二区三区四区| 亚洲私人影院在线观看| 中文字幕第99页| 在线视频欧美性高潮| 88xx成人免费观看视频库| 欧美成ee人免费视频| 久久精品三级| 日本一级免费视频| 91国偷自产一区二区三区成为亚洲经典| 天堂а√在线8种子蜜桃视频| 午夜精品福利在线观看| 国产欧美自拍一区| 久久国产精品视频在线观看| 成人精品免费视频| 日韩黄色a级片| 日韩成人av在线| 一二三四视频在线中文| 欧美午夜免费| 日韩在线一区二区三区| 免费看91的网站| 欧美日韩一区二区在线观看| 日本精品一区二区三区在线播放| 国产欧美日韩精品专区| 99国产**精品****| 爱情岛论坛亚洲自拍| 午夜欧美一区二区三区在线播放| 日批视频免费播放| 欧美一区二区三区免费视| 欧美美女在线观看| 黄色片视频在线| 亚洲欧美国产高清| 欧美 日韩 国产 成人 在线| 97色在线视频| 激情五月综合网| 羞羞的视频在线| 亚洲自拍另类综合| 色视频在线观看| 国产日韩一区在线| 欧美日韩a区| 国产美女喷水视频| 欧美日韩一区二区三区四区五区| 成人免费看片| 九九九九九精品| 青青草原综合久久大伊人精品优势| 国产一区在线观看免费| 精品美女被调教视频大全网站| 欧亚av在线| 亚洲视频欧美在线| 东方欧美亚洲色图在线| 精品国产午夜福利| 欧美成人国产va精品日本一级| 美女av一区| 午夜精品中文字幕| 一区二区不卡在线视频 午夜欧美不卡在| 色婷婷激情五月| 国产精品美女www| 狠狠爱综合网| ass极品国模人体欣赏| 欧美大胆人体bbbb| 韩日精品一区| 久久久久久人妻一区二区三区| 国产九色精品成人porny|