精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek開(kāi)源第三彈:驚人的300行代碼驅(qū)動(dòng)R1和V3的訓(xùn)練與推理,超越各種專家內(nèi)核

人工智能 新聞
這是由?DeepSeek-AI?團(tuán)隊(duì)精心打造的?FP8 通用矩陣乘法 (GEMM) 加速庫(kù),專為追求極致性能和代碼簡(jiǎn)潔而生。

DeepSeek開(kāi)源周第三彈!DeepSeek-AI 重磅發(fā)布高效FP8 GEMM庫(kù) DeepGEMM:極致性能,代碼精簡(jiǎn),助力V3/R1模型訓(xùn)練與推理!

簡(jiǎn)單來(lái)說(shuō)這是由 DeepSeek-AI 團(tuán)隊(duì)精心打造的 FP8 通用矩陣乘法 (GEMM) 加速庫(kù),專為追求極致性能和代碼簡(jiǎn)潔而生

圖片

我們一起來(lái)扒一扒:

Hopper GPU 上狂飆 1350+ FP8 TFLOPS!

在算力為王的 AI 時(shí)代,矩陣乘法 (GEMM) 的效率至關(guān)重要。DeepGEMM 正是為了解決這一痛點(diǎn)!它充分利用 NVIDIA Hopper 架構(gòu) GPU的強(qiáng)大算力,在 FP8 精度下,性能 高達(dá) 1350+ TFLOPS!這意味著更快的模型訓(xùn)練速度,更流暢的推理體驗(yàn),以及更低的計(jì)算成本!

DeepGEMM 不僅適用于傳統(tǒng)的 稠密模型,更完美支持 混合專家模型 (MoE) 的 GEMM 計(jì)算,無(wú)論是 DeepSeek-V3 還是 R1 模型,都能得到強(qiáng)力加速!

代碼極簡(jiǎn)!核心邏輯僅 300 行,堪比教程級(jí)!

你沒(méi)聽(tīng)錯(cuò)!DeepGEMM 的核心 kernel 函數(shù)代碼量?jī)H有 驚人的 ~300 行! DeepSeek-AI 團(tuán)隊(duì)秉持著 “大道至簡(jiǎn)” 的設(shè)計(jì)理念,在保證極致性能的同時(shí),力求代碼的 可讀性 和 可維護(hù)性。 即使是剛?cè)腴T(mén) CUDA 開(kāi)發(fā)的同學(xué),也能輕松理解 DeepGEMM 的實(shí)現(xiàn)原理,甚至可以作為學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化的絕佳教程!

無(wú)需編譯!完全 Just-In-Time (JIT) 編譯,即裝即用! ?

告別繁瑣的編譯過(guò)程!DeepGEMM 采用了 全 Just-In-Time (JIT) 編譯 技術(shù),所有 kernel 都在運(yùn)行時(shí)動(dòng)態(tài)編譯,無(wú)需在安裝時(shí)進(jìn)行任何預(yù)編譯。 這意味著你可以 即裝即用 DeepGEMM,省去了大量的配置和編譯時(shí)間,讓你可以更專注于模型開(kāi)發(fā)和實(shí)驗(yàn)。

DeepGEMM 的 JIT 設(shè)計(jì)還帶來(lái)了額外的優(yōu)勢(shì):它可以根據(jù)不同的 GEMM 形狀、block size 等參數(shù)進(jìn)行 動(dòng)態(tài)優(yōu)化,始終選擇最佳的 kernel 配置,保證在各種場(chǎng)景下都能發(fā)揮出最佳性能。

?? 硬核技術(shù)解析:DeepGEMM 的性能秘訣

DeepGEMM 在代碼簡(jiǎn)潔的同時(shí),性能卻能比肩甚至超越一些專家調(diào)優(yōu)的庫(kù),這背后離不開(kāi)一系列硬核技術(shù)的加持:

  • 精細(xì)粒度 Scaling (Fine-grained Scaling): DeepGEMM 采用了 DeepSeek-V3 論文中提出的精細(xì)粒度 scaling 技術(shù),更有效地利用 FP8 的動(dòng)態(tài)范圍,提升計(jì)算精度和性能
  • CUDA-core 雙層累加 (Two-level Accumulation): 為了解決 FP8 tensor core 累加精度不足的問(wèn)題,DeepGEMM 巧妙地使用了 CUDA-core 雙層累加技術(shù),保證了計(jì)算結(jié)果的準(zhǔn)確性
  • Persistent Warp-specialization (持久 Warp 特化): 借鑒 CUTLASS 的設(shè)計(jì)思想,DeepGEMM 的 kernel 進(jìn)行了 warp 特化,實(shí)現(xiàn)了數(shù)據(jù)移動(dòng)、tensor-core MMA 指令和 CUDA-core promotion 的高效重疊,最大化利用硬件資源
  • Tensor Memory Accelerator (TMA): DeepGEMM 充分利用 Hopper 架構(gòu)引入的 TMA 特性,加速 LHS、RHS 矩陣和 scaling factor 的加載,以及輸出矩陣的存儲(chǔ),實(shí)現(xiàn)更快的數(shù)據(jù)訪問(wèn)速度
  • 統(tǒng)一優(yōu)化 Block Scheduler 和 Rasterization (柵格化): DeepGEMM 采用統(tǒng)一的 block scheduler,并結(jié)合 Rasterization 技術(shù),提升 L2 cache 的復(fù)用率,進(jìn)一步優(yōu)化性能
  • FFMA SASS Interleaving: DeepGEMM 甚至深入到 SASS 匯編層面進(jìn)行優(yōu)化,通過(guò)調(diào)整 FFMA 指令的 interleaving 模式,提升 warp 級(jí)別的并行度,榨干硬件的每一絲潛力

DeepGEMM 雖然借鑒了 CUTLASS 和 CuTe 的一些概念,但它并沒(méi)有過(guò)度依賴于復(fù)雜的模板或代數(shù)庫(kù),而是更加注重 簡(jiǎn)潔性 和 易用性。 這使得 DeepGEMM 不僅是一個(gè)高性能的計(jì)算庫(kù),更是一個(gè)學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化的優(yōu)秀資源

?? 實(shí)測(cè)性能數(shù)據(jù):實(shí)力說(shuō)話! ??

DeepGEMM 的性能究竟如何?我們用數(shù)據(jù)說(shuō)話!在 DeepSeek-V3/R1 模型常用的各種 shape 上,DeepGEMM 都展現(xiàn)出了驚人的性能:

  • ? Normal GEMMs for dense models (稠密模型 GEMM)

M

N

K

Computation

Memory bandwidth

Speedup

64

2112

7168

206 TFLOPS

1688 GB/s

2.7x

64

24576

1536

289 TFLOPS

2455 GB/s

1.7x

...

...

...

...

...

...

4096

7168

2048

1025 TFLOPS

697 GB/s

1.1x

  • ? Grouped GEMMs for MoE models (contiguous layout) (MoE 模型 GEMM - 連續(xù)布局)

#Groups

M per group

N

K

Computation

Memory bandwidth

Speedup

4

8192

4096

7168

1297 TFLOPS

418 GB/s

1.2x

4

8192

7168

2048

1099 TFLOPS

681 GB/s

1.2x

...

...

...

...

...

...

...

8

4096

7168

2048

1093 TFLOPS

743 GB/s

1.1x

  • ? Grouped GEMMs for MoE models (masked layout) (MoE 模型 GEMM - Masked 布局)

#Groups

M per group

N

K

Computation

Memory bandwidth

Speedup

1

1024

4096

7168

1233 TFLOPS

924 GB/s

1.2x

1

1024

7168

2048

925 TFLOPS

968 GB/s

1.2x

...

...

...

...

...

...

...

4

256

7168

2048

815 TFLOPS

2047 GB/s

1.2x

從數(shù)據(jù)中可以看出,DeepGEMM 在各種矩陣 shape 下都表現(xiàn)出色,速度提升明顯! ??

快速上手 DeepGEMM:只需幾步!

想要體驗(yàn) DeepGEMM 的強(qiáng)大性能? 上手非常簡(jiǎn)單!

環(huán)境要求:

  • ? NVIDIA Hopper 架構(gòu) GPU (sm_90a)
  • ? Python 3.8+
  • ? CUDA 12.3+ (推薦 12.8+ 獲得最佳性能)
  • ? PyTorch 2.1+
  • ? CUTLASS 3.6+ (可以通過(guò) Git submodule 克隆)

安裝步驟:

  1. 1. 克隆 DeepGEMM 代碼庫(kù) (需要遞歸克隆 submodule):
git clone --recursive https://github.com/deepseek-ai/DeepGEMM.git
  1. 2. 創(chuàng)建 third-party 庫(kù)的符號(hào)鏈接 (CUTLASS 和 CuTe):
python setup.py develop
  1. 3. 測(cè)試 JIT 編譯:
python tests/test_jit.py
  1. 4. 測(cè)試所有 GEMM 實(shí)現(xiàn) (normal, contiguous-grouped, masked-grouped):
python tests/test_core.py
  1. 5. 安裝 DeepGEMM:
python setup.py install

安裝完成后,只需在你的 Python 項(xiàng)目中 import deep_gemm 即可開(kāi)始使用!

寫(xiě)在最后:

?? 項(xiàng)目地址:

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 現(xiàn)已以MIT許可方式正式開(kāi)源!

DeepGEMM 的靈感來(lái)自 CUTLASS 項(xiàng)目

責(zé)任編輯:張燕妮 來(lái)源: AI寒武紀(jì)
相關(guān)推薦

2025-02-26 11:16:18

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-02-26 11:13:51

2025-02-26 10:24:51

2025-07-08 08:53:00

2025-09-02 10:17:07

2025-03-20 09:00:00

DeepSeek架構(gòu)V3/R1

2024-12-27 09:50:00

模型數(shù)據(jù)測(cè)試

2025-03-03 09:00:00

DeepSeekAI人工智能

2024-12-30 20:32:36

2025-03-12 13:55:05

2025-07-04 09:08:00

AI模型架構(gòu)

2025-01-27 12:30:07

2025-02-17 09:33:00

AI算法模型

2025-03-06 10:14:39

2025-01-21 11:53:53

2025-02-20 15:32:28

2025-02-03 14:17:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

精品高清在线| 电影在线观看一区| 国产一区二区三区黄视频| 久久99精品久久久久久青青91| 日本wwwwwww| 精品3atv在线视频| 成人欧美一区二区三区视频网页 | 欧美另类交人妖| 黄色性生活一级片| 成人97精品毛片免费看| 五月激情综合网| 一本久道久久综合| 视频一区二区免费| 国产一区二区三区精品视频| 日本成人在线视频网址| 性色av无码久久一区二区三区| 日韩精品免费一区二区三区竹菊| 欧美日韩高清一区二区| 99热自拍偷拍| 毛片在线导航| 国产精品二区一区二区aⅴ污介绍| 国产精品久久久久免费| 国产精品无码免费播放| 免费观看成人高潮| 亚洲精品**不卡在线播he| 91九色02白丝porn| 人人妻人人澡人人爽欧美一区| 国产黄色片在线播放| 丁香婷婷综合五月| 成人写真视频福利网| 国产精品一区无码| 一本色道88久久加勒比精品| 久久躁日日躁aaaaxxxx| 山东少妇露脸刺激对白在线| 图片婷婷一区| 亚洲精品乱码久久久久久按摩观| 中文字幕一二三| 国产精品一区二区免费福利视频| 色综合一个色综合亚洲| 狠狠干 狠狠操| 日本片在线观看| 亚洲少妇30p| 亚洲一区影院| 91精品国产91久久久久游泳池| 91蜜桃视频在线| 激情久久av| 欧美一区二区公司| 国产91精品免费| 91视频九色网站| 99热这里只有精品5| 韩国欧美国产一区| 成人国产精品一区二区| 在线观看免费中文字幕| 蜜臀久久99精品久久久久宅男| 日产精品久久久一区二区福利| 日产精品久久久| 国产亚洲毛片在线| 欧美一级片在线播放| 婷婷激情五月网| 国产精品一二| 国产成人精品国内自产拍免费看 | 欧美最猛黑人xxxxx猛交| 日韩在线视频在线观看| 亚洲女同志freevdieo| 欧美日韩亚洲成人| 日韩精品一区二区三区色欲av| 神马午夜在线视频| 91国产丝袜在线播放| 成人黄色一区二区| 久久久久久久性潮| 欧美一区二区播放| youjizz.com日本| 免费看久久久| 国产一区二区日韩精品欧美精品| 男人的天堂av网| 久久久久久免费视频| 欧美大成色www永久网站婷| 精品99在线观看| 午夜在线播放视频欧美| 国产精品欧美日韩| 国产丝袜在线视频| 久久综合久色欧美综合狠狠| 色播亚洲视频在线观看| a毛片在线看免费观看| 亚洲国产日韩一级| 免费观看成人网| 国产日韩中文在线中文字幕| 亚洲国产欧美一区| 日本免费www| 综合在线视频| 青青草成人在线| 国产又粗又猛又黄又爽| 成人一区二区三区| 日韩欧美精品在线不卡| 污的网站在线观看| 一本大道av一区二区在线播放| www.se五月| 国产精品xxx在线观看| 一区二区三区精品99久久| 欧美日韩综合一区二区| 国产精品国产一区二区三区四区| 99精品视频免费观看视频| 国产mv免费观看入口亚洲| 91麻豆视频在线观看| 成人av在线电影| 性欧美.com| 不卡专区在线| 91精品免费在线观看| 性久久久久久久久久| 亚洲天堂一区二区三区四区| 日本欧美黄网站| 亚洲大尺度视频| 国产精品天干天干在观线| 日本精品久久久久久久久久| 亚洲精品成a人ⅴ香蕉片| 日韩av一区二区在线| 超碰手机在线观看| 麻豆成人91精品二区三区| 精品国产一区二区三区麻豆免费观看完整版| melody高清在线观看| 黄网站色欧美视频| 精产国品一区二区三区| 日韩欧美中文| 国产a级全部精品| 四虎成人免费在线| 一片黄亚洲嫩模| 爽爽爽在线观看| 欧美中文字幕一区二区| 欧美一区二区三区免费观看| 国产综合视频在线| 亚洲精品视频免费看| 久久综合伊人77777麻豆最新章节| 日本欧美三级| 亚州av一区二区| 亚洲欧美激情国产综合久久久| 中文字幕五月欧美| 日韩一级免费片| 欧美一级本道电影免费专区| 日韩av电影国产| 日韩二区三区| 欧美视频中文字幕在线| 日本五十肥熟交尾| 国模一区二区| 欧美aa在线视频| 国产美女99p| 国产理论电影在线| 精品国产第一区二区三区观看体验 | 色8久久影院午夜场| 精品亚洲夜色av98在线观看| 国产精品午夜影院| 久久人人超碰精品| 91香蕉视频导航| 日韩精品不卡一区二区| 国产日韩欧美中文在线播放| 一广人看www在线观看免费视频| 欧美专区亚洲专区| 99久久99久久精品免费看小说.| 日韩国产欧美三级| 日韩欧美精品一区二区| 香蕉成人在线| 久久综合久久八八| 亚洲精品国产片| 精品福利免费观看| 国产一二三四五区| 蜜桃av一区二区| 欧美日韩一区二区三区电影| 蜜桃在线一区| 97人人爽人人喊人人模波多| 久草视频视频在线播放| 欧美性videosxxxxx| 小泽玛利亚一区二区免费| 国产精品亚洲第一区在线暖暖韩国| 四虎4hu永久免费入口| 成人h动漫精品一区二区器材| 午夜精品久久久久久久99热浪潮 | 欧美国产精品一区| 五月六月丁香婷婷| 亚洲精品极品| 色狠狠久久av五月综合| 日本亚州欧洲精品不卡| 欧美精品999| 国产三级在线免费| 欧美一级欧美三级| 欧美一级特黄视频| 国内在线免费高清视频| 亚洲一区二区三区爽爽爽爽爽| 国产精品一级黄片| 日韩成人av影视| 欧洲精品视频在线| 国产精品午夜一区二区三区| 成人精品久久一区二区三区| 国产精品论坛| 色777狠狠综合秋免鲁丝 | 精品视频—区二区三区免费| 国产精品第6页| 亚洲在线视频网站| 先锋影音av在线| 成人午夜在线播放| 亚洲国产日韩欧美在线观看| 影音先锋中文字幕一区| 亚洲激情啪啪| 久久人人爽人人爽人人片av不| 国产精品亚洲片夜色在线| 1024在线看片你懂得| 中文字幕日韩视频| 四虎精品成人免费网站| 日韩欧美的一区| 在线观看你懂的网站| 午夜av区久久| 日本妇女毛茸茸| 中文字幕欧美国产| 不卡一区二区在线观看| 国产91富婆露脸刺激对白| 久久精品免费网站| 99在线观看免费视频精品观看| 日韩视频在线免费播放| 自拍亚洲一区| 国产麻豆乱码精品一区二区三区| 不卡精品视频| 国产99在线|中文| a毛片不卡免费看片| 欧美日韩福利在线观看| 色网站在线看| 在线亚洲欧美视频| 久久99久久| 亚洲免费一在线| 天天干在线观看| 亚洲第一页在线| 超碰在线播放97| 欧美一卡2卡3卡4卡| 做爰无遮挡三级| 欧美伊人久久大香线蕉综合69 | 99精品在线视频观看| 精品国产精品三级精品av网址| 成人自拍小视频| 国产精品久久毛片| 东京热无码av男人的天堂| 久久久精品国产免大香伊 | 国产三级三级在线观看| 欧美日韩一区在线观看| 中文字幕乱码一区二区| 色香色香欲天天天影视综合网| 国产一区二区99| 欧美日韩一二三四五区| 国产精品7777777| 午夜欧美大尺度福利影院在线看| 久久久久香蕉视频| 一区二区三区四区中文字幕| 特级片在线观看| 亚洲一二三四区不卡| 精品处破女学生| 亚洲一二三专区| 日本三级一区二区| 欧美色播在线播放| 日本a级c片免费看三区| 在线观看91视频| 一区二区乱子伦在线播放| 欧美日韩mp4| 99热这里只有精品在线| 日韩一级在线观看| 欧美特级特黄aaaaaa在线看| 亚洲国产精品va在线| 裸体xxxx视频在线| 中文字幕亚洲专区| 91麻豆国产福利在线观看宅福利| 欧美大片免费观看在线观看网站推荐| 日本高清在线观看| 18久久久久久| 婷婷激情一区| 成人免费视频a| 超碰成人在线免费| 免费一区二区三区| 欧美国产偷国产精品三区| 大片在线观看网站免费收看| 99视频一区| 日韩av片网站| 国产高清精品网站| 色婷婷免费视频| 国产精品麻豆一区二区| 毛片a片免费观看| 日韩欧美极品在线观看| 91亚洲欧美激情| 亚洲成人精品在线| 视频一区二区三| 日韩在线黄色| 亚洲在线观看一区| 在线成人h网| youjizzxxxx18| 丰满亚洲少妇av| 欧美日韩高清丝袜| 亚洲狠狠丁香婷婷综合久久久| 91玉足脚交嫩脚丫在线播放| 欧美欧美欧美欧美| 五十路在线观看| 久久精品电影网站| caoporn视频在线观看| 国产伦精品免费视频| 老司机在线精品视频| 亚洲视频导航| 亚欧美中日韩视频| 中文字幕第三区| 国产亚洲美州欧州综合国| 免费在线观看黄色av| 欧美日韩在线精品一区二区三区激情| 国产福利第一视频| 国产亚洲精品久久久久久牛牛 | 国产精品视频永久免费播放| 99精品中文字幕在线不卡| 亚洲精品一区二区三| 国产精品久久久久久模特 | 337p粉嫩大胆色噜噜噜噜亚洲| 亚洲精品一区二区三区在线播放| 欧美色图在线视频| 亚洲乱熟女一区二区| 日韩中文理论片| 日韩久久一区二区三区| 精品免费视频123区| 欧美黄污视频| 国产亚洲视频一区| 国产日韩精品一区| 国产a∨精品一区二区三区仙踪林| 777午夜精品视频在线播放| 东热在线免费视频| 日本亚洲欧洲色α| 天堂俺去俺来也www久久婷婷| 超碰97在线看| 狠狠色丁香久久婷婷综合丁香| 久久精品—区二区三区舞蹈| 激情久久av一区av二区av三区| 国产wwwwwww| 久久久精品国产亚洲| 激情亚洲小说| 先锋影音日韩| 日本最新不卡在线| 白白色免费视频| 色哟哟在线观看一区二区三区| 蜜桃视频久久一区免费观看入口| 午夜国产一区二区| 久艹在线免费观看| 国产成都精品91一区二区三| 婷婷久久综合网| 8x福利精品第一导航| 日本电影在线观看网站| 国产精品揄拍一区二区| 久久一区二区三区电影| 亚洲这里只有精品| 中文字幕在线免费不卡| 国产精品无码久久av| 久久av在线播放| 日韩在线成人| 欧洲精品在线播放| www.色精品| 国产综合精品视频| 国产午夜一区二区| 欧美成人三级| 亚洲黄色网址在线观看| 国产一区二区导航在线播放| 九九视频免费看| 亚洲娇小xxxx欧美娇小| 午夜精品成人av| 亚洲一区二区三区加勒比 | 91九色在线视频| 亚洲精品成人影院| 动漫av在线免费观看| 性做久久久久久| 国产中文字幕在线| 国产欧美va欧美va香蕉在| 欧美+日本+国产+在线a∨观看| 黑人玩弄人妻一区二区三区| 精品久久久久久久中文字幕| 极品白浆推特女神在线观看| 国产欧美欧洲在线观看| 欧美1区2区视频| 免费看黄色aaaaaa 片| 91成人免费网站| 99在线播放| 久久这里精品国产99丫e6| 日本成人在线电影网| 欧美做爰爽爽爽爽爽爽| 日韩av在线免费观看一区| 成人精品国产| 日韩精品视频在线观看视频| 91免费看`日韩一区二区| 一区二区国产欧美| 亚州av一区二区| 91亚洲国产| 亚洲 欧美 日韩在线| 色婷婷久久久久swag精品| 亚洲小说区图片区都市| 美媛馆国产精品一区二区| 精品一区二区三区影院在线午夜| 久久综合激情网| 国产午夜精品一区理论片飘花| 日本在线成人| 不要播放器的av网站| 亚洲欧美电影院| 黄网站在线观看| 成人91视频| 日韩精品1区2区3区| 久久综合激情网|