精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek發布最新論文,5大殺手锏讓大模型訓練、推理暴漲

人工智能 新聞
全球著名開源大模型平臺DeepSeek在huggingface 發布了,超強開源模型V3的論文。

昨天,全球著名開源大模型平臺DeepSeek在Huggingface發布了,超強開源模型V3的論文。

主要從硬件架構和模型設計的雙視角探討如何在不犧牲性能的前提下實現更高效的大規模訓練和推理以突破硬件瓶頸。

其中,DeepSeek-MoE和多頭潛在注意力、FP8混合精度訓練以及多標記預測等成為關鍵創新技術。

圖片

論文地址:https://huggingface.co/papers/2505.09343。

隨著OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等前沿模型的出現,對硬件、算力資源的需求快速上升。在內存方面,大模型對內存資源的需求每年增長超過1000%,但高速內存容量的增長速度卻極為緩慢,每年通常不到50%。

這一內存供需失衡的問題嚴重制約了大模型的進一步發展。在計算效率上,傳統的計算架構難以滿足大規模模型訓練和推理的高效需求。

在互連帶寬方面,現有網絡架構在處理大規模數據傳輸時也面臨著帶寬不足和延遲過高等難題,而DeepSeek-V3通過軟件、硬件創新解決了這些難題。

DeepSeek-MoE和多頭潛在注意力

DeepSeek-MoE充分挖掘了混合專家(MoE)架構的潛力,其優勢主要體現在兩方面。其一,在訓練過程中,通過選擇性地激活專家參數的子集,MoE模型能夠在大幅增加總參數數量的同時保持相對適度的計算需求。

圖片

例如,DeepSeek-V2擁有2360億參數,但每個token僅激活210億參數;而DeepSeek-V3擴展到了6710億參數,幾乎是V2的三倍,可每個token的激活量僅為370億。相比之下,像Qwen2.5-720億和LLaMA3.1-4050億等密集模型在訓練期間則需要激活所有參數。

數據顯示,DeepSeekV3的總計算成本約為每token 250 GFLOPS,而720億參數的密集模型需要394 GFLOPS,4050億參數的密集模型更是需要2448 GFLOPS。這表明MoE模型在計算資源消耗量少一個數量級的情況下,能夠實現與密集模型相當甚至更優的性能。

圖片

在個人使用和本地部署場景中,MoE模型同樣展現出獨特優勢。由于每個請求僅激活一小部分參數,內存和計算需求大幅降低。

例如,搭載AISoC芯片的個人電腦,在運行DeepSeek-V2(2360億參數)時,推理過程中僅激活210億參數,就能達到近每秒20個Token甚至更高的速度,這對于個人使用來說已經綽綽有余。而類似能力(如700億參數)的密集模型在相同硬件條件下,通常只能達到個位數的TPS。

多頭潛在注意力(MLA)架構則通過壓縮鍵值(KV)緩存顯著降低了內存消耗。它利用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量,并與模型聯合訓練。在推理過程中,只需要緩存該潛在向量,與存儲所有注意力頭的KV緩存相比,大大減少了內存占用。

通過采用MLA,DeepSeek-V3顯著減少了KV緩存大小,每個token僅需70KB,遠低于LLaMA-3.1 4050億參數模型的516KB和Qwen-2.5 720億參數模型的327KB。

圖片

此外,為進一步減小KV緩存的大小,DeepSeek還提出了多種方法。例如共享KV,即多個注意力頭共享一組KV配對,以顯著壓縮KV存儲,代表性方法包括GQA和MQA;

窗口KV,對于長序列,僅在緩存中保留KV配對的滑動窗口;量化壓縮,使用low-bit存儲KV配對,進一步減少內存使用。

FP8混合精度訓練方法

在訓練技術方面,DeepSeek-V3引入了FP8混合精度訓練技術,這在保證模型質量的同時大幅降低了計算成本,使得大規模訓練更加經濟可行。雖然GPTQ和AWQ等量化技術已將位寬減少到8位、4位甚至更低,但這些技術主要應用于推理階段以節省內存,在訓練階段的應用相對較少。在DeepSeek-V3之前,幾乎沒有利用FP8進行訓練的開源大型模型。

DeepSeek通過基礎設施和算法團隊之間的深度合作,為MoE模型開發了與FP8兼容的訓練框架,在訓練管道中使用FP8精度的前向和后向過程計算組件。然而,要充分發揮FP8在加速訓練方面的巨大潛力,還需要解決一些硬件限制。

圖片

例如,FP8在Tensor Core中使用約束累加精度,這會影響訓練大型模型的穩定性;細粒度量化在傳輸部分結果時會引入大量的反量化開銷,導致頻繁的數據移動,降低計算效率并使硬件利用率復雜化。

針對這些問題,DeepSeek也對未來硬件設計提出了相應建議。在提高累積精度方面,硬件應改進并調整Accumulation Register精度到適當的值(如FP32),或支持可配置的Accumulation Precision;

在對原生細粒度量化的支持方面,硬件應支持原生細粒度量化,使Tensor Core能夠接收縮放因子并通過組縮放實現矩陣乘法,避免頻繁的數據移動以減少去量化開銷。

在網絡通信環節,DeepSeek-V3架構采用低精度壓縮進行網絡通信。在EP并行期間,使用細粒度的FP8量化來調度令牌,與BF16相比,通信量減少了50%,顯著縮短了通信時間。DeepSeek建議,為FP8或自定義精度格式定制的壓縮和解壓縮單元提供本機支持,是未來硬件的可行發展方向,這有助于最大限度地減少帶寬需求并簡化通信管道,大幅提升MoE訓練等帶寬密集型任務的效率。

多標記預測

在傳統的自回歸語言模型中,推理過程是逐個生成標記的。每次生成一個標記后,模型需要根據已生成的上下文信息來預測下一個標記。這種順序生成的方式雖然能夠保證生成的連貫性和準確性,但其推理速度受限于每個標記的生成時間。隨著模型規模的增大和上下文長度的增加,這種順序生成的方式會顯著降低推理效率,尤其是在需要快速生成長文本的場景中。

為了克服這一瓶頸,DeepSeek-V3引入了多標記預測(MTP)框架。該框架允許模型在每個推理步驟中同時生成多個候選標記,而不是僅僅生成一個標記,這些候選標記可以并行計算和驗證,從而顯著減少了生成整個序列所需的時間。

MTP框架通過引入多個輕量級的預測模塊來實現這一目標,每個預測模塊負責生成一個特定位置的標記。例如,在生成當前標記的同時,MTP模塊可以預測下一個標記、下下個標記等,這些預測模塊共享模型的上下文信息,但各自獨立生成標記。通過這種方式,模型能夠在一次推理步驟中生成多個標記,而不是逐個生成。

生成多個候選標記后,MTP框架會通過并行驗證來確定哪些候選標記是合理的。這一過程利用了模型的上下文信息和已生成的標記,通過一系列的驗證步驟來評估每個候選標記的合理性,最終模型會選擇最合適的標記作為輸出。

實驗數據顯示,MTP模塊在預測下一個標記時的接受率高達80%至90%,這意味著大多數情況下,模型能夠準確預測下一個標記,從而顯著提高了推理速度。

多平面雙層胖樹網絡降低算力集群成本

在AI基礎設施方面,DeepSeek為了降低集群網絡成本,使用多平面雙層胖樹網絡,取代了傳統的三層胖樹拓撲結構。

在DeepSeek-V3的訓練過程中,部署了一個多平面胖樹(MPFT)橫向擴展網絡。每個節點配備8臺GPU和8個IB網卡,每個GPU-網卡對分配到不同的網絡平面。此外,每個節點還配備一個400 Gbps以太網RoCE網卡,連接到單獨的存儲網絡平面,用于訪問3FS分布式文件系統。

在橫向擴展網絡中,使用了64端口400G IB交換機,該拓撲理論上最多可支持16,384臺GPU,同時保留了雙層網絡的成本和延遲優勢,但受政策和監管限制,最終部署的GPU數量為2048臺。

圖片

由于IB ConnectX-7目前存在局限性,DeepSeek部署的MPFT網絡未能完全實現預期架構。理想情況下,每個網卡(NIC)應具有多個物理端口,每個端口連接到單獨的網絡平面,但通過端口綁定,共同作為單個邏輯接口向用戶公開。

從用戶角度看,單個隊列對(QP)可以在所有可用端口之間無縫地發送和接收消息,類似于數據包噴射。因此,來自同一QP的數據包可能會穿越不同的網絡路徑,并以無序方式到達接收方,這就需要網卡內原生支持無序布局,以保證消息一致性并保留正確的排序語義。

例如,InfiniBand ConnectX-8原生支持四平面。若未來的網卡能夠完全支持高級多平面功能,雙層胖樹網絡將能更有效地擴展到更大的AI集群。總體而言,多平面架構在故障隔離、穩健性、負載均衡和大規模系統可擴展性方面具有顯著優勢。

低延遲網絡設計優化

在模型推理過程中,大規模EP嚴重依賴all-to-all通信,而這種通信對帶寬和延遲都極為敏感。例如,在50GB/s的網絡帶寬下,理想情況下數據傳輸大約需要120微秒,因此,微秒級的固有網絡延遲會對系統性能產生嚴重影響,不容忽視。

為降低網絡通信延遲,DeepSeek選用了InfiniBand GPUDirect Async(IBGDA)。傳統網絡通信需要創建CPU代理線程:GPU準備好數據后,需通知CPU代理,然后CPU代理填充工作請求(WR)的控制信息,并通過門鈴機制向NIC發出信號以啟動數據傳輸,這一過程會帶來額外的通信開銷。

圖片

而IBGDA允許GPU直接填充WR內容并寫入RDMA門鈴MMIO地址,通過在GPU內部管理整個控制平面,消除了與GPU-CPU通信相關的顯著延遲開銷。此外,在發送大量小數據包時,控制平面處理器容易成為瓶頸,而GPU具有多個并行線程,發送方可以利用這些線程分配工作負載,從而避免此類瓶頸。

包括DeepSeek的DeepEP在內的一系列工作都利用了IBGDA,并報告取得了顯著的性能提升,因此,DeepSeek提倡在各種加速器設備上廣泛支持此類功能。

雖然IB在延遲性能上優于基于融合以太網的RDMA(RoCE),是分布式訓練和推理等延遲敏感型工作負載的首選,但它也存在成本較高和擴展性方面的問題。RoCE雖有可能成為IB的經濟高效替代方案,但其目前在延遲和可擴展性方面的限制,使其尚無法完全滿足大規模AI系統的需求。

為此,DeepSeek給出了一些改進RoCE的具體建議,包括使用專用低延遲RoCE交換機、優化路由策略、改進流量隔離或擁塞控制機制等。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-06-05 09:08:43

2011-07-04 10:00:02

虛擬化

2019-04-22 08:07:31

MySQL數據庫索引

2011-06-29 10:08:24

服務器虛擬化解決方案

2011-12-20 10:16:49

2025-05-22 13:40:21

華為模型算力

2020-02-19 13:39:14

操作系統WindowsLinux

2012-12-19 13:00:36

飛魚星WLANVF16

2009-09-03 14:52:12

RHEL5.4發布KVM

2022-02-25 08:55:19

BitMapRedis面試題

2022-02-10 09:04:18

RediSDS數據結構

2010-01-15 09:43:49

Windows 7殺手

2011-05-26 13:43:42

金山快盤

2022-12-23 10:50:20

模型開源

2025-03-03 04:20:00

2010-03-23 17:06:01

2015-06-15 14:48:21

蘋果iOS9軟實力

2025-06-06 08:55:00

模型訓練算力

2015-08-04 10:07:08

程序員面試問題

2019-08-29 10:46:42

點贊
收藏

51CTO技術棧公眾號

欧美brazzers| 国产免费看av| www在线观看黄色| 久久精品无码一区二区三区| 国产精品极品在线| 久久久久久欧美精品se一二三四| 五月综合久久| 91精品一区二区三区在线观看| 中国丰满熟妇xxxx性| 国产高清视频在线| 国产不卡视频在线播放| 国产成人精品优优av| 三级黄色在线观看| 日韩三级av| 日韩一区二区在线观看视频播放| 欧洲av无码放荡人妇网站| 毛片在线看片| 久久精品在线免费观看| 风间由美久久久| ,亚洲人成毛片在线播放| 99亚洲一区二区| 久久视频在线播放| 中文字幕被公侵犯的漂亮人妻| 久久伦理中文字幕| 欧美三级三级三级| 国产麻花豆剧传媒精品mv在线| 伊人在我在线看导航| 国产三级精品三级| 久久国产精品99久久久久久丝袜| 国产美女三级无套内谢| 三级欧美韩日大片在线看| 欧美成人在线免费视频| 手机免费观看av| 精品影片在线观看的网站| 日韩免费观看高清完整版在线观看| 欧美自拍小视频| 性欧美18xxxhd| 亚洲成av人影院在线观看网| 91精品国产毛片武则天| 日本中文在线| 国产精品乱码人人做人人爱| 欧洲精品久久| 毛片免费在线播放| 久久久91精品国产一区二区精品| 精品欧美一区二区精品久久| 日本xxxx人| 国产成人精品一区二| 成人综合网网址| 国产精品高潮呻吟av| 美洲天堂一区二卡三卡四卡视频 | 97免费资源站| 国产女人高潮毛片| 国产一区二区三区久久悠悠色av | 91精东传媒理伦片在线观看| 久久精品系列| 国产不卡一区二区在线播放| 亚洲毛片一区二区三区| 校园激情久久| 国产精品第一页在线| 波多野结衣家庭主妇| 日本人妖一区二区| 国产精品欧美一区二区三区奶水| 亚洲精品中文字幕乱码三区91| 每日更新成人在线视频| 国产极品jizzhd欧美| 最近国语视频在线观看免费播放| 日本美女一区二区三区| 国产在线精品自拍| 不卡的日韩av| 99re视频精品| 日本一区二区精品| 超碰在线免费公开| 亚洲午夜激情av| 日韩网址在线观看| 欧洲av一区二区| 欧美精品九九99久久| 免费黄视频在线观看| 国产精品对白久久久久粗| 亚洲精品美女在线观看| 中文字幕人妻一区二区三区在线视频| 成人精品电影| 欧美大片第1页| 日韩三级一区二区三区| 日韩精品国产精品| 91老司机在线| 色视频在线观看福利| 国产亚洲欧美色| 国产高清免费在线| 美女视频在线免费| 欧美丝袜丝交足nylons图片| 中文字幕无码毛片免费看| 精品亚洲a∨一区二区三区18| 亚洲第一福利网| 国产精品久久久视频| 欧美日韩国产一区精品一区| 日本精品视频在线观看| 99er热精品视频| 久久免费看少妇高潮| 在线一区高清| 中文在线免费二区三区| 欧美绝品在线观看成人午夜影视| 亚洲视频天天射| 欧美在线观看视频一区| 欧美国产日本在线| 真实的国产乱xxxx在线91| 国产精品亚洲成人| 欧美精品尤物在线| 国产福利在线免费观看| 欧美在线一区二区三区| 中文字幕第九页| 色综合五月天| 秋霞成人午夜鲁丝一区二区三区| 国产免费不卡av| 国产欧美一区在线| 黄色一级在线视频| 国产麻豆精品| 中文字幕精品一区二区精品| 国产成人一区二区三区影院在线| 激情小说亚洲一区| 神马影院午夜我不卡| 美女视频在线免费| 亚洲国产精品资源| 精品97人妻无码中文永久在线| 美洲天堂一区二卡三卡四卡视频| 欧美精品v日韩精品v国产精品| 丁香影院在线| 日韩精品中文字幕一区 | 久久国产亚洲| 国产精品成人va在线观看| 四虎永久在线观看| 亚洲已满18点击进入久久| 成人综合久久网| 色97色成人| 国产精品一区=区| 黄色影院在线播放| 色成人在线视频| 精品无码一区二区三区| 久久九九电影| 欧美激情第一页在线观看| 欧亚av在线| 亚洲免费视频网站| 亚洲 欧美 中文字幕| 91首页免费视频| 国产l精品国产亚洲区久久| 奇米777国产一区国产二区| 久久久免费av| 天天av天天翘| 黑人极品videos精品欧美裸| 特级西西人体4444xxxx| 99热精品在线观看| 免费99视频| 亚洲第一会所001| 中文字幕av一区| 91精品视频免费在线观看| 国产精品久久久久影院亚瑟 | 亚洲视频自拍| 超在线视频97| 空姐吹箫视频大全| 欧美色道久久88综合亚洲精品| av在线网站观看| 视频一区视频二区中文字幕| 日韩欧美手机在线| 伊人久久一区| 欧美激情精品久久久久久蜜臀| 成人毛片视频免费看| 欧美性jizz18性欧美| 亚洲一区二区三区四区五区六区| 久久九九国产| 99久久久无码国产精品性色戒| 日本精品视频| 97久久精品国产| 国产精品久久久久一区二区国产 | 亚洲精品电影| 国产精品乱码| 朝桐光一区二区| 久久久成人精品视频| 精品人妻aV中文字幕乱码色欲| 亚洲制服丝袜av| 久久久久久国产精品无码| 久久精品国产一区二区三区免费看 | 精品国产区一区二| 精品久久久久久电影| 午夜精产品一区二区在线观看的| 精品在线你懂的| 婷婷五月综合缴情在线视频| 欧美伦理在线视频| 波多野结衣精品久久| 亚洲播播91| 欧美另类第一页| 青青草在线免费观看| 91精品国产一区二区三区| 日韩伦人妻无码| 国产精品九色蝌蚪自拍| 亚洲天堂2024| 奇米影视一区二区三区| 久久在线中文字幕| 久久精品高清| 精品毛片久久久久久| 亚洲综合资源| 欧美最顶级的aⅴ艳星| 国内精品久久久久久野外| 日韩高清av一区二区三区| 国产精品久久久久久久免费看| 亚洲国产精品久久人人爱蜜臀| 四季av中文字幕| 成人v精品蜜桃久久一区| 日韩av在线中文| 国产日韩一区二区三区在线| 色乱码一区二区三区熟女| 九九热精品视频在线观看| 999热视频在线观看| 黄色精品视频| 456亚洲影院| 国产精品69xx| 欧美理论片在线观看| 最新av网站在线观看 | 中文字幕在线播放| 亚洲国产欧美在线成人app| 国产三级第一页| 欧美日韩在线播放三区| 东京热一区二区三区四区| 亚洲福利视频三区| 青娱乐国产盛宴| 亚洲欧洲色图综合| 黄色三级生活片| 久久久噜噜噜久久中文字幕色伊伊| 在线观看成人动漫| 国产乱理伦片在线观看夜一区 | 成人免费在线观看视频| 91爱视频在线| 99re6在线精品视频免费播放| 蜜臀久久99精品久久久无需会员| 一本一道波多野毛片中文在线| 国产亚洲视频中文字幕视频| 欧美成人综合在线| 亚洲精品中文字幕有码专区| 性xxxxbbbb| 日韩av网站大全| 免费在线高清av| 亚洲欧洲美洲在线综合| 久草视频在线看| 亚洲香蕉在线观看| 91福利在线视频| 日韩在线观看精品| 麻豆电影在线播放| 久久国产精品首页| 欧美hdxxx| 91精品国产91久久久久久吃药| 91豆花视频在线播放| 久久久亚洲成人| 激情aⅴ欧美一区二区欲海潮| 午夜精品福利电影| 亚洲妇女成熟| 国产精品美女久久久久av超清| 国产韩日精品| 亚洲一区精品电影| 99a精品视频在线观看| 国产精品一区二区不卡视频| 欧美18xxxx| 欧美一二三区| 欧美丰满日韩| 国产91视频一区| 日韩天天综合| 成人一区二区三| 久久国产夜色精品鲁鲁99| 亚洲热在线视频| 成人av先锋影音| 三上悠亚影音先锋| 亚洲欧美偷拍三级| 国产在线观看免费av| 欧美天天综合色影久久精品| 天天干天天色综合| 欧美美女喷水视频| 亚洲a视频在线观看| 日韩精品视频在线观看免费| 成人jjav| 久久91精品国产91久久跳| 三级在线看中文字幕完整版| 国产精品久久久久久av| 国产精品一区二区三区av| 精品福利影视| 9999国产精品| 日韩av在线播放不卡| 日韩福利电影在线观看| 波多野结衣在线免费观看| 99在线视频精品| 日韩一卡二卡在线观看| 亚洲成人一区二区| 中文字幕av免费观看| 亚洲成色777777在线观看影院| 国产51人人成人人人人爽色哟哟| 成年无码av片在线| 精品欧美一区二区三区在线观看 | 高h调教冰块play男男双性文| 亚洲免费电影一区| 狂野欧美性猛交xxxxx视频| 国产成人综合精品在线| 99国产精品免费网站| 亚洲精品国产系列| 国产情侣一区| 亚洲天堂一区二区在线观看| 2022国产精品视频| 欧美黄色一级网站| 欧美午夜精品久久久久久超碰| 亚洲精品视频网| 色七七影院综合| a日韩av网址| 国产一区免费| 亚洲五月综合| 91精品无人成人www| 99国产精品国产精品久久| 欧洲猛交xxxx乱大交3| 在线日韩av片| 欧洲天堂在线观看| 久久久久日韩精品久久久男男| 99精品女人在线观看免费视频| 日韩电影免费观看在| 国产精品毛片| 六十路息与子猛烈交尾| 亚洲综合色噜噜狠狠| 国产又粗又黄又爽的视频| 一区二区三区视频免费在线观看| 校园春色亚洲| 精品无人区一区二区三区| 狠狠综合久久| 成年人性生活视频| 国产精品第四页| 中文字幕在线2018| 国产一区av在线| 日韩精品一区二区三区av| 欧美高清视频一区| 国产精品一二| 亚洲AV无码国产精品| 午夜一区二区三区视频| 国产18精品乱码免费看| 欧美国产日韩精品| 日本99精品| 九九热只有这里有精品| 国产999精品久久久久久绿帽| 成人涩涩小片视频日本| 欧美一区在线视频| 黄色网页在线播放| 51精品国产人成在线观看| 在线观看国产精品入口| www.51色.com| 有坂深雪av一区二区精品| 国产高清第一页| 欧美黑人性视频| 久久97精品| 成人午夜视频免费在线观看| 国产亚洲精品资源在线26u| 亚洲婷婷久久综合| 深夜精品寂寞黄网站在线观看| 欧美日韩破处视频| 中文字幕超清在线免费观看| 国产精品一区二区无线| 免费人成在线观看| 亚洲精品美女网站| 成人爱爱网址| 国产91av视频在线观看| 久久66热re国产| 国产亚洲精品av| 日韩精品亚洲视频| 国产成人久久精品麻豆二区| 手机在线视频你懂的| 成人听书哪个软件好| 免费视频久久久| 日韩在线播放av| 亚洲精品一区二区三区中文字幕 | 亚洲欧洲二区| 免费人成自慰网站| 久久久九九九九| 91丨九色丨丰满| 韩日欧美一区二区| 日韩中文在线电影| 性色av蜜臀av浪潮av老女人 | 7777精品久久久久久| 国产精品一区二区av日韩在线| 亚洲精品视频三区| 精品久久久久久| 久操视频在线播放| 国内精品久久国产| 久久国产精品免费| 亚洲精品在线观看av| 在线成人一区二区| www.丝袜精品| 黄色三级视频片| 亚洲国产成人高清精品| 成人高清免费观看mv| 国产精品一码二码三码在线| 奇米影视一区二区三区小说| 国产精品99精品| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 日韩avvvv在线播放| 男女免费视频网站| 正在播放国产一区| 欧美福利在线播放网址导航| 91在线第一页| 色综合久久66| 97人澡人人添人人爽欧美|