精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái) 精華

發(fā)布于 2025-2-12 13:17
瀏覽
0收藏

1. 深度學(xué)習(xí)的算力饑渴與 HPC 的成本困境

深度學(xué)習(xí)的浪潮,正以勢(shì)不可擋的姿態(tài)席卷而來。從圖像識(shí)別領(lǐng)域的 AlexNet 和 ResNet,到自然語言處理領(lǐng)域的 Transformer,再到如今參數(shù)規(guī)模動(dòng)輒千億、萬億的大型語言模型 (LLM),如 GPT-3 和 PaLM,以及混合專家模型 (MoE) 和多模態(tài)模型,深度學(xué)習(xí)模型的能力在不斷突破,但其背后對(duì)計(jì)算資源的需求也呈現(xiàn)出爆炸式的增長。

高性能計(jì)算 (HPC) 集群,作為支撐深度學(xué)習(xí)訓(xùn)練的基石,其重要性日益凸顯。然而,傳統(tǒng)的 HPC 集群,往往面向雙精度科學(xué)計(jì)算,對(duì)深度學(xué)習(xí)訓(xùn)練的支持并不完美。基于 GPU 的 HPC 集群雖然能夠較好地支持深度學(xué)習(xí)訓(xùn)練,但隨著模型規(guī)模的不斷擴(kuò)大,建設(shè)成本也急劇攀升。更快的計(jì)算芯片和互連技術(shù)固然性能強(qiáng)勁,但其高昂的價(jià)格卻讓許多研究機(jī)構(gòu)和企業(yè)望而卻步。此外,大規(guī)模集群的能耗問題也日益突出,不僅增加了運(yùn)營成本,也對(duì)環(huán)境可持續(xù)性構(gòu)成了挑戰(zhàn)。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

如何在滿足深度學(xué)習(xí)日益增長的算力需求的同時(shí),控制 HPC 集群的建設(shè)成本和能耗,成為了一個(gè)擺在整個(gè)行業(yè)面前的難題。這不僅僅是一個(gè)技術(shù)問題,更是一個(gè)關(guān)乎深度學(xué)習(xí)未來發(fā)展方向的關(guān)鍵問題。

2. Fire-Flyer AI-HPC:軟硬件協(xié)同設(shè)計(jì)的破局之道

DeepSeek-AI 的研究團(tuán)隊(duì)敏銳地捕捉到了這一挑戰(zhàn),依托于實(shí)踐提出了 Fire-Flyer AI-HPC 這一創(chuàng)新性的軟硬件協(xié)同設(shè)計(jì)架構(gòu)。Fire-Flyer AI-HPC 的核心理念,并非簡單地追求硬件性能的堆砌,而是通過對(duì)硬件和軟件的深度融合與精細(xì)優(yōu)化,打造一個(gè)高性價(jià)比、高可擴(kuò)展性、高穩(wěn)定性的深度學(xué)習(xí)計(jì)算平臺(tái)。

Fire-Flyer AI-HPC 架構(gòu)的精妙之處,在于它并非孤立地看待計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等各個(gè)環(huán)節(jié),而是將它們作為一個(gè)整體進(jìn)行系統(tǒng)性的設(shè)計(jì)和優(yōu)化。從計(jì)算節(jié)點(diǎn)的硬件配置,到網(wǎng)絡(luò)拓?fù)涞倪x擇,再到通信庫、訓(xùn)練框架、存儲(chǔ)系統(tǒng)以及資源管理平臺(tái)的開發(fā),每一個(gè)環(huán)節(jié)都經(jīng)過了精心的考量和定制,以實(shí)現(xiàn)最佳的整體性能和成本效益。

3. Fire-Flyer 2:以 PCIe A100 為核心的務(wù)實(shí)選擇

Fire-Flyer 2 是 Fire-Flyer AI-HPC 架構(gòu)的第一個(gè)具體實(shí)現(xiàn),它選擇了一條務(wù)實(shí)而高效的道路——以 PCIe A100 GPU 為核心,構(gòu)建一個(gè)面向深度學(xué)習(xí)和早期 LLM 訓(xùn)練的高性能計(jì)算集群。

每個(gè) Fire-Flyer 2 計(jì)算節(jié)點(diǎn)的配置都體現(xiàn)了對(duì)性能、成本和能耗的精妙平衡。8 個(gè) NVIDIA A100 PCIe GPU 提供了強(qiáng)大的計(jì)算能力,足以應(yīng)對(duì)當(dāng)前大多數(shù)深度學(xué)習(xí)模型的訓(xùn)練需求。選擇 PCIe 版本的 A100,而非 SXM 版本,是在性能和成本之間做出的權(quán)衡。雖然 SXM 版本的 A100 具有更高的 NVLink 帶寬,但其價(jià)格也更為昂貴。對(duì)于 Fire-Flyer 2 的目標(biāo)應(yīng)用場(chǎng)景而言,PCIe A100 的性能已經(jīng)足夠,而其更低的成本則能夠顯著降低整個(gè)集群的建設(shè)成本。

1 個(gè) Mellanox CX6 200Gbps IB 網(wǎng)卡為計(jì)算節(jié)點(diǎn)提供了高速的網(wǎng)絡(luò)連接,確保節(jié)點(diǎn)間的數(shù)據(jù)傳輸不會(huì)成為瓶頸。2 顆 AMD 32 核 EPYC Rome/Milan CPU 則承擔(dān)了數(shù)據(jù)預(yù)處理、通信調(diào)度等輔助任務(wù),與 GPU 形成互補(bǔ),共同完成深度學(xué)習(xí)訓(xùn)練的各項(xiàng)任務(wù)。512GB 16 通道 DDR4-3200MHz 內(nèi)存則為大規(guī)模數(shù)據(jù)的存儲(chǔ)和訪問提供了充足的容量和帶寬。

Fire-Flyer 2 的計(jì)算節(jié)點(diǎn)采用了 GPU 和網(wǎng)卡直連 CPU 的設(shè)計(jì),省去了 PCIe 交換機(jī)。這樣做的好處是最大程度地利用了 PCIe 帶寬,減少了數(shù)據(jù)傳輸?shù)难舆t和開銷。因?yàn)閿?shù)據(jù)不需要經(jīng)過 PCIe 交換機(jī)的轉(zhuǎn)發(fā),直接在 GPU、網(wǎng)卡和 CPU 之間傳輸,從而提高了整體的通信效率。此外,F(xiàn)ire-Flyer 2 還預(yù)留了 NVLink 橋接的空間,為未來的擴(kuò)展留下了余地。如果將來需要更高的 GPU 間通信帶寬,可以通過安裝 NVLink 橋接器來實(shí)現(xiàn)。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

與 NVIDIA 的 DGX-A100 系統(tǒng)相比,F(xiàn)ire-Flyer 2 在成本和能耗方面具有顯著優(yōu)勢(shì)。其節(jié)點(diǎn)成本約為 DGX-A100 的 60%,能耗也約為 DGX-A100 的 60%。雖然 PCIe A100 在某些性能測(cè)試中略低于 DGX-A100,但考慮到其顯著的成本優(yōu)勢(shì),F(xiàn)ire-Flyer 2 無疑具有更高的性價(jià)比。

*上面術(shù)語太多,做個(gè)注釋:

SXM版本的A100,更準(zhǔn)確地說是A100 SXM4,是NVIDIA A100 Tensor Core GPU為了極致高性能計(jì)算和數(shù)據(jù)中心應(yīng)用而采用SXM4封裝和連接方式的特殊版本,它相比PCIe版本擁有更高的性能潛力、更優(yōu)的NVLink連接及更高的GPU密度,堪比F1賽車專為賽道馳騁。

而NVIDIA DGX A100系統(tǒng)正是為了充分發(fā)揮SXM版本A100的極致性能而設(shè)計(jì)的高度集成平臺(tái),DGX A100必須且只能使用SXM接口的A100 GPU模塊,因?yàn)镾XM接口是實(shí)現(xiàn)DGX A100系統(tǒng)內(nèi)8個(gè)A100 GPU通過NVLink高速互聯(lián)、達(dá)到極致AI訓(xùn)練和推理性能的關(guān)鍵,正如高鐵列車必須搭載專門設(shè)計(jì)的高功率發(fā)動(dòng)機(jī)才能高速運(yùn)行,DGX A100系統(tǒng)和SXM A100 GPU是為追求極致性能而生的完美組合,PCIe版本的A100則無法滿足DGX A100對(duì)GPU互連速度和整體系統(tǒng)性能的苛刻需求。*

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

4. Fat-Tree 網(wǎng)絡(luò):高帶寬與精細(xì)調(diào)優(yōu)的結(jié)合

網(wǎng)絡(luò)架構(gòu)對(duì)于 HPC 集群的性能至關(guān)重要。Fire-Flyer 2 采用了雙層 Fat-Tree 網(wǎng)絡(luò)拓?fù)洌⒋鎯?chǔ)和計(jì)算網(wǎng)絡(luò)整合在一起。Fat-Tree 拓?fù)湟云涓叨确謳挼奶匦远Q,能夠確保集群中任意兩個(gè)節(jié)點(diǎn)之間都能以較高的帶寬進(jìn)行通信,避免了網(wǎng)絡(luò)擁塞的發(fā)生。這種拓?fù)浣Y(jié)構(gòu)非常適合 AI-HPC 和高吞吐量存儲(chǔ)環(huán)境對(duì)網(wǎng)絡(luò)帶寬的嚴(yán)苛要求。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer 2 的集群被劃分為兩個(gè)區(qū)域,每個(gè)區(qū)域構(gòu)成一個(gè) 800 端口的 Fat-Tree 網(wǎng)絡(luò),連接大約 600 個(gè) GPU 計(jì)算節(jié)點(diǎn)。這種分區(qū)設(shè)計(jì)不僅降低了網(wǎng)絡(luò)成本,還支持跨區(qū)域任務(wù)的執(zhí)行,提高了集群的靈活性和利用率。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

為了防止網(wǎng)絡(luò)擁塞,F(xiàn)ire-Flyer 2 團(tuán)隊(duì)采取了一系列精細(xì)的網(wǎng)絡(luò)調(diào)優(yōu)策略。首先,利用 InfiniBand 的服務(wù)級(jí)別 (SL) 技術(shù),將不同類型的流量(如控制流量、數(shù)據(jù)流量、存儲(chǔ)流量)分配到不同的虛擬通道 (VL) 中。這就像在高速公路上為不同類型的車輛劃分不同的車道,避免了相互干擾,保證了關(guān)鍵流量的優(yōu)先級(jí)。其次,采用靜態(tài)路由策略,避免了自適應(yīng)路由 (AR) 可能導(dǎo)致的網(wǎng)絡(luò)擁塞擴(kuò)散問題。自適應(yīng)路由雖然在某些情況下能夠提高網(wǎng)絡(luò)利用率,但在大規(guī)模集群中,其動(dòng)態(tài)調(diào)整路由的行為可能會(huì)導(dǎo)致?lián)砣目焖俾樱炊档驼w性能。靜態(tài)路由則像預(yù)先規(guī)劃好的路線,雖然可能不是在所有情況下都是最優(yōu)的,但它能夠保證網(wǎng)絡(luò)的穩(wěn)定性和可預(yù)測(cè)性。再次,將存儲(chǔ)節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)和管理節(jié)點(diǎn)均勻地分布在網(wǎng)絡(luò)中,使得存儲(chǔ)流量能夠均勻地分散到各個(gè)鏈路,避免了局部熱點(diǎn)的產(chǎn)生。最后,針對(duì) NCCL (NVIDIA Collective Communications Library) 進(jìn)行了深度優(yōu)化,調(diào)整 NCCL 拓?fù)洌蛊鋬?yōu)先在同一 NUMA 節(jié)點(diǎn)的 IB 網(wǎng)卡和 GPU 之間進(jìn)行通信,減少跨 NUMA 節(jié)點(diǎn)通信帶來的 PCIe 擁塞;同時(shí),啟用了 PCIe Relaxed Ordering,進(jìn)一步降低擁塞,提高帶寬利用率。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

5. HFReduce:通信庫的創(chuàng)新,突破 allreduce 瓶頸

在大規(guī)模深度學(xué)習(xí)訓(xùn)練中,allreduce 操作是一個(gè)非常頻繁且耗時(shí)的操作。它負(fù)責(zé)將所有 GPU 上計(jì)算得到的梯度進(jìn)行匯總,然后更新模型的參數(shù)。傳統(tǒng)的 allreduce 實(shí)現(xiàn),如 NCCL,雖然已經(jīng)經(jīng)過了高度優(yōu)化,但在 PCIe 架構(gòu)下,仍然存在一定的性能瓶頸。

為了解決這個(gè)問題,F(xiàn)ire-Flyer 2 團(tuán)隊(duì)自主研發(fā)了 HFReduce 通信庫,專門針對(duì) allreduce 操作進(jìn)行了深度優(yōu)化。HFReduce 的核心思想是“先局部 reduce,再全局 allreduce”。它巧妙地利用了 CPU 和 GPU 各自的優(yōu)勢(shì)。首先,在每個(gè)節(jié)點(diǎn)內(nèi)部,利用 CPU 的向量指令(如 AVX512)對(duì)節(jié)點(diǎn)內(nèi)所有 GPU 的數(shù)據(jù)進(jìn)行快速 reduce 操作。由于 CPU 擅長執(zhí)行向量化計(jì)算,這一步能夠非常高效地完成。然后,將每個(gè)節(jié)點(diǎn) reduce 后的結(jié)果,利用雙二叉樹算法和 RDMA 傳輸,進(jìn)行節(jié)點(diǎn)間的 allreduce 操作。雙二叉樹算法能夠有效地減少通信的跳數(shù),降低通信延遲;RDMA 傳輸則能夠直接在節(jié)點(diǎn)間進(jìn)行數(shù)據(jù)傳輸,避免了 CPU 的參與,進(jìn)一步降低了開銷。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

這種分而治之的策略,使得 HFReduce 相比于 NCCL 具有顯著的優(yōu)勢(shì)。首先,它大幅降低了 PCIe 帶寬的消耗。由于節(jié)點(diǎn)內(nèi)部的 reduce 操作已經(jīng)在 CPU 上完成,節(jié)點(diǎn)間只需要傳輸 reduce 后的結(jié)果,數(shù)據(jù)量大大減少,從而降低了對(duì) PCIe 帶寬的壓力。尤其是在大規(guī)模集群中,這一優(yōu)勢(shì)更加明顯。其次,它消除了 GPU 內(nèi)核的開銷。HFReduce 的 reduce 操作完全在 CPU 上進(jìn)行,不占用寶貴的 GPU 計(jì)算資源,避免了 NCCL 的 GPU 內(nèi)核啟動(dòng)開銷,使得 GPU 能夠更專注于深度學(xué)習(xí)模型的計(jì)算。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

為了進(jìn)一步提升性能,HFReduce 還支持 NVLink 加速。通過在 PCIe A100 GPU 之間安裝 NVLink 橋接器,可以利用 NVLink 的高帶寬進(jìn)行 GPU 之間的預(yù) reduce 操作,進(jìn)一步減少 PCIe 帶寬的壓力,然后再將結(jié)果傳輸?shù)?CPU 進(jìn)行最終的 allreduce。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

HFReduce 的實(shí)現(xiàn)細(xì)節(jié)也體現(xiàn)了精益求精的工匠精神。對(duì)于小數(shù)據(jù)量的傳輸,利用 GDRCopy (GPU Direct RDMA) 技術(shù),直接在 GPU 之間進(jìn)行數(shù)據(jù)拷貝,避免了 CPU 的參與,降低了延遲;利用 CPU 的 SIMD (Single Instruction, Multiple Data) 指令,如 AVX512,對(duì) reduce 操作進(jìn)行向量化加速,充分發(fā)揮 CPU 的計(jì)算能力;優(yōu)化內(nèi)存訪問模式,減少跨 NUMA 節(jié)點(diǎn)訪問內(nèi)存帶來的延遲;利用 RDMA (Remote Direct Memory Access) 技術(shù),實(shí)現(xiàn)高效的節(jié)點(diǎn)間數(shù)據(jù)傳輸,避免額外的 CPU 開銷。

6. HaiScale:為深度學(xué)習(xí)量身打造的訓(xùn)練框架

HaiScale 是 Fire-Flyer 2 AI-HPC 的深度學(xué)習(xí)訓(xùn)練框架,它不僅僅是一個(gè)簡單的訓(xùn)練工具,而是針對(duì) PCIe 架構(gòu)進(jìn)行了全方位的優(yōu)化,旨在最大程度地發(fā)揮硬件性能,為深度學(xué)習(xí)訓(xùn)練提供強(qiáng)大的支持。

HaiScale 實(shí)現(xiàn)了一個(gè)增強(qiáng)版的分布式數(shù)據(jù)并行 (DDP) 算法。通過異步 allreduce 和反向傳播計(jì)算的重疊,HaiScale 進(jìn)一步提高了訓(xùn)練效率。傳統(tǒng)的 DDP 算法在進(jìn)行 allreduce 操作時(shí),需要等待所有 GPU 完成梯度計(jì)算,然后才能進(jìn)行參數(shù)更新。HaiScale 則將 allreduce 操作和反向傳播計(jì)算進(jìn)行重疊,即在 GPU 計(jì)算梯度的同時(shí),就開始進(jìn)行部分 allreduce 操作,從而隱藏了通信延遲,提高了整體的訓(xùn)練效率。

針對(duì) LLM 訓(xùn)練,HaiScale 提供了多種并行化策略的支持,包括張量并行 (TP)、流水線并行 (PP) 和全分片數(shù)據(jù)并行 (FSDP)。對(duì)于需要高帶寬的張量并行操作,HaiScale 支持利用 NVLink 橋接,實(shí)現(xiàn) PCIe GPU 之間的張量并行,提升 TP 效率。對(duì)于流水線并行,HaiScale 通過精細(xì)的數(shù)據(jù)并行 rank 配置,錯(cuò)開不同流水線階段的執(zhí)行時(shí)間,減少網(wǎng)絡(luò)競(jìng)爭,提升流水線并行的效率。對(duì)于全分片數(shù)據(jù)并行 (FSDP),HaiScale 針對(duì) PCIe 架構(gòu)進(jìn)行了深度優(yōu)化,包括高效的內(nèi)存管理,減少內(nèi)存碎片,提升內(nèi)存利用率;以及通信與計(jì)算重疊,將參數(shù)的通信和計(jì)算過程進(jìn)行重疊,隱藏通信延遲。

除了上述策略外,HaiScale 還支持 ZeRO (Zero Redundancy Optimizer) 等其他并行化策略。用戶可以根據(jù)不同的模型和訓(xùn)練需求,靈活選擇合適的策略,實(shí)現(xiàn)最佳的訓(xùn)練效率。HaiScale 的這種靈活性和可擴(kuò)展性,使得它能夠適應(yīng)各種不同的深度學(xué)習(xí)訓(xùn)練場(chǎng)景。

7. 存儲(chǔ)、資源管理與穩(wěn)定性:全方位的保障

Fire-Flyer 2 采用了計(jì)算-存儲(chǔ)一體化網(wǎng)絡(luò)設(shè)計(jì),將計(jì)算流量和存儲(chǔ)流量融合在同一網(wǎng)絡(luò)中,簡化了網(wǎng)絡(luò)架構(gòu),降低了成本。為了避免網(wǎng)絡(luò)擁塞,F(xiàn)ire-Flyer 2 采取了前面提到的多種網(wǎng)絡(luò)調(diào)優(yōu)策略。

在存儲(chǔ)方面,F(xiàn)ire-Flyer 2 采用了自主研發(fā)的 3FS 分布式文件系統(tǒng)。3FS 針對(duì) NVMe SSD 和 RDMA 網(wǎng)絡(luò)進(jìn)行了專門的優(yōu)化,實(shí)現(xiàn)了高吞吐量和低延遲,滿足了深度學(xué)習(xí)訓(xùn)練對(duì)存儲(chǔ)系統(tǒng)的高要求。3FS 存儲(chǔ)節(jié)點(diǎn)的配置包括:1 顆 AMD 64 核 EPYC 7742 CPU,512GB 8 通道 DDR4-3200MHz 內(nèi)存,2 個(gè) Mellanox CX6 200Gbps IB 網(wǎng)卡,以及 16 個(gè) 15.36TB PCIe 4.0x4 NVMe SSD。

3FS 的核心技術(shù)之一是采用了 Chain Replication with Apportioned Queries (CRAQ) 協(xié)議。CRAQ 實(shí)現(xiàn)了強(qiáng)一致性和高性能。它將讀寫操作分離,寫操作在鏈?zhǔn)綇?fù)制的尾節(jié)點(diǎn)執(zhí)行,讀操作可以在任意節(jié)點(diǎn)執(zhí)行,從而提高了讀性能。此外,3FS 還通過精細(xì)的請(qǐng)求發(fā)送控制機(jī)制,有效地緩解了網(wǎng)絡(luò)擁塞,實(shí)現(xiàn)了可持續(xù)的高吞吐量。

為了進(jìn)一步提升 LLM 服務(wù)的效率和經(jīng)濟(jì)性,F(xiàn)ire-Flyer 2 還開發(fā)了 3FS-KV 分布式數(shù)據(jù)處理系統(tǒng),支持 KV 存儲(chǔ)、消息隊(duì)列和對(duì)象存儲(chǔ)等多種模式,并支持 DeepSeek 的 KV Context Caching on Disk 技術(shù),可以將 LLM 服務(wù)的成本降低一個(gè)數(shù)量級(jí)。

在任務(wù)調(diào)度和資源管理方面,F(xiàn)ire-Flyer 2 采用了 HAI 平臺(tái)。HAI 平臺(tái)采用分時(shí)調(diào)度策略,根據(jù)資源需求和集群負(fù)載情況進(jìn)行任務(wù)調(diào)度,并鼓勵(lì)用戶進(jìn)行多 GPU 并行訓(xùn)練,提高資源利用率。

為了保證集群的穩(wěn)定可靠運(yùn)行,F(xiàn)ire-Flyer 2 實(shí)現(xiàn)了多種機(jī)制,包括檢查點(diǎn)管理器 (Checkpoint Manager) 和驗(yàn)證器 (Validator)。檢查點(diǎn)管理器能夠?qū)⒛P蛥?shù)和優(yōu)化器狀態(tài)分塊寫入 3FS,實(shí)現(xiàn)快速保存和加載,并采用周期性異步保存策略,減少硬件故障帶來的損失。驗(yàn)證器則定期檢查硬件的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)潛在問題。

8. 總結(jié)與展望:Fire-Flyer AI-HPC 的深遠(yuǎn)意義

Fire-Flyer 2 AI-HPC 不僅僅是一個(gè)高性能計(jì)算集群,更是一個(gè)深度學(xué)習(xí)軟硬件協(xié)同設(shè)計(jì)的典范。它通過對(duì)計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)架構(gòu)、通信庫、訓(xùn)練框架、存儲(chǔ)系統(tǒng)以及資源管理平臺(tái)的全面優(yōu)化,實(shí)現(xiàn)了深度學(xué)習(xí)訓(xùn)練的高性能、低成本和可持續(xù)性。Fire-Flyer 2 的成功,證明了軟硬件協(xié)同設(shè)計(jì)在構(gòu)建高性價(jià)比 AI 基礎(chǔ)設(shè)施方面的巨大潛力。

Fire-Flyer AI-HPC 的研究成果和實(shí)踐經(jīng)驗(yàn),為 AI-HPC 集群的建設(shè)和發(fā)展提供了寶貴的參考,也為深度學(xué)習(xí)的未來發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著深度學(xué)習(xí)技術(shù)的不斷演進(jìn),F(xiàn)ire-Flyer AI-HPC 也將持續(xù)創(chuàng)新,不斷探索 AI-HPC 架構(gòu)的未來,為人工智能的發(fā)展貢獻(xiàn)力量。

附錄

對(duì)于NVlink,DeepSeek的研究人員是邊用邊罵:

B. Discussion about NVLink Technology Choices

Initially, we did not use NVLink to avoid extra costs and maintain stability, as HFReduce was sufficient for training requirements at that time. However, as the demand for LLMs increased, we added NVLink specifically for LLM training purposes. The decision to install NVLink should be based on actual needs due to its potential drawbacks。

還在附錄里列出了關(guān)鍵的典型錯(cuò)誤:

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

IB網(wǎng)絡(luò)也被吐槽的體無完膚,這也許是之前英偉達(dá)股票狂跌的原因之一吧

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)圖片

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

而且仔細(xì)想一想,結(jié)合后面DeepSeek V3的論文中專門強(qiáng)調(diào)了對(duì)于內(nèi)存讀寫和網(wǎng)絡(luò)框架及驅(qū)動(dòng)的優(yōu)化內(nèi)容(甚至用了PTX),并且被誤解為要取代CUDA。就知道他們是在踩坑的同時(shí)填坑,填完了坑才有了這種軟硬件一體化設(shè)計(jì)的論文公開。

參考論文: arXiv:2408.14158v2 [cs.DC] 31 Aug 2024

本文轉(zhuǎn)載自??上堵吟??,作者:  ??上堵吟??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
激情小视频在线观看| 国产精品6666| 国产一区2区在线观看| 亚洲蜜臀av乱码久久精品蜜桃| aaa级精品久久久国产片| 国产一级一级片| 欧美禁忌电影网| 91精品国产一区二区三区 | 天天舔天天干天天操| 日韩电影免费在线观看网站| 精品中文字幕视频| www色com| 粉嫩的18在线观看极品精品| 欧美色男人天堂| 777av视频| 黄网站在线免费| 久久综合精品国产一区二区三区| 成人国产精品一区二区| 免费观看成人毛片| 欧美日韩视频一区二区三区| 一本色道久久88综合日韩精品| 国产大片一区二区三区| 精品国产第一福利网站| 亚洲图片欧美色图| 曰韩不卡视频| 国产福利在线观看| 波多野结衣精品在线| 国产精品亚洲激情| 日韩精品成人免费观看视频| 欧美~级网站不卡| 中文在线不卡视频| 爱爱免费小视频| 风间由美性色一区二区三区四区 | 国产精品免费久久久久久| 国产精品1000| 中文字幕一区二区三区乱码图片| 中文字幕亚洲国产| 成熟人妻av无码专区| 精品日产乱码久久久久久仙踪林| 在线电影国产精品| 亚洲无吗一区二区三区| 成人免费直播| 狠狠干狠狠久久| 天堂…中文在线最新版在线| 秋霞在线午夜| 一个色在线综合| 中文字幕一区二区三区乱码| 91精品国产91久久久久游泳池 | 蜜桃视频最新网址| 色男人天堂综合再现| 在线播放国产一区二区三区| 日韩人妻无码精品综合区| 亚洲春色h网| 日韩成人免费视频| 手机在线成人av| 黄色成人美女网站| 日韩av在线导航| 国产麻豆剧传媒精品国产av| 91蜜桃臀久久一区二区| 欧美精品一区二区蜜臀亚洲| 久久免费精品国产| 麻豆精品少妇| 亚洲欧美色图片| 国产一区二区三区四区五区六区| 先锋影音国产精品| 国产亚洲精品久久久久久牛牛| 亚洲一区二区三区日韩| 99久久亚洲精品蜜臀| 美女性感视频久久久| 深夜福利影院在线观看| 亚洲激情欧美| 日产精品久久久一区二区福利| 福利网址在线观看| 久久国产精品无码网站| 91在线观看免费高清| 草逼视频免费看| 91原创在线视频| 欧洲精品在线一区| 日本福利在线| 亚洲五月六月丁香激情| 日韩亚洲在线视频| 欧美视频精品| 精品国产乱码久久久久久免费 | 少妇精品久久久| 国产亚洲精品久久久久久牛牛 | 老熟女高潮一区二区三区| 欧美国产极品| 色久欧美在线视频观看| 好吊色视频在线观看| 国产精品资源| 国产日韩精品一区二区| 粉嫩av一区二区夜夜嗨| 国产亚洲女人久久久久毛片| 香蕉视频免费版| 在线人成日本视频| 91精品国产综合久久精品图片| 色综合久久五月| 三上亚洲一区二区| 国内成人精品视频| 中文字幕欧美色图| 丁香婷婷综合激情五月色| 久久久久高清| 在线看三级电影| 在线免费视频一区二区| 中文字幕无人区二| 欧美艳星介绍134位艳星| 欧美激情亚洲国产| 伊人色综合久久久| 99re亚洲国产精品| 国产精品无码乱伦| 户外露出一区二区三区| 精品久久久久一区二区国产| 亚洲av成人无码久久精品| 亚洲特级毛片| 成人免费淫片aa视频免费| 日本天堂影院在线视频| 一色屋精品亚洲香蕉网站| 久草资源站在线观看| 色悠久久久久综合先锋影音下载| 伊人久久精品视频| 亚洲伊人成人网| 成人在线视频一区二区| 在线国产伦理一区| 一二区成人影院电影网| 亚洲国产婷婷香蕉久久久久久 | fc2在线中文字幕| 精品久久久久久久久国产字幕| 午夜av中文字幕| 成人羞羞网站入口免费| 日本成人精品在线| 午夜性色福利影院| 亚洲国产精品久久一线不卡| 韩国一区二区在线播放| 国产精品成人av| 国产精品揄拍500视频| 黄色大片在线看| 欧美色videos| 亚洲av无码成人精品国产| 国精品一区二区三区| 91精品黄色| h片在线免费观看| 欧美一区二区免费视频| 国产真实乱在线更新| 精品一区中文字幕| ijzzijzzij亚洲大全| 3d动漫一区二区三区在线观看| 这里只有精品在线观看| 中文字幕在线观看你懂的| 亚洲国产精品黑人久久久| 久久精品免费网站| 欧美日韩国产一区二区三区不卡| 日韩**中文字幕毛片| 国产高清美女一级毛片久久| 精品视频在线免费看| 人人干在线观看| 国产麻豆成人精品| 激情五月婷婷六月| 欧美sss在线视频| 97在线免费观看视频| 色视频在线观看免费| 福利视频一区二区| 亚洲欧美制服丝袜| 亚洲精品在线免费看| 暖暖成人免费视频| 国产亚洲人成网站在线观看| 亚洲图片中文字幕| 亚洲天堂av一区| 99国产精品免费视频| 在线观看的日韩av| 久久99国产精品| 欧美色片在线观看| 久久天天躁狠狠躁夜夜av| 亚洲AV无码精品色毛片浪潮| 午夜av一区二区| 夜夜春很很躁夜夜躁| 激情六月婷婷综合| 日韩av中文字幕第一页| 蜜桃成人av| 91老司机在线| 色在线中文字幕| 色系列之999| 亚洲国产剧情在线观看| 色香色香欲天天天影视综合网| 人与动物性xxxx| 成人av在线播放网址| 国产精品乱码久久久久| 亚洲精品成人| 蜜桃av噜噜一区二区三区| 国产精品成人国产| 韩剧1988免费观看全集| 成人影院免费观看| 欧美r级在线观看| 无码人妻aⅴ一区二区三区有奶水| 亚洲欧洲99久久| 一区二区三区免费在线观看视频| 久久国产三级精品| 国产91在线视频观看| 99久久婷婷这里只有精品| 精品免费视频123区| 伊人久久综合网另类网站| 91av在线视频观看| 黄色视屏免费在线观看| 亚洲欧美精品中文字幕在线| 国产xxxx在线观看| 在线视频你懂得一区| 日本一级一片免费视频| 中文字幕制服丝袜成人av| 亚洲国产综合视频| 国产精品自拍网站| 在线观看的毛片| 亚洲一区欧美激情| 国产成a人亚洲精v品在线观看| 成人影视亚洲图片在线| 久久大香伊蕉在人线观看热2| 麻豆精品一区| 国产欧美日韩免费看aⅴ视频| 日本а中文在线天堂| 欧美日韩成人精品| 毛片av在线| 丝袜亚洲另类欧美重口| 高清国产福利在线观看| 亚洲精品ady| 韩国av永久免费| 日韩欧美的一区二区| 一二三四区视频| 欧美在线一二三| 日韩黄色一级视频| 欧美日韩在线影院| 亚洲国产精品午夜在线观看| sdde在线播放一区二区| 91中文字幕一区| 99久久婷婷国产综合精品首页 | 婷婷伊人五月天| 亚洲国产精品激情在线观看| 国产精品815.cc红桃| 9l国产精品久久久久麻豆| 国产精品中文久久久久久| 毛片不卡一区二区| 日本xxxx黄色| 毛片av中文字幕一区二区| 三年中国国语在线播放免费| 玖玖国产精品视频| 国产综合免费视频| 国产欧美日本| 日韩激情免费视频| 亚洲综合国产| 中国丰满人妻videoshd| 亚洲在线电影| 可以免费在线看黄的网站| 久久午夜av| 无码精品国产一区二区三区免费| 久久久久久穴| 久久久久久久久久久久91| 蜜臀av一区二区在线免费观看| 爱情岛论坛亚洲首页入口章节| 喷白浆一区二区| 污污的网站免费| 极品美女销魂一区二区三区免费 | 另类一区二区三区| 成人黄色大片在线免费观看| 国产不卡精品在线| 91福利视频导航| 久久九九精品视频| 国产乱码精品一区二区三区卡 | av久久久久久| 亚洲国产日本| av免费在线播放网站| 全国精品久久少妇| 五月天视频在线观看| 国产成人丝袜美腿| 久久人人爽人人爽人人片 | 亚洲成人av片在线观看| 亚州av在线播放| 在线日韩精品视频| 色婷婷av在线| 日韩av123| 高清久久精品| 美女三级99| 亚洲国产日韩欧美在线| 欧美中文字幕在线观看视频 | 亚洲 小说区 图片区 都市| 亚洲图中文字幕| 超碰porn在线| 日本精品视频网站| 精品久久亚洲| 欧美精品成人一区二区在线观看 | 成人精品毛片| 亚洲激情啪啪| 激情偷拍久久| 超碰在线公开97| 不卡视频免费播放| 国精产品视频一二二区| 无吗不卡中文字幕| 国产精品女人久久久| 日韩国产精品视频| 国产婷婷视频在线| 国产成人精品免费久久久久 | 五月天丁香综合久久国产| 欧美日韩精品| 欧美大尺度做爰床戏| 成人综合在线观看| 香蕉久久久久久久| 欧美日韩在线免费| 国产青青草视频| 亚洲欧洲视频在线| 日韩伦理电影网站| 国产精品视频xxxx| 日韩精品导航| 99热这里只有精品免费| 美女性感视频久久| www.色天使| 亚洲成人精品一区二区| 国产精品欧美激情在线| 国产亚洲精品一区二555| heyzo高清在线| 91影院在线免费观看视频| 亚洲宅男一区| 六月婷婷在线视频| 国产激情一区二区三区| 欧美巨胸大乳hitomi| 色偷偷久久人人79超碰人人澡| 囯产精品久久久久久| 久久深夜福利免费观看| 久久不卡日韩美女| 日本免费高清一区二区| 亚洲精品四区| 免费不卡的av| 亚洲综合色区另类av| 91麻豆国产视频| 最新69国产成人精品视频免费| 成人福利av| 欧美日本韩国在线| 美女久久一区| 精品久久久久久中文字幕人妻最新| 洋洋成人永久网站入口| 国产成人a人亚洲精品无码| 久久精品2019中文字幕| 日韩美香港a一级毛片| 亚洲国产日韩欧美| 日韩av午夜在线观看| 阿v天堂2014| 欧美另类变人与禽xxxxx| 丁香婷婷在线| 国产日韩欧美成人| 欧美电影《轻佻寡妇》| 欧美一级xxxx| 成人欧美一区二区三区视频网页| 一区二区三区精| 欧美精品情趣视频| 日韩视频一二区| 人体内射精一区二区三区 | 国产在线免费av| 欧美日韩国产首页在线观看| 一本一道波多野毛片中文在线| 国产欧美精品在线| 久久精品欧美一区| 中文字幕一二三| 亚洲18色成人| 国模吧精品人体gogo| 国产拍精品一二三| 中文字幕日韩一区二区不卡| 久久久久久久人妻无码中文字幕爆| 五月激情综合婷婷| 国产福利电影在线| 91免费高清视频| 在线观看亚洲| www.狠狠爱| 欧美精品视频www在线观看| www久久日com| 极品校花啪啪激情久久| 日韩黄色小视频| 全网免费在线播放视频入口| 精品国产精品一区二区夜夜嗨| 免费成人在线电影| 无遮挡亚洲一区| 高清视频一区二区| 亚洲不卡在线视频| 精品国产欧美一区二区三区成人| 香港久久久电影| 97在线播放视频| 最新热久久免费视频| 熟妇人妻一区二区三区四区| 国产97免费视| 欧美日本中文| 免费在线观看污| 日韩免费看网站| 日韩欧美另类一区二区| 99精品一区二区三区的区别| 久久综合色天天久久综合图片| 午夜视频网站在线观看| 欧美日本黄视频| 国产中文字幕一区二区三区| 一本之道在线视频| 欧洲另类一二三四区| 欧美videossex| 性欧美精品一区二区三区在线播放 | 高跟丝袜一区二区三区| 日本精品在线| 久久er99热精品一区二区三区| 激情成人午夜视频|