精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里 C4:通信驅動加速大規模并行訓練效率

發布于 2024-6-13 12:22
瀏覽
0收藏

一、背景

我們在之前的兩篇文章中詳細介紹了萬卡 GPU 集群中的網絡拓撲相關信息以及在萬卡 GPU 集群中進行大規模 LLM 訓練面對的挑戰和相應解決方案。最近又看到阿里團隊在相關領域的工作,本文中我們簡單對其進行總結。論文中很多基礎知識沒有展開介紹,強烈建議優先閱讀對應的兩篇文章:

對應的論文為:[2406.04594] Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

二、摘要

大型語言模型(LLM)由于規模很大,需要大量的語料進行預訓練,并行訓練技術也就非常有必要,其往往需要數千個 GPU 來共同訓練一個模型。不幸的是,當前并行訓練的效率往往不是最優的,這主要歸因于如下兩個問題:

  • 首先,硬件故障在所難免,會導致訓練任務中斷。無法快速識別故障組件會導致 GPU 資源的大量浪費。
  • 其次,LLM 訓練中通常采用同步訓練方式,GPU 必須等待參數同步完成后才能進入下一輪計算,網絡擁塞會大大增加 GPU 的等待時間。

為了應對這些挑戰,論文作者提出了一種由通信驅動的解決方案,即 C4(Calibrating Collective Communication over Converged Ethernet)。其關鍵想法有兩點:

  • 首先,在并行訓練中,集合通信表現出周期性和同質性的特征,因此任何異常肯定是由于某種形式的硬件故障引起的。利用此特性,C4 可以快速識別故障組件,迅速隔離異常并重新啟動任務,從而避免因異常檢測時延而造成的資源浪費。
  • 其次,集合通信的可預測通信模型(涉及少量大流量)使 C4 能夠高效地執行流量規劃,從而大大減少網絡擁塞。

C4 已經在阿里的生產系統中廣泛實施,將錯誤引起的開銷減少了約 30%,并將某些通信成本適中的運行時性能提高了約 15%。

三、引言

3.1 訓練預估

如下表所示,LLM 的預訓練代價很高,往往需要上千 GPU 訓練幾十天。尤其是,早期的百 B 規模 LLM 都只在幾百 B Token 上訓練,而現在的 LLM 通常會訓練幾 T Token,比如 LLaMA-3 系列模型訓練的 Token 數已經達到 15T。

模型

大小

Tokens

資源

時長

GPT-3

175B

300B

10000 V100

14.8d

LaMDA

137B

768B

1024 TPU-v3

57.7d

OPT

175B

300B

992 A100-80G

34d(811K GPU hours)

PaLM

540B

780B

6144 TPU-v4

50d

BLOOM

176B

366B

384 A100-80G

1083K GPU hours(大約3.5m)

GLM

130B

400B

768 A100-40G

60d

LLaMA-1

65B

1.4T

2048 A100-80G

21d(1022K GPU hours)

Falcon

180B

3.5T

4096 A100-40G

43,500 PFLOP/s-days

對于現在廣泛采用的 Decoder Only LLM,可以根據其模型參數量和 Token 數以及訓練資源預估出訓練時長。具體來說,每個 Token 的 Forward 計算量大約為 2 倍的參數量,如下所示,其中 W 是模型參數量:

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

考慮到大部分情況下總的計算量與 Forward 計算量的比例接近 3:1,因此可以根據每個 Token 的計算量預估出訓練中的計算量約為(與論文 [2001.08361] Scaling Laws for Neural Language Models  中結論一致):

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

根據每個 Token 計算量和計算資源可以大概預估出訓練的總時長,其中 MFU 表示 Model FLOPS Utilization,是廣泛采用的用于衡量分布式訓練效率的指標:

訓練天數 = Token 數 * Ctoken / (GPU 數 * GPU FLOPs * MFU * 3600 * 24)

根據以上公式可以進一步預估使用 8192 H100-80G GPU,10T Token 數據訓練 175B 模型的天數為 30 天:

10T*6*175B/(8192*1000T*50%)/3600/24=30 天

3.2 基本概念

網絡直徑(Network Diameter)指的是網絡中任意兩個節點之間的最短路徑中最長的一條路徑的長度,通常用跳數(hops)來表示:

  • 最短路徑:在網絡圖中,從一個節點到另一個節點的所有可能路徑中,所需跳數最少的一條路徑。
  • 最長的最短路徑:對于網絡中所有可能的節點對,每個對都有一個最短路徑,網絡半徑就是這些最短路徑中跳數最多的那一條的跳數。

交換基數(Switch Radix)是指交換機上可用的端口數量。例如,一個 48 Port 的交換機的交換基數就是 48。交換基數越大,交換機能夠直接連接的節點數就越多。這意味著在網絡拓撲中,從一個節點到另一個節點可能只需要經過更少的跳數。直接連接的節點越多,數據包傳輸過程中需要經過的中間節點就越少,從而減少了網絡直徑。

3.3 錯誤處理

LLM 預訓練基本都采用分布式同步訓練方式,其集合通信是同步的。也就是說,任何異常都可能導致整個作業失敗。為了使作業繼續運行,用戶在訓練中都會定期保存 Checkpoint,以便作業失敗后可以從最后一個 Checkpoint 恢復。

如下圖 Figure 1 所示,在執行 DL 訓練作業之前或之中都可能出現嚴重錯誤,它們會以不同的方式影響系統利用率:

  • 如果錯誤發生在作業開始之前,則將在系統診斷、錯誤組件隔離和作業重新啟動方面花費額外的時間。這種情況下,通常需要花費大量時間來診斷和精確定位缺陷組件,可能需要數小時甚至數天。
  • 如果錯誤發生在作業執行中,則會浪費更多的額外時間,包括Post-Checkpoint Cost(導致 Checkpoint 之后的計算浪費)和Fault Detection Cost(在錯誤發生和用戶檢測到錯誤之間存在延遲)。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

如下圖 Table 1 所示,作者統計了一個代表性任務在一個月內遇到的錯誤。數據顯示,由于這些錯誤,該作業在一個月內失敗了 40 次。由于當時缺乏有效的故障檢測和診斷工具,可能需要數小時到數天的時間才能確定原因并查明缺陷節點。根據作者經驗,大約 30% 的時間花在錯誤檢測、系統診斷、隔離缺陷節點和重新啟動任務上,只有 70% 的時間用于實際訓練任務。從用戶視角看,87.5% 是 “NCCL Error”,而實際的故障問題可能包含多種,比如 GPU 硬件錯誤,網絡斷開、內存溢出等,也可能是用戶代碼異常,比如常見的 Tensor 大小不匹配。其大部分故障都是單節點的異常,發現并隔離節點即可避免再次受該節點異常影響。

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

3.4 優化通信

除了異常導致作業崩潰之外,GPU 還可能由于集合通信操作或數據加載延遲而出現停頓:

  • 首先,各種流程之間的流量沖突或硬件問題(如以太網鏈路故障)可能導致通信成本升高。為了同時擴展系統規模并提高系統可用性和可維護性,作者采用了雙 Port NIC進行系統互聯,每個 Port 連接到不同的 Leaf 交換機,節點和 Leaf 交換機之間將有兩個可用鏈路,任何一個鏈路失效,另一條鏈路可以接管所有流量,當然也會成為系統瓶頸。
  • 此外,處理硬件缺陷造成的通信開銷之外,還可能出現多個數據流爭奪單個鏈路的可用帶寬。

對于現在的分布式訓練作業,帶寬限制會顯著增加通信時延并導致通信性能下降。隨著模型和訓練集群規模擴大,這個問題進一步加劇。如下圖 Figure 2 展示了訓練 22B GPT 模型時實際性能和理論性能的差異,實際性能與理論性能的差異隨著 GPU 數的增加逐漸擴大,當達到 512 GPU 時,實際性能下降到理論性能的 30%。

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

與傳統云環境中的通信模式不同,DL 訓練集群中通常只有少數較持久的連接,每個節點通常管理大約幾百個連接。這種環境下流量的沖突會導致這些連接的有效帶寬發生大幅變化,從而導致通信時延增加數倍。然而,這一挑戰也伴隨著機遇,DL 中的流量通常是周期性的、可預測的,這為通過工程手段提高通信效率提供了獨特的優勢。

從本質上講,大規模訓練集群的有效性能受到硬件缺陷和流量沖突的顯著影響。為了確保 GPU 在模型計算過程中高效運行,最大限度地減少故障檢測和系統診斷所浪費的時間至關重要。此外,為了防止 GPU 在定期同步期間停頓,必須消除任何多余的通信開銷。

四、方法

4.1 并行訓練穩定性

基于以上的分析,作者通過兩種策略解決硬件故障:

  • 降低硬件故障率,該策略至關重要,但作者沒有太多介紹,主要提到了溫度控制是關鍵(要點 1)。比如,通過動態電壓和頻率調節(DVFS)等方法有助于防止 GPU 過熱,但會影響性能一致性。作者通過更快的風扇和更好的空調系統改善冷卻效果,實現溫度調節。當然,未來的 AI 基礎設施建設也開始轉向更高效的冷卻方案,比如液冷。(PS:NVIDIA 新一代 Blackwell GPU 的功耗進一步增加,這一挑戰更加明顯,因此 NVIDIA 也提到了液冷系統。)
  • 系統性容錯:在傳統云應用中通常采用在線容錯方案,比如使用冗余計算來容忍計算故障,通過糾錯碼和/或三重副本技術提供高可靠存儲,使用多路徑策略承受網絡異常;然而,在大規模 LLM 訓練中,通常采用離線容錯方案,例如定期保存 Checkpoint。作者與用戶深入討論,得到一個關鍵信息:底層系統不應該將任何不確定性引入模型訓練過程中(要點 2)。因此,作者采用了混合的技術方案,具體而言:

利用成熟的云存儲技術提供可靠的數據存儲。

準備備份節點以替換故障節點。作者針對 128 臺機器 1024 個 GPU 會分配 8 臺機器 64 個 GPU 作為備份,以確保在這 136 臺機器中的任何 128 臺上訓練時具有相同的通信吞吐和計算性能。


關于網絡,業界普遍采用單 Port NIC(例如 1*400Gbps)來減少哈希沖突的可能性。然而,這種方式可能帶來可靠性問題,端口異常可能迫使任務從最近的 Checkpoint 重新啟動。而作者采用了 2*200Gbps 雙上行鏈路來增強可靠性,同時解決網絡哈希沖突以維持性能。本質上講,確保每一層的最大可靠性,再加上跨層優化,對于實現最高效、最可靠的整體系統至關重要(要點 3)。

作者的 C4D 容錯架構包括如下幾點:

  • 通過糾錯碼實現可靠的數據傳輸。
  • 通過雙上行鏈路和多路徑通信實現網絡可靠性。
  • 通過 Checkpoint 和冗余節點處理計算故障。

如下圖 Figure 3 所示,該系統的核心是 C4D(C4 Diagnose)子系統,旨在快速檢測硬件故障以提示任務重啟。C4D 利用了兩個洞察(要點 4):

  • 并行訓練任務通常是有規律的、可預測的,基于此可以識別出一些異常。
  • 并行訓練中的 Bulk Synchronous Parallel(BSP)模型需要有規律的同步點,這些同步點可以作為衡量異常的錨點。

PS:下圖中的 Wi 表示訓練中的 Worker Pod,Ni 表示 Node,SW 表示 NIC Switch。

  • 物理機監控(Server Monitor)、網絡監控(Network Monitor)可以提供基本的硬件信息,與任務無關。
  • 每個 Worker 也會提供相應的統計信息和日志,并由C4 Runtime Fault Detection來匯總,并將相關信息同步給Job Steering Service和Background Root Cause Analysis。
  • Job Steering Service 會根據 C4 Events 相關信息來決定是否隔離節點或重啟任務。
  • Background Root Cause Analysis 除了接收 C4 Events 外,也會接收物理機監控和網絡監控,以便找到問題的根因。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

如下圖 Figure 4 所示為 C4D 的主要原理,其包含 3 個基本組件:增強的 CCL(Collective Communication Library)、C4a(C4 agent)以及 C4a Master:

  • 在每個 Worker 中都會使用增強的 CCL,并且每個 Worker 上都會有 C4a 以便收集當前 Worker 相關信息,比如 CCL 日志。作者沒有直接使用NCCL是因為其缺乏一些必要的監控信息。
  • 收集并匯總所有 Worker 的各種信息,并生成 events.csv 和 summary.txt。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

如下圖 Figure 5 所示為其增強的 CCL 庫,和其它的 CCL 類似,整個 CCL 包含 4 層,作者對其中下面的 3 層進行了擴展,以增加監控功能:

  • Communicator 層:會記錄 Communicator ID、Rank 數,Rank 分配情況信息。
  • Operation 層:監控集合通信操作類型、算法、數據類型、元素個數以及操作的持續時間和計數。
  • Transport 層:收集連接細節信息(比如,RDMA IP 和 QP 編號)以及消息統計信息,包括傳輸的計數、大小和持續時間等。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

在運行時收集上述信息并非易事,需要成本低,準確率高。為了精確監控通信 Kernel 執行模式,作者優化了所有相關的 CUDA Kernel,以直接記錄其開始和完成時間,因為 CPU 時間戳和 CUDA Event 并不夠準確。基于以上收集到的信息,可以檢測到集群中常見的 4 種錯誤類型:通信 Hang,非通信 Hang,通信慢(Communication Slow)和非通信慢(Non-Communication Slow)。檢測前兩種錯誤類型相對容易,作者并沒有深入討論,而是將重點集中在識別慢的問題。如下為兩個案例:

案例 1:通信慢檢測。以數據并行中的 AllReduce 為例,所有 Worker 都要求所有模型副本的梯度平均。因為所有 Worker 的數據切分方式一樣,通信量也一樣,理論上任意兩個 Worker 的通信時延應該相同。因此可以構建一個 2 維混淆矩陣,橫軸表示 Destination 的 Worker ID,縱軸表示 Source 的 Worker ID,對應位置的值表示通信 Latency。如下圖 Figure 6 所示:

  • 只有一個點 Latency 比較高,表明這兩個 Worker 的鏈路存在瓶頸。
  • 一行 Latency 都比較高,表示對應位置的 Source Worker 可能存在問題。
  • 一列 Latency 都比較高,表示對應位置的 Destination Worker 可能存在問題。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

案例 2:非通信慢檢測。以 AllReduce 操作中的 Ring 算法為例,所有參與的 Worker 相互連接,形成一個環狀結構。每個 Worker 僅與相鄰 Worker 通信,可以稱為“上一個 Rank”和“下一個 Rank”。具體而言,Worker 從“上一個 Rank”接收數據塊,對其 local 數據執行 Reduce 操作,然后將生成的數據傳遞給“下一個 Rank”。事實上,由于要求接收方必須首先準備接收緩沖區并通知發送方,然后才能進行數據傳輸,存在一種不明確的“接收方驅動”調度邏輯。因此,可以通過查看接收方等待數據的時間來診斷非通信慢問題,比如由計算或數據加載引起的等待:

  • 如果接收方遇到非通信慢問題,則發送方可能已經在等待,從而一旦接收方發起調度信號就可以快速接收數據。
  • 相反,如果發送方存在非通信慢問題,即使接收方發起調度信號后也不會及時發送數據,從而導致接收方等待時間過長。

4.2 并行訓練可擴展性

并行訓練性能依賴于單節點計算效率,數據訪問速度以及集合通信速度等。單節點計算能力可以通過混合精度或者使用 Transformer Engine 來提升,數據訪問效率可以通過 Alluxio 等 Cache 機制實現。本文主要聚焦在集合通信效率,其中一個關鍵因素是訓練穩定性。

如果將網絡帶寬視作一種資源,則優化集合通信性能相當于尋找一種最優的資源分配方案。事實上,集合通信可以看做是兩個 Worker 之間一對一通信的集合,如果包含 Reduce 操作,也可能涉及計算。因此,尋找最優資源分配的問題可以分解為兩個問題:

  • 最小化每一次一對一通信的資源需求。
  • 將每一次一對一通信映射到網絡資源上,使得總通信時間最短。

第一個問題不是本文的重點,為了完整性,作者只是做了簡單介紹。一旦一對一通信的數據量固定,其對網絡資源的消耗與數據在網絡中傳輸的距離成正比。為了減少數據傳輸距離,作者采用了兩種優化策略:

  • 首先,通過創新的網絡架構最小化網絡直徑,AI 訓練服務器內部提供高速 NVLink 互連,它是網絡固有的一部分(要點 5)。因此,網絡實際上是一個分層拓撲,其中 NVLink 構成第一層,不同服務器間的 RDMA 網絡構成第二層。此外,還采用了雙上行鏈路技術,這不僅可以提高網絡可靠性,還可以增加交換芯片的基數。顯然,對于給定數量的 endpoint 和指定的網絡拓撲,交換基數越大,網絡直徑越小。
  • 其次,利用網絡拓撲感知調度技術來確保需要通信的兩個 Rank 在網絡中盡可能接近。

基于以上優化,大多數情況下都能實現良好的性能。例如,對于小規模的單個任務,所有通信都可以在單層 Leaf 交換機內完成。但對于較大規模的訓練任務或多個任務并存的場景,進一步優化是必不可少的。上述兩種場景的根本問題其實是一樣的:有大量的流量需要 Spine 交換機轉發,導致大量的流量沖突。

為了應對這一挑戰,作者引入了 C4P(C4 Performance)系統,旨在減少不必要的通信成本。C4P 通過以下方式優化并發作業和鏈路故障下的通信:

  • 在任務啟動時識別和避免故障鏈路。
  • 在路徑之間平衡 RDMA QP 以分配負載。
  • 根據網絡變化和流量沖突動態調整 QP 工作負載。

本質上,C4P 是一種流量工程(traffic engineering)技術,旨在通過調節網絡內每個數據流的傳輸路徑來最大限度地減少網絡擁塞。這個概念并不新鮮,但由于網絡中有大量連接,它在傳統數據中心并不常用。C4P 在并行訓練場景中很實用,主要是因為并行訓練產生的流量特征與傳統云應用進程的流量特征有顯著不同。也就是說,并行訓練任務涉及的數據流數量很少,但傳輸的數據量很大。少量大流量的存在使得 C4P 可以精心規劃每個數據流的路線(要點 6)。

C4P 遵循 C4D 的軟件結構,但有關鍵區別,如下圖 Figure 7 所示:

  • 首先,與專注于單個作業的 C4D master 不同,C4P master 充當多個作業或租戶的控制中心。
  • 此外,C4P 的 CCL 可以為通信 Worker 請求路徑分配,而 C4D 的 CCL 收集監控數據。
  • 最后,C4P 的 master 分配通信路徑,而 C4D 的 master 處理故障檢測和診斷。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

與先前的研究類似,作者使用路徑探測(path-probing)進行精細的流量工程:C4P 首先隔離并屏蔽 Leaf 交換機和 Spine 交換機之間的故障鏈路,從而創建健康鏈路網絡。C4P master 通過每個 Leaf 交換機隨機選擇的服務器執行全網狀路徑探測,識別和分類可靠路徑。在創建連接時,CCL 會向 C4P master 發出路徑請求,后者通過指定 RDMA 連接的源 Port 來響應所選路徑。master 通過禁止從左 Port 到右 Port 的路徑(反之亦然)來確保來自同一 NIC 的流量在左 Port 和右 Port 之間保持平衡。此外,來自同一 Leaf 交換機下的節點的流量分布在所有可用的 Spine 交換機上,以防止網絡擁塞。CCL 不斷評估各種路徑上的消息完成時間,并優先考慮最快的數據傳輸。如果最佳 QP 的隊列已滿,則選擇下一個最佳隊列。這種方法有助于在路徑錯誤或流量擁塞的情況下保持較低的傳輸延遲。

C4P 的部署方法與 C4D 相似,兩個系統都嵌入到用戶鏡像中,以方便與 Kubernetes (K8s) 集成。然而,一個顯著的區別是,C4P master 在系統級別上運行,提供全局訪問,而 C4D master 則發揮更本地化的作用,僅限于單個作業范圍。

五、評估

5.1 配置

如下圖 Table 2 所示為作者運維的集群配置及相應評估的配置,可以看出,單節點 8*H800 GPU,對應 8 個 400Gbps BlueField-3 NIC,每個 400 Gbps NIC 會分成 2 個 200 Gbps Port。作者測試時使用了 16 個節點,共 128 H800 GPU。其中的網絡為 3-Tier Clos 拓撲,1:1 收斂。網絡拓撲中使用博通的 Trident4 作為 Leaf 交換機(64 x 200GbE, 或 32 x 400GbE),Tomahawk4 作為 Spine 交換機(128 × 200GbE,或 64 x 400GbE),其集群可以支持超過 10000 GPU,在單 Pod 中是 512 GPU((128/2/2)*(64/2/2)=512)。

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

作者基于一個真實的 LLM 訓練任務評估了 C4D 的有效性,其中模型包含 175B 參數量,使用 2400 GPU 進行訓練,模型從頭訓練需要 1 個月的時間。C4P 的有效性是基于集合通信 Benchmark 和 3 個典型的訓練任務來評估。為了確保通信基準測試的無偏評估,作者使用基于環的算法。

5.2 C4D 有效性評估

如下圖 Table 3 所示,作者以內部 2400 GPU,訓練 1 個月的任務為例,對比了在部署容錯系統之前(2023 年 6 月)和之后(2023 年 12 月)錯誤導致的停機時間。可以看出,部署 C4D 后停機時間大幅減少,從 31.19% 下降到 1.16%。

在部署 C4D 之前:

  • 大部分停機花費在系統診斷和隔離,占 19.65%,主要是排查問題,通常花費數小時到數天時間。從表中也可以看出,大多數錯誤都是 GPU 缺陷引起,包括 GPU ECC Error,NVLink Error 和 CUDA Error。
  • 第二個主要因素是Post-Checkpoint時間,占 7.53%,也就是重啟導致浪費的計算時間。其解決方案主要是更頻繁地保存 Checkpoint。
  • 第三個因素是檢測時間,占 3.41%,通常用戶不會立刻意識到任務異常,比如 Pytorch 作業可能會掛起 30 分鐘才會終止進程,這種延遲也會帶來資源浪費。

在部署 C4D 之后:

  • 顯著加快了錯誤檢測和故障組件的精確定位,將響應時間縮短到僅幾十秒。盡管如此,仍然需要幾分鐘來隔離受影響節點并重新啟動作業。
  • 可以每 10 分鐘保存一個 Checkpoint,相應的 Post-Checkpoint 時間可以大幅降低。
  • 在部署 C4D 之前的 6 個月里系統中最脆弱的組件也被修復和增強,相應 Re-Initialization 的時間也從 0.6% 降低到 0.15%。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

5.3 C4P 有效性評估

平衡一個 NIC 上兩個物理 Port 之間的流量。每個 Source GPU 和 Destination GPU 都對應一個 NIC,每個 NIC 都有兩個物理 Port,如果 Source GPU 中的數據從對應的某個 Port 發出后,再經過交換機,可能被路由到 Destination GPU 對應的任何一個 Port,這樣也就可能存在不均衡導致性能下降。使用 C4P,可以為每個物理 Port 中的流量綁定一條專用路徑,從而防止這種不均衡。作者使用 NVIDIA 的 NVIDIA/nccl-tests 來測量相應的 busbw,這是一個反映有效通信性能的指標(busbw 越高,通信時延越低)。如下圖 Figure 8 所示為啟用 C4P 后 AllReduce 操作的性能,可以看出 busbw 都明顯提升。比較奇怪的是其中紅框里的 busbw 超過了 NIC 的 400 Gbps,作者介紹說是 busbw 的計算方法導致,但并未具體介紹計算方法有什么問題(PS:如果是采用 Tree-based 算法,機內通信可以使用 NVLink,那么是可能超過 busbw 的;但是作者提到了采用的是 Ring-based 算法,所以按道理 busbw 應該小于 NIC 帶寬,而且也沒看出計算方式有什么問題,此處存疑)。

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

多作業流量負載均衡。為了評估 C4P 在同時執行多種作業下的有效性,作者使用 8 個 AllReduce Benchmark 來模擬作業。每個作業都會被分配 2 個節點,并且來自不同的 Leaf 交換機 Group,以確保 2 個節點之間的流量肯定需要通過 Spine 交換機。如下圖 Figure 9a 所示,使用 C4P 后可以有效提升實際吞吐。為了評估 C4P 在擁塞網絡環境中的性能,作者特意將網絡中的 Spine 交換機屏蔽了一半,從而將網絡收斂比變為 2:1。重新進行上述實驗,可以得出類似結論,當然,因為收斂比為 2:1,極限帶寬也只有 200Gbps。

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

需要說明的是,即使啟用了 C4P,并發任務的性能也會略有變化。具體來說,最高和最低吞吐之間有 11.27 Gbps 的小差距。這種差異歸因于 RDMA NIC 中的擁塞控制機制,該機制根據網絡條件動態調整發送方的數據傳輸速率。如下圖 Figure 10 所示,每個綁定端口每秒接收大約 15,000 個擁塞通知數據包 (CNP),數量在 12,500 到 17,500 之間波動。CNP 的波動直接導致了流量的有效帶寬變化。盡管存在這些變化,但啟用 C4P 后,總體吞吐量大幅提高了 65.55%,長尾問題明顯得到緩解:

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

對動態鏈路故障的容忍度。全局流量工程(Global traffic engineering)的高效性取決于網絡條件的穩定性。個別鏈路中斷后可能需要重新路由受影響的流量,這可能導致網絡中的流量分配不合理,并降低全局流量工程的有效性。此時將啟動 C4P 的負載均衡機制以調整流量分布。為了評估這種機制的有效性,作者同樣在 1:1 收斂比的情況下復現了以前的實驗,并在實驗中故意屏蔽某些鏈路。

  • 如下圖 Figure 11a 所示為未啟動 C4P 負載均衡時流量的吞吐的變化,鏈路異常后平均帶寬只有 185.76 Gbps。
  • 如下圖 Figure 11b 所示為啟動 C4P 負載均衡后流量的吞吐變化,鏈路異常后平均帶寬依然有 301.46 Gbps,大幅提升 62.3%。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

為了展示 C4P 負載均衡如何提高系統吞吐量,作者從 Leaf 交換機收集了每個端口的流量分布的統計數據。如下圖 Figure 12 所示,在鏈路異常之前,所有端口都表現出接近最佳的帶寬利用率。然而,鏈路異常后:

  • (a):未啟動負載均衡,只有 3 個端口顯示流量增加,還有很多正常的端口流量下降。
  • (b):啟動負載均衡,C4P 動態調整了流量分布,大部分端口還有較高的帶寬利用率,因此才能提高系統吞吐量。?

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

作者基于真實場景評估了 C4P 的效果,具體來說包含 3 個任務:

  • job1:使用 Megatron 框架訓練 GPT 模型,22B 參數量,TP 為 8,DP 為 16。
  • job2:使用 Deepspeed 訓練 LLaMA 模型,7B 參數量,采用 Zero-Optimization,僅使用 DP。
  • job3:使用 Megatron 框架訓練 GPT 模型,參數量 175B,TP 為 8,PP 為 8,DP 為 2。

性能評估結果如下圖 Figure 13 所示,可以看出,job 1 和 job 2 的吞吐都有所提升。job1 提升 15.96%,job2 提升 14.1%,而 job3 幾乎沒有提升。這與訓練中通信的占比有關,前兩個 job 訓練中通信開銷占到 30% 以上,但 job3 使用了 16 的梯度累積,大大降低了通信成本,所以提升比較小。

阿里 C4:通信驅動加速大規模并行訓練效率-AI.x社區

六、參考鏈接

  1. ??https://arxiv.org/abs/2406.04594??

本文轉載自??AI閑談??,作者: AI閑談 ????

收藏
回復
舉報
回復
相關推薦
日韩欧美电影一区二区| 国产成人亚洲精品| 日本不卡视频一区| 午夜影院一区| 中文字幕一区二区三区视频| 99久久久久国产精品免费| 亚洲天堂日韩av| 色综合咪咪久久网| 亚洲福利视频在线| 我要看一级黄色大片| 欧美人体视频xxxxx| 久久久精品天堂| 7777精品久久久大香线蕉小说| 国产大片中文字幕在线观看| 成人羞羞网站入口| 亚洲高清免费观看高清完整版| 免费一级特黄录像| 黄色成人在线网| 中文字幕中文字幕在线一区 | 岛国精品在线| 天天综合天天综合色| 国产911在线观看| av在线播放网| 91丨porny丨户外露出| 3d蒂法精品啪啪一区二区免费| 无码人妻av一区二区三区波多野| 激情婷婷亚洲| 九九精品在线观看| 99久久久无码国产精品不卡| 西瓜成人精品人成网站| 欧美tickling网站挠脚心| 国产嫩草在线观看| 色是在线视频| 亚洲成av人片在线观看| 91免费版看片| 黄色在线免费| 国产精品免费免费| 日韩欧美在线一区二区| 嫩草研究院在线观看| 91在线播放网址| 国产精成人品localhost| 国产精品热久久| 久久97超碰国产精品超碰| 国产精品久久久久久久久影视| 国产精品午夜影院| 亚洲国产午夜| 992tv在线成人免费观看| 久久午夜鲁丝片午夜精品| 91精品电影| 欧美xxxx18国产| 一区二区视频免费看| 天天影视欧美综合在线观看| www国产精品视频| 小早川怜子一区二区的演员表| 色婷婷色综合| 日韩在线观看av| 看免费黄色录像| 欧美a级在线| 欧美激情视频网| 国产无码精品视频| 亚洲尤物在线| 国产成人在线播放| 影音先锋黄色网址| 国产在线观看一区二区| 亚洲在线观看视频| 蜜臀久久精品久久久久| 97精品久久久久中文字幕 | 一区二区三区加勒比av| 久青草视频在线播放| 阿v视频在线| 日韩欧美亚洲范冰冰与中字| 精品国产成人av在线免| 97精品国产99久久久久久免费| 欧美日韩电影在线播放| 久久久久久国产精品日本| 999久久精品| 亚洲美女在线观看| 欧美福利在线视频| 欧美ab在线视频| 欧美在线性爱视频 | 久久精品人成| chinese偷拍一区二区三区| 亚洲欧洲av一区二区三区久久| 性生活免费观看视频| 大桥未久在线播放| 色国产综合视频| 午夜av中文字幕| 久久久久高潮毛片免费全部播放| 亚洲人av在线影院| 欧美在线视频第一页| 亚洲国产激情| 国产精品视频自拍| 理论片中文字幕| 国产欧美一区二区三区鸳鸯浴 | 色噜噜狠狠狠综合欧洲色8| 欧美日韩国产区| 亚洲黄色av片| 亚洲福利网站| 欧美成人黄色小视频| 久久99国产综合精品免费| 国产专区欧美精品| 欧美日韩一区二| 欧洲成人综合网| 欧美三级电影一区| 免费成人深夜夜行p站| 香蕉av一区二区| 琪琪亚洲精品午夜在线| 国产内射老熟女aaaa∵| 久久精品视频在线看| 丰满少妇大力进入| 国产精品视频一区二区三区综合| 精品视频在线观看日韩| 五月天丁香激情| 琪琪一区二区三区| 久久亚洲高清| 波多野结衣在线播放| 欧美人牲a欧美精品| 巨胸大乳www视频免费观看| 一级欧洲+日本+国产| 国产精品久久久久久久av电影| 免费看av毛片| 亚洲精品午夜久久久| 在线观看亚洲色图| 嫩草影视亚洲| 91大神在线播放精品| a在线观看免费| 国产精品短视频| 日韩视频在线免费看| 欧美日韩直播| 97国产精品视频人人做人人爱| 国产熟女一区二区三区五月婷| 欧美国产日韩一二三区| 成人小视频在线看| 窝窝社区一区二区| 4p变态网欧美系列| 四虎永久在线观看| 亚洲成av人在线观看| 亚洲AV成人精品| 欧美成人一品| 91手机在线观看| 丝袜在线观看| 欧美成人vr18sexvr| 爱爱视频免费在线观看| 精品一区二区免费视频| 国产高清精品软男同| 国产aa精品| 久久艳片www.17c.com| 国产又粗又猛又黄| 日韩美女视频19| 亚洲美女爱爱视频| 久久精品久久久| 91沈先生在线观看| 中文在线字幕免费观看| 欧美一个色资源| 麻豆视频在线观看| 不卡在线视频中文字幕| 人妻久久久一区二区三区| 噜噜噜天天躁狠狠躁夜夜精品 | 全部毛片永久免费看| 99久久久久免费精品国产| 伊人成色综合网| 国产欧美一区| 国产日韩精品入口| 特级毛片在线| 亚洲码在线观看| 伊人精品一区二区三区| 亚洲靠逼com| 韩国av中国字幕| 国产欧美另类| 视频在线99| 国产区一区二| 韩国福利视频一区| 国产51人人成人人人人爽色哟哟 | 1000精品久久久久久久久| 中文字幕第一页在线视频| 午夜精品免费| 成人午夜电影免费在线观看| 国产精品剧情一区二区在线观看| 精品少妇一区二区| 亚洲天堂视频网站| 亚洲色图19p| 色婷婷免费视频| 日本女人一区二区三区| 肉大捧一出免费观看网站在线播放 | 亚洲美女精品视频| 久久免费高清| 精品少妇人妻av一区二区| 国产精品欧美大片| 国产国语刺激对白av不卡| av电影免费在线观看| 亚洲精品日韩在线| 国产美女精品视频国产| 日韩欧美国产激情| 中文字幕av播放| 久久精品无码一区二区三区| 久久精品亚洲天堂| 丝袜亚洲另类欧美综合| 裸体裸乳免费看| 国产探花一区二区| 成人自拍偷拍| 欧美视频精品| 日本在线精品视频| 牛牛精品在线| 久久天堂av综合合色| 日本啊v在线| 欧美成人a在线| 91福利在线观看视频| 日韩欧美一区二区三区久久| 欧美色图一区二区| 国产精品久久午夜| 亚洲欧美日本一区| 国产成都精品91一区二区三 | 国产久卡久卡久卡久卡视频精品| 99视频免费播放| 国产欧美亚洲一区| 高清无码一区二区在线观看吞精| 日韩精品一区二区三区免费观影 | 黄色亚洲在线| 宅男在线精品国产免费观看| 精品国产欧美日韩| 蜜桃狠狠色伊人亚洲综合网站| 中文字幕日韩在线| 成人精品视频在线| 亚洲日韩中文字幕一区| 国产精品久久久久久久久久久久| 国产99在线观看| 欧美激情伊人电影 | 欧美aaaa视频| 日韩国产精品一区二区三区| 亚洲盗摄视频| 麻豆av福利av久久av| 久草精品视频| 国产嫩草一区二区三区在线观看| 一区二区三区高清在线观看| 亚洲a级在线播放观看| 黄色欧美视频| 成人xxxx视频| 电影一区中文字幕| 96精品久久久久中文字幕| 福利一区二区免费视频| 国产精品久久久久久久久免费| 3d性欧美动漫精品xxxx软件| 2018日韩中文字幕| 色偷偷偷在线视频播放| 欧美一二三视频| 免费看男女www网站入口在线| 午夜美女久久久久爽久久| 精精国产xxxx视频在线中文版 | 亚洲欧美日韩不卡一区二区三区| 国产永久精品大片wwwapp| 日韩电影免费观看高清完整| 国产欧美一区二区三区精品观看| 日本午夜精品一区二区三区| 日本在线电影一区二区三区| 亚洲午夜在线观看| 国产精品久久久久久麻豆一区软件 | 青青草视频在线免费观看| 日韩大片免费观看视频播放| 视频三区在线观看| 亚洲一品av免费观看| 国产69久久| 久久综合久中文字幕青草| 日本高清成人vr专区| 韩国福利视频一区| 欧美日韩成人影院| 国产日韩av在线| 一区二区三区欧洲区| 精品高清视频| 精品午夜久久| www.69av| 奶水喷射视频一区| 色婷婷成人在线| 粉嫩绯色av一区二区在线观看| 国产精品久久无码| 国产精品青草久久| 久久久久亚洲av片无码下载蜜桃| 亚洲电影一区二区| 一级黄色av片| 日韩精品一区二区在线观看| 亚洲 欧美 激情 小说 另类| 伊人伊成久久人综合网小说| 怡红院av在线| 欧美在线激情视频| 不卡精品视频| 成人亲热视频网站| 欧亚精品一区| 中文字幕制服丝袜在线| 最新亚洲一区| 中文字幕 日韩 欧美| 国产成人a级片| 夜夜春很很躁夜夜躁| 亚洲一区国产视频| 午夜一区二区三区四区| 欧美一区二区三区在线看| 深夜福利视频一区| 美女少妇精品视频| 日韩欧美一区二区三区在线观看 | 国产在线欧美| 成人亚洲视频在线观看| 成人精品国产福利| 亚洲色偷偷综合亚洲av伊人| 欧美日韩中文字幕在线视频| 国产aⅴ爽av久久久久成人| 亚洲欧美日韩一区二区三区在线| 特级毛片在线| 成人免费福利视频| 国产精品三级| 91好吊色国产欧美日韩在线| 国产专区欧美精品| 成人18视频免费69| 一本久道久久综合中文字幕| 亚洲xxxx天美| 久久精品人人做人人爽| 欧美羞羞视频| 国产精品一区二区三区在线| 偷拍欧美精品| www.色就是色| 久久免费视频一区| 日本亚洲色大成网站www久久| 欧美一区二区三区视频在线| 九色网友自拍视频手机在线| 国模视频一区二区| 136导航精品福利| 亚洲av综合色区| 国产裸体歌舞团一区二区| 国产欧美一区二区三区在线观看视频| 欧美日韩国产综合新一区 | 99久久精品费精品国产一区二区| 一区二区三区影视| 欧美片网站yy| 尤物在线视频| 国产精品自拍网| 欧美理论在线播放| 久久久久久久片| 国产亚洲精品精华液| av一级在线观看| 亚洲精品丝袜日韩| 精品91久久| 欧美日韩亚洲综合一区二区三区激情在线 | 中文在线资源观看视频网站免费不卡| 校园春色亚洲| 免费观看成人高| 日韩精品久久久久久| 中文字幕成人动漫| 日本大香伊一区二区三区| 国内三级在线观看| 国产精品高清在线| 日韩欧美一区二区三区在线视频 | 国产一区二区动漫| 国产麻豆久久| 亚洲精品中字| 激情图片小说一区| 亚洲国产成人精品综合99| 日韩免费一区二区| 波多野结衣在线高清| 国产美女精品久久久| 亚洲精品视频啊美女在线直播| 国产精品久久久久久亚洲色| 丁香五六月婷婷久久激情| 嫩草在线播放| 国产伦精品一区二区三区精品视频 | 欧美精品一区二区三区蜜桃| a级大胆欧美人体大胆666| 久久精品人成| 免费久久99精品国产| 制服丨自拍丨欧美丨动漫丨| 日韩三级视频在线看| 白浆在线视频| 玛丽玛丽电影原版免费观看1977 | 超碰国产在线| 成人性生交大片免费看视频直播| 韩国欧美一区| 欧美激情亚洲色图| 91精品国产综合久久久久久久久久| 色呦呦在线资源| 麻豆亚洲一区| 国产精一区二区三区| wwwxxx亚洲| 久久久av一区| 天堂日韩电影| 极品粉嫩美女露脸啪啪| 亚洲高清不卡在线| 不卡在线视频| 国产精品久久久久免费| 日韩成人一区二区| 久一视频在线观看| 亚洲人成人99网站| 日韩中文在线| 99视频免费播放| 亚瑟在线精品视频| av电影在线网| 精品欧美一区二区精品久久| 麻豆国产欧美一区二区三区| 青娱乐国产在线视频| 国产亚洲精品久久久久久牛牛| 日韩一区二区三区精品视频第3页| 久久精品99国产| 一区二区欧美视频| 97电影在线观看| 久久精品二区|