精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等

發(fā)布于 2024-11-14 15:09
瀏覽
0收藏

一、背景

最近在看騰訊最新混元大模型的 Paper 時([2411.02265] Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [1]),看到了如下關(guān)于計算 Budget 的公式

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

由于我們的工作中也會經(jīng)常根據(jù)計算資源 Budget 評估 LLM 預(yù)訓(xùn)練時間,而該公式與我們平常的計算方式不太一致;此外,如下圖所示,我們也看到很多文章中將上述公式中的第二項理解為長序列情況下 Attention 的額外計算開銷,而將 6ND -> 9.6ND 看成 Router 引入的開銷,與我們的計算結(jié)論也非常不一致,因此本文中我們簡單回顧一下相關(guān)內(nèi)容。

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

本文中的很多內(nèi)容我們在之前的文章中已經(jīng)介紹過,具體可以參考:

  • LLaMA 3 技術(shù)報告解讀:全面梳理 LLM 相關(guān)技術(shù)棧
  • 萬卡 GPU 集群實戰(zhàn):探索 LLM 預(yù)訓(xùn)練的挑戰(zhàn)

二、LLM 參數(shù)量&計算量

2.1 Dense LLM 參數(shù)量

標(biāo)準(zhǔn) Transformer 模型不管是 Encoder Only 的 Bert 系列模型,還是 Decoder Only 的 GPT 系列模型,同配置下參數(shù)量和計算量都是類似的。其中的一個關(guān)鍵點是:標(biāo)準(zhǔn) Transformer Block 輸入、輸出以及中間 Attention Out 的 Hidden Dim 是保持不變的,也就是一直是 Token Embedding 的 Hidden Dim。所有的 Transformer Block 都非常規(guī)整。

如下圖 Figure 1 Encoder 所示(圖片來自 [2302.14017] Full Stack Optimization of Transformer Inference: a Survey [2]),主要參數(shù)都來自幾個矩陣乘的 Weight 矩陣,其中 d 表示 Token Embedding 的 Hidden Dim,l 表示 Token 數(shù),h 表示 MHA 中的 Head 個數(shù),dFFN 表示 FFN 層中間升維后的 Dim。具體來說:

  • MHA紅框:Wq,Wk,Wv 的大小都是 d x d。當(dāng)然這里也可以從 h 個 Head 的角度去看,則每個 Head 的 Wq,Wk,Wv 為 d x d/h,實際上參數(shù)量和計算量都是等價的。
  • MHA藍(lán)框:在 MHA 的最后還有一個矩陣乘操作,對應(yīng)的 Wout 維度依然為 d x d。
  • FFN綠框:在標(biāo)準(zhǔn) Transformer 的 FFN 中有兩個 Linear 層,先升維再降維,對應(yīng)的 Weight 矩陣 W1 和 W2 的大小都是 dFFN x d,并且標(biāo)準(zhǔn)的 dFFN 為 4d,也就是說 FFN 處兩個權(quán)重矩陣的參數(shù)量為 8d x d。?

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

綜上,在標(biāo)準(zhǔn)的 Transformer 模型或者 LLaMA 系列(MHA)中,如果忽略詞表、Embedding、LayerNorm 等參數(shù)后,總參數(shù)量為(所有 Transformer Block):

N = nlayer *(nmha + nffn) = nlayer *(3d*d + d*d + 8d*d) = 12*nlayer*d*d

2.2 LLaMA LLM 參數(shù)量

2.2.1 SwiGLU

在 LLaMA 等模型中在 FFN 中會使用 SwiGLU 激活,這也就導(dǎo)致其會額外多了一個權(quán)重矩陣,如下圖所示:

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

在 LLaMA-1 的 Paper([2302.13971] LLaMA: Open and Efficient Foundation Language Models [3])中作者提到,使用 SwiGLU 后將 dFFN 從 4d 降低到了 8d/3。這樣 3 個權(quán)重矩陣的參數(shù)量還是 8d,總的參數(shù)量依然可以使用 12*nlayer*d*d 預(yù)估。

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

2.2.2 GQA

之前公式對應(yīng)的是 MHA(Multi Head Attention),這也是 LLaMA-1 系列模型的標(biāo)準(zhǔn)實現(xiàn)。不過,LLaMA-2 的 30B 和 70B 模型以及 LLaMA-3 的全部模型都開始使用 GQA(Grouped Query Attention)。使用 GQA 時,多個 Attention Head 會共享一個 Key 和 Value,比如常見的配置是每 4 或 8 個 Head 共享相同的 Key 和 Value,此時 Wk,Wv 的大小會變?yōu)?d x d/g,其中 g 表示每 g 個 Head 共享相同的 Key 和 Value。

在 LLaMA 2 的 Paper([2307.09288] Llama 2: Open Foundation and Fine-Tuned Chat Models [4])中,作者提到,為了保持使用 GQA 和使用 MHA 的總參數(shù)量保持不變,對于 GQA 模型,會將 FFN Dim 維度乘以 1.3(PS:不確定 1.3 是怎么來的):

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

比如 LLaMA 2 70B 的 d 為 8192,dFFN 為 28672,如下圖所示,大概計算方式為(512 對齊):

int(int(8192*8/3*1.3+512-1)/512)*512=28672

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

比較奇怪的的是 CodeLLaMA 34B 中使用了 GQA,但并未乘以 1.3(雖然 LLaMA 2 34B 未開源,但 LLaMA 2 34B 與 CodeLLaMA 34B 一樣,也就是說 LLaMA 2 34B 中也未乘以 1.3)。如下圖所示,其中 d 為 8192,dFFN 為 22016,大概計算方式為(512 對齊):

int(int(8192*8/3+512-1)/512)*512=22016

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

其實關(guān)于 dFFN 的數(shù)值在 LLaMA 3.1 早期的技術(shù)報告中也鬧過烏龍,如下圖 Table 3 所示,其直接將 dFFN 寫成為 3d/2:

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

如下圖 Table 3 所示,Meta 在 Arxiv 上的 Paper([2407.21783] The Llama 3 Herd of Models [5])中已經(jīng)修正了這個問題,比如對于 8B 模型,d 為 4096,dFFN 為 14336,大概計算方式為(512 對齊):

int(int(4096*8/3*1.3+512-1)/512)*512=14336

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

2.2.3 LLaMA 3

經(jīng)過上述調(diào)整之后,LLaMA 3 不再是標(biāo)準(zhǔn)的 Transformer Block,此時使用 N=12*d*d 來預(yù)估參數(shù)量已經(jīng)不太準(zhǔn)確。但依舊可以將其按照(Wq,Wout)(Wk,Wv),WFFN 和 WEmb 4 個部分來統(tǒng)計。比如,對于 LLaMA 3 模型,我們可以按照下述方式估計其參數(shù)量:

N = nlayer *(2d*d + 2d*d*kv/h + 3d*dFFN)+2*Vocab*d

根據(jù)上述公式,可以推算出上述不同模型的參數(shù)量:

8B:32*(4096*4096*(2+2*8/32)+3*4086*14336)+2*128000*4096=8B

70B:80*(8192*8192*(2+2*8/64)+3*8192*28672)+2*128000*8192=70B

405B:126*(16384*16384*(2+2*8/128)+3*16384*53248)+2*128000*16384=405B

2.3 Dense LLM 計算量

其實整體的計算量(僅考慮 Forward 操作)也是集中在模型中的一些矩陣乘法,包括:

  • MHA紅框:Wq,Wk,Wv 對應(yīng)的計算量都為 2 x (d x d x l),其中 2 表示一個乘法和一個加法。
  • MHA藍(lán)框:Wout 對應(yīng)的計算量為 2 x (d x d x l)。
  • MHA Attention(綠色方塊):2 x (l x d/h x l + l x d/h x l) x h = 4 x d x l x l。需要說明的是,如果是 Decoder(LLM),由于 Causal Mask 的存在,此處的計算量應(yīng)該減半,也就是 2 x d x l x l。
  • FFN綠框:W1 和 W2 對應(yīng)的計算量為 2 x (dFFN x d x l) 和 2 x (d x dFFN x l)。LLaMA 的 SwiGLU 類似。?

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

也可參考  [2302.14017] Full Stack Optimization of Transformer Inference: a Survey 中的 Table 2,其中列出了相應(yīng)矩陣乘操作的 Dim,也就可以推出對應(yīng)的計算量:

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

綜上,在標(biāo)準(zhǔn)的 Transformer 模型或者 LLaMA 系列(MHA)中,如果忽略詞表、Embedding、LayerNorm 等模塊,總計算量為(所有 Transformer Block):

C = nlayer *(cmha + cffn) = nlayer *2*(3d*d*l + d*d*l + d*l*l + 8d*d*l)

C =  24*nlayer*d*d*l + 2*nlayer*d*l*l = 2*N*l + 2*nlayer*d*l*l

由于大部分情況下預(yù)訓(xùn)練的序列長度 l 遠(yuǎn)小于 12d,比如:

  • LLaMA-1 7B 的 d 為 4K,預(yù)訓(xùn)練的 l 為 2K。
  • LLaMA-2 7B 的 d 為 4K,預(yù)訓(xùn)練的 l 為 4K。
  • LLaMA-3 8B 的 d 為 4K,預(yù)訓(xùn)練的 l 為 8K。

同理,如果是 Encoder 模型,比如 Bert,總的計算量為:

C = nlayer *2*(3d*d*l + d*d*l + 2*d*l*l + 8d*d*l) = 2*N*l + 4*nlayer*d*l*l

PS:其實不管模型中是否使用 GQA,是否使用 SwiGLU 或者像 LLaMA 中那樣將 FFN Dim 再乘以 1.3,其計算量還都可以用 C=2*N*l + 2*nlayer*d*l*l 來近似。

在 Scaling Law 的原始 Paper([2001.08361] Scaling Laws for Neural Language Models [6])中也有類似的計算公式,如下圖 Table 1 所示,可以看出其推導(dǎo)結(jié)論與上述我們的計算方式也基本一致,只不過紅框中為每個 Token 的計算量:

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

假設(shè)數(shù)據(jù)集中總共包含 D 個 Token,對于序列不是特別長的場景,所有 Token Forward的計算量可以近似為 C=2*N*D。

2.4 LLM 訓(xùn)練計算量

模型的訓(xùn)練包含 Forward 和 Backward 過程,如下圖 Figure 1 所示,Backward 過程實際上包含兩部分,一部分是對輸入的梯度(鏈?zhǔn)椒▌t),一部分是對權(quán)重的梯度。其實這兩部分主要的計算量都是矩陣乘法,并且大小與 Forward中的大小一致,因此往往會直接近似 Backward 的計算量為 Forward 的 2 倍。 

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

綜上,訓(xùn)練總的計算量(參數(shù)更新計算量比較小,這里先忽略)為:

C = Forward + Backward = 6*N*D。

需要說明的是,在 [2104.04473] Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM [7] 中 NVIDIA 使用了 Activation 重計算,所以需要多一次 Forward 操作,相應(yīng)總的計算量為:

C = 2*Forward + Backward = 8*N*D。

2.5 MoE LLM 計算量

MoE(Mixture of Experts)與標(biāo)準(zhǔn) Transformer 模型的不同在于:MoE 模型將 Transformer 模型的 FFN Block 替換為 MoE Block,其中 MoE Block 由多個 Expert 組成,每一個 Expert 都是標(biāo)準(zhǔn)的 FFN,實際計算時每個 Token 都會經(jīng) Router 選擇 1 個或多個 Expert,然后執(zhí)行類似 FFN 的計算。如下圖所示(圖片來自 A Visual Guide to Mixture of Experts (MoE) [8]):

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

由于 Router 的計算量通常很小,常常可以忽略。如果不考慮 Router 引入的計算量,由于上述每個 Expert 實際上與非 MoE 模型的 FFN 一樣,因此也可以用同樣的方式推導(dǎo)出訓(xùn)練時每個 Token 的計算量依然為 C=6*N*D,只不過這里的 N 不再是整個模型的參數(shù)量,而是每個 Token 激活的參數(shù)量。

如下圖所示,論文 [2402.07871] Scaling Laws for Fine-Grained Mixture of Experts [9] 中,作者也推到過 MoE 中計算量的公式,為了普適性,作者考慮了細(xì)粒度專家的場景,具體來說:

  • G(Granularity):表示粒度,也就是將一個完整的 FFN 切分為多少個細(xì)粒度的專家,比如一個 FFN 可以切分為 8 個小專家,每個專家的參數(shù)量為原始 FFN 的 1/8。
  • E(Expansion rate):表示膨脹率,也就是所有專家的參數(shù)量擴展為單個標(biāo)準(zhǔn) FFN 參數(shù)量的多少倍。比如,G=8,總共 64 個細(xì)粒度專家,則這里的 E=64/8=8,相當(dāng)于有 8 個同標(biāo)準(zhǔn)規(guī)模的 FFN。
  • cf:表示除 Router 之外的計算量與參數(shù)量的比值,也就是我們上述得到的 6。
  • cr:表示 Router 的計算量與參數(shù)量的比值,對于比較簡單的 Router,通常為 6-20。?

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

從上述介紹也可以看出,通常 E*G 遠(yuǎn)小于 dmodel,因此也就可以忽略 Router 處的計算量。

2.6 Hunyuan MoE 參數(shù)量

首先使用之前的公式來計算 Hunyuan MoE 的總參數(shù)量和激活參數(shù)量,還是按照(Wq,Wout)(Wk,Wv),WFFN 和 WEmb 4 個部分:

  • Wq,Wout:依舊是 2 x d x d
  • Wk,Wv:由于使用了 GQA + CLA,每層 80 個 Head,并且只有 8 個 Key/Value Head,而 CLA 每 2 層共享 KV,等效于每層的 WK 和 WV 為 d x d/ 20。
  • WFFN:每層 17 個 Expert,但每個 Token 激活 2 個 Expert。相當(dāng)于 MoE Layer 的總參數(shù)量為 17 x 3 x d x dFFN,激活參數(shù)量為 2 x 3 x d x dFFN。
  • WEmb:由于 tie_word_embeddings 為 True,因此共享 Embedding,參數(shù)量為 vocab_size x d。

根據(jù)上述 4 個部分,可以得出與論文一致的參數(shù)量(389B,52B):

總參數(shù)量:

64*(2*6400*6400+2/20*6400*6400+3*17*6400*18304)+128512*6400=388.7B

激活參數(shù)量:

64*(2*6400*6400+2/20*6400*6400+3*2*6400*18304)+128512*6400=51.3B

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

2.7 Hunyuan MoE 計算量

我們重新回顧 Hunyuan MoE 中的計算量 C,如下圖 Table 1 所示為 Hunyuan MoE 的模型配置。如下圖所示,作者提到其序列長度可以達(dá)到 8K,32K,256K。

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

這里以最短的 8K 序列長度為例。由于我們之前計算過,每個 Token 在 Attention 處忽略的計算量為 2*nlayer*nctx*d,相應(yīng)可以得出 Attention 額外的計算量為:

2*64*8*1024*6400=6710886400=6.7*109 >> 2.3*108

可以看出,將 2.3x108D 理解為長序列時 Attention 的計算開銷是不合理的。

除此之外,我們之前還忽略了 Router 的計算量,那么如果將其看成 Router 的計算量呢?因為有 16 個 Specialized Expert,相當(dāng)于 EG=16。對于比較簡單的 Router,cr 為 6-20 之間,如下所示推導(dǎo)出 cr 為 35 也可以接受。

64*6400*16*cr=2.3*108  =>  cr =35

按照上述的推導(dǎo),那么 9.59ND 更可能是除 Router 之外的計算量,為什么這里不再是 6ND 呢?作者特意提到了長序列場景,因此我們不再忽略額外的 Attention 計算,從頭推導(dǎo)一下對應(yīng)的 C:

  • 上述激活參數(shù)對應(yīng)的計算量為:6 * 51.3B*D=6ND。
  • 額外的 Attention 的計算量為:6*nctx*6400*nlayer*D4=3.59ND。

如果除了 Router 外總的計算量為 C=9.59ND,可以得出,相當(dāng)于序列長度為 73K:

nctx = 3.59N/6/6400/64 = 74938 = 73K

然而作者在論文中也提到,長文本訓(xùn)練并不需要特別多的 Token,在 32K 和 256K 階段也都只使用了 10B Token,遠(yuǎn)小于預(yù)訓(xùn)練階段的 7T Token。所以依然比較奇怪 9.59 是怎么來的。

2.8 Megatron-LM 計算量計算

如下圖所示為 Megatron-LM 中有關(guān)計算量的計算公式(megatron/training/training.py#L98-L151 [10]),需要說明的是,這里的 expansion_factor 為 12:

  • 第一行的 3 表示 Forward + Backward。
  • 第二行的 2 表示將 Attention Block 和 FFN Block 都分別看成兩組,比如 Attention 中 K 和 V 是一對,Q 和 Out 是一對,Attention 的 Q x K 和 Score x V 是一對。
  • 第三行的 2 表示矩陣乘法中的乘和加,如果從單個 Token 單個矩陣乘的視角,計算量就是參數(shù)量的 2 倍。?

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

三、LLM 訓(xùn)練效率&訓(xùn)練預(yù)估

3.1 MFU & HFU

為了評估 LLM 訓(xùn)練時的效率,業(yè)界通常會使用 Model FLOPS Utilization(MFU) 和 Hardware FLOPS Utilization(HFU) 兩個關(guān)鍵指標(biāo)來評估模型的 Forward 和 Backward 傳播過程中(包括任何的網(wǎng)絡(luò)同步開銷和 DataLoader IO)硬件的利用率。

  • MFU = 預(yù)估 FLOPS/硬件理論 FLOPS。其中,預(yù)估 FLOPS 就是模型訓(xùn)練時理論需要的計算量,并不包括各種優(yōu)化方案額外引入的計算量,比如 Gradient Checkpointing/Activation Recomputation 等引入的額外計算量。
  • HFU = 實際 FLOPS/硬件理論 FLOPS。其中,實際 FLOPS 也就是理論上所有實際發(fā)生的計算量,包含 Gradient checkpointing/Activation Recompution 等引入的額外計算量,因此 HFU 應(yīng)該總是 >= MFU。

如下所示為 Maximizing training throughput using PyTorch FSDP [11] 中 Meta 在 LLM 訓(xùn)練時的 MFU 和 HFU。對于 LLM 訓(xùn)練任務(wù)而言,通常在 A100/A800 GPU 集群中,MFU 可以達(dá)到 50%+,甚至接近 60%;而在 H100/H800 GPU 集群中, MFU 往往不超過 50%。

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

3.2 175B 訓(xùn)練實際預(yù)估

有了以上的計算公式,根據(jù)每個 Token 計算量(6N)、總的 Token 數(shù),以及計算資源就可以大概預(yù)估出訓(xùn)練的總時長。如下所示:

訓(xùn)練天數(shù) = Token 數(shù) * Ctoken / (GPU 數(shù) * GPU FLOPs * MFU * 3600 * 24)

根據(jù)以上公式可以預(yù)估使用 8192 H100-80G GPU(FLOPs 為 989T),10T Token 數(shù)據(jù)訓(xùn)練 175B 模型的天數(shù)為 30 天,其中假設(shè) MFU 為 50%:

10T*6*175B/(8192*989T*50%)/3600/24=30 天

當(dāng)然,上述是理想的估算,實際的訓(xùn)練中往往無法保證一直穩(wěn)定的訓(xùn)練,比如可能出現(xiàn)機器異常導(dǎo)致任務(wù)中斷、降速等,因此在上述理論預(yù)估的基礎(chǔ)上往往會留一定的 Buffer,比如 10% 的 Buffer 時長。

3.3 LLaMA 3 405B 訓(xùn)練實際預(yù)估

對于 LLaMA 3 405B 模型,使用 15T Token,16384 H100 GPU,MFU 為 41%,那么對應(yīng)的理想訓(xùn)練時間為:

15T*6*405B/(16384*989T*41%)/3600/24=42.3 天

然而,Meta 在 LLaMA 3 的技術(shù)報告([2407.21783] The Llama 3 Herd of Models)中介紹 LLaMA 3 的預(yù)訓(xùn)練時間在 54 天左右,比 42.3 天多一些,可能得原因有幾個方面。

其中一個原因可能是其提到的多達(dá) 466 次的訓(xùn)練中斷,其中包括 47 次有計劃中斷,以及 419 次的預(yù)期外中斷。在非預(yù)期中斷中,78% 是硬件問題,例如 GPU 或物理機其他組件的異常,而 GPU 相關(guān)問題占到 58.7%。

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

另一個可能的原因是不同訓(xùn)練階段使用了不同規(guī)模的 GPU 和數(shù)據(jù)量。比如,如下圖 Table 4 所示涉及到 3 種不同的配置:

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

但上述配置并不能與作者介紹的 405B 模型預(yù)訓(xùn)練階段對應(yīng)。比如,作者提到,在訓(xùn)練的早期階段使用比較小的 Batch Size以提高訓(xùn)練穩(wěn)定性,然后會增加 Batch Size 以提高訓(xùn)練效率。具體來說:

  • 初始時 4K 序列長度,一個 Batch 內(nèi) 4M Token,對應(yīng) Global Batch Size 為 1K。
  • 訓(xùn)練 252M Token 后擴展到 8K,共 8M Token,對應(yīng) Global Batch Size 為 1K。
  • 訓(xùn)練到 2.87T Token 時進一步 Double Batch Size,擴展到 16M Token,對應(yīng) Global Batch Size 為 2K。
  • 針對長序列訓(xùn)練:作者分為 6 個階段逐步增加上下文長度,將序列長度從最初的 8K擴展 到最終的 128K,這個階段大約使用了 800B Token。

3.4 其他數(shù)據(jù)

其實很多 Paper 中也會簡單提到其訓(xùn)練模型規(guī)模、訓(xùn)練資源、時長、MFU 等指標(biāo),但往往一筆帶過,如下所示為一些示例:

HunYuan MoE:聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

以上圖中 Nemotron-4 340B 的相應(yīng)配置可以預(yù)估出對應(yīng)的訓(xùn)練時長,可以看出與實際時長非常接近:

0.2T*6*340B/(1536*989T*42.4%)/3600/24=7.3 天

0.2T*6*340B/(3072*989T*42.3%)/3600/24=3.7 天

7.6T*6*340B/(6144*989T*41%)/3600/24=72 天

四、參考鏈接

  1. https://arxiv.org/abs/2411.02265
  2. https://arxiv.org/abs/2302.14017
  3. https://arxiv.org/abs/2302.13971
  4. https://arxiv.org/abs/2307.09288
  5. https://arxiv.org/abs/2407.21783
  6. https://arxiv.org/abs/2001.08361
  7. https://arxiv.org/pdf/2104.04473
  8. https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
  9. https://arxiv.org/abs/2402.07871
  10. https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/training/training.py#L98-L151
  11. https://pytorch.org/blog/maximizing-training/

本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
在线观看麻豆蜜桃| 精品人妻一区二区三区免费看 | 国产精品午夜一区二区欲梦| 九九精品视频免费| 欧美自拍视频| 欧美丰满高潮xxxx喷水动漫| 蜜臀av色欲a片无码精品一区| 经典三级在线| 成人午夜av影视| 国产精品网红直播| 日本一区二区三区四区五区| 欧美韩日高清| 亚洲男女性事视频| 女人扒开腿免费视频app| 桃色一区二区| 亚洲va国产天堂va久久en| 一本色道久久99精品综合| 日韩专区第一页| 国产乱对白刺激视频不卡| 国产成人福利网站| 日韩黄色a级片| 在线成人直播| 丝袜亚洲另类欧美重口| 国产在线观看无码免费视频| 综合激情久久| 51久久夜色精品国产麻豆| 久久久精品三级| 69久成人做爰电影| 亚洲第一搞黄网站| 99视频精品全部免费看| 免费黄色在线观看| 国产亚洲精品aa| 欧美日韩国产高清视频| 天天干,夜夜操| 成人午夜私人影院| 亚洲xxxx18| 国产又粗又长又大视频| 欧美aaa在线| 国产精品劲爆视频| 青娱乐在线免费视频| 国产免费成人| 26uuu亚洲国产精品| 日本熟妇成熟毛茸茸| 黄色亚洲大片免费在线观看| 久久国产精品99国产精| 91 在线视频| 亚洲欧美亚洲| 久久久之久亚州精品露出| 九九久久免费视频| 欧美日韩在线大尺度| 久久97精品久久久久久久不卡 | 亚洲国产综合在线| 国产一级黄色录像片| 国产丝袜在线| 亚洲综合精品久久| 激情五月宗合网| 波多视频一区| 91久久久免费一区二区| 自拍偷拍 国产| 国产精品蜜月aⅴ在线| 欧美日韩国产高清一区| 亚洲理论中文字幕| 嫩呦国产一区二区三区av| 日韩一区二区三区免费观看| 麻豆av免费看| av不卡一区二区| 亚洲第一免费播放区| 好吊日免费视频| av中文一区| 久久精品亚洲热| 妺妺窝人体色www婷婷| av不卡在线| 国产精品久久久久久久久借妻 | 国产在线欧美在线| 一区二区三区导航| 国产suv精品一区二区| 伊人网综合在线| 国产激情精品久久久第一区二区| 国产99午夜精品一区二区三区| 天天干,夜夜爽| 国产精品天美传媒沈樵| av一区二区三区免费观看| 中文在线免费二区三区| 欧美日韩一级二级三级| 麻豆精品国产传媒| 你懂的一区二区三区| 日日狠狠久久偷偷四色综合免费| 久久亚洲国产成人精品性色| 免费视频久久| 成人中文字幕+乱码+中文字幕| 亚洲成人77777| 久久久午夜精品| 日韩亚洲欧美一区二区| 3d欧美精品动漫xxxx无尽| 91精品国产综合久久精品app| 日韩无码精品一区二区| 日韩一区三区| 91av视频导航| 99国产揄拍国产精品| 91色porny| 日本一道在线观看| 国产一区二区三区影视| 精品人在线二区三区| 妖精视频在线观看免费 | 天天影视综合色| а√中文在线天堂精品| 色悠悠久久久久| 国产 日韩 欧美 在线| 国内精品伊人久久久久av一坑| 久久伊人资源站| 四虎影院观看视频在线观看| 欧美优质美女网站| 亚洲人人夜夜澡人人爽| 国产字幕视频一区二区| 国产欧美亚洲精品| 欧美xxx.com| 亚洲国产精品久久久久秋霞影院| 亚洲欧美日韩一级| 美女网站一区| 91成人天堂久久成人| 性一交一乱一精一晶| 国产精品护士白丝一区av| 日韩av黄色网址| 国产精品久久久久久久久久白浆| www.99久久热国产日韩欧美.com| 国产www在线| 成人网男人的天堂| 欧美一区二区三区综合| av在线成人| 日韩天堂在线视频| 伊人网中文字幕| 国产精品五月天| 亚洲乱码国产一区三区| 西瓜成人精品人成网站| 97精品视频在线观看| 成人久久久精品国产乱码一区二区| 亚洲天堂免费看| 国产原创精品在线| 国产精品99久久| 国产精品一区二区三区毛片淫片| 国产天堂在线| 色噜噜狠狠成人中文综合 | 国产av一区二区三区精品| 国产精品久久久久久久久免费桃花| 日韩在线第三页| 国产精品最新| 国产精品狠色婷| 国产午夜在线观看| 欧美日韩卡一卡二| 尤物在线免费视频| 国产精品白丝jk白祙喷水网站| 熟妇熟女乱妇乱女网站| 欧美黄视频在线观看| 欧美疯狂性受xxxxx另类| www.久久伊人| 午夜精品久久久久影视| 欧美色图亚洲激情| 日韩和欧美一区二区三区| 日韩一区免费观看| 一区二区三区| 久久久久免费视频| 亚洲欧洲视频在线观看| 日韩欧美一区二区三区久久| 18精品爽国产三级网站| 国产一区二区三区不卡在线观看| 影音先锋成人资源网站| 国产精品网址| 国产91在线播放九色快色| 婷婷五月在线视频| 日韩写真欧美这视频| 日韩av一二三区| 久久婷婷色综合| 性生生活大片免费看视频| 欧美日韩一视频区二区| 美女黄毛**国产精品啪啪| 视频一区在线免费看| 久热爱精品视频线路一| 午夜在线视频观看| 欧美日本一区二区三区四区| 久久亚洲AV无码| 中文字幕欧美激情一区| 在线观看免费看片| 亚洲一区一卡| 久久99国产精品一区| 欧美大胆a级| 国产精品免费一区豆花| 青春草在线视频| 国产一区二区三区在线看| 国产精品久久久久久免费免熟| 午夜一区二区三区视频| 你懂得视频在线观看| 国产xxx精品视频大全| 成人亚洲视频在线观看| 午夜日韩在线| 日韩.欧美.亚洲| 综合久久成人| 国产精品主播视频| 欧美日韩国产观看视频| 久久亚洲精品网站| 免费一级在线观看播放网址| 日韩欧美亚洲一区二区| 久久这里只有精品9| 亚洲国产精品久久一线不卡| 欧美成人短视频| 2021国产精品久久精品| 成年人看片网站| 久久精品国产99| 各处沟厕大尺度偷拍女厕嘘嘘| 五月久久久综合一区二区小说| 久久久精品动漫| av一级亚洲| 国产有码一区二区| 欧洲成人一区| 欧美壮男野外gaytube| 日本片在线看| 久久亚洲春色中文字幕| 成人在线视频成人| 亚洲欧美另类人妖| 天天综合网天天综合| 欧美一区二区三区免费在线看 | 亚洲在线播放电影| 一区二区小说| 精品91免费| 国产在线播放精品| 99久久精品久久久久久ai换脸| 色综合久久久| 国产美女久久精品| 日本高清不卡一区二区三区视频| 欧美大片欧美激情性色a∨久久| 日本在线免费播放| 最好看的2019年中文视频| 青青草视频免费在线观看| 亚洲国产精品久久久久久| 超碰福利在线观看| 日韩视频中午一区| 精品国产伦一区二区三区| 欧美精品欧美精品系列| 91麻豆一区二区| 欧美一区二区网站| 国产精品伦一区二区三区| 欧美丰满一区二区免费视频| 一区二区美女视频| 91精品国产综合久久香蕉的特点| 91在线你懂的| 欧美一级高清大全免费观看| 99久久精品国产一区二区成人| 9191久久久久久久久久久| 国产免费av电影| 日韩视频在线永久播放| www.欧美国产| 亚洲精品国产精品国自产观看浪潮| 国产综合无码一区二区色蜜蜜| 欧美r级电影在线观看| 国产小视频一区| 日韩久久午夜影院| 国产一级片在线播放| 自拍偷拍亚洲精品| 国产在线高清视频| 欧美黄色片视频| 妞干网免费在线视频| 国产精品aaa| 久久免费影院| 国产高清不卡av| 免费看日本一区二区| 亚洲欧美日韩精品在线| 欧美成人tv| 9久久9毛片又大又硬又粗| 日韩国产成人精品| 91视频福利网| 99天天综合性| 少妇愉情理伦三级| 亚洲精品乱码久久久久久黑人| 四虎永久在线精品| 欧美午夜电影在线播放| 国产av一区二区三区| 亚洲男人的天堂网站| 日本激情在线观看| 久久露脸国产精品| 精品成人免费一区二区在线播放| 成人激情春色网| 欧美国产不卡| 色香蕉在线观看| 亚洲女同同性videoxma| 999在线观看| 97精品电影院| 亚洲欧美精品aaaaaa片| 精品日韩美女的视频高清| 91久久久久国产一区二区| 亚洲电影免费观看高清完整版在线观看 | 日韩一级二级| 国产91色在线|亚洲| jvid福利在线一区二区| 超碰成人免费在线| 久草这里只有精品视频| 国产毛片毛片毛片毛片毛片毛片| 中文字幕电影一区| 香蕉免费毛片视频| 91精品国产综合久久香蕉的特点| 成人免费视频入口| 日韩在线精品| 国精产品一区一区三区有限在线| 欧美xnxx| 久久久久久九九| 午夜天堂精品久久久久| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 国产一区二区在线观看免费| 欧美做受高潮6| 婷婷丁香激情综合| 精品国产av一区二区| 这里只有精品丝袜| 美女福利一区二区| 成人综合av网| 五月天综合网站| 熟妇人妻无乱码中文字幕真矢织江| 国产超碰在线一区| 欧美视频www| 欧美精品久久一区二区三区| 国产福利片在线| 日本成熟性欧美| 高清一区二区三区| 日韩精品免费一区| 国产精品一区二区不卡| 波多野结衣家庭教师在线观看| 日韩欧美a级成人黄色| 日本美女一级视频| 久久久久久久成人| 亚洲网一区二区三区| 欧美性受xxxx黑人猛交88| 六月丁香婷婷久久| 懂色av粉嫩av蜜臀av一区二区三区| 在线视频亚洲一区| 精品亚洲成a人片在线观看| 欧美亚洲第一页| 羞羞色国产精品网站| 欧美深夜福利视频| av高清不卡在线| 日韩美女视频网站| 亚洲精品按摩视频| 成人ssswww在线播放| 久久国产精品一区二区三区| 一区二区三区福利| 亚洲天堂视频一区| 91国偷自产一区二区三区观看 | 久久亚洲精品国产精品紫薇| 日韩av在线播放观看| 亚洲精品suv精品一区二区| 欧美伦理免费在线| 国产一区国产精品| 先锋影音久久久| 日本二区在线观看| 欧美中文字幕不卡| 国产原创视频在线观看| 亚洲综合小说区| 亚洲黄色大片| 无码人妻精品一区二区三区温州| 精品女厕一区二区三区| 国产资源在线观看| 国产日韩欧美另类| 欧美涩涩视频| 亚洲人人夜夜澡人人爽| 精品污污网站免费看| 午夜视频在线观看网站| 91精品国产一区二区三区动漫| 欧美精品麻豆| 香蕉视频黄色在线观看| 欧美亚洲愉拍一区二区| h网站久久久| 久久精品第九区免费观看| 日av在线不卡| 精品午夜福利在线观看| 国产视频在线观看一区二区| 国产a亚洲精品| 成人免费在线网| 国产三级精品三级在线专区| 国产免费黄色网址| 午夜精品一区二区三区av| 精品久久久亚洲| 中文字幕无人区二| 欧美视频中文字幕在线| 免费在线视频欧美| 国产一区喷水| 美女国产一区二区| 日本熟女一区二区| 精品国产一区二区三区久久狼5月| 亚洲一区二区三区四区电影| 男女曰b免费视频| 一区二区三区成人| 国产午夜视频在线观看| 国产精品三区四区| 蜜臀精品久久久久久蜜臀| 久久久久亚洲天堂| 中文字幕欧美日韩| 国产亚洲成av人片在线观黄桃| 一区二区成人网| 亚洲国产cao| 国产福利在线播放麻豆| 美女主播视频一区| 成人午夜碰碰视频| 国产精品嫩草影院精东| 国产成人一区二区三区小说|