精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<strike id="csqm0"><rt id="csqm0"></rt></strike>

<del id="csqm0"></del><abbr id="csqm0"></abbr>

<ul id="csqm0"></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等

發(fā)布于 2024-11-20 15:04

瀏覽

0收藏

一、背景

最近在看騰訊最新混元大模型的 Paper 時（[2411.02265] Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [1]），看到了如下關(guān)于計算 Budget 的公式

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

由于我們的工作中也會經(jīng)常根據(jù)計算資源 Budget 評估 LLM 預(yù)訓(xùn)練時間，而該公式與我們平常的計算方式不太一致；此外，如下圖所示，我們也看到很多文章中將上述公式中的第二項理解為長序列情況下 Attention 的額外計算開銷，而將 6ND -> 9.6ND 看成 Router 引入的開銷，與我們的計算結(jié)論也非常不一致，因此本文中我們簡單回顧一下相關(guān)內(nèi)容。

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

本文中的很多內(nèi)容我們在之前的文章中已經(jīng)介紹過，具體可以參考：

??LLaMA 3 技術(shù)報告解讀：全面梳理 LLM 相關(guān)技術(shù)棧??
??萬卡 GPU 集群實戰(zhàn)：探索 LLM 預(yù)訓(xùn)練的挑戰(zhàn)??

二、LLM 參數(shù)量&計算量

2.1 Dense LLM 參數(shù)量

標(biāo)準(zhǔn) Transformer 模型不管是 Encoder Only 的 Bert 系列模型，還是 Decoder Only 的 GPT 系列模型，同配置下參數(shù)量和計算量都是類似的。其中的一個關(guān)鍵點是：標(biāo)準(zhǔn) Transformer Block 輸入、輸出以及中間 Attention Out 的 Hidden Dim 是保持不變的，也就是一直是 Token Embedding 的 Hidden Dim。所有的 Transformer Block 都非常規(guī)整。

如下圖 Figure 1 Encoder 所示（圖片來自 [2302.14017] Full Stack Optimization of Transformer Inference: a Survey [2]），主要參數(shù)都來自幾個矩陣乘的 Weight 矩陣，其中 d 表示 Token Embedding 的 Hidden Dim，l 表示 Token 數(shù)，h 表示 MHA 中的 Head 個數(shù)，dFFN 表示 FFN 層中間升維后的 Dim。具體來說：

MHA紅框：Wq，Wk，Wv 的大小都是 d x d。當(dāng)然這里也可以從 h 個 Head 的角度去看，則每個 Head 的 Wq，Wk，Wv 為 d x d/h，實際上參數(shù)量和計算量都是等價的。
MHA藍(lán)框：在 MHA 的最后還有一個矩陣乘操作，對應(yīng)的 Wout 維度依然為 d x d。
FFN綠框：在標(biāo)準(zhǔn) Transformer 的 FFN 中有兩個 Linear 層，先升維再降維，對應(yīng)的 Weight 矩陣 W1 和 W2 的大小都是 dFFN x d，并且標(biāo)準(zhǔn)的 dFFN 為 4d，也就是說 FFN 處兩個權(quán)重矩陣的參數(shù)量為 8d x d。?

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

綜上，在標(biāo)準(zhǔn)的 Transformer 模型或者 LLaMA 系列（MHA）中，如果忽略詞表、Embedding、LayerNorm 等參數(shù)后，總參數(shù)量為（所有 Transformer Block）：

N = nlayer *(nmha + nffn) = nlayer *(3d*d + d*d + 8d*d) = 12*nlayer*d*d

2.2 LLaMA LLM 參數(shù)量

2.2.1 SwiGLU

在 LLaMA 等模型中在 FFN 中會使用 SwiGLU 激活，這也就導(dǎo)致其會額外多了一個權(quán)重矩陣，如下圖所示：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

在 LLaMA-1 的 Paper（[2302.13971] LLaMA: Open and Efficient Foundation Language Models [3]）中作者提到，使用 SwiGLU 后將 dFFN 從 4d 降低到了 8d/3。這樣 3 個權(quán)重矩陣的參數(shù)量還是 8d，總的參數(shù)量依然可以使用 12*nlayer*d*d 預(yù)估。

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

2.2.2 GQA

之前公式對應(yīng)的是 MHA（Multi Head Attention），這也是 LLaMA-1 系列模型的標(biāo)準(zhǔn)實現(xiàn)。不過，LLaMA-2 的 30B 和 70B 模型以及 LLaMA-3 的全部模型都開始使用 GQA（Grouped Query Attention）。使用 GQA 時，多個 Attention Head 會共享一個 Key 和 Value，比如常見的配置是每 4 或 8 個 Head 共享相同的 Key 和 Value，此時 Wk，Wv 的大小會變?yōu)?d x d/g，其中 g 表示每 g 個 Head 共享相同的 Key 和 Value。

在 LLaMA 2 的 Paper（[2307.09288] Llama 2: Open Foundation and Fine-Tuned Chat Models [4]）中，作者提到，為了保持使用 GQA 和使用 MHA 的總參數(shù)量保持不變，對于 GQA 模型，會將 FFN Dim 維度乘以 1.3（PS：不確定 1.3 是怎么來的）：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

比如 LLaMA 2 70B 的 d 為 8192，dFFN 為 28672，如下圖所示，大概計算方式為（512 對齊）：

int(int(8192*8/3*1.3+512-1)/512)*512=28672

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

比較奇怪的的是 CodeLLaMA 34B 中使用了 GQA，但并未乘以 1.3（雖然 LLaMA 2 34B 未開源，但 LLaMA 2 34B 與 CodeLLaMA 34B 一樣，也就是說 LLaMA 2 34B 中也未乘以 1.3）。如下圖所示，其中 d 為 8192，dFFN 為 22016，大概計算方式為（512 對齊）：

int(int(8192*8/3+512-1)/512)*512=22016

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

其實關(guān)于 dFFN 的數(shù)值在 LLaMA 3.1 早期的技術(shù)報告中也鬧過烏龍，如下圖 Table 3 所示，其直接將 dFFN 寫成為 3d/2：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

如下圖 Table 3 所示，Meta 在 Arxiv 上的 Paper（[2407.21783] The Llama 3 Herd of Models [5]）中已經(jīng)修正了這個問題，比如對于 8B 模型，d 為 4096，dFFN 為 14336，大概計算方式為（512 對齊）：

int(int(4096*8/3*1.3+512-1)/512)*512=14336

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

2.2.3 LLaMA 3

經(jīng)過上述調(diào)整之后，LLaMA 3 不再是標(biāo)準(zhǔn)的 Transformer Block，此時使用 N=12*d*d 來預(yù)估參數(shù)量已經(jīng)不太準(zhǔn)確。但依舊可以將其按照（Wq，Wout）（Wk，Wv），WFFN 和 WEmb 4 個部分來統(tǒng)計。比如，對于 LLaMA 3 模型，我們可以按照下述方式估計其參數(shù)量：

N = nlayer *(2d*d + 2d*d*kv/h + 3d*dFFN)+2*Vocab*d

根據(jù)上述公式，可以推算出上述不同模型的參數(shù)量：

8B：32*(4096*4096*(2+2*8/32)+3*4086*14336)+2*128000*4096=8B

70B：80*(8192*8192*(2+2*8/64)+3*8192*28672)+2*128000*8192=70B

405B：126*(16384*16384*(2+2*8/128)+3*16384*53248)+2*128000*16384=405B

2.3 Dense LLM 計算量

其實整體的計算量（僅考慮 Forward 操作）也是集中在模型中的一些矩陣乘法，包括：

MHA紅框：Wq，Wk，Wv 對應(yīng)的計算量都為 2 x (d x d x l)，其中 2 表示一個乘法和一個加法。
MHA藍(lán)框：Wout 對應(yīng)的計算量為 2 x (d x d x l)。
MHA Attention（綠色方塊）：2 x (l x d/h x l + l x d/h x l) x h = 4 x d x l x l。需要說明的是，如果是 Decoder（LLM），由于 Causal Mask 的存在，此處的計算量應(yīng)該減半，也就是 2 x d x l x l。
FFN綠框：W1 和 W2 對應(yīng)的計算量為 2 x (dFFN x d x l) 和 2 x (d x dFFN x l)。LLaMA 的 SwiGLU 類似。?

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

也可參考 [2302.14017] Full Stack Optimization of Transformer Inference: a Survey 中的 Table 2，其中列出了相應(yīng)矩陣乘操作的 Dim，也就可以推出對應(yīng)的計算量：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

綜上，在標(biāo)準(zhǔn)的 Transformer 模型或者 LLaMA 系列（MHA）中，如果忽略詞表、Embedding、LayerNorm 等模塊，總計算量為（所有 Transformer Block）：

C = nlayer *(cmha + cffn) = nlayer *2*(3d*d*l + d*d*l + d*l*l + 8d*d*l)

C = 24*nlayer*d*d*l + 2*nlayer*d*l*l = 2*N*l + 2*nlayer*d*l*l

由于大部分情況下預(yù)訓(xùn)練的序列長度 l 遠(yuǎn)小于 12d，比如：

LLaMA-1 7B 的 d 為 4K，預(yù)訓(xùn)練的 l 為 2K。
LLaMA-2 7B 的 d 為 4K，預(yù)訓(xùn)練的 l 為 4K。
LLaMA-3 8B 的 d 為 4K，預(yù)訓(xùn)練的 l 為 8K。

同理，如果是 Encoder 模型，比如 Bert，總的計算量為：

C = nlayer *2*(3d*d*l + d*d*l + 2*d*l*l + 8d*d*l) = 2*N*l + 4*nlayer*d*l*l

PS：其實不管模型中是否使用 GQA，是否使用 SwiGLU 或者像 LLaMA 中那樣將 FFN Dim 再乘以 1.3，其計算量還都可以用 C=2*N*l + 2*nlayer*d*l*l 來近似。

在 Scaling Law 的原始 Paper（[2001.08361] Scaling Laws for Neural Language Models [6]）中也有類似的計算公式，如下圖 Table 1 所示，可以看出其推導(dǎo)結(jié)論與上述我們的計算方式也基本一致，只不過紅框中為每個 Token 的計算量：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

假設(shè)數(shù)據(jù)集中總共包含 D 個 Token，對于序列不是特別長的場景，所有 Token Forward的計算量可以近似為 C=2*N*D。

2.4 LLM 訓(xùn)練計算量

模型的訓(xùn)練包含 Forward 和 Backward 過程，如下圖 Figure 1 所示，Backward 過程實際上包含兩部分，一部分是對輸入的梯度（鏈?zhǔn)椒▌t），一部分是對權(quán)重的梯度。其實這兩部分主要的計算量都是矩陣乘法，并且大小與 Forward中的大小一致，因此往往會直接近似 Backward 的計算量為 Forward 的 2 倍。

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

綜上，訓(xùn)練總的計算量（參數(shù)更新計算量比較小，這里先忽略）為：

C = Forward + Backward = 6*N*D。

需要說明的是，在 [2104.04473] Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM [7] 中 NVIDIA 使用了 Activation 重計算，所以需要多一次 Forward 操作，相應(yīng)總的計算量為：

C = 2*Forward + Backward = 8*N*D。

2.5 MoE LLM 計算量

MoE（Mixture of Experts）與標(biāo)準(zhǔn) Transformer 模型的不同在于：MoE 模型將 Transformer 模型的 FFN Block 替換為 MoE Block，其中 MoE Block 由多個 Expert 組成，每一個 Expert 都是標(biāo)準(zhǔn)的 FFN，實際計算時每個 Token 都會經(jīng) Router 選擇 1 個或多個 Expert，然后執(zhí)行類似 FFN 的計算。如下圖所示（圖片來自 A Visual Guide to Mixture of Experts (MoE) [8]）：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

由于 Router 的計算量通常很小，常常可以忽略。如果不考慮 Router 引入的計算量，由于上述每個 Expert 實際上與非 MoE 模型的 FFN 一樣，因此也可以用同樣的方式推導(dǎo)出訓(xùn)練時每個 Token 的計算量依然為 C=6*N*D，只不過這里的 N 不再是整個模型的參數(shù)量，而是每個 Token 激活的參數(shù)量。

如下圖所示，論文 [2402.07871] Scaling Laws for Fine-Grained Mixture of Experts [9] 中，作者也推到過 MoE 中計算量的公式，為了普適性，作者考慮了細(xì)粒度專家的場景，具體來說：

G（Granularity）：表示粒度，也就是將一個完整的 FFN 切分為多少個細(xì)粒度的專家，比如一個 FFN 可以切分為 8 個小專家，每個專家的參數(shù)量為原始 FFN 的 1/8。
E（Expansion rate）：表示膨脹率，也就是所有專家的參數(shù)量擴(kuò)展為單個標(biāo)準(zhǔn) FFN 參數(shù)量的多少倍。比如，G=8，總共 64 個細(xì)粒度專家，則這里的 E=64/8=8，相當(dāng)于有 8 個同標(biāo)準(zhǔn)規(guī)模的 FFN。
cf：表示除 Router 之外的計算量與參數(shù)量的比值，也就是我們上述得到的 6。
cr：表示 Router 的計算量與參數(shù)量的比值，對于比較簡單的 Router，通常為 6-20。?

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

從上述介紹也可以看出，通常 E*G 遠(yuǎn)小于 dmodel，因此也就可以忽略 Router 處的計算量。

2.6 Hunyuan MoE 參數(shù)量

首先使用之前的公式來計算 Hunyuan MoE 的總參數(shù)量和激活參數(shù)量，還是按照（Wq，Wout）（Wk，Wv），WFFN 和 WEmb 4 個部分：

Wq，Wout：依舊是 2 x d x d
Wk，Wv：由于使用了 GQA + CLA，每層 80 個 Head，并且只有 8 個 Key/Value Head，而 CLA 每 2 層共享 KV，等效于每層的 WK 和 WV 為 d x d/ 20。
WFFN：每層 17 個 Expert，但每個 Token 激活 2 個 Expert。相當(dāng)于 MoE Layer 的總參數(shù)量為 17 x 3 x d x dFFN，激活參數(shù)量為 2 x 3 x d x dFFN。
WEmb：由于 tie_word_embeddings 為 True，因此共享 Embedding，參數(shù)量為 vocab_size x d。

根據(jù)上述 4 個部分，可以得出與論文一致的參數(shù)量（389B，52B）：

總參數(shù)量：

64*(2*6400*6400+2/20*6400*6400+3*17*6400*18304)+128512*6400=388.7B

激活參數(shù)量：

64*(2*6400*6400+2/20*6400*6400+3*2*6400*18304)+128512*6400=51.3B

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

2.7 Hunyuan MoE 計算量

我們重新回顧 Hunyuan MoE 中的計算量 C，如下圖 Table 1 所示為 Hunyuan MoE 的模型配置。如下圖所示，作者提到其序列長度可以達(dá)到 8K，32K，256K。

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

這里以最短的 8K 序列長度為例。由于我們之前計算過，每個 Token 在 Attention 處忽略的計算量為 2*nlayer*nctx*d，相應(yīng)可以得出 Attention 額外的計算量為：

2*64*8*1024*6400=6710886400=6.7*109 >> 2.3*108

可以看出，將 2.3x108D 理解為長序列時 Attention 的計算開銷是不合理的。

除此之外，我們之前還忽略了 Router 的計算量，那么如果將其看成 Router 的計算量呢？因為有 16 個 Specialized Expert，相當(dāng)于 EG=16。對于比較簡單的 Router，cr 為 6-20 之間，如下所示推導(dǎo)出 cr 為 35 也可以接受。

64*6400*16*cr=2.3*108 => cr =35

按照上述的推導(dǎo)，那么 9.59ND 更可能是除 Router 之外的計算量，為什么這里不再是 6ND 呢？作者特意提到了長序列場景，因此我們不再忽略額外的 Attention 計算，從頭推導(dǎo)一下對應(yīng)的 C：

上述激活參數(shù)對應(yīng)的計算量為：6 * 51.3B*D=6ND。
額外的 Attention 的計算量為：6*nctx*6400*nlayer*D4=3.59ND。

如果除了 Router 外總的計算量為 C=9.59ND，可以得出，相當(dāng)于序列長度為 73K：

nctx = 3.59N/6/6400/64 = 74938 = 73K

然而作者在論文中也提到，長文本訓(xùn)練并不需要特別多的 Token，在 32K 和 256K 階段也都只使用了 10B Token，遠(yuǎn)小于預(yù)訓(xùn)練階段的 7T Token。所以依然比較奇怪 9.59 是怎么來的。

2.8 Megatron-LM 計算量計算

如下圖所示為 Megatron-LM 中有關(guān)計算量的計算公式（megatron/training/training.py#L98-L151 [10]），需要說明的是，這里的 expansion_factor 為 12：

第一行的 3 表示 Forward + Backward。
第二行的 2 表示將 Attention Block 和 FFN Block 都分別看成兩組，比如 Attention 中 K 和 V 是一對，Q 和 Out 是一對，Attention 的 Q x K 和 Score x V 是一對。
第三行的 2 表示矩陣乘法中的乘和加，如果從單個 Token 單個矩陣乘的視角，計算量就是參數(shù)量的 2 倍。?

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

三、LLM 訓(xùn)練效率&訓(xùn)練預(yù)估

3.1 MFU & HFU

為了評估 LLM 訓(xùn)練時的效率，業(yè)界通常會使用 Model FLOPS Utilization（MFU）和 Hardware FLOPS Utilization（HFU）兩個關(guān)鍵指標(biāo)來評估模型的 Forward 和 Backward 傳播過程中（包括任何的網(wǎng)絡(luò)同步開銷和 DataLoader IO）硬件的利用率。

MFU = 預(yù)估 FLOPS/硬件理論 FLOPS。其中，預(yù)估 FLOPS 就是模型訓(xùn)練時理論需要的計算量，并不包括各種優(yōu)化方案額外引入的計算量，比如 Gradient Checkpointing/Activation Recomputation 等引入的額外計算量。
HFU = 實際 FLOPS/硬件理論 FLOPS。其中，實際 FLOPS 也就是理論上所有實際發(fā)生的計算量，包含 Gradient checkpointing/Activation Recompution 等引入的額外計算量，因此 HFU 應(yīng)該總是 >= MFU。

如下所示為 Maximizing training throughput using PyTorch FSDP [11] 中 Meta 在 LLM 訓(xùn)練時的 MFU 和 HFU。對于 LLM 訓(xùn)練任務(wù)而言，通常在 A100/A800 GPU 集群中，MFU 可以達(dá)到 50%+，甚至接近 60%；而在 H100/H800 GPU 集群中， MFU 往往不超過 50%。

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

3.2 175B 訓(xùn)練實際預(yù)估

有了以上的計算公式，根據(jù)每個 Token 計算量（6N）、總的 Token 數(shù)，以及計算資源就可以大概預(yù)估出訓(xùn)練的總時長。如下所示：

訓(xùn)練天數(shù) = Token 數(shù) * Ctoken / (GPU 數(shù) * GPU FLOPs * MFU * 3600 * 24)

根據(jù)以上公式可以預(yù)估使用 8192 H100-80G GPU（FLOPs 為 989T），10T Token 數(shù)據(jù)訓(xùn)練 175B 模型的天數(shù)為 30 天，其中假設(shè) MFU 為 50%：

10T*6*175B/(8192*989T*50%)/3600/24=30 天

當(dāng)然，上述是理想的估算，實際的訓(xùn)練中往往無法保證一直穩(wěn)定的訓(xùn)練，比如可能出現(xiàn)機(jī)器異常導(dǎo)致任務(wù)中斷、降速等，因此在上述理論預(yù)估的基礎(chǔ)上往往會留一定的 Buffer，比如 10% 的 Buffer 時長。

3.3 LLaMA 3 405B 訓(xùn)練實際預(yù)估

對于 LLaMA 3 405B 模型，使用 15T Token，16384 H100 GPU，MFU 為 41%，那么對應(yīng)的理想訓(xùn)練時間為：

15T*6*405B/(16384*989T*41%)/3600/24=42.3 天

然而，Meta 在 LLaMA 3 的技術(shù)報告（[2407.21783] The Llama 3 Herd of Models）中介紹 LLaMA 3 的預(yù)訓(xùn)練時間在 54 天左右，比 42.3 天多一些，可能得原因有幾個方面。

其中一個原因可能是其提到的多達(dá) 466 次的訓(xùn)練中斷，其中包括 47 次有計劃中斷，以及 419 次的預(yù)期外中斷。在非預(yù)期中斷中，78% 是硬件問題，例如 GPU 或物理機(jī)其他組件的異常，而 GPU 相關(guān)問題占到 58.7%。

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

另一個可能的原因是不同訓(xùn)練階段使用了不同規(guī)模的 GPU 和數(shù)據(jù)量。比如，如下圖 Table 4 所示涉及到 3 種不同的配置：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

但上述配置并不能與作者介紹的 405B 模型預(yù)訓(xùn)練階段對應(yīng)。比如，作者提到，在訓(xùn)練的早期階段使用比較小的 Batch Size以提高訓(xùn)練穩(wěn)定性，然后會增加 Batch Size 以提高訓(xùn)練效率。具體來說：

初始時 4K 序列長度，一個 Batch 內(nèi) 4M Token，對應(yīng) Global Batch Size 為 1K。
訓(xùn)練 252M Token 后擴(kuò)展到 8K，共 8M Token，對應(yīng) Global Batch Size 為 1K。
訓(xùn)練到 2.87T Token 時進(jìn)一步 Double Batch Size，擴(kuò)展到 16M Token，對應(yīng) Global Batch Size 為 2K。
針對長序列訓(xùn)練：作者分為 6 個階段逐步增加上下文長度，將序列長度從最初的 8K擴(kuò)展到最終的 128K，這個階段大約使用了 800B Token。

3.4 其他數(shù)據(jù)

其實很多 Paper 中也會簡單提到其訓(xùn)練模型規(guī)模、訓(xùn)練資源、時長、MFU 等指標(biāo)，但往往一筆帶過，如下所示為一些示例：

HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等-AI.x社區(qū)

以上圖中 Nemotron-4 340B 的相應(yīng)配置可以預(yù)估出對應(yīng)的訓(xùn)練時長，可以看出與實際時長非常接近：

0.2T*6*340B/(1536*989T*42.4%)/3600/24=7.3 天

0.2T*6*340B/(3072*989T*42.3%)/3600/24=3.7 天

7.6T*6*340B/(6144*989T*41%)/3600/24=72 天

四、參考鏈接

??https://arxiv.org/abs/2411.02265??
??https://arxiv.org/abs/2302.14017??
??https://arxiv.org/abs/2302.13971??
??https://arxiv.org/abs/2307.09288??
??https://arxiv.org/abs/2407.21783??
??https://arxiv.org/abs/2001.08361??
??https://arxiv.org/pdf/2104.04473??
??https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts??
??https://arxiv.org/abs/2402.07871??
??https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/training/training.py#L98-L151??
??https://pytorch.org/blog/maximizing-training/???

本文轉(zhuǎn)載自??AI閑談??，作者： AI閑談 ????

標(biāo)簽

參數(shù)量

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

聊一聊生成式視角下的實體對齊

mb5f8eba9bdb0af ? 5235瀏覽 ? 0回復(fù)
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.8w瀏覽 ? 0回復(fù)
MiniCache 和 PyramidInfer 等 6 種優(yōu)化 LLM KV Cache 的最新工作

amei2000go ? 1.3w瀏覽 ? 0回復(fù)
如何訓(xùn)練LLM自動在RAG和參數(shù)記憶之間進(jìn)行選擇

51CTO內(nèi)容精選 ? 4072瀏覽 ? 0回復(fù)
OpenAI 是如何估計與分析模型計算量的？

angel ? 5437瀏覽 ? 0回復(fù)
LLM 推理的 Attention 計算和 KV Cache 優(yōu)化：PagedAttention、vAttention 等

amei2000go ? 1.5w瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 5142瀏覽 ? 0回復(fù)
數(shù)據(jù)高效和計算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM

angel ? 4117瀏覽 ? 0回復(fù)
普林斯頓大學(xué)提出首個基于MoE的稀疏時序預(yù)測大模型，參數(shù)量擴(kuò)展到2.4billion

海因斯DK ? 5850瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等

sbf_2000 ? 1.1w瀏覽 ? 0回復(fù)
5歲小孩哥和ChatGPT深聊45分鐘，AI成帶娃利器！

Aceryt ? 3919瀏覽 ? 0回復(fù)
LLM實踐系列-細(xì)聊LLM的拒絕采樣

NLP工作站 ? 4749瀏覽 ? 0回復(fù)
DeepSeek被曝估值1500億達(dá)OpenAI一半？巴黎地鐵70歲老人都在聊！

duhorse ? 4298瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 5810瀏覽 ? 0回復(fù)
深度解析：如何計算 Transformer 模型的參數(shù)量

智駐未來 ? 3517瀏覽 ? 0回復(fù)
4800億參數(shù)MoE架構(gòu)，Qwen3-Coder厲害在哪里

Halo咯咯 ? 5952瀏覽 ? 0回復(fù)
聊一下Qwen3-Next-80B-A3B實測感受！附測試用例！

NLP工作站 ? 3048瀏覽 ? 0回復(fù)
不止能聊，還能“動手”：谷歌AI代理掀起數(shù)字浪潮

墨風(fēng)如雪小站 ? 1676瀏覽 ? 0回復(fù)
Heretic：想讓大模型和你聊一些“特殊”話題總被拒絕怎么辦？

Syrupup ? 180瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練 2025-10-28 07:51:32發(fā)布
Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law” 2025-10-28 07:51:18發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

2025 年最強(qiáng) OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復(fù)

馬斯克新模型屠榜，包攬前二！馬斯克：已經(jīng)沒有真正能考AI的測試題了，終極測試是現(xiàn)實世界 0回復(fù)

上一篇： Speculative Rejection：高效 Best-of-N 數(shù)據(jù)生成，16-32 倍加速

下一篇： DHelix：跨 Micro-Batch 的通信隱藏，SOTA LLM 訓(xùn)練性能

社區(qū)精華內(nèi)容

目錄

av免费观看国产| 成人午夜黄色影院| 蜜桃精品成人影片| 桃花岛成人影院| 国产精品麻豆欧美日韩ww| 成人一区二区电影| 日韩欧美激情视频| 日韩免费看片| 精品国产伦一区二区三区免费 | 国产精品九九九| 国产探花在线免费观看| 欧美色图五月天| 欧美三级日韩三级| 国产欧美日韩小视频| 成人在线视频成人| 成人黄色在线看| 国产一区视频在线| 国产午夜激情视频| 亚洲xxx拳头交| 国产午夜精品久久久 | 国产精品中文| 色94色欧美sute亚洲线路一ni| 一区国产精品| 巨骚激情综合| 成人高清av在线| 亚洲a中文字幕| 波多野结衣人妻| 99精品欧美| 欧美成人免费网| 大胸美女被爆操| 开心激情综合| 精品免费视频一区二区| 女同激情久久av久久| 黄色综合网址| 精品色蜜蜜精品视频在线观看| 中国老女人av| 欧美激情二区| 国产精品久久久久婷婷| 美女黄毛**国产精品啪啪| 丰满大乳国产精品| 国产成人精品aa毛片| 成人亚洲欧美一区二区三区| 伊人网中文字幕| 日韩黄色免费网站| 日韩av免费在线观看| 亚洲免费在线观看av| 亚洲婷婷免费| 久久久在线免费观看| 国产一级中文字幕| 亚洲国产激情| 亚州国产精品久久久| 真实国产乱子伦对白在线| 一区二区影院| 欧美猛交免费看| 久草免费在线观看视频| 国产精品theporn| 欧美黑人一级爽快片淫片高清| 欧美另类videoxo高潮| 水蜜桃精品av一区二区| x99av成人免费| 波兰性xxxxx极品hd| 亚洲澳门在线| 欧美高跟鞋交xxxxxhd| 久久久国产精华液| 精品福利电影| 欧美性视频精品| 7799精品视频天天看| 日本欧美一区二区在线观看| 国产精品久久久久久久久久久久| 亚洲天堂中文在线| 国产又黄又大久久| 国产成人精品福利一区二区三区| 欧美日韩国产在线| caoporm超碰国产精品| 久久久久久九九九九| 免费人成在线观看网站| 亚洲国产精品99久久久久久久久 | 午夜日韩视频| 久久久天堂国产精品女人| www日韩精品| 奇米色一区二区三区四区| 国产欧美日韩视频| 不卡视频免费在线观看| 91在线视频播放| 午夜精品区一区二区三| 国产cdts系列另类在线观看| 亚洲午夜激情av| 久久久久久久久久久久久久国产| 久久人人视频| 亚洲成人精品久久久| 性欧美精品中出| 第一会所亚洲原创| 欧美激情综合色| 日本视频免费观看| 国产精品一区二区在线观看不卡| 久久国产精品久久| 男人和女人做事情在线视频网站免费观看| 一区二区不卡在线播放 | 性欧美videosex高清少妇| 乱人伦中文视频在线| 亚洲18色成人| 午夜免费福利视频在线观看| 成人高潮a毛片免费观看网站| 亚洲一二三在线| 青青草手机视频在线观看| 亚洲永久在线| 91亚洲精品一区| 久草视频在线看| 一区二区三区日本| 性欧美视频videos6一9| 国产精品久久久久aaaa九色| 欧美黄色免费看| 日本不卡123| 国产伦精品一区二区三区免费视频| 撸视在线观看免费视频| 亚洲午夜日本在线观看| 国产又大又黄又粗的视频| www.爱久久| 色偷偷综合社区| 手机看片久久久| 国产成都精品91一区二区三| 色视频一区二区三区| а√天堂资源官网在线资源| 欧美视频一区二| 亚洲乱码国产乱码精品精大量| 希岛爱理av一区二区三区| 日韩免费高清在线观看| 人妻无码中文字幕| 亚洲狠狠丁香婷婷综合久久久| 天天视频天天爽| 一个色免费成人影院| 欧美另类精品xxxx孕妇| 91浏览器在线观看| 成人黄色一级视频| 奇米777四色影视在线看| 亚洲精品大全| 中文字幕在线观看亚洲| 超碰在线观看91| 久久免费国产精品| 黄色免费观看视频网站| 久久99精品国产自在现线| 九九九热精品免费视频观看网站| 一本色道久久综合亚洲| 中文字幕欧美三区| 一区二区xxx| 青青草原综合久久大伊人精品| 日韩暖暖在线视频| 免费一级毛片在线观看| 色婷婷亚洲一区二区三区| 少妇毛片一区二区三区| 国产精品腿扒开做爽爽爽挤奶网站| 国产女主播一区二区| 99thz桃花论族在线播放| 欧美mv日韩mv国产网站| 久久久久久久久久久久久久免费看 | 自拍日韩亚洲一区在线| 国内露脸中年夫妇交换精品| 97欧美精品一区二区三区| 熟妇高潮一区二区三区| 福利微拍一区二区| 国产黄片一区二区三区| 视频在线观看一区| 色噜噜狠狠一区二区三区| 成人在线视频免费| 久久久99久久精品女同性| 国产精品视频a| 亚洲激情在线激情| 国产一线在线观看| 久久aⅴ国产紧身牛仔裤| 四虎影视永久免费在线观看一区二区三区| av免费在线一区| 久久久精品国产网站| 亚洲欧美黄色片| 欧美日韩中文字幕日韩欧美| 无码人妻精品一区二区中文| 看国产成人h片视频| 好色先生视频污| 精品嫩草影院| 国产精品久久久久aaaa九色| 黄色一级片在线观看| 精品日本一线二线三线不卡| 日韩欧美视频在线免费观看| 国产日韩影视精品| 一级做a爱视频| 99国内精品| 亚洲精品中文字幕在线| 日韩欧美久久| 国产99视频在线观看| caoporn97在线视频| 亚洲经典中文字幕| 亚洲天天综合网| 亚洲v精品v日韩v欧美v专区 | 天天躁日日躁成人字幕aⅴ| 国产精品久久久久91| 成人性生交大片免费看网站| 国产一区二区三区视频| 国产chinasex对白videos麻豆| 精品二区三区线观看| 91麻豆精品成人一区二区| 久久久久久免费网| 黄页网站在线看| 免费的成人av| 无码人妻精品一区二区三区在线 | 久久这里只有精品首页| 亚洲18在线看污www麻豆| 一区二区91| 国产911在线观看| 欧美在线免费看视频| 国产日本一区二区三区| 国产欧美88| 国产精品网站大全| 欧美男人天堂| 欧美极品少妇xxxxⅹ喷水| 日韩在线观看www| 国产一区二区三区免费视频| 亚洲欧美自拍偷拍| 日韩欧美一区二区视频| 一级特黄录像免费看| 在线影院国内精品| 国产精品男女视频| 亚洲高清视频在线| 久久久.www| 亚洲欧美激情一区二区| 亚洲毛片亚洲毛片亚洲毛片| 久久久综合视频| 在线观看国产三级| 成人黄色网址在线观看| 欧美高清精品一区二区| 美腿丝袜一区二区三区| 激情综合网婷婷| 激情久久久久久久| 国产精品自拍合集| 91综合在线| 国产精品一区二区三区免费| 中文字幕av一区二区三区四区| 国产在线播放91| 国产在线|日韩| 国产精品高清免费在线观看| 欧美freesex黑人又粗又大| 欧美激情综合色综合啪啪五月| 亚洲91av| 久久夜色精品国产亚洲aⅴ| h网站在线免费观看| 在线观看国产精品91| 亚洲av成人无码久久精品老人| 日韩欧美中文字幕精品| 97人妻精品一区二区三区| 6080亚洲精品一区二区| 国产主播第一页| 色婷婷国产精品综合在线观看| 国产女主播喷水视频在线观看 | 91视频成人免费| 婷婷综合网站| 亚洲五月六月| 久久99国产成人小视频| 日本不卡在线播放| 国产欧美一区二区精品久久久| 九九九九精品| 最新精品国偷自产在线| 蜜桃精品久久久久久久免费影院 | 日韩av影视| 国产91精品对白在线播放| 玛丽玛丽电影原版免费观看1977| 91精品国产自产精品男人的天堂 | 国产婷婷色一区二区三区四区| 亚洲精品理论片| 久久影音资源网| 精品成人av一区二区三区| 久久精品一区二区三区不卡| 极品白嫩的小少妇| 久久综合久久综合九色| 中文字幕一二三四区| 久久精品视频网| 国产精品精品软件男同| 亚洲男同1069视频| 久久精品国产亚洲AV无码男同| 欧美日韩一区二区免费视频| 欧美特黄aaaaaa| 欧美婷婷六月丁香综合色| av一级黄色片| 亚洲激情自拍图| 国产黄在线观看| 亚洲欧洲成视频免费观看| 日本三级视频在线播放| 欧美日韩成人黄色| 国产va在线视频| 国产欧美精品一区二区| 99久久香蕉| 欧美美乳视频网站在线观看| 亚洲成人免费| 国产九色porny| 米奇777在线欧美播放| 男女视频在线观看网站| 成av人片一区二区| 日本猛少妇色xxxxx免费网站| 性做久久久久久久免费看| 一级黄色av片| 欧美一级片免费看| 福利在线播放| 欧美国产中文字幕| abab456成人免费网址| 国产麻豆乱码精品一区二区三区| 色综合综合网| 日韩国产精品毛片| 日本成人中文字幕在线视频| 一级黄色片在线免费观看| 91在线国内视频| 麻豆chinese极品少妇| 欧美性猛交xxxx偷拍洗澡| 国产内射老熟女aaaa∵| 亚洲人成电影在线观看天堂色| 中文字幕在线三区| 国产成人精品国内自产拍免费看| 国产成人高清精品免费5388| 亚洲激情一区二区| 国产欧美欧美| 四虎精品一区二区| 中文字幕一区三区| 午夜精品久久久久久久久久久久久蜜桃| 欧美一级片在线看| 免费一级在线观看| 国语自产在线不卡| 五月亚洲婷婷| 一本久久a久久精品vr综合| av不卡在线| 日本人添下边视频免费| 国产精品福利在线播放| 中文在线第一页| 精品在线欧美视频| heyzo中文字幕在线| 国产精品爱啪在线线免费观看| 欧美激情网址| 成人av在线不卡| 青青草一区二区三区| 欧美丰满老妇熟乱xxxxyyy| 亚洲成年人影院| 一级黄色片免费看| 丝袜美腿亚洲一区二区| 欧美xxxx做受欧美护士| 日本电影一区二区三区| 国产精品视区| 韩国无码一区二区三区精品| 精品二区三区线观看| 人妻精品无码一区二区| 欧美国产日韩xxxxx| 成人中文字幕视频| 日韩精品一区二区三区电影| 玖玖国产精品视频| www色com| 欧美日韩一卡二卡三卡| 日本在线免费网| 国产精品嫩草视频| 国内精品久久久久久久久电影网| 亚洲中文字幕日韩无码| www欧美成人18+| 免费黄色网址在线| 亚洲欧美一区二区三区情侣bbw | 四虎成人在线播放| 国产精品国产三级国产普通话99| 91青青草视频| 最近免费中文字幕视频2019| 老司机亚洲精品一区二区| 久久久久久久久久久久久国产| 国产乱子伦视频一区二区三区 | 久久激情视频久久| 24小时成人在线视频| 中国老女人av| 成人免费福利片| 天天综合网久久综合网| 亚洲系列中文字幕| 超碰国产精品一区二页| 精品国产三级a∨在线| 国产精品1区2区| 超碰福利在线观看| 欧美日韩在线观看一区二区| 麻豆免费在线观看视频| 国产成人精品影视| 欧美黄色一级网站| 亚洲精品成人久久| 精品裸体bbb| 国产又爽又黄ai换脸| 成人福利视频网站| 香蕉影院在线观看| 国产日韩精品一区二区三区| 欧美乱大交做爰xxxⅹ小说| 日韩一区二区高清| 日本资源在线| 久久精品国产一区二区三区不卡| 奇米色777欧美一区二区| 手机在线中文字幕| 欧美一个色资源| 91禁在线看| 日韩精品一区二区三区色偷偷| 国产精品18久久久久| 国产香蕉视频在线| 亚洲乱码一区二区| 日韩免费成人| 国产男女在线观看| 一区二区在线观看免费视频播放| 色欲久久久天天天综合网|

<abbr id="yaso2"></abbr><strike id="yaso2"><input id="yaso2"></input></strike>

<strike id="yaso2"><rt id="yaso2"></rt></strike>