精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐

發(fā)布于 2025-6-13 06:57

瀏覽

0收藏

一、背景

筆者之前寫過 FP8 訓(xùn)練的綜述文章以及 FP4 訓(xùn)練和推理的綜述文章，本文對其進一步補充，介紹 NVIDIA 最新的使用 MXFP8 預(yù)訓(xùn)練的方案。

對應(yīng)的論文：[2506.08027] Recipes for Pre-training LLMs with MXFP8 [1]

二、摘要

精度縮放——即在預(yù)訓(xùn)練過程中使用更少的比特來表示模型參數(shù)及相關(guān) Tensor——已成為一種在不犧牲精度前提下提升 GPU 效率的有效技術(shù)。NVIDIA 最新 Blackwell GPU 中引入 Microscaling (MX) 格式，為 Tensor 量化提供了細(xì)粒度解決方案。

盡管 MX 格式相較于其他低精度表示法有望提升數(shù)值穩(wěn)定性，但在實際應(yīng)用中仍需謹(jǐn)慎使用。本文研究表明：當(dāng)采用 OCP 規(guī)范建議的舍入模式進行 LLM 預(yù)訓(xùn)練時，會導(dǎo)致模型不收斂。為此，作者提出了一種改進的舍入模式——通過采用"向無窮大舍入"方式計算縮放因子，成功實現(xiàn)了 8B 參數(shù)模型在 15T Token 上采用 MXFP8 格式的預(yù)訓(xùn)練。

PS：可能是因為采用 Hopper GPU 模擬的方式，而不是真實的 Blackwell 訓(xùn)練，因此論文并沒有提供相應(yīng)的效率提升數(shù)據(jù)。

三、引言

3.1 MXFormat

2023 年，OCP（Open Compute Project）在 AMD, Arm, Intel, Meta, Microsoft, NVIDIA, Qualcomm 的參與下提出 Microscaling（MX）Format 規(guī)范（OCP Microscaling Formats (MX) Specification Version 1.0 [2]），主要是為了對跨硬件/軟件平臺可實施的新功能及格式進行標(biāo)準(zhǔn)化，有效減少軟件與基礎(chǔ)設(shè)施成本，并消除定制化解決方案帶來的各類附加費用或管理負(fù)擔(dān)，推動硬件性能與效率的提升。

如下圖所示，MX 最主要的特點是其包含三部分內(nèi)容（很類似于常見的 Per-Block 細(xì)粒度量化方式，只不過這里是制定了一個統(tǒng)一的規(guī)范）：

P：規(guī)定了 d 個 bit 數(shù)據(jù)的表示（編碼）方式，比如 FP8 的 E5M2 是怎么表示的。
k：k 個元組作為一個 Block。
X：上述 k 個元素的 Block 會對應(yīng)一個共享的 Scale 值。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

我們在之前的文章中提到過，即使都是 E5M2 或者 E4M3，不同公司的硬件可能采用不同的格式。比如 NVIDIA Hopper GPU 上的 E5M2 符合 IEEE 754 Style，而 E4M3 卻不符合 IEEE 754 Style。如下圖所示，IEEE 754 Style 的 E4M3 的范圍為 [-240, 240]，而 ARM-Intel-Nvidia Style 的 E4M3 的范圍是 [-448, 448]：

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

在 MX 中也對上述問題進行了規(guī)范化，以 MXFP8 為例，其規(guī)定的 E4M3 和 E5M2 編碼方式如下圖 Table 1 和 Table 2 所示：

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

3.2 細(xì)粒度量化

更低的精度通常意味著更難量化，為了維持精度需要更細(xì)力度的 Scaling Factor，比如：

FP16：早期使用 FP16 進行混合精度訓(xùn)練時通常整個模型一個 Scaling Factor 即可。
FP8：在 Inference 時通常 Per-Tensor 的 Scaling Factor 即可比較好的維持精度；而 Training 時往往需要 Per-Block 或 Per-Channel，不過 Block 通常比較大，比如 128x128 或 128x1。
FP4：需要 Per-Block 量化，并且 Block 需要比較小，比如 32 或 16。

更細(xì)粒度的量化也意味著更高的額外成本，Block 越?。６仍郊?xì)），額外成本越高。如下圖所示，對于一個常見的內(nèi)積操作：

Per-Tensor 量化：需要額外執(zhí)行 1 次 Scaling Factor 處理。
Per-Block 量化：需要額外執(zhí)行很多次 Scaling Factor 處理。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

為了更好的解決上述問題，NVIDIA 在新的 Blackwell Tensor Core 中支持了新的 Block-Scaled 類型，原生支持 Microscaling Formats，如下圖 Table 1 所示，其支持 MXFP8、MXFP6、MXFP4：

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如下圖所示，在 Tensor Core 計算時，可以將數(shù)據(jù) A/B 及它們對應(yīng)的 Scaling Factor A/B 一起輸入，并全部在 Tensor Core 內(nèi)完成。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

當(dāng)然，其對數(shù)據(jù)類型也有一定的要求，如下圖所示：

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

四、MXFP8 預(yù)訓(xùn)練

4.1 轉(zhuǎn)換 FP32 到 MXFP8

在訓(xùn)練的 Forward 與 Backward 過程中，模型 Weight、Activation 及 Gradient Tensor 均由 FP32 量化到 MXFP8 格式。量化后的 MXFP8 Tensor 隨后存儲于硬件中并執(zhí)行運算。作者首先闡述了轉(zhuǎn)換過程 Quantize_to_fp8(Vi/2X)。下文所述的量化方法統(tǒng)一適用于所有 MX 格式（包括 E4M3、E5M2、E2M3、E3M2 及 E2M1），僅 MX 數(shù)據(jù)類型存在差異。

計算 X 值：通常情況下，Tensor 中各 Block 內(nèi)的大部分?jǐn)?shù)值會超出目標(biāo) MX 格式的可表示范圍，既可能低于最小可表示數(shù)（下溢），也可能高于最大可表示數(shù)（上溢）。為解決這一問題，需將 Block 內(nèi)所有數(shù)值乘以一個 Scale 因子，使絕大多數(shù)數(shù)值被調(diào)整至可表示范圍內(nèi)。

該 Scale 因子 X 的計算基于 32 個（MX 規(guī)范，k）高精度輸入值中的絕對最大值（amax），即amax = max(‖Vi‖); 1≤i≤32。其核心目標(biāo)是將輸入中的 amax 映射為 MX 格式中的最大可表示值。當(dāng)輸入數(shù)據(jù)包含無窮大（Infinity）或非數(shù)值（NaN）時需特殊處理：若某 Block 的 amax 為 0，則設(shè)定 X=-127，此時 X 為 2-127，且該情況下所有 Qi’ 均置為 0。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

根據(jù) OCP 規(guī)范，當(dāng) X 不為 Inf、NaN 或 0 時，X 應(yīng)設(shè)定為不超過 “amax 除以 MX 格式類型最大可表示二次冪” 的最大二次冪。以 E4M3 類型為例，由于 448 是其最大幅值，故 X 的計算公式為X=floor(log?(amax))/floor(log?(448))。值得注意的是，OCP 規(guī)范在此計算過程中忽略了該比率浮點數(shù)尾數(shù)部分的影響。

作者觀察到遵循 OCP 規(guī)范時存在精度下降現(xiàn)象。如下圖 Figure 2 所示為兩種 Token 規(guī)模（300B 和 1T）下訓(xùn)練的 843M 參數(shù)量 Transformer 模型的訓(xùn)練損失曲線。其采用兩種不同配置方案：

cfg1：所有 Tensor（Weight W、Activation A、Gradient G）均采用 E4M3 格式。
cfg2：Weight W、Activation A 采用 E4M3 格式，Gradient G 采用 E5M2 格式。

E5M2 格式相較于 E4M3 具有約 1.8 倍的 binades 優(yōu)勢。鑒于 Gradient 通常具有更大的動態(tài)范圍，早期的工作 [2209.05433] FP8 Formats for Deep Learning [3] 主張采用 E5M2 格式進行 Tensor 縮放。實驗結(jié)果表明，在 cfg1 與 cfg2 中，使用 OCP 方法計算縮放因子均會導(dǎo)致訓(xùn)練發(fā)散（如下圖 Figure 2a）或相對于 BF16 基準(zhǔn)的損失差距擴大（如下圖 Figure 2b）。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如下圖 Algorithm 1 概述了作者計算 Scale 因子的方法。其核心改進在于：當(dāng)處理 amax 與 MX 格式最大可表示值 destmax 的比值指數(shù)時，采用向正無窮方向的 round-up 策略（同時飽和至 UE8M0 格式的極值邊界）。這與 OCP 方案形成鮮明對比，后者實質(zhì)上是建議對 Scale 值執(zhí)行 round-down 操作。由于高精度值 Vi 需通過 Scale 因子 2X 進行縮放，對分?jǐn)?shù)項 (Vi/2X) 分母實施 round-up 操作，會更傾向于將 amax 映射至 destmax 以下；反之，OCP 方法則傾向于使 amax 超過 destmax（后續(xù)必須通過截斷處理使其可表示）。作者推測 OCP 取整方法帶來的飽和效應(yīng)會影響模型精度。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如上圖 Figure 2 所示，采用提出的舍入方案后，Gradient 位寬配置為 E4M3 的 MXFP8（藍(lán)色曲線）與 E5M2 的 MXFP8（紫色曲線）在 300B 和 1T Token 的訓(xùn)練過程中，其損失曲線均與 BF16 完全重合。

FP32 數(shù)值到 MX 格式的量化過程：當(dāng)縮放因子 X 確定后，Tensor Vi 通過乘以 2X 進行尺度變換，隨后量化至最接近的 FP8 可表示數(shù)值（即 Quantize_to_fp8()）。該量化步驟采用“就近取偶（Round-to-nearest-ties-to-even，RN）”舍入法，且轉(zhuǎn)換過程具有飽和特性——若舍入結(jié)果超出 FP8 最大值或低于最小值，則將結(jié)果截取至相應(yīng)的極值。

這種轉(zhuǎn)換機制在低精度 LLM 預(yù)訓(xùn)練中的典型應(yīng)用場景是：矩陣乘積累加運算（MMA）的輸出（通常以 FP32 格式存儲）需要映射為 MXFP8 格式，相比存儲 FP32 數(shù)值可顯著節(jié)省寫入帶寬和存儲容量。模型后續(xù)運算讀取 MXFP8 數(shù)值時，相較加載 FP32 數(shù)據(jù)也能減少讀取帶寬消耗。此外，由于 Tensor Core 可直接處理 MX 格式輸入，低精度 MMA 操作不僅能降低能耗，還能獲得更高的計算吞吐量。

4.2 所有 Tensor 采用 E4M3

在 Blackwell 架構(gòu)中，F(xiàn)P8 浮點格式包含兩種變體：E4M3 與 E5M2。實驗研究表明：

Weight 與 Activation 量化性能對比：采用 E4M3 格式量化 Weight 和 Activation 時展現(xiàn)出更優(yōu)的訓(xùn)練收斂性。如下圖 Figure 3a 所示（測試模型與 Figure 2b 相同，參數(shù)量 843M），當(dāng) Activation（紫色曲線）或 Weight（藍(lán)色曲線）采用 E5M2 格式時，其損失函數(shù)收斂性顯著差于所有 Tensor 采用 E4M3 量化方案（橙色曲線）。值得注意的是，僅 Gradient 采用 E5M2 時（黃色曲線）仍能維持較好的收斂特性。

Gradient Tensor 量化分析：E4M3 格式在 Gradient 量化中能保持與 BF16 預(yù)訓(xùn)練相當(dāng)?shù)膿p失，這一優(yōu)勢在參數(shù)量 ≥2B 的模型中尤為顯著。如下圖 Figure 3c 展示了 8B LLM（1T Token 訓(xùn)練）的對比結(jié)果：E4M3 Gradient 量化（橙色曲線）的最終損失值顯著低于 E5M2 方案（黃色曲線），且該差距隨訓(xùn)練 Token 數(shù)量增加而擴大。這一現(xiàn)象揭示了模型參數(shù)量對數(shù)值格式選擇的敏感性，強調(diào)需在不同規(guī)模模型中系統(tǒng)評估格式的數(shù)值特性（PS：這也是為什么筆者一直提到之前很多文章只在小規(guī)模模型、數(shù)據(jù)量下做實驗不夠有說服力的原因）。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

既往研究采用的 Tensor 級縮放 FP8 方案及 DeepSeek V3（[2412.19437] DeepSeek-V3 Technical Report [4]）提出的粗粒度 Block-Scaled 方案均默認(rèn)選用 E5M2 格式處理 Gradient Tensor（PS：論文這里表述有問題，DeepSeek V3 中其實所有 Tensor 都已經(jīng)采用 E4M3 格式；此外，這里的粗粒度是相對 32 的 Block 大小而言，在 DeepSeek 中為了效率采用的是 128 或者 128x128 的 Block 大?。?。本研究發(fā)現(xiàn)：當(dāng)采用細(xì)粒度縮放（32 元素 Block）時，E4M3 格式的 17.8 個 binades 可充分滿足動態(tài)范圍需求。在滿足動態(tài)范圍前提下，量化精度成為關(guān)鍵因素——E4M3 每個指數(shù)區(qū)間包含 8 個量化樣本，其采樣密度是 E5M2（4樣本/區(qū)間）的 2 倍。因此，提出的 MXFP8 預(yù)訓(xùn)練方案對所有三類 Tensor（Weight、Activation、Gradient）均采用 E4M3 數(shù)據(jù)類型進行量化。

MXFP8 實例化層級及訓(xùn)練流程：論文所有研究均采用基于語言的 Transformer 模型，未來工作將探索該方案在語音與視覺模型中的應(yīng)用。研究表明，量化策略建議：

將模型中所有 Transformer Block 的 QKV、Proj 以及 FFN 的 Up-proj 和 Down-proj 轉(zhuǎn)換為 MXFP8 格式。
Self-Attention 中的批量矩陣乘法（BMM1：Query-Key 點積和 BMM2：Attention Score-Value 乘積）以及 Softmax、激活函數(shù)和殘差相加等運算仍保持高精度計算。
輸入 Embedding 層和最終輸出 LM-head 同樣采用 BF16 或 FP16 格式。

如下圖 Figure 4 所示，這種配置能最可靠地維持與 BF16 預(yù)訓(xùn)練相當(dāng)?shù)木人?，論文所有實驗均遵循此?zhǔn)則。在 MXFP 量化訓(xùn)練過程中，框架需為 Tensor（Weight、Activation 和 Gradient）保持兩個副本：每個副本沿點積歸約（dot-product reduction）軸（行與列）分別量化。Figure 4 展示了訓(xùn)練迭代中各 Tensor 在 Forward（FPROP）、Weight Gradient（WGRAD）和 Activation Gradient（DGRAD）計算中的使用方式。由于每個 Tensor 需以原始和轉(zhuǎn)置兩種形態(tài)參與運算，量化需沿行列兩個獨立軸向分別執(zhí)行。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

當(dāng)前研究總結(jié)：提出的 MX Scale 因子舍入方案解決了基于 OCP 方法導(dǎo)致的不收斂問題，在 843M 參數(shù)模型上實現(xiàn)了 1T Token 訓(xùn)練下與 BF16 相當(dāng)?shù)木取＝Y(jié)合 Algorithm 1 中的 E4M3 格式及 Scale 因子計算方法，該方案可擴展至 8B 參數(shù)模型（15T Token 訓(xùn)練）——作者聲稱，這是目前采用 MXFP 格式的最大規(guī)模 LLM 預(yù)訓(xùn)練案例。

如下圖 Figure 6 所示，W16A2.5 規(guī)模 MoE 模型，1T Token 預(yù)訓(xùn)練也能實現(xiàn)同樣的效果：

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

4.3 15T Token MXFP8 預(yù)訓(xùn)練結(jié)果

作者采用 Megatron-LM 框架預(yù)訓(xùn)練了一個 8B 參數(shù)的 Nemotron 模型。該模型包含 32 個 Transformer Block，每個 Block 32 個 Attention Head，隱層維度為 4096，采用 GQA 且 Group 大小為 8，KV 通道數(shù)為 128，預(yù)訓(xùn)練階段序列長度為 8192。共訓(xùn)練 15T Token，Batch Size 為 768。初始學(xué)習(xí)率設(shè)為 6×10??，并通過 cosine decay 到 6×10??。如下圖 Table 2 為幾個模型的詳細(xì)配置：

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

采用分階段數(shù)據(jù)混合策略進行訓(xùn)練：第一階段使用促進數(shù)據(jù)多樣性的混合數(shù)據(jù)集，第二階段則轉(zhuǎn)向高質(zhì)量數(shù)據(jù)集（如維基百科），在訓(xùn)練進度達到 60% 時切換至第二階段。此類混合策略在其他大規(guī)模預(yù)訓(xùn)練框架中亦有應(yīng)用。

模型預(yù)訓(xùn)練在 3072 Hopper GPU 上完成（實驗周期內(nèi)缺乏支持 MX 格式的 Bloackwell 硬件平臺）。通過在 Hopper GPU 上模擬 MX 格式實現(xiàn)：輸入矩陣乘法加速器（MMA）的 Tensor 先量化為 MX 格式，在執(zhí)行 BF16 MMA 運算前轉(zhuǎn)換回 BF16 格式。為驗證模擬方案的數(shù)值保真度，作者與 Blackwell 平臺上采用真實 MXFP8 格式訓(xùn)練的 2B 參數(shù) LLM 進行對比實驗，確認(rèn)二者輸出結(jié)果完全一致。

如下圖 Figure 5 展示了 8B 預(yù)訓(xùn)練模型的訓(xùn)練損失及任務(wù)級準(zhǔn)確率?？梢钥闯觯瑑山M下游任務(wù)的評估分?jǐn)?shù)：

MMLU 上的 5-shot 分?jǐn)?shù)。
9 個通用 Reasoning 基準(zhǔn)（ARC-Challenge 與ARC-Easy、Race、PIQA、Winogrande、Hellaswag、OpenBookQA、Social IQA 和 Commonsense QA）上 1-shot 分?jǐn)?shù)的平均值。

主要結(jié)果如下：

采用 MXFP8 預(yù)訓(xùn)練時，模型的驗證困惑度與 BF16 預(yù)訓(xùn)練結(jié)果持平（Figure 5 左圖）。在整個預(yù)訓(xùn)練過程中，MXFP8 與 BF16 的驗證困惑度差異始終小于 0.50%。
Figure 5 中、右兩圖顯示了兩組下游任務(wù)的評估分?jǐn)?shù)。MXFP8 訓(xùn)練模型的得分與 BF16 訓(xùn)練模型完全匹配，證明 MXFP8 可作為 LLM 預(yù)訓(xùn)練的有效候選方案。

NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

MXFP8 與 FP8 對比：除 MXFP8 和 BF16 外，F(xiàn)igure 5 還展示了傳統(tǒng) FP8 精度訓(xùn)練同模型的任務(wù)級分?jǐn)?shù)。FP8 方案采用軟件模擬的分塊縮放技術(shù)，通過整體 Tensor 縮放使多數(shù) Tensor 值落入量化格式的可表示范圍。遵循 [2504.03624] Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [5] 的 FP8 預(yù)訓(xùn)練設(shè)置建議：模型首尾 Transformer Block 保持 BF16 精度，其余 Block 的線性層量化為 FP8，該配置適用于 20T Token 規(guī)模的 8B 和 56B 參數(shù) LLM 預(yù)訓(xùn)練。但保留部分 BF16 層會影響端到端加速比，并增加預(yù)訓(xùn)練復(fù)雜性——需額外決策哪些層維持高精度。實驗表明，MXFP8 在這兩組任務(wù)上無需任何 BF16 層即可達到與 FP8 相當(dāng)?shù)木取?/p>

MXFP8 與分塊 FP8 的對比：進一步地，諸如 Deepseek-V3 等研究表明，在使用 FP8 時需要縮小 Block 規(guī)模。在此配置下，部分 Tensor 需采用 1x128 向量級縮放，而其他 Tensor 則需實施分塊（如 128x128）縮放，這增加了 GEMM Kernel 函數(shù)設(shè)計的復(fù)雜度。MXFP8 的原生支持則簡化了這一過程——其細(xì)粒度縮放機制提供了更優(yōu)的數(shù)值魯棒性，同時規(guī)避了小 Block 尺寸與硬件速度之間的權(quán)衡問題。

綜上所述，相比于 BF16 或 FP8 預(yù)訓(xùn)練，MXFP8 能保持同等精度。在 GB200 Blackwell 系統(tǒng)上，MXFP8 的吞吐量是 BF16 的 2 倍，這使得端到端 MXFP8 預(yù)訓(xùn)練速度超越 BF16 預(yù)訓(xùn)練。與 FP8 相比，MXFP8 方案還更加簡便（所有層均可量化且縮放由硬件處理），同時保持同等或更優(yōu)的吞吐性能。

五、參考鏈接：

[1] https://arxiv.org/abs/2506.08027
[2] https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
[3] https://arxiv.org/abs/2209.05433
[4] https://arxiv.org/abs/2412.19437
[5] https://arxiv.org/abs/2504.03624

本文轉(zhuǎn)載自??AI閑談??，作者：AI閑談

標(biāo)簽

預(yù)訓(xùn)練

已于2025-6-13 10:37:59修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)？！中科院等：8項測試第一，遠(yuǎn)超知乎豆瓣小紅書

Crystalcxt ? 5403瀏覽 ? 0回復(fù)
ICML 2024 | 大語言模型預(yù)訓(xùn)練新前沿：「最佳適配打包」重塑文檔處理標(biāo)準(zhǔn)

輕薄滴假象 ? 3699瀏覽 ? 0回復(fù)
預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎？去掉預(yù)訓(xùn)練LLM效果反而提升

海因斯DK ? 6587瀏覽 ? 0回復(fù)
LLM分布式預(yù)訓(xùn)練淺析

zhcs333 ? 4586瀏覽 ? 0回復(fù)
OpenAI在RAG技術(shù)上的最佳實踐與策略

AIGC觀察者 ? 5326瀏覽 ? 0回復(fù)
Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實踐

Syrupup ? 7277瀏覽 ? 0回復(fù)
FP8 預(yù)訓(xùn)練真的成熟了嗎：一些實踐和分析

amei2000go ? 6805瀏覽 ? 1回復(fù)
你真的了解預(yù)訓(xùn)練嗎？預(yù)訓(xùn)練與微調(diào)的區(qū)別是什么？

AI探索時代 ? 1.0w瀏覽 ? 0回復(fù)
LLM 剪枝+蒸餾：NVIDIA 的最佳實踐

amei2000go ? 6933瀏覽 ? 0回復(fù)
GPU和CPU如何混合訓(xùn)練？大模型訓(xùn)練的GPU聯(lián)手CPU顯存優(yōu)化分析方法

angel ? 6715瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時代 ? 5949瀏覽 ? 0回復(fù)
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐

AI博物院 ? 3945瀏覽 ? 0回復(fù)
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐

AI博物院 ? 6231瀏覽 ? 0回復(fù)
大語言模型評測中的評價指標(biāo)：方法、基準(zhǔn)和最佳實踐

芝士AI吃魚 ? 1.3w瀏覽 ? 0回復(fù)
分享3點關(guān)于AI 產(chǎn)品管理的最佳實踐

zhishan15 ? 3625瀏覽 ? 0回復(fù)
DeepSeek又開源R1部署最佳實踐！

探索AGI ? 3607瀏覽 ? 0回復(fù)
一鍵開啟大模型評估：LangChain下場給出最佳實踐

ermulong ? 4941瀏覽 ? 0回復(fù)
Anthropic開源Agentic Coding最佳實踐！

探索AGI ? 4891瀏覽 ? 0回復(fù)
NVIDIA 推出Rubin CPX，專為AI推理設(shè)計的GPU

Syrupup ? 2145瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練 2025-10-28 07:51:32發(fā)布
Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law” 2025-10-28 07:51:18發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復(fù)

8%價格，2倍速度！國產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現(xiàn)堪稱性價比之王！ 0回復(fù)

上一篇： Scale-Up 擴展與故障容錯：NVIDIA 非均勻張量并行

下一篇： LLM Inference 中的低精度陷阱：數(shù)值穩(wěn)定性和可復(fù)現(xiàn)性

社區(qū)精華內(nèi)容

目錄

熟女少妇精品一区二区| 成人动漫在线视频| 久久免费手机视频| 亚洲资源在线| 亚洲成av人片| 亚洲视频在线二区| 成人小说亚洲一区二区三区| 天堂影院一区二区| 欧美成人四级hd版| 精品人妻少妇嫩草av无码| 欧美成人app| 亚洲午夜视频在线| 亚洲欧美日韩国产成人综合一二三区| 精品美女www爽爽爽视频| 老鸭窝毛片一区二区三区| 久久国产精品久久久久久久久久| 污污污www精品国产网站| 久久女人天堂| 色哟哟国产精品| 免费在线看黄色片| 91caoporn在线| 成人免费的视频| 国产一区红桃视频| 秋霞精品一区二区三区| 国产精品99免费看| 日韩在线视频导航| 日韩乱码人妻无码中文字幕久久| 久久wwww| 欧美男女性生活在线直播观看 | 久久精品一区二区不卡| 亚洲精品xxx| 日本中文字幕有码| 日韩午夜电影免费看| 日本高清成人免费播放| 免费超爽大片黄| 在线视频国产区| 自拍偷拍国产亚洲| 色就是色欧美| 国产69精品久久app免费版| 99久久婷婷国产综合精品| 51蜜桃传媒精品一区二区| 一区二区乱子伦在线播放| 久久精品30| 欧美一级高清免费| 日韩在线观看第一页| 国产精品porn| 色综合色综合久久综合频道88| 尤物在线免费视频| 91日韩视频| 久久国产一区二区三区| 亚洲区一区二区三| 91影院成人| 久久精品国产精品亚洲| 免费中文字幕日韩| 亚洲乱码电影| 欧美肥婆姓交大片| 免费视频一二三区| 黄色亚洲免费| 韩剧1988在线观看免费完整版| 精品少妇久久久| 亚洲另类自拍| 欧美一区在线直播| 精品国产xxx| 日韩成人免费看| 国产精品视频自在线| 91在线你懂的| 国产高清一区日本| 国产伦精品一区二区三区视频免费 | 精品成人av一区二区三区| 欧美黄色影院| 亚洲日韩中文字幕在线播放| av免费观看不卡| 日韩激情啪啪| 中文字幕av一区| 黄色精品视频在线观看| 欧美日本一区二区视频在线观看| 久久999免费视频| 精品国产免费观看| 日韩精品欧美精品| 成人啪啪免费看| 老牛影视av牛牛影视av| 久久一区二区三区国产精品| 污视频在线免费观看一区二区三区 | av综合在线播放| 欧美日韩亚洲在线| 中文字幕在线免费| 亚洲综合成人在线视频| 中国丰满人妻videoshd| 欧美激情三区| 精品国产乱码91久久久久久网站| 中文字幕av网址| 91综合在线| 97精品欧美一区二区三区| 神马久久久久久久| 国产在线精品一区二区夜色| 国产在线精品一区二区中文| 国产黄色在线播放| 亚洲黄色片在线观看| 国产亚洲综合视频| 亚州精品国产| 日韩精品视频免费| 蜜桃av.com| 亚洲一区黄色| 91人人爽人人爽人人精88v| 人妻精品一区二区三区| 国产欧美中文在线| 久久亚洲a v| 日本国产欧美| 日韩av在线最新| 国产探花在线免费观看| 免费日韩av片| 国产a一区二区| 91欧美在线视频| 精品露脸国产偷人在视频| 奇米视频7777| 精品久久久久中文字幕小说| 91国偷自产一区二区三区的观看方式| 一级黄色片视频| 久久嫩草精品久久久久| 人人干视频在线| 精品中文在线| 日韩有码片在线观看| 亚洲综合图片网| 99久久伊人久久99| 日韩人妻一区二区三区蜜桃视频| 欧美va视频| 日韩av在线免播放器| 久久久久久久国产视频| 激情文学综合插| 午夜久久资源| 亚洲精品在线影院| 亚洲精品视频网上网址在线观看| 欧美成人三级视频| 蜜桃传媒麻豆第一区在线观看| 久久精品国产综合精品| gogo高清在线播放免费| 日韩一区二区精品在线观看| 亚洲一级二级片| 麻豆成人91精品二区三区| 日本成人黄色免费看| 不卡一二三区| 精品中文视频在线| 国产性猛交╳xxx乱大交| 成人免费毛片app| wwwjizzjizzcom| 免费欧美网站| 欧美日本中文字幕| 国内老熟妇对白xxxxhd| 一区二区三区在线影院| 手机在线观看日韩av| 欧美在线观看天堂一区二区三区| 91久久精品在线| 亚洲男同gay网站| 日韩视频一区在线观看| 三级全黄做爰视频| 国产一区二区三区四区五区入口| 一区二区三区四区欧美| 2020国产精品小视频| 精品国产一区二区三区久久狼5月精品国产一区二区三区久久久狼精品国产一区二区三区久久久 | 51国产偷自视频区视频| 久久香蕉国产线看观看99| 黄色免费观看视频网站| 亚洲人成伊人成综合图片| 日本精品视频在线播放| 久久久久久女乱国产| 日本久久一区二区| 国产三级在线观看完整版| 免费成人美女在线观看.| 在线免费观看一区二区三区| 精品国产亚洲一区二区三区在线| 久久99精品久久久久久噜噜| 天天操天天操天天干| 色婷婷久久久综合中文字幕| 亚洲色图100p| 国产成人啪午夜精品网站男同| 成人黄色av片| 久久高清精品| 超碰在线97av| 成人在线爆射| 波霸ol色综合久久| 日韩一级中文字幕| 在线观看精品一区| 全网免费在线播放视频入口| k8久久久一区二区三区| 婷婷激情四射五月天| 欧美激情无毛| 欧美一区国产一区| 成人豆花视频| 1769国内精品视频在线播放| 五月婷婷在线观看| 亚洲高清久久久久久| 欧美一区二区三区久久久| 亚洲人精品一区| 黄色性生活一级片| 久久成人av少妇免费| 九一国产精品视频| 久久久精品久久久久久96| 精品国产_亚洲人成在线| 日本午夜精品久久久久| 97香蕉超级碰碰久久免费的优势| 8888四色奇米在线观看| 精品国产免费一区二区三区四区| 姑娘第5集在线观看免费好剧| 夜夜嗨av一区二区三区中文字幕 | 亚洲美女性生活| 91福利国产成人精品照片| 麻豆影视在线播放| 国产精品乱码人人做人人爱| 大桥未久恸哭の女教师| 极品少妇一区二区三区精品视频| 欧美色图色综合| 欧美三区在线| 在线国产精品网| 中文字幕av一区二区三区人| 高清一区二区三区视频| 日本久久久久| 国产精品美女久久久久av超清| 超碰在线资源| 久久婷婷国产麻豆91天堂| 国产在线观看免费| 亚洲第一精品久久忘忧草社区| 91麻豆视频在线观看| 色呦呦一区二区三区| 日本一级一片免费视频| 亚洲一区二区美女| 欧美特级一级片| 中文字幕在线不卡国产视频| 91成人破解版| 久久久美女毛片| 国产激情视频网站| 成人国产在线观看| 久久久久久无码精品人妻一区二区| 蜜臀久久99精品久久久久宅男| 日本三级免费网站| 在线亚洲精品| 欧洲黄色一级视频| 一区二区高清| www一区二区www免费| 99精品视频免费| 亚洲人成无码网站久久99热国产| 欧美freesex交免费视频| 国产一区一区三区| 久久久久亚洲| 99视频精品全部免费看| 一区二区三区四区电影| 欧美日韩中文字幕在线播放| 欧美精品入口| 黄页网站大全在线观看| 99riav国产精品| 欧美国产综合| 天堂在线亚洲视频| 香蕉视频网站入口| 麻豆精品在线看| 一级淫片在线观看| 国产精品系列在线播放| 97中文字幕在线观看| 成人h动漫精品一区二| 亚洲av无码一区二区二三区| 久久久不卡网国产精品二区| 欧美丰满美乳xxⅹ高潮www| 中文字幕欧美日韩一区| youjizz亚洲女人| 亚洲素人一区二区| 久久久99精品| 欧美午夜视频在线观看| 免费视频网站在线观看入口| 欧美无人高清视频在线观看| 国产又粗又黄又爽的视频| 欧美一区二区三区啪啪| www.黄色片| 日韩精品中文字幕有码专区| 国产九九在线| 久久精品夜夜夜夜夜久久| 日本动漫同人动漫在线观看| 国产91ⅴ在线精品免费观看| 高清av一区二区三区| 亚洲精品免费在线视频| 欧美电影在线观看完整版| 日韩久久久久久久久久久久久| 欧美激情黄色片| 国产av国片精品| 日韩专区欧美专区| 日韩欧美中文视频| 26uuu欧美| 99久久99久久精品国产| 午夜精品123| 中文字幕人妻丝袜乱一区三区| 日韩午夜av电影| 国际av在线| 色综合91久久精品中文字幕| a欧美人片人妖| 亚洲a中文字幕| 国产精品嫩模av在线| 先锋影音男人资源| 久久精品麻豆| 久久久精品人妻一区二区三区| 国产午夜精品福利| 久久精品视频6| 欧美精品v国产精品v日韩精品| 无码国产精品高潮久久99| 日韩网站免费观看高清| 交100部在线观看| 亚洲a成v人在线观看| 国产影视一区| 欧美久久久久久久久久久久久| 精品一二三四在线| 国产精品无码一区二区三区| 一区二区三区四区av| 中文字幕一区二区人妻| 亚洲激情在线观看| av大片在线| 国产精品自产拍在线观看中文| 欧美黑人巨大videos精品| 中文字幕精品在线播放| 免费国产亚洲视频| 蜜桃精品一区二区| 午夜精品免费在线观看| 国产免费无遮挡| 伊人激情综合网| 成人爽a毛片免费啪啪| 成人在线资源网址| 影音先锋日韩精品| 黄色片视频在线| 国产亚洲精久久久久久| 日韩黄色三级视频| 亚洲成人av资源网| 91国内在线| 91深夜福利视频| 91精品国产视频| 天天看片天天操| 国产精品久久久久影院老司| 在线免费观看国产精品| 亚洲精品国产精品国产自| 久草在线视频网站| 成人自拍网站| 在线成人av| 亚洲精品久久久久久| 亚洲视频精选在线| 国产精品久久久国产盗摄| 日韩最新中文字幕电影免费看| 草民电影神马电影一区二区| 视频一区二区综合| 日本不卡一区二区三区 | 蜜桃视频久久一区免费观看入口| 欧美成人精品一区二区| 日韩av综合| 国产精品无码电影在线观看| 国产成人精品免费视频网站| 欧美交换国产一区内射| 日韩欧美国产综合| 99久久精品免费看国产小宝寻花| 国产精品毛片一区视频| 亚洲一区成人| 日本二区在线观看| 色域天天综合网| 98在线视频| 91香蕉亚洲精品| 精品91视频| 午夜一区二区三区免费| 91黄视频在线| 美女写真理伦片在线看| 91福利视频导航| 亚洲福利电影| 爱爱免费小视频| 欧美日本视频在线| av网站在线免费看推荐| 国产精品久久7| 一区二区精品| 一级二级黄色片| 日韩一区二区三区视频| 91福利区在线观看| 蜜桃网站成人| 免费在线看一区| 欧美成人免费看| 亚洲奶大毛多的老太婆| 亚洲精品大片| 国产精品久久..4399| 欧美国产激情一区二区三区蜜月| 国产精品爽爽久久久久久| 97精品在线视频| 欧美色图一区| 91亚洲一线产区二线产区| 欧美性猛交xxxxx免费看| 3d成人动漫在线| 国产精品一区二区三区精品| 久久久亚洲一区| 欧美日韩国产一区二区三区| 亚洲黄色成人网| 涩涩涩久久久成人精品| 玩弄中年熟妇正在播放| 国产精品三级视频| 日本黄色一区二区三区| 国产一区红桃视频| 国产亚洲精品v| 曰本女人与公拘交酡| 亚洲性夜色噜噜噜7777| 成人性生交大片免费看中文视频| 人人干人人视频| 亚洲成av人片在线观看| 久cao在线|