一、背景筆者在之前的文章中介紹了一系列偏同步訓練方式的RL優化方案,最近出了一系列異步訓練工作,后續會逐步介紹。本文中先簡單介紹來自阿里等團隊的Roll系列中的RollFlash。對應的論文為:[2510.11345]PartII:ROLLFlashAcceleratingRLVRandAgenticTrainingwithAsynchrony對應的代碼庫為:GitHubalibabaROLL:AnEfficientandUserFriendlyScalingLibraryforReinforcementLearningwithLargeLanguageModels二、摘要同步RL后訓練...
2025-10-28 07:51:32 1137瀏覽 0點贊 0回復 0收藏
一、背景之前已經介紹了一些了RL訓練優化的文章,它們往往針對特定場景或特定算法進行優化,而缺乏一些系統性的研究。正好看到Meta的ScaleRL,其對各種策略、技術進行了比較全面的消融實驗,并提供了最佳實踐,我們這里對其進行簡單介紹。對應的論文:[2510.13786]TheArtofScalingReinforcementLearningComputeforLLMs[1]二、摘要RL已成為LLM的核心技術,但是該領域還缺乏與預訓練相媲美的可預測ScalingLaw。為此,作者進行了大...
2025-10-28 07:51:18 888瀏覽 0點贊 0回復 0收藏
一、背景最近一直在關注RLInfra相關的工作,尤其是RL性能優化,后續會逐漸介紹一下該領域的相關文章,本文先簡單介紹一下字節新發布的RhymeRL。對應的論文為:[2508.18588]HistoryRhymes:AcceleratingLLMReinforcementLearningwithRhymeRL二、摘要RL成為提升LLMReasoning能力的關鍵方法,與傳統預訓練不同,RL包含多個階段:Rollout、Reward、Training,需要多種類型的Worker協同配合;除此之外,為了效率也可能引入異步訓練方...
2025-09-22 07:05:04 2191瀏覽 0點贊 0回復 0收藏
一、背景網絡互聯是大規模集群不可或缺的一部分,也是大規模模型訓練中影響任務穩定性和效率的關鍵因素,然而網絡相關問題的診斷和修復又是個老大難問題。本文我們介紹清華大學和阿里的SkeletonHunter系統,其提供了一個不錯的思路。對應的論文為:SkeletonHunter:DiagnosingandLocalizingNetworkFailuresinContainerizedLargeModelTraining[1]相關工作可以參考我們之前的文章:LLaMA3背后的大規模GPU集群RoCE網絡建設HPN7.0:...
2025-09-10 00:20:17 1599瀏覽 0點贊 0回復 0收藏
一、背景我們在之前的文章中已經介紹過很多對大規模AI集群建設和維護相關相關的文章,包含Meta、阿里、IBM、ImbueAI、字節、上海AIlab等等。今天簡單介紹一篇新的文章,其相對比較簡單,主要關注GPU異常,與我們之前介紹萬卡集群運維中的Case高度重合,但也有一些不一樣的地方,就當簡單回顧。對應的論文為:[2503.11901]CharacterizingGPUResilienceandImpactonAIHPCSystems[1]二、摘要論文對NCSADeltaAI集群(算力超過600PFLO...
2025-08-18 06:41:57 1971瀏覽 0點贊 0回復 0收藏
一、背景隨著LongReasoning領域的快速發展,最近涌現出了諸多Reasoning模型,比如DeepSeekR1、DeepSeekR1Distill以及阿里的QwQ32B模型。這些模型在處理復雜任務時表現卓越,但與此同時,我們也觀察到一些值得關注的現象。部分用戶在不必要的場景下盲目使用Reasoning模型,導致大量不必要的CoTToken被引入,直接推高了Inference成本。筆者在之前的CoTValve介紹文章中提到過:“LongCoT模型通常需要更長的Token序列,這會顯著增加...
2025-08-18 06:32:29 3066瀏覽 0點贊 0回復 0收藏
一、背景Meta趕在清明節期間發布了LLaMA4模型,目前看著比較倉促,官方Blog信息比較混亂,也沒有發表技術報告,我們這里先根據官方Blog梳理相應的信息。PS:Meta確實在PR中使用了一些常見的手段,比如避重就輕,揚長避短,但是個人感覺還不至于出現在后訓練中刻意混入評估集這種情況。LLaMA3.1的技術報告很全面,筆者之前也做過深度解讀,期待Meta早日發表LLaMA4技術報告,展示更多相關細節內容。對應的官方Blog為:TheLlama4he...
2025-08-18 06:29:23 2722瀏覽 0點贊 0回復 0收藏
一、引言LLM的Training與Inference存在很多共性,但也有極大的不同,LLMInference涉及的變量會更加復雜,需要采用的方案也會存在明顯區別,比如::不同的模型:通常不會使用單一模型解決所有問題,可能有不同規模、類型的模型,不同垂直場景的模型等。異構硬件環境:在Inference場景可選擇的GPU設備遠多于Training場景,比如可以使用A100、H100、B200,也可以采用H20、L40S、A30、T4,甚至可以選擇RTX5090、4080、3070等。復雜...
2025-08-04 00:57:59 2954瀏覽 1點贊 0回復 1收藏
?一、引言本文主要聚焦于大語言模型預訓練相關階段的技術和行業最新進展,其中包括常見的分布式策略、模型結構、常見的優化手段等。考慮到篇幅原因,暫不包含后訓練、多模態等領域。二、模型結構2.1概述當前LLM基本上都是DecoderOnly的Transformer模型,只不過都會進行一些修改。比如對Attention的修改衍生出來SoftmaxAttention系列和LinearAttention系列。而對FFN的修改衍生出了Dense模型和MoE模型。這個章節我們對這些模型結...
2025-08-04 00:49:43 2976瀏覽 1點贊 0回復 1收藏
一、背景筆者之前的文章中詳細介紹過NCCL初始化階段的拓撲建模、通信路徑計算和優化等工作,也介紹過一些LLM訓練和推理中對NCCL的優化工作。本文中,借著一篇新的論文具體介紹一下NCCL的內部設計原理和運行機制。對應的論文:[2507.04786]DemystifyingNCCL:AnIndepthAnalysisofGPUCommunicationProtocolsandAlgorithms[1]NCCL對應的代碼庫:GitHubNVIDIAnccl:OptimizedprimitivesforcollectivemultiGPUcommunication[2]二、摘要...
2025-07-15 09:22:49 8055瀏覽 0點贊 0回復 0收藏
?一、背景在此前的內容中,筆者曾介紹過DeepSeek的DeepEP、字節跳動的Flux和Tilelink等系統,這些系統在底層通信實現中均依賴于NVIDIA的NVSHMEM庫。事實上,字節跳動后續的諸如Comet、Tritondistributed,以及其他針對細粒度計算與通信重疊(Overlap)優化的工作,也都廣泛使用了NVSHMEM。本文將深入剖析NVSHMEM的初始化流程及其核心概念,以便從開發者視角理解其機制,為后續的定制化改造和工程實踐打下基礎。?也可以參考NVS...
2025-07-11 07:30:29 9466瀏覽 0點贊 0回復 0收藏
一、背景最近看到SemiAnalysis團隊制作了一個《AITokenFactoryEconomicsStack》的圖片(來自SemiAnalysis(SemiAnalysis)X[1]),深入分析了LLM推理成本鏈條中各個參與者的成本與利潤情況,涵蓋從硬件資本支出(Neocloud)、推理服務提供商(InferenceProviders)到終端應用層(Applications)的全棧視角,并且以H200GPU為例,進行定量分析。考慮到之前主要關注整體的CapEx(資本成本)和Opex(運維成本),因此借此機會進一步理...
2025-07-11 07:20:46 2333瀏覽 0點贊 0回復 0收藏
一、背景LLMInference中的數值穩定性問題是一個長期存在的挑戰。自從ChatGPT發布以來,關于同樣輸入下,盡管使用了GreedySearch,輸出仍然存在差異的問題就引發了廣泛關注。在我們之前的文章中,也曾涉及這一問題。最近,我們注意到一篇新的論文,針對這一問題進行了深入分析和討論,本文將對其進行簡要介紹。對應的論文:[2506.09501]GiveMeFP32orGiveMeDeathChallengesandSolutionsforReproducibleReasoning[1]二、摘要研究表...
2025-06-27 00:25:51 2811瀏覽 0點贊 0回復 0收藏
一、背景筆者之前寫過FP8訓練的綜述文章以及FP4訓練和推理的綜述文章,本文對其進一步補充,介紹NVIDIA最新的使用MXFP8預訓練的方案。對應的論文:[2506.08027]RecipesforPretrainingLLMswithMXFP8[1]二、摘要精度縮放——即在預訓練過程中使用更少的比特來表示模型參數及相關Tensor——已成為一種在不犧牲精度前提下提升GPU效率的有效技術。NVIDIA最新BlackwellGPU中引入Microscaling(MX)格式,為Tensor量化提供了細粒度解決方...
2025-06-13 06:57:47 7269瀏覽 0點贊 0回復 0收藏
一、背景最近華為推出了超節點CloudMatrix384,進一步引發業內對ScaleUp和ScaleOut的廣泛討論。不可避免地也會涉及與NVIDIA超節點NVL72的對比。ScaleUp和ScaleOut各自具有不同的優劣勢和局限性。除了擴展性和成本問題外,故障和容錯也是一個不可忽略的挑戰。本文中,我們介紹一個NVIDIA最近在這一領域的研究工作,著重探討隨著ScaleUp域的擴展,如何應對相應的容錯問題。對應的論文為:[2504.06095]NonuniformTensorParallelism...
2025-06-03 06:08:14 4303瀏覽 0點贊 0回復 0收藏
一、概覽1.1引言在大規模分布式訓練中,NCCL的拓撲發現和建模是確保高效通信的核心機制,可以幫助建立硬件感知的通信優化,比如充分利用異構帶寬,避免通信成為瓶頸,會直接影響訓練的性能和擴展性。對應的核心代碼位于:init.cc:ncclsrcinit.ccatmaster·NVIDIAnccl·GitHub[1]topo.cc:ncclsrcgraphtopo.ccatmaster[2]1.2NCCL初始化拓撲建模如下圖所示為NCCL初始化時拓撲相關的核心流程,主要負責系統拓撲發現、路徑建模、設...
2025-05-20 06:28:48 5981瀏覽 0點贊 0回復 0收藏
一、背景在之前的系列文章中,筆者已經系統性地介紹過大規模LLM訓練面臨的各種挑戰以及可能涉及的問題和解決方案。在對大規模任務進行Profiling分析的時候,面對成千上萬的kernel也經常苦不堪言,想要通過統計分析來診斷相應的問題,并為優化提供更多的可能性。碰巧看到了字節跳動Seed的這篇文章,雖然社區內沒有看到太多討論,不過其確實與我們的一些思路不謀而合,這里進行簡單介紹。其實文章中的大部分結論性內容筆者在之前...
2025-05-20 06:24:53 4946瀏覽 0點贊 0回復 0收藏
一、背景大模型,如大語言模型(LLM)和大型多模態模型(LMM),正在改變自然語言處理和多模態任務的格局。然而,這些模型的Inference過程面臨大計算、大內存、高時延等諸多挑戰。為了應對這些問題,分布式分離Inference系統應運而生,旨在通過將模型的不同部分分開處理來優化性能。大體來說,大模型Inference經歷了從單體到分布式,再到分離式的演進,并在繼續發展中:1.單體Inference階段(2020年前):模型完整加載至單個設...
2025-05-07 00:27:19 7822瀏覽 0點贊 1回復 0收藏
一、背景此前筆者對AIAgent研究的涉獵比較少,也基本沒有系統介紹過與Agent相關的內容。然而,最近由Anthropic提出的MCP(ModelContextProtocol[1],模型上下文協議)在社區中引發廣泛關注,筆者也趁此機會“蹭蹭熱度”,了解下MCP到底是什么,了解一下MCP的基本概念和工作機制。在最初接觸MCP時,也曾對其一些設計感到困惑。于是帶著這些疑問進行了進一步的調研,逐漸對MCP的組成及運作方式有了初步的認識,比如:MCP中的Resou...
2025-04-22 06:51:21 8237瀏覽 0點贊 0回復 0收藏
一、背景在大規模分布式訓練場景中,計算和通信的重疊(Overlap)一直是一個關鍵的研究熱點。隨著硬件性能的提升,計算能力和通信帶寬之間的差距日益顯著。如下圖所示,硬件算力每2年大約擴大3x,而通信帶寬每2年只提升1.4x,這種差距帶來的影響在大規模訓練任務中愈加明顯。例如,在使用H100和A100集群進行LLM訓練時,H100的通信開銷占比通常會高于A100。這種情況下,通信可能成為了系統性能的瓶頸,因此,如何在計算和通信之...
2025-04-09 06:48:28 4660瀏覽 1點贊 0回復 1收藏