精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

豆包是如何煉成的？字節放出自研萬卡訓練系統ByteRobust論文

2025-10-22 08:48:58

人工智能新聞

近日，字節跳動一篇論文介紹了他們 LLM 訓練基礎設施 ByteRobust，引發廣泛關注。現在，在訓練基礎設施層面上，我們終于知道字節跳動會如何穩健地訓練豆包了。

大型語言模型（LLM）訓練的核心基礎設施是 GPU?，F如今，其訓練規模已達到數萬塊 GPU，并且仍在持續擴大。同時，訓練大模型的時間也越來越長。例如，一個 405B 參數模型 LLaMA 3 的預訓練，動用了 16,384 塊 NVIDIA H100 GPU，耗時 54 天。字節跳動曾使用 12,288 塊 GPU 訓練了一個 175B 參數的模型。最近，xAI 建立了一個擁有 100,000 塊 GPU 的集群以進一步擴大訓練規模。

資源規模的擴張也帶來了故障的普遍發生（例如 CUDA 錯誤、NaN 值、任務掛起等），這對訓練的穩定性構成了巨大挑戰。Meta 曾報告稱，在 16,000 塊 GPU 上訓練大模型時，硬件故障大約每 2.78 小時發生一次。

對于 LLM 訓練，當前的故障診斷和處理實踐通常依賴于在發生「故障即停止」 (fail-stop) 事件后進行日志分析和退出碼評估，或者獨占整個集群進行壓力測試。一旦確定了根本原因，訓練任務會通過重新調度的資源和并行配置來恢復，并從遠程文件系統重新加載通常由 TB 級數據組成的檢查點 (checkpoints)。這種「故障 - 停止-診斷-恢復」的流程會產生不可忽視的開銷，耗時從幾小時到幾天不等。隨著模型和資源規模的擴大，故障頻率增加，這極大地限制了有效訓練時間比率 (ETTR，即有效訓練時間與任務總運行時長的比值)。

因此，任何大規模 LLM 訓練基礎設施都應致力于實現最小化的訓練中斷、高效的故障診斷和有效的容錯能力，以支持高效率的連續訓練。

近日，字節跳動一篇論文介紹了他們 LLM 訓練基礎設施 ByteRobust，引發廣泛關注。現在，在訓練基礎設施層面上，我們終于知道字節跳動會如何穩健地訓練豆包了。

論文標題：Robust LLM Training Infrastructure at ByteDance
論文地址：https://arxiv.org/abs/2509.16293

值得注意的是，這項研究共有六位共一作者：Borui Wan、 Gaohong Liu、Zuquan Song、Jun Wang、Yun Zhang、Guangming Sheng。

ByteRobust，一個穩健的 LLM 訓練基礎設施

ByteRobust 是字節跳動基于生產環境中的觀察和經驗構建的，力求穩健。

其關鍵目標是：以最小的非生產時間實現高效的事件診斷和處理，即在大規模 LLM 訓練中獲得高 ETTR。ByteRobust 經過精心設計，用于監控和管理 LLM 訓練的全生命周期，以便大規模地自動高效處理訓練事件。

ByteRobust 由兩個核心組件構成：控制平面 (control plane) 和數據平面 (data plane)。

ByteRobust 的架構

控制平面在訓練任務外部運行，負責協調穩健的事件處理策略，包括檢測異常、定位故障并觸發適當的恢復操作。

其中，Robust Controller 負責協調一個自動化的故障緩解框架，利用實時監控和「停止 - 診斷」來處理大多數事件。為了實現可控的快速恢復，當沒有機器被驅逐時，它使用一種「原地熱更新」機制來重啟訓練。當決定驅逐某些機器時，它會請求經過自檢預驗證的「溫備用」機器來恢復任務。

Runtime Analyzer 則通過聚合來自訓練 Pod 的堆棧跟蹤來隔離和（過度）驅逐可疑機器，以解決任務掛起和性能下降問題。

數據平面駐留在每個訓練 Pod 內部，集成了監控、診斷、檢查點管理和堆棧跟蹤捕獲等模塊，提供實時可觀測性、中斷時的即時診斷、快速的檢查點回滾以及按需的聚合分析。

Robust Agent 守護進程在每個訓練 Pod 中運行，處理來自穩健控制器的控制信號，并管理以下四個子模塊：

監控器 (Monitor) 收集多方面數據以檢測異常值，支持實時檢查并在出現異常時觸發聚合分析。
診斷器 (Diagnoser) 在任務暫停后運行特定領域的基準測試和測試套件，從而能夠對復雜故障進行深入診斷。
按需追蹤器 (On-Demand Tracer) 從訓練進程中捕獲堆棧跟蹤（當調用聚合分析時）并將其上傳到運行時分析器。
檢查點管理器 (CKPT manager) 執行異步檢查點設置，并將備份跨并行組存儲到 CPU 內存和本地磁盤，以最小化恢復成本）。

與傳統的 GPU 管理和容錯系統（通常在 Kubernetes Pod 級別運行）不同，ByteRobust 是將 LLM 訓練任務的清單擴展到包含細粒度的進程管理，能夠利用運行時信息進行故障檢測并實現快速恢復。ByteRobust 通過一套全面的技術實現了這一目標，其新穎的系統設計理念總結如下。

優先快速隔離，而非精確定位

ByteRobust 傾向于快速的故障隔離，而不是詳盡的定位。在超大規模的 LLM 訓練中（通常涉及數千塊 GPU），精確定位故障可能會導致大量 GPU 閑置。

為了最大化 ETTR，字節跳動的做法是將輕量級的實時檢測與分層的「停止-診斷」相結合，以最小的開銷快速甄別出故障機器。

當這些方法不足以解決問題時，ByteRobust 會應用一種數據驅動的方法，對運行時的堆棧跟蹤進行聚類分析，以在定義的故障域（即并行組）內隔離可疑機器，寧可「過度驅逐」它們，也不去追查確切的根本原因。

將人為錯誤納入設計考量

與標準的深度學習訓練任務不同，長達數月的 LLM 訓練涉及數據、算法和工程代碼的持續更新，這加劇了系統的脆弱性。

認識到人為錯誤是不可避免的故障來源，字節跳動提出了一個自動化容錯框架。

ByteRobust 的自動化容錯機制

該框架結合了用于即時檢測常見錯誤的實時檢查、用于深入分析復雜故障的「停止-診斷」、用于從瞬時故障中恢復的原地重試、用于從有缺陷的用戶代碼中恢復的代碼回滾，以及用于解決如 SDC 等極端情況的回放測試。

此外，通過一種「延遲更新」的方法，用戶代碼的變更可以與確定性故障的恢復過程合并，從而利用了故障的必然性和高頻率。

在快速恢復期間控制可變性

故障源于硬件缺陷和軟件錯誤，并且機器在長時間運行的任務中可能會性能退化。因此，在代碼升級和恢復過程中確保穩定性至關重要。

對于不改變機器分配的變更，字節跳動使用一種「原地熱更新」機制來保留運行時環境并簡化診斷。

為確保可控且快速的恢復，ByteRobust 利用預先配置的「溫備用」 (warm standbys) 機器，這些機器在交付前會執行自檢，以避免整個任務的重新調度。

最后，字節跳動的檢查點模塊通過將備份分布在不同的并行組中（位于任何單個故障域之外），與故障域緊密結合，消除了對遠程文件系統的依賴，從而實現快速重啟。

ByteRobust 已被實際部署

字節跳動表示，ByteRobust 已經實現并已實際部署超過一年時間，用于支持字節跳動在高性能生產 GPU 集群中的內部 LLM 訓練。字節跳動表示，ByteRobust 可以有效減少事件檢測時間，并通過自動容錯框架和聚合分析解決事件。

在為期三個月的時間里，ByteRobust 通過其自動化容錯訓練框架識別了 38,236 次顯式故障和 5,948 次隱式故障。

字節跳動在三個月期間收集的訓練事故統計數據，涵蓋了 778,135 個 LLM 訓練任務。

字節跳動在 16,384 塊 GPU 上的微基準測試實驗表明，溫備用和熱更新機制在恢復速度上分別實現了高達 10.87 倍和 11.04 倍的提升。

ByteRobust 中高效的檢查點機制實現了「每步檢查點」(every-step checkpointing)，其開銷低于 0.9%，從而加速了故障切換。

部署實驗表明，在一個為期三個月、使用 9,600 塊 GPU 的密集模型（類似 Llama，70B+）訓練任務中，ByteRobust 實現了高達 97% 的 ETTR。

Cumulative ETTR 和 sliding-window ETTR 是字節跳動引入的新指標，其中前者是累積的有效訓練時間與任務運行的累積總時長的比率，而后者在一個小時的窗口內計算的 ETTR，能更準確地反映間歇性故障的影響。

另外，他們也進行了一個為期一個月的 MoE 模型（Doubao-1.5-pro，200B+）訓練任務，ByteRobust 的表現同樣非常不錯。

同時，隨著訓練的進行，兩個任務的相對 MFU（Model FLOPs Utilization）持續增長。在訓練期間，字節跳動最初在集群上部署了一個樸素版本的預訓練代碼，然后不斷地調整和優化其學習過程和計算效率。

在上圖中，MFU 曲線的每一次躍升都表明，一個更高效的訓練代碼版本通過 ByteRobust 的熱更新機制部署了，而這對 ETTR 造成的降低微不足道。與初始運行時相比，字節跳動在密集模型和 MoE 任務中分別實現了 1.25 倍和 1.58 倍的 MFU 提升。

字節跳動還觀察到，與密集模型相比，MoE 訓練的 ETTR 相對較低。

密集模型的訓練性能通常已由社區充分優化，而 MoE 訓練則不同，它通常涉及大量自定義優化，如 GPU 內核調優、計算與通信重疊以及負載均衡策略。雖然這些優化對于提高訓練效率是必要的，并表現出更高的 MFU，但它們也引入了額外的復雜性，增加了代碼回滾和手動重啟的可能性。

更多詳情請參閱原論文。

責任編輯：張燕妮來源：機器之心

LLM 模型訓練

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

精品中文字幕一区二区三区四区| 欧美激情第一页xxx| 欧美图片激情小说| 精品人妻av一区二区三区| 亚洲日本成人| 尤物网精品视频| 日韩理论片网站| 日本高清视频精品| 九九精品视频免费| 国产在线中文字幕| 澳门久久精品| 五月婷婷欧美视频| 国产福利久久| 男生裸体视频网站| 三区四区在线视频| 成人午夜精品在线| 久久久欧美精品| 亚洲自拍偷拍图| 亚洲资源在线| 天堂中文字幕av| www.神马久久| 欧美日韩成人一区二区| 美女三级99| www.av视频| 五月天亚洲色图| 欧美日韩精品二区第二页| 一本一生久久a久久精品综合蜜| 国产乱淫av免费| 亚洲专区一区| 欧美极品少妇与黑人| 少妇高潮惨叫久久久久| 免费看日本一区二区| 国产主播性色av福利精品一区| 国产不卡高清在线观看视频| 国产成人激情视频| 在线日韩国产网站| 麻豆精品少妇| 在线免费不卡视频| 中文字幕日韩精品无码内射| 青青草在线免费视频| 996久久国产精品线观看| 欧美午夜一区二区三区| 国产精品欧美激情在线观看| ****av在线网毛片| 亚洲免费观看高清完整版在线观看熊| 一色桃子一区二区| 国产在线一区二| 中文字幕免费高清在线观看| 欧美午夜不卡| 日韩av中文字幕在线播放| 国产精品无码一本二本三本色| 色呦呦视频在线观看| 中文字幕亚洲电影| 激情伦成人综合小说| 精品久久久免费视频| 九九热在线视频观看这里只有精品| 久久资源在线| 亚洲福利在线视频| 中文字幕无码毛片免费看| 欧美专区福利免费| 一区二区在线看| 97视频在线免费| 里番在线播放| 亚洲综合色丁香婷婷六月图片| 午夜一区二区三视频在线观看| 国产爆初菊在线观看免费视频网站 | 国模无码国产精品视频| 婷婷伊人综合| 日韩中文字幕在线视频| 男生草女生视频| 久久av综合| 中文字幕一区日韩电影| av 日韩人妻黑人综合无码| 国产黄色片在线播放| 国产精品无码永久免费888| 伊人久久av导航| 超碰人人在线| 亚洲美女偷拍久久| www日韩大片| 91手机视频在线观看| av av片在线看| 久久爱www久久做| 国产va免费精品高清在线| 波多野结衣人妻| 国内精品久久久久影院色| 成人欧美在线观看| 久久国产视频一区| 美女视频一区二区| 国产精品一区二区女厕厕| 中文字幕av久久爽| 国产成人综合在线播放| 久久偷窥视频| 国产天堂素人系列在线视频| 97se狠狠狠综合亚洲狠狠| 热re99久久精品国99热蜜月| av网站在线播放| 国产一区二区导航在线播放| 精品在线不卡| 黄色一级片在线观看| 日本一区免费视频| 99久久精品免费看国产四区| 日韩在线观看视频一区| 成人h精品动漫一区二区三区| 色吧亚洲视频| 欧洲熟妇精品视频| 国产第一页在线观看| 日本精品不卡| 日韩精品一区二区三区中文精品| 特级西西人体wwwww| 不卡日本视频| 欧美亚洲国产日韩2020| 精品国产一级片| 久久久99久久| 中国老女人av| 日韩成人亚洲| 欧美xingq一区二区| 舐め犯し波多野结衣在线观看| 欧美高清一区| 国产激情视频一区| 国产稀缺精品盗摄盗拍| 亚洲免费黄色| 国内揄拍国内精品| 99精品人妻无码专区在线视频区| 国产伦精品一区二区三区视频金莲| 91一区一区三区| 亚洲一区三区视频在线观看| 亚洲综合影视| 欧美浪妇xxxx高跟鞋交| 香蕉视频黄色在线观看| 久久一级电影| 国产精品草莓在线免费观看| 日韩一级在线播放| 亚洲国产成人av好男人在线观看| 久久精品一区二区| 97免费资源站| 成人精品福利| 色婷婷久久久久swag精品| 国产a级黄色片| 亚洲色图欧美| 久久久久久久久久国产| 91亚洲精品国偷拍自产在线观看 | 欧美日韩一区二区在线观看视频 | 欧美一区二区三区电影| 蜜桃av乱码一区二区三区| 亚洲五月综合| 国产日韩在线视频| 日本不卡不卡| 色综合久久九月婷婷色综合| 国产5g成人5g天天爽| 亚洲香蕉久久| 久久色免费在线视频| 在线观看黄色国产| 国产精品久久久久久久久搜平片 | 99国内精品久久久久久久软件| 国产三级电影在线| 91久久精品午夜一区二区| 日本电影一区二区三区| 日韩国产欧美精品| 欧美成人综合在线| 亚洲色图欧美偷拍| 欧美女同在线观看| 台湾色综合娱乐中文网| 欧美在线不卡区| 三级在线电影| 日韩欧美在线字幕| 亚洲视频在线播放免费| 日韩欧美视频专区| 91理论片午午论夜理片久久| 欧美理论片在线播放| 欧美大片在线观看一区二区| 青青草国产在线观看| 国产制服丝袜一区| 成人在线播放网址| 国产成人三级| 日韩av日韩在线观看| 无遮挡的视频在线观看| 日韩一区二区三区免费看 | 图片区小说区国产精品视频| 给我免费观看片在线电影的| 日韩黄色免费电影| 亚洲一区高清| 亚洲一区二区三区久久久| 国外色69视频在线观看| 黄色a一级视频| 国产黄色片在线观看| 亚洲国产cao| 国产成人一区二区在线观看| 免费视频一区| 午夜视频久久久| 高潮久久久久久久久久久久久久 | 国产偷倩在线播放| 日韩av有码在线| 色老头在线视频| 激情综合网天天干| 欧美日韩黄色一级片| 精品国产乱码久久久久久1区2匹| 亚洲一区免费网站| 成人勉费视频| 日韩在线观看视频免费| 国产精品一区二区6| 亚洲国产精品传媒在线观看| 亚洲黄色小说在线观看| 激情五月深爱五月| 蜜桃视频在线观看一区| 在线观看成人免费| 亚欧洲精品视频在线观看| 成人做爽爽免费视频| 亚洲综合图区| 国产亚洲精品综合一区91| 91片黄在线观看喷潮| 亚洲一级二级三级| 精品人妻少妇嫩草av无码| 老司机一区二区| 国产精品美女免费看| 五月婷婷之婷婷| 精品成人在线| 亚洲国内在线| 日本午夜精品久久久| 国产精品色悠悠| 欧美性suv| 欧美日韩你懂的| 一级做a爰片久久毛片| 亚洲国产精品久久人人爱蜜臀| 五月激情四射婷婷| 国产精品香蕉一区二区三区| 91视频这里只有精品| 日韩av在线发布| 欧美国产一区视频在线观看| 日韩av.com| 免费日韩av片| 亚洲乱码中文字幕久久孕妇黑人| 韩国在线一区| 久久综合亚洲精品| 国产精品国产一区| 亚洲高清视频在线观看| 国产一区二区在线| 久久久水蜜桃| 第四色在线一区二区| 国产精品免费看一区二区三区| 日韩三级不卡| 粉嫩av一区二区三区免费观看 | 国产一卡二卡三卡四卡| 亚洲大片av| 久久免费视频网| 天堂av在线8| 亚洲一区二区三区高清| 欧美男女爱爱视频| 大型av综合网站| 国产一区二区三区黄| eeuss鲁片一区二区三区| 91免费欧美精品| www.成人| 91嫩草在线视频| 成人软件在线观看| 欧美亚洲国产另类| 亚洲承认视频| 欧美另类极品videosbest最新版本| 超鹏97在线| 精品亚洲国产视频| 青青青草网站免费视频在线观看| 欧美第一区第二区| 亚洲欧美综合一区二区| 亚洲免费视频一区二区| 日本在线视频1区| 国产亚洲激情视频在线| 日本a在线播放| 欧美激情精品久久久久久黑人 | 夜夜爽8888| 一区二区成人在线视频| 久久一区二区三| 国产精品国产三级国产aⅴ入口| 国产传媒在线看| 亚洲色图一区二区三区| 久久久精品一区二区涩爱| 国产精品国产成人国产三级| 欧美高清视频一区二区三区| 亚洲午夜影视影院在线观看| 超碰在线播放91| 国产白浆在线免费观看| 欧美在线一区二区视频| 成人福利片在线| 91久久嫩草影院一区二区| 麻豆精品99| 亚洲ai欧洲av| 亚洲精品免费观看| 国产免费毛卡片| 亚洲精品午夜av福利久久蜜桃| 51精品久久久久久久蜜臀| 一区二区三区播放| 亚洲国产成人在线播放| 亚州视频一区二区三区| 中文字幕在线日韩| 999av小视频在线| 国产精品入口日韩视频大尺度| 国产精品亚洲综合在线观看| 国产一区在线免费观看| 色中色综合网| 男人插女人视频在线观看| 精品一区二区三区在线视频| 疯狂揉花蒂控制高潮h| 欧美日韩看看2015永久免费 | 欧美日韩视频在线| 国产精品色综合| 欧美精品一区二区久久婷婷| 国产中文字幕在线视频| 久久久精品国产亚洲| 超碰资源在线| 成人黄色av网站| 69堂免费精品视频在线播放| 精品蜜桃传媒| 欧美日韩亚洲一区| 1024av视频| 精品系列免费在线观看| 亚洲精品国产一区黑色丝袜| 亚洲成人av一区二区三区| 国产精品久久无码一三区| 精品日韩一区二区三区免费视频| 黄色美女网站在线观看| 久久久久久午夜| 日本午夜免费一区二区| 国产精品福利在线观看网址| 视频二区欧美毛片免费观看| 久久综合久久88| 国产情侣免费视频| 日韩午夜小视频| 8888四色奇米在线观看| 亚洲色图日韩av| 国产第一页在线| 成人免费视频a| 欧美猛男男男激情videos| 欧美久久久久久久久久久久久久| 久久午夜精品一区二区| 中文字幕在线视频播放| 亚洲欧洲美洲综合色网| 高清乱码免费看污| 日韩高清中文字幕| 激情视频网站在线播放色| 国产一区二区精品免费| 欧美日韩三级电影在线| 午夜影院免费版| 亚洲精品91| 国产99视频精品免视看7| 精品精品国产毛片在线看| 香港三级日本三级a视频| 天堂av在线一区| xxxx日本黄色| 欧美在线观看禁18| 成黄免费在线| 国产精品中文字幕在线观看| av伊人久久| 超碰人人草人人| 久久精品一区二区三区不卡| 国产熟妇一区二区三区四区| 亚洲人成在线一二| 婷婷综合六月| 亚洲资源在线网| 国产一区二区在线看| 欧美成人精品欧美一级| 亚洲成年网站在线观看| 交100部在线观看| 欧美日本韩国国产| 蜜桃91丨九色丨蝌蚪91桃色| 日韩精品一区二区三区在线视频| 91精品国模一区二区三区| 青青在线视频| 九色综合日本| 日韩不卡免费视频| 黄色免费一级视频| 日韩一级成人av| 91超碰在线| 色姑娘综合网| 国产综合成人久久大片91| 日韩欧美中文字幕视频| 欧美成人在线直播| 小早川怜子影音先锋在线观看| 日韩精品一区二区三区外面| 黑人巨大精品欧美一区| 国产香蕉在线视频| 亚洲欧美日本精品| 亚洲青青一区| www.好吊操| 久久精品视频在线看| 国产精品一区二区av白丝下载 | 美洲天堂一区二卡三卡四卡视频| 午夜激情视频在线播放| 欧美大黄免费观看| 欧美自拍电影| 一二三在线视频| 91丨porny丨中文| 国产农村妇女毛片精品| 欧美亚洲激情在线| 五月开心六月丁香综合色啪| av电影在线播放| 色美美综合视频| av片在线观看永久免费| 欧美日韩在线不卡一区| 国产九九视频一区二区三区| 老熟妇仑乱一区二区av| 久久久精品在线| 禁果av一区二区三区|