精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

豆包是如何煉成的?字節放出自研萬卡訓練系統ByteRobust論文

人工智能 新聞
近日,字節跳動一篇論文介紹了他們 LLM 訓練基礎設施 ByteRobust,引發廣泛關注。現在,在訓練基礎設施層面上,我們終于知道字節跳動會如何穩健地訓練豆包了。

大型語言模型(LLM)訓練的核心基礎設施是 GPU?,F如今,其訓練規模已達到數萬塊 GPU,并且仍在持續擴大。同時,訓練大模型的時間也越來越長。例如,一個 405B 參數模型 LLaMA 3 的預訓練,動用了 16,384 塊 NVIDIA H100 GPU,耗時 54 天。字節跳動曾使用 12,288 塊 GPU 訓練了一個 175B 參數的模型。最近,xAI 建立了一個擁有 100,000 塊 GPU 的集群以進一步擴大訓練規模。

資源規模的擴張也帶來了故障的普遍發生(例如 CUDA 錯誤、NaN 值、任務掛起等),這對訓練的穩定性構成了巨大挑戰。Meta 曾報告稱,在 16,000 塊 GPU 上訓練大模型時,硬件故障大約每 2.78 小時發生一次。

對于 LLM 訓練,當前的故障診斷和處理實踐通常依賴于在發生「故障即停止」 (fail-stop) 事件后進行日志分析和退出碼評估,或者獨占整個集群進行壓力測試。一旦確定了根本原因,訓練任務會通過重新調度的資源和并行配置來恢復,并從遠程文件系統重新加載通常由 TB 級數據組成的檢查點 (checkpoints)。這種「故障 - 停止-診斷-恢復」的流程會產生不可忽視的開銷,耗時從幾小時到幾天不等。隨著模型和資源規模的擴大,故障頻率增加,這極大地限制了有效訓練時間比率 (ETTR,即有效訓練時間與任務總運行時長的比值)。

因此,任何大規模 LLM 訓練基礎設施都應致力于實現最小化的訓練中斷、高效的故障診斷和有效的容錯能力,以支持高效率的連續訓練。

近日,字節跳動一篇論文介紹了他們 LLM 訓練基礎設施 ByteRobust,引發廣泛關注。現在,在訓練基礎設施層面上,我們終于知道字節跳動會如何穩健地訓練豆包了。

  • 論文標題:Robust LLM Training Infrastructure at ByteDance
  • 論文地址:https://arxiv.org/abs/2509.16293

值得注意的是,這項研究共有六位共一作者:Borui Wan、 Gaohong Liu、Zuquan Song、Jun Wang、Yun Zhang、Guangming Sheng。

ByteRobust,一個穩健的 LLM 訓練基礎設施

ByteRobust 是字節跳動基于生產環境中的觀察和經驗構建的,力求穩健。

其關鍵目標是:以最小的非生產時間實現高效的事件診斷和處理,即在大規模 LLM 訓練中獲得高 ETTR。ByteRobust 經過精心設計,用于監控和管理 LLM 訓練的全生命周期,以便大規模地自動高效處理訓練事件。

ByteRobust 由兩個核心組件構成:控制平面 (control plane) 和數據平面 (data plane)。

ByteRobust 的架構

控制平面在訓練任務外部運行,負責協調穩健的事件處理策略,包括檢測異常、定位故障并觸發適當的恢復操作。

其中,Robust Controller 負責協調一個自動化的故障緩解框架,利用實時監控和「停止 - 診斷」來處理大多數事件。為了實現可控的快速恢復,當沒有機器被驅逐時,它使用一種「原地熱更新」機制來重啟訓練。當決定驅逐某些機器時,它會請求經過自檢預驗證的「溫備用」機器來恢復任務。

Runtime Analyzer 則通過聚合來自訓練 Pod 的堆棧跟蹤來隔離和(過度)驅逐可疑機器,以解決任務掛起和性能下降問題。

數據平面駐留在每個訓練 Pod 內部,集成了監控、診斷、檢查點管理和堆棧跟蹤捕獲等模塊,提供實時可觀測性、中斷時的即時診斷、快速的檢查點回滾以及按需的聚合分析。

Robust Agent 守護進程在每個訓練 Pod 中運行,處理來自穩健控制器的控制信號,并管理以下四個子模塊:

  • 監控器 (Monitor) 收集多方面數據以檢測異常值,支持實時檢查并在出現異常時觸發聚合分析。
  • 診斷器 (Diagnoser) 在任務暫停后運行特定領域的基準測試和測試套件,從而能夠對復雜故障進行深入診斷。
  • 按需追蹤器 (On-Demand Tracer) 從訓練進程中捕獲堆棧跟蹤(當調用聚合分析時)并將其上傳到運行時分析器。
  • 檢查點管理器 (CKPT manager) 執行異步檢查點設置,并將備份跨并行組存儲到 CPU 內存和本地磁盤,以最小化恢復成本)。

與傳統的 GPU 管理和容錯系統(通常在 Kubernetes Pod 級別運行)不同,ByteRobust 是將 LLM 訓練任務的清單擴展到包含細粒度的進程管理,能夠利用運行時信息進行故障檢測并實現快速恢復。ByteRobust 通過一套全面的技術實現了這一目標,其新穎的系統設計理念總結如下。

優先快速隔離,而非精確定位

ByteRobust 傾向于快速的故障隔離,而不是詳盡的定位。在超大規模的 LLM 訓練中(通常涉及數千塊 GPU),精確定位故障可能會導致大量 GPU 閑置。

為了最大化 ETTR,字節跳動的做法是將輕量級的實時檢測與分層的「停止-診斷」相結合,以最小的開銷快速甄別出故障機器。

當這些方法不足以解決問題時,ByteRobust 會應用一種數據驅動的方法,對運行時的堆棧跟蹤進行聚類分析,以在定義的故障域(即并行組)內隔離可疑機器,寧可「過度驅逐」它們,也不去追查確切的根本原因。

將人為錯誤納入設計考量

與標準的深度學習訓練任務不同,長達數月的 LLM 訓練涉及數據、算法和工程代碼的持續更新,這加劇了系統的脆弱性。

認識到人為錯誤是不可避免的故障來源,字節跳動提出了一個自動化容錯框架。

ByteRobust 的自動化容錯機制

該框架結合了用于即時檢測常見錯誤的實時檢查、用于深入分析復雜故障的「停止-診斷」、用于從瞬時故障中恢復的原地重試、用于從有缺陷的用戶代碼中恢復的代碼回滾,以及用于解決如 SDC 等極端情況的回放測試。

此外,通過一種「延遲更新」的方法,用戶代碼的變更可以與確定性故障的恢復過程合并,從而利用了故障的必然性和高頻率。

在快速恢復期間控制可變性

故障源于硬件缺陷和軟件錯誤,并且機器在長時間運行的任務中可能會性能退化。因此,在代碼升級和恢復過程中確保穩定性至關重要。

對于不改變機器分配的變更,字節跳動使用一種「原地熱更新」機制來保留運行時環境并簡化診斷。

為確保可控且快速的恢復,ByteRobust 利用預先配置的「溫備用」 (warm standbys) 機器,這些機器在交付前會執行自檢,以避免整個任務的重新調度。

最后,字節跳動的檢查點模塊通過將備份分布在不同的并行組中(位于任何單個故障域之外),與故障域緊密結合,消除了對遠程文件系統的依賴,從而實現快速重啟。

ByteRobust 已被實際部署

字節跳動表示,ByteRobust 已經實現并已實際部署超過一年時間,用于支持字節跳動在高性能生產 GPU 集群中的內部 LLM 訓練。字節跳動表示,ByteRobust 可以有效減少事件檢測時間,并通過自動容錯框架和聚合分析解決事件。

在為期三個月的時間里,ByteRobust 通過其自動化容錯訓練框架識別了 38,236 次顯式故障和 5,948 次隱式故障。

字節跳動在三個月期間收集的訓練事故統計數據,涵蓋了 778,135 個 LLM 訓練任務。

字節跳動在 16,384 塊 GPU 上的微基準測試實驗表明,溫備用和熱更新機制在恢復速度上分別實現了高達 10.87 倍和 11.04 倍的提升。

ByteRobust 中高效的檢查點機制實現了「每步檢查點」(every-step checkpointing),其開銷低于 0.9%,從而加速了故障切換。

部署實驗表明,在一個為期三個月、使用 9,600 塊 GPU 的密集模型(類似 Llama,70B+)訓練任務中,ByteRobust 實現了高達 97% 的 ETTR。

Cumulative ETTR 和 sliding-window ETTR 是字節跳動引入的新指標,其中前者是累積的有效訓練時間與任務運行的累積總時長的比率,而后者在一個小時的窗口內計算的 ETTR,能更準確地反映間歇性故障的影響。

另外,他們也進行了一個為期一個月的 MoE 模型(Doubao-1.5-pro,200B+)訓練任務,ByteRobust 的表現同樣非常不錯。

同時,隨著訓練的進行,兩個任務的相對 MFU(Model FLOPs Utilization)持續增長。在訓練期間,字節跳動最初在集群上部署了一個樸素版本的預訓練代碼,然后不斷地調整和優化其學習過程和計算效率。

在上圖中,MFU 曲線的每一次躍升都表明,一個更高效的訓練代碼版本通過 ByteRobust 的熱更新機制部署了,而這對 ETTR 造成的降低微不足道。與初始運行時相比,字節跳動在密集模型和 MoE 任務中分別實現了 1.25 倍和 1.58 倍的 MFU 提升。

字節跳動還觀察到,與密集模型相比,MoE 訓練的 ETTR 相對較低。

密集模型的訓練性能通常已由社區充分優化,而 MoE 訓練則不同,它通常涉及大量自定義優化,如 GPU 內核調優、計算與通信重疊以及負載均衡策略。雖然這些優化對于提高訓練效率是必要的,并表現出更高的 MFU,但它們也引入了額外的復雜性,增加了代碼回滾和手動重啟的可能性。

更多詳情請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-02-25 15:43:43

AI 數據人工智能

2024-08-08 17:48:56

2010-02-06 15:14:36

ibmdw架構師

2010-03-24 15:40:39

網管運維管理摩卡軟件

2013-08-23 08:53:45

Twitter架構服務器

2020-08-03 07:57:43

人工智能無人駕駛技術

2020-08-04 13:20:58

無人駕駛人工智能傳感器

2015-10-23 10:39:21

2014-06-20 10:34:42

開源

2015-09-06 09:09:13

2015-11-10 09:09:23

代碼程序員成長

2011-11-25 09:48:04

天線無線

2013-08-19 16:17:48

CIO

2024-03-28 08:13:51

GPTsOpenAI人工智能

2009-08-26 09:55:47

思科認證CCIE思科認證網絡專家

2021-01-27 11:48:34

高可用系統Review

2016-09-25 14:09:50

bug報告bug故障

2024-07-29 09:20:00

AI模型

2016-03-30 09:54:59

bug報告開發
點贊
收藏

51CTO技術棧公眾號

精品中文字幕一区二区三区四区| 欧美激情第一页xxx| 欧美图片激情小说| 精品人妻av一区二区三区| 亚洲日本成人| 尤物网精品视频| 日韩理论片网站| 日本高清视频精品| 九九精品视频免费| 国产在线中文字幕| 澳门久久精品| 五月婷婷欧美视频| 国产福利久久| 男生裸体视频网站| 三区四区在线视频| 成人午夜精品在线| 久久久欧美精品| 亚洲自拍偷拍图| 亚洲资源在线| 天堂中文字幕av| www.神马久久| 欧美日韩成人一区二区| 美女三级99| www.av视频| 五月天亚洲色图| 欧美日韩精品二区第二页| 一本一生久久a久久精品综合蜜| 国产乱淫av免费| 亚洲专区一区| 欧美极品少妇与黑人| 少妇高潮惨叫久久久久| 免费看日本一区二区| 国产主播性色av福利精品一区| 国产不卡高清在线观看视频| 国产成人激情视频| 在线日韩国产网站| 麻豆精品少妇| 在线免费不卡视频| 中文字幕日韩精品无码内射| 青青草在线免费视频| 996久久国产精品线观看| 欧美午夜一区二区三区| 国产精品欧美激情在线观看| ****av在线网毛片| 亚洲免费观看高清完整版在线观看熊| 一色桃子一区二区| 国产在线一区二| 中文字幕免费高清在线观看| 欧美午夜不卡| 日韩av中文字幕在线播放| 国产精品无码一本二本三本色| 色呦呦视频在线观看| 中文字幕亚洲电影| 激情伦成人综合小说| 精品久久久免费视频| 九九热在线视频观看这里只有精品| 久久资源在线| 亚洲福利在线视频| 中文字幕无码毛片免费看| 欧美专区福利免费| 一区二区在线看| 97视频在线免费| 里番在线播放| 亚洲综合色丁香婷婷六月图片| 午夜一区二区三视频在线观看| 国产爆初菊在线观看免费视频网站 | 国模无码国产精品视频| 婷婷伊人综合| 日韩中文字幕在线视频| 男生草女生视频| 久久av综合| 中文字幕一区日韩电影| av 日韩 人妻 黑人 综合 无码| 国产黄色片在线播放| 国产精品无码永久免费888| 伊人久久av导航| 超碰人人在线| 亚洲美女偷拍久久| www日韩大片| 91手机视频在线观看| av av片在线看| 久久爱www久久做| 国产va免费精品高清在线| 波多野结衣人妻| 国内精品久久久久影院色| 成人欧美在线观看| 久久国产视频一区| 美女视频一区二区| 国产精品一区二区女厕厕| 中文字幕av久久爽| 国产成人综合在线播放| 久久偷窥视频| 国产天堂素人系列在线视频| 97se狠狠狠综合亚洲狠狠| 热re99久久精品国99热蜜月| av网站在线播放| 国产一区二区导航在线播放| 精品在线不卡| 黄色一级片在线观看| 日本一区免费视频| 99久久精品免费看国产四区| 日韩在线观看视频一区| 成人h精品动漫一区二区三区| 色吧亚洲视频| 欧洲熟妇精品视频| 国产第一页在线观看| 日本精品不卡| 日韩精品一区二区三区中文精品| 特级西西人体wwwww| 不卡日本视频| 欧美亚洲国产日韩2020| 精品国产一级片| 久久久99久久| 中国老女人av| 日韩成人亚洲| 欧美xingq一区二区| 舐め犯し波多野结衣在线观看| 欧美高清一区| 国产激情视频一区| 国产稀缺精品盗摄盗拍| 亚洲免费黄色| 国内揄拍国内精品| 99精品人妻无码专区在线视频区| 国产伦精品一区二区三区视频金莲| 91一区一区三区| 亚洲一区三区视频在线观看| 亚洲综合影视| 欧美浪妇xxxx高跟鞋交| 香蕉视频黄色在线观看| 久久一级电影| 国产精品草莓在线免费观看| 日韩一级在线播放| 亚洲国产成人av好男人在线观看| 久久精品一区二区| 97免费资源站| 成人精品福利| 色婷婷久久久久swag精品| 国产a级黄色片| 亚洲色图欧美| 久久久久久久久久国产| 91亚洲精品国偷拍自产在线观看 | 欧美日韩一区二区在线观看视频 | 欧美一区二区三区电影| 蜜桃av乱码一区二区三区| 亚洲五月综合| 国产日韩在线视频| 日本不卡不卡| 色综合久久九月婷婷色综合| 国产5g成人5g天天爽| 亚洲香蕉久久| 久久色免费在线视频| 在线观看黄色国产| 国产精品久久久久久久久搜平片 | 99国内精品久久久久久久软件| 国产三级电影在线| 91久久精品午夜一区二区| 日本电影一区二区三区| 日韩国产欧美精品| 欧美成人综合在线| 亚洲色图欧美偷拍| 欧美女同在线观看| 台湾色综合娱乐中文网| 欧美在线不卡区| 三级在线电影| 日韩欧美在线字幕| 亚洲视频在线播放免费| 日韩欧美视频专区| 91理论片午午论夜理片久久| 欧美理论片在线播放| 欧美大片在线观看一区二区| 青青草国产在线观看| 国产制服丝袜一区| 成人在线播放网址| 国产成人三级| 日韩av日韩在线观看| 无遮挡的视频在线观看| 日韩一区二区三区免费看 | 图片区小说区国产精品视频| 给我免费观看片在线电影的| 日韩黄色免费电影| 亚洲一区高清| 亚洲一区二区三区久久久| 国外色69视频在线观看| 黄色a一级视频| 国产黄色片在线观看| 亚洲国产cao| 国产成人一区二区在线观看| 免费视频一区| 午夜视频久久久| 高潮久久久久久久久久久久久久 | 国产偷倩在线播放| 日韩av有码在线| 色老头在线视频| 激情综合网天天干| 欧美日韩黄色一级片| 精品国产乱码久久久久久1区2匹| 亚洲一区免费网站| 成人勉费视频| 日韩在线观看视频免费| 国产精品一区二区6| 亚洲国产精品传媒在线观看| 亚洲黄色小说在线观看| 激情五月深爱五月| 蜜桃视频在线观看一区| 在线观看成人免费| 亚欧洲精品视频在线观看| 成人做爽爽免费视频| 亚洲综合图区| 国产亚洲精品综合一区91| 91片黄在线观看喷潮| 亚洲一级二级三级| 精品人妻少妇嫩草av无码| 老司机一区二区| 国产精品美女免费看| 五月婷婷之婷婷| 精品成人在线| 亚洲国内在线| 日本午夜精品久久久| 国产精品色悠悠| 欧美性suv| 欧美日韩你懂的| 一级做a爰片久久毛片| 亚洲国产精品久久人人爱蜜臀| 五月激情四射婷婷| 国产精品香蕉一区二区三区| 91视频这里只有精品| 日韩av在线发布| 欧美国产一区视频在线观看| 日韩av.com| 免费日韩av片| 亚洲乱码中文字幕久久孕妇黑人| 韩国在线一区| 久久综合亚洲精品| 国产精品国产一区| 亚洲高清视频在线观看| 国产一区二区在线| 久久久水蜜桃| 第四色在线一区二区| 国产精品免费看一区二区三区| 日韩三级不卡| 粉嫩av一区二区三区免费观看 | 国产一卡二卡三卡四卡| 亚洲大片av| 久久免费视频网| 天堂av在线8| 亚洲一区二区三区高清| 欧美男女爱爱视频| 大型av综合网站| 国产一区二区三区黄| eeuss鲁片一区二区三区| 91免费欧美精品| www.成人| 91嫩草在线视频| 成人软件在线观看| 欧美亚洲国产另类| 亚洲承认视频| 欧美另类极品videosbest最新版本| 超鹏97在线| 精品亚洲国产视频| 青青青草网站免费视频在线观看| 欧美第一区第二区| 亚洲欧美综合一区二区| 亚洲免费视频一区二区| 日本在线视频1区| 国产亚洲激情视频在线| 日本a在线播放| 欧美激情精品久久久久久黑人 | 夜夜爽8888| 一区二区成人在线视频| 久久一区二区三| 国产精品国产三级国产aⅴ入口| 国产传媒在线看| 亚洲色图一区二区三区| 久久久精品一区二区涩爱| 国产精品国产成人国产三级| 欧美高清视频一区二区三区| 亚洲午夜影视影院在线观看| 超碰在线播放91| 国产白浆在线免费观看| 欧美在线一区二区视频| 成人福利片在线| 91久久嫩草影院一区二区| 麻豆精品99| 亚洲ai欧洲av| 亚洲精品免费观看| 国产免费毛卡片| 亚洲精品午夜av福利久久蜜桃| 51精品久久久久久久蜜臀| 一区二区三区播放| 亚洲国产成人在线播放| 亚州视频一区二区三区| 中文字幕在线日韩| 999av小视频在线| 国产精品入口日韩视频大尺度| 国产精品亚洲综合在线观看| 国产一区在线免费观看| 色中色综合网| 男人插女人视频在线观看| 精品一区二区三区在线视频| 疯狂揉花蒂控制高潮h| 欧美日韩看看2015永久免费 | 欧美日韩视频在线| 国产精品色综合| 欧美精品一区二区久久婷婷| 国产中文字幕在线视频| 久久久精品国产亚洲| 超碰资源在线| 成人黄色av网站| 69堂免费精品视频在线播放| 精品蜜桃传媒| 欧美日韩亚洲一区| 1024av视频| 精品系列免费在线观看| 亚洲精品国产一区黑色丝袜| 亚洲成人av一区二区三区| 国产精品久久无码一三区| 精品日韩一区二区三区免费视频| 黄色美女网站在线观看| 久久久久久午夜| 日本午夜免费一区二区| 国产精品福利在线观看网址| 视频二区欧美毛片免费观看| 久久综合久久88| 国产情侣免费视频| 日韩午夜小视频| 8888四色奇米在线观看| 亚洲色图日韩av| 国产第一页在线| 成人免费视频a| 欧美猛男男男激情videos| 欧美久久久久久久久久久久久久| 久久午夜精品一区二区| 中文字幕在线视频播放| 亚洲欧洲美洲综合色网| 高清乱码免费看污| 日韩高清中文字幕| 激情视频网站在线播放色| 国产一区二区精品免费| 欧美日韩三级电影在线| 午夜影院免费版| 亚洲精品91| 国产99视频精品免视看7| 精品精品国产毛片在线看| 香港三级日本三级a视频| 天堂av在线一区| xxxx日本黄色| 欧美在线观看禁18| 成黄免费在线| 国产精品中文字幕在线观看| av伊人久久| 超碰人人草人人| 久久精品一区二区三区不卡| 国产熟妇一区二区三区四区| 亚洲人成在线一二| 婷婷综合六月| 亚洲资源在线网| 国产一区二区在线看| 欧美成人精品欧美一级| 亚洲成年网站在线观看| 交100部在线观看| 欧美日本韩国国产| 蜜桃91丨九色丨蝌蚪91桃色| 日韩精品一区二区三区在线视频| 91精品国模一区二区三区| 青青在线视频| 九色综合日本| 日韩不卡免费视频| 黄色免费一级视频| 日韩一级成人av| 91超碰在线| 色姑娘综合网| 国产综合成人久久大片91| 日韩欧美中文字幕视频| 欧美成人在线直播| 小早川怜子影音先锋在线观看| 日韩精品一区二区三区外面| 黑人巨大精品欧美一区| 国产香蕉在线视频| 亚洲欧美日本精品| 亚洲青青一区| www.好吊操| 久久精品视频在线看| 国产精品一区二区av白丝下载 | 美洲天堂一区二卡三卡四卡视频| 午夜激情视频在线播放| 欧美大黄免费观看| 欧美自拍电影| 一二三在线视频| 91丨porny丨中文| 国产农村妇女毛片精品| 欧美亚洲激情在线| 五月开心六月丁香综合色啪| av电影在线播放| 色美美综合视频| av片在线观看永久免费| 欧美日韩在线不卡一区| 国产九九视频一区二区三区| 老熟妇仑乱一区二区av| 久久久精品在线| 禁果av一区二区三区|