精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama3.1訓(xùn)練平均3小時(shí)故障一次,H100萬卡集群好脆弱,氣溫波動(dòng)都會(huì)影響吞吐量

人工智能
不過,SemiAnalysis一個(gè)月前的一篇文章指出,構(gòu)建大規(guī)模AI算力集群非常復(fù)雜,遠(yuǎn)遠(yuǎn)不只是有沒有錢買卡的事。在電力、網(wǎng)絡(luò)設(shè)計(jì)、并行、可靠性等很多方面都面臨局限。

每3個(gè)小時(shí)1次、平均1天8次,Llama 3.1 405B預(yù)訓(xùn)練老出故障,H100是罪魁禍?zhǔn)祝?/p>

最近有人從Meta發(fā)布的92頁超長Llama 3.1論文中發(fā)現(xiàn)了華點(diǎn):

Llama 3.1在為期54天的預(yù)訓(xùn)練期間,經(jīng)歷了共466次任務(wù)中斷。其中只有47次是計(jì)劃內(nèi)的,419次純屬意外,意外中78%已確認(rèn)或懷疑是硬件問題導(dǎo)致。

而且GPU問題最嚴(yán)重,占了58.7%

Llama 3.1 405模型是在一個(gè)含16384塊Nvidia H100 80GB GPU集群上進(jìn)行訓(xùn)練的。雖說針對大規(guī)模系統(tǒng)有句老話:唯一確定的就是會(huì)出故障。

但這一問題還是引起不少網(wǎng)友關(guān)注。

放慢速度,check一下產(chǎn)品吧。

圖片圖片

圖片圖片

老出故障,咋整?

具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次 (17.2%)可以具體到是由HBM3內(nèi)存故障引起。

鑒于H100的700W高功耗和熱應(yīng)力,出現(xiàn)這樣的結(jié)果也并不意外。

有意思的是,54天內(nèi)只有兩次是CPU出現(xiàn)了故障。

除了GPU外的另一半故障由眾多因素導(dǎo)致,比如軟件Bug、網(wǎng)絡(luò)電纜等等。

圖片圖片

不過最終,Llama 3.1團(tuán)隊(duì)保持了超90%的有效訓(xùn)練時(shí)間。只有三起故障需要人工大幅介入,其余的都自動(dòng)化處理了。

那么他們是如何應(yīng)對的?

為了增加有效訓(xùn)練時(shí)間,Llama 3.1團(tuán)隊(duì)表示減少了任務(wù)啟動(dòng)和checkpointing時(shí)間,并開發(fā)了一些工具來快速診斷和解決問題。

其中廣泛使用了PyTorch的內(nèi)置NCCL flight recorder(Ansel等人2024年開發(fā)),是一個(gè)可以把集體元數(shù)據(jù)和堆棧跟蹤記錄到一個(gè)循環(huán)緩沖區(qū)里的功能,這樣就能快速診斷大規(guī)模卡頓和性能問題,特別是跟NCCLX有關(guān)的問題。

圖片圖片

用這個(gè)工具,團(tuán)隊(duì)能有效記錄每次通信事件和每個(gè)集體操作的持續(xù)時(shí)間,在NCCLX Watchdog或Heartbeat超時(shí)時(shí)還能自動(dòng)導(dǎo)出跟蹤數(shù)據(jù)。

還可以根據(jù)需要,通過在線配置更改(Tang等人2015年提出的方法)來選擇性地啟用一些計(jì)算量更大的跟蹤操作和元數(shù)據(jù)收集,而不需要重新發(fā)布代碼或重啟任務(wù)。

圖片圖片

團(tuán)隊(duì)表示,在大規(guī)模訓(xùn)練中調(diào)試問題很復(fù)雜,因?yàn)榫W(wǎng)絡(luò)同時(shí)使用了NVLink和RoCE。通過NVLink傳輸數(shù)據(jù)通常是通過CUDA內(nèi)核發(fā)出的加載/存儲(chǔ)操作來完成的,如果遠(yuǎn)程GPU或NVLink連接出了問題,往往表現(xiàn)為CUDA內(nèi)核里的加載/存儲(chǔ)操作卡住了,卻不會(huì)返回明確的錯(cuò)誤代碼。

而NCCLX通過與PyTorch緊密配合,提高了故障檢測和定位的速度和準(zhǔn)確性,讓PyTorch能夠訪問NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。

雖然無法完全避免NVLink故障導(dǎo)致的卡頓,但系統(tǒng)會(huì)監(jiān)控通信庫狀態(tài),在發(fā)現(xiàn)卡頓時(shí)自動(dòng)超時(shí)。

此外,NCCLX還會(huì)跟蹤每次NCCLX通信的內(nèi)核和網(wǎng)絡(luò)活動(dòng),并在失敗時(shí)提供NCCLX集體操作內(nèi)部狀態(tài)“快照”,包括所有等級之間已完成和待處理的數(shù)據(jù)傳輸。團(tuán)隊(duì)通過分析這些數(shù)據(jù)來調(diào)試NCCLX的擴(kuò)展問題。

有時(shí),硬件問題可能導(dǎo)致某些部分雖然看起來還在運(yùn)行,但速度變慢,這種情況很難被發(fā)現(xiàn)。即使只有一個(gè)部分變慢,也可能拖慢數(shù)千個(gè)其它GPU的速度。

為此團(tuán)隊(duì)開發(fā)了一些工具,可以優(yōu)先處理某些可能有問題的進(jìn)程組的通信。通常只需要調(diào)查幾個(gè)最可疑的對象,就能有效找出那些變慢的部分。

團(tuán)隊(duì)還觀察到了一個(gè)有趣的現(xiàn)象——環(huán)境因素對大規(guī)模訓(xùn)練性能的影響。在訓(xùn)練Llama 3.1 405B時(shí),吞吐量會(huì)根據(jù)一天中時(shí)間的不同而有1-2%的變化。這是因?yàn)橹形鐪囟容^高,影響了GPU動(dòng)態(tài)電壓和頻率調(diào)節(jié)。

在訓(xùn)練過程中,數(shù)萬個(gè)GPU可能會(huì)同時(shí)增加或減少功耗,比如在所有GPU等待checkpointing或集體通信完成時(shí),或者在整個(gè)訓(xùn)練任務(wù)啟動(dòng)/關(guān)閉時(shí)。這種情況發(fā)生,可能導(dǎo)致數(shù)據(jù)中心的瞬時(shí)功耗波動(dòng)達(dá)到數(shù)十兆瓦,對電網(wǎng)來說是個(gè)不小的考驗(yàn)。

團(tuán)隊(duì)最后還表示:

隨著未來更大的Llama模型擴(kuò)展訓(xùn)練規(guī)模,這一挑戰(zhàn)將持續(xù)存在。

圖片圖片

AI集群問題正待破壁

Meta2022年首次分享了其AI研究超級集群(RSC)的詳細(xì)信息,當(dāng)時(shí)擁有16000個(gè)NVIDIA A100 GPU,幫助其構(gòu)建了第一代AI模型,在Llama初代和Llama 2開發(fā)中都發(fā)揮了重要作用。

圖片圖片

△來自Meta

今年三月份,Meta又公開了24576個(gè)NVIDIA H100 GPU的AI集群,支持Llama 3及之后模型。

更是定下了到今年年底增加350000個(gè)NVIDIA H100 GPU的目標(biāo),作為整體算力的一部分(整體算力近600000個(gè)H100 GPU)

圖片圖片

這么大的規(guī)模,emmm可不是個(gè)持續(xù)性的挑戰(zhàn)嘛。當(dāng)然,大規(guī)模AI集群會(huì)給模型訓(xùn)練造成故障是一個(gè)有些“遠(yuǎn)古”的問題,很早之前就有相關(guān)研究。

H100本身什么含金量無需多言。

在去年最新MLPerf訓(xùn)練基準(zhǔn)測試中,英偉達(dá)H100集群,橫掃八項(xiàng)測試,全部創(chuàng)下新紀(jì)錄,并且在大語言模型任務(wù)中表現(xiàn)尤為突出。

圖片圖片

11分鐘內(nèi)訓(xùn)練一遍GPT-3,8秒訓(xùn)完BERT。在大語言模型任務(wù)中,H100集群的加速性能逼近線性增長。即隨著集群處理器數(shù)量增加,加速效果也幾乎同比增加。

意味著在集群內(nèi)GPU之間的通信效率非常高。

圖片圖片

除此之外,H100還完成了推薦算法、CV、醫(yī)學(xué)圖像識別以及語音識別等任務(wù),是唯一一個(gè)參加8項(xiàng)測試的集群。

不過,SemiAnalysis一個(gè)月前的一篇文章指出,構(gòu)建大規(guī)模AI算力集群非常復(fù)雜,遠(yuǎn)遠(yuǎn)不只是有沒有錢買卡的事。

在電力、網(wǎng)絡(luò)設(shè)計(jì)、并行、可靠性等很多方面都面臨局限。

圖片圖片

參考鏈接:
[1]https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

[2]https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
[3]https://www.semianalysis.com/p/100000-h100-clusters-power-network

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-07-29 14:06:57

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-03-13 13:36:57

Llama-3GPUAI

2024-01-19 12:34:39

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開源

2019-08-20 00:20:47

TCPHOL吞吐量

2024-03-14 14:49:34

Meta人工智能

2024-02-19 14:06:00

AI數(shù)據(jù)

2024-06-24 08:30:00

2025-05-09 08:55:00

2025-07-08 09:33:08

2024-07-23 13:10:20

2023-12-19 13:32:00

模型數(shù)據(jù)

2024-05-23 16:41:40

2013-04-19 09:45:20

AMPLabHadoopHDFS

2023-08-06 13:01:34

AI開發(fā)

2024-05-29 14:11:00

2023-11-07 15:11:46

Kafka技巧

2023-08-03 14:18:29

Rust阻塞函數(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

男人日女人逼逼| 亚洲欧美自拍视频| 成年人在线观看| 欧美黄色网页| 国产99亚洲| 国产成人午夜高潮毛片| 亚洲精品中文字幕av| 成人春色激情网| 少妇特黄一区二区三区| av免费在线免费观看| 蜜桃在线一区二区三区| 亚洲成人xxx| 一级全黄肉体裸体全过程| 青青青国产在线| 欧美一区三区| 欧美丝袜一区二区三区| 激情小说综合区| 国产精品theporn动漫| 视频一区日韩精品| 亚洲精品成a人| 亚洲专区中文字幕| 懂色av懂色av粉嫩av| www.久久草.com| 亚洲欧洲精品一区二区精品久久久 | 北条麻妃在线一区二区| 欧美精品第三页| 日本天堂影院在线视频| 香蕉国产精品偷在线观看不卡| 亚洲第一天堂av| 黄色一级片免费的| av在线电影免费观看| 成人午夜激情片| 欧美激情综合亚洲一二区| 国产国语老龄妇女a片| 欧美精品电影| 国产精品99久久久久| 国产精品福利在线观看网址| www成人啪啪18软件| 欧美一级做a| 亚洲免费观看视频| 99久久免费国| 天堂资源在线播放| 911精品美国片911久久久 | 美女网站免费观看视频| 国产美女视频一区二区三区| 蜜桃视频第一区免费观看| 69精品小视频| 人成免费在线视频| av日韩久久| 欧美日韩一区二区三区在线| 一二三四中文字幕| 色视频在线观看| 成人免费毛片高清视频| 成人av免费在线看| 亚洲精品国产精品乱码不卡| 国产精品久久久久久久免费软件 | ass极品国模人体欣赏| 两根大肉大捧一进一出好爽视频| 在线观看日韩一区二区| 艳女tv在线观看国产一区| 精品国产伦一区二区三区观看体验| 国产午夜伦鲁鲁| av影院在线免费观看| 久久久久国产精品麻豆ai换脸 | 成人av综合在线| 欧美亚洲国产另类| 一本一本久久a久久| 欧美一级大片在线视频| 午夜精品久久久久久| 涩涩日韩在线| 囯产精品久久久久久| 国产一级一区二区| 91高潮精品免费porn| 五月婷婷中文字幕| 久久中文亚洲字幕| 亚洲国产精品人人爽夜夜爽| 精品www久久久久奶水| 韩国成人漫画| 亚洲曰韩产成在线| 色综合久久久久久久久五月| 视频一区二区三区不卡| xfplay精品久久| 国产a一区二区| 97国产成人无码精品久久久| 久久久亚洲一区| 久久久亚洲精品视频| 亚洲熟女毛茸茸| 免费成人网www| 中文字幕日韩精品在线| 91中文字幕永久在线| 凹凸av导航大全精品| 欧美区在线观看| 国产一级特黄a大片免费| 天堂√8在线中文| 亚洲电影中文字幕在线观看| 男女激烈动态图| 色大18成网站www在线观看| 自拍av一区二区三区| 男女猛烈激情xx00免费视频| 亚洲91av| 亚洲色图欧美在线| 亚洲一区二区三区加勒比| 国产专区在线播放| 久久久久青草大香线综合精品| 亚洲精品一区二区三| 国产精品影院在线| 亚洲精品国久久99热| 男人揉女人奶房视频60分 | 欧美videossex| 亚洲欧洲精品天堂一级| 激情深爱综合网| 欧美aa在线观看| 午夜精品福利视频网站| 欧美成人三级在线播放| www.久久.com| 色狠狠色噜噜噜综合网| 欧美精品第三页| 99精品国产一区二区三区2021 | 国产精品一区二区三区视频网站| 亚洲国产精品高清| 亚洲欧美久久234| 乱馆动漫1~6集在线观看| 7777精品伊人久久久大香线蕉最新版| 香港日本韩国三级网站| 农村妇女一区二区| 7777精品伊人久久久大香线蕉 | 黄色在线视频网| 日本久久成人网| 亚洲精品之草原avav久久| 久久久久无码国产精品| 在线视频亚洲| 日本免费久久高清视频| 中文字幕在线视频第一页| 久久精品久久99精品久久| 国产拍精品一二三| 国产一区二区麻豆| 国产视频视频一区| 黄瓜视频免费观看在线观看www| 亚洲电影观看| 亚洲第一网站免费视频| 久久久久久免费观看| 国产在线不卡一区| 国产在线欧美日韩| 国产精品久久久久久久龚玥菲| 午夜伦理一区二区| 特级特黄刘亦菲aaa级| 综合日韩在线| 91aaaa| 少妇高潮一区二区三区99小说| 99久久免费国产| 日韩亚洲视频| 1stkiss在线漫画| 欧美肥胖老妇做爰| 视频免费在线观看| 精品国产123区| 日韩中文字幕国产精品| 在线观看免费黄色小视频| 国产女人18毛片水真多成人如厕 | 国产精品一区二区三区不卡| 免费一级毛片在线观看| 国产精品久久久久久妇女6080| 国产爆乳无码一区二区麻豆| 成人影院网站| 亚洲欧美精品一区二区| 午夜精品福利在线视频| 狠狠色丁香久久婷婷综合丁香| 国严精品久久久久久亚洲影视| 国产天堂在线播放视频| 欧美无砖砖区免费| 在线xxxxx| 亚洲毛片av| 国产女人18毛片水18精品| 欧美一级淫片免费视频魅影视频| 国产欧美日韩在线看| 韩国视频一区二区三区| 欧美激情国产在线| 亚洲综合第一页| a级片在线免费观看| 亚洲欧美一区二区三区久久| 中文字幕乱码人妻二区三区| 亚洲欧美一区二区三区国产精品| 三上悠亚 电影| 久久综合国产| 99视频在线播放| 性欧美freesex顶级少妇| 中国china体内裑精亚洲片| 国产特黄一级片| 国产精品水嫩水嫩| 国产男女无遮挡猛进猛出| 亚洲区第一页| 亚洲成人网上| 盗摄牛牛av影视一区二区| 欧美日韩成人在线播放| 97精品人妻一区二区三区| 亚洲成年人网站在线观看| 国产18无套直看片| 国产91精品一区二区麻豆网站| 亚洲国产精品影视| 欧美大奶一区二区| 成人h视频在线观看播放| 是的av在线| 欧美成人激情视频免费观看| 一级片视频播放| 精品久久久久久久久久国产| 污污污www精品国产网站| 日韩成人免费看| 亚洲国产精品www| 97成人在线| 成人国产精品久久久久久亚洲| 精品极品在线| 亚洲男人天堂九九视频| 精品国产九九九| 国产精品另类一区| 久久这里只精品| 国产视频欧美| 日本中文字幕一级片| 欧美视频精品全部免费观看| 国产精品91久久久| 最新真实国产在线视频| 欧美日韩免费一区二区三区| 国产69精品久久久久久久久久| 中文字幕日韩一区| 变态另类ts人妖一区二区| 蜜臀av国产精品久久久久| 国产精品专区在线| 欧美另类女人| 久久久久综合一区二区三区| 国产精欧美一区二区三区蓝颜男同| 另类美女黄大片| 免费国产黄色片| 日韩一区二区三区av| 日韩精品视频免费看| 2024国产精品| 人妻少妇被粗大爽9797pw| 欧洲激情综合| 久久亚洲免费| 久久久加勒比| 国产精品美女999| 蜜桃传媒在线观看免费进入 | 国产欧美久久久久久久久| 色黄久久久久久| 亚洲av色香蕉一区二区三区| 欧美精品乱码久久久久久| 在线免费观看av片| 欧美视频在线一区二区三区| 成人午夜精品视频| 怡红院av一区二区三区| 成人涩涩小片视频日本| 白白色亚洲国产精品| 最新版天堂资源在线| 成人免费毛片片v| 欧美在线一级片| 91麻豆123| 韩国女同性做爰三级| 国产精品一区二区x88av| 动漫av网站免费观看| av成人天堂| 北条麻妃在线一区| 日本中文在线一区| 久操网在线观看| 国产视频一区欧美| 88av.com| 久久99国产精品久久99果冻传媒| 久久视频这里有精品| 国产日韩亚洲欧美精品| 日韩视频免费在线播放| 久久精品国产99| 中文字幕1区2区| 久久精品99国产精品日本| 天天看片天天操| 日韩精品欧美精品| 久久久久国产一区| 国产麻豆视频精品| 一级特级黄色片| 国产不卡视频一区| 免费无码一区二区三区| 国产女同性恋一区二区| 国产一区二区三区四区在线| 超碰国产在线观看| 亚洲a级精品| 亚洲综合不卡| 欧美一区二区精品| 韩国精品美女www爽爽爽视频| 黄色一级片在线| 久久精品亚洲麻豆av一区二区| a天堂视频在线观看| 精品人妻一区二区三区换脸明星 | 国产韩国精品一区二区三区| 一区二区三区四区不卡在线| 日本黄色片一级片| 国产精品久久久久久模特| 成人性做爰aaa片免费看不忠| 狠狠狠色丁香婷婷综合激情| www.四虎在线| 中文字幕精品一区二区精品绿巨人| 一区二区三区四区五区| 欧美日韩国产色| 欧美日韩激情在线观看| 欧美视频在线观看免费网址| 国产理论片在线观看| 欧美日韩在线观看一区二区| 精品人妻一区二区三区浪潮在线| 亚洲精品日韩久久久| 国产在线观看91| 日韩av电影国产| 欧美a级大片在线| 日本一区二区不卡高清更新| 免费成人av| 精品视频在线观看一区二区| 日韩激情在线观看| 色哟哟无码精品一区二区三区| 国产精品美女视频| 欧美亚韩一区二区三区| 婷婷丁香久久五月婷婷| 中文在线字幕免费观| 亚洲国产高清福利视频| 黄色在线观看网站| 国产精品福利观看| 国产欧美三级电影| 麻豆一区二区三区在线观看| 日韩1区2区日韩1区2区| 黄色短视频在线观看| 久久久亚洲精品一区二区三区| 欧美国产精品一二三| 亚洲国产sm捆绑调教视频| 一卡二卡三卡在线| 亚洲最新视频在线| 波兰性xxxxx极品hd| 精彩视频一区二区三区| 永久免费成人代码| 调教+趴+乳夹+国产+精品| www.天天干.com| 国产一区二区三区黄视频| 免费久久久久久| 蜜臀av国产精品久久久久| 精品人妻无码一区二区三区| 午夜影院在线观看欧美| 性生活视频软件| 蜜臀久久99精品久久久无需会员 | 国产精品国产三级国产专区53 | 国内外成人免费在线视频| 久久久不卡影院| 青青青国产在线 | 欧美自拍偷拍网| 在线亚洲人成电影网站色www| 无码一区二区三区在线观看| 欧美日韩一区二区三区四区五区 | 麻豆精品99| 亚洲精品高清视频| 日本亚洲免费观看| 老头老太做爰xxx视频| 欧美无乱码久久久免费午夜一区| 国外av在线| 国产精品久久久久久亚洲调教| av在线不卡顿| 天堂在线一区二区三区| 综合久久综合久久| 国产黄色av网站| 亚洲天堂av综合网| 五月婷婷视频在线观看| 99精品国产高清在线观看| 韩国欧美一区| 久久婷婷综合色| 国产精品久久久久久福利一牛影视| 中文亚洲av片在线观看| 精品国产拍在线观看| 精品国产一区二区三区2021| 国产免费内射又粗又爽密桃视频| 风间由美性色一区二区三区| 日韩精品乱码久久久久久| 日韩成人xxxx| 日本动漫理论片在线观看网站| 成人h视频在线观看| 亚洲精品精选| 蜜桃传媒一区二区亚洲| 欧美日本精品一区二区三区| 午夜伦理在线视频| 精品一卡二卡三卡四卡日本乱码 | 色婷婷狠狠综合| 黄色美女一级片| 日韩av大片在线| 亚洲色图网站| 喷水视频在线观看| 欧美色视频在线| 欧美人与性动交α欧美精品济南到| 国产亚洲欧美一区二区三区| 日韩高清在线观看| 日本精品人妻无码77777| 日韩电影网在线| 日韩在线电影| 久久久久久久午夜| 亚洲欧洲色图综合| 三级在线电影| 亚洲最大的av网站| 亚洲一级在线| 国产精品久久久久久久精| 亚洲欧美日韩精品久久亚洲区| 欧美9999| 在线观看免费污视频| 精品国产1区2区|