精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

月之暗面開源改進版Muon優化器,算力需求比AdamW銳減48%,DeepSeek也適用

人工智能 開源
團隊發現了Muon方法的Scaling Law,做出改進并證明了Muon對更大的模型同樣適用。

算力需求比AdamW直降48%,OpenAI技術人員提出的訓練優化算法Muon,被月之暗面團隊又推進了一步!

團隊發現了Muon方法的Scaling Law,做出改進并證明了Muon對更大的模型同樣適用

在參數量最高1.5B的不同Llama架構模型上,改進后的Muon算力需求僅為AdamW的52%。

圖片

同時團隊還基于DeepSeek架構訓練出了一個16B的MoE模型,與改進后的優化算法一同開源。

圖片

Muon技術博客發布當時主要適用于較小的模型和數據集,作者留下了三個懸而未決的問題:

  • Muon能否用于更大規模的訓練?
  • Muon能否在更大規模的GPU集群上使用?
  • Muon是否同樣適用于微調和強化學習?
    現在月暗團隊用實驗給出了回答——全部都是Yes。

圖片

消息一出,當時Muon的作者也都很激動,主要作者Keller Jordan表示這是Muon規模化的首個成功報告,為團隊送上了祝賀。

圖片

另一名貢獻者,當時負責Muon規模化實驗的Hyperbolic Labs聯創兼CTO Yuchen Jin也表示,月暗團隊的這項成果,是Muon的一次勝利。

圖片

將AdamW特點引入Muon

在介紹月暗團隊的工作之前,先來了解一下Muon是個什么樣的技術。

這是一種神經網絡隱藏層的2D參數優化器,主要作者是OpenAI深度學習團隊的Keller Jordan。

這項成果發表于去年的12月8日,而Keller也是去年12月加入的OpenAI。

Muon的核心思想是通過正交化梯度更新矩陣,避免參數更新陷入局部極小,使模型能夠學習到更加多樣化的特征表示。

在94%的精度下,Muon把CIFAR-10在A100上的訓練時間從3.3秒縮短至2.6秒。

圖片

不過當時Muon團隊只證明了其在小型模型和數據集上的可行性,對于較大的模型能否適用則是個未知數。

現在經過月暗團隊的改進之后,Muon被證明對于更大的模型和數據集同樣適用

針對模型本身,團隊吸收了AdamW中的一些特點,移植到了Muon當中,具體包括兩個方面。

一是引入了權重衰減機制,在權重更新公式中添加了一個帶有衰減系數的項。

圖片

這樣做的原因是作者發現直接將Muon應用到大規模訓練時,模型權重和層輸出的幅度會持續增長,最終超出bf16的高精度表示范圍,損害模型性能。

在訓練一個8億參數模型至100B tokens(約5倍計算預算最優)的過程中,團隊對比了AdamW、無權重衰減的Muon和帶權重衰減的Muon。

結果顯示,帶權重衰減的Muon在過擬合階段取得了最佳效果,驗證了權重衰減的必要性。

圖片

第二項改進,是調整了Muon的參數更新尺度,使不同形狀矩陣參數的更新幅度保持一致,并與AdamW的更新幅度匹配。

Muon的一個特點是,對于形狀為[A,B]的矩陣參數,其理論更新幅度為sqrt(1/max(A,B))。

這導致不同形狀矩陣參數的更新幅度差異很大,比如對于MLP這種寬矩陣,更新會過小,而將每個head看作獨立矩陣時,更新又會過大。

此外,這個幅度也與AdamW不一致,給超參數的設置帶來困難。

為了讓不同矩陣參數的更新幅度匹配,并與AdamW保持一致,作者嘗試了幾種改進方案,最終選擇直接基于形狀調整每個參數的學習率

其中0.2是通過實驗確定的一個常數,用于將Muon的更新尺度與AdamW對齊。

圖片

除了對Muon本身的改進,要想將Muon用于更大規模的訓練,還需要將其擴展到分布式訓練環境中

由于Muon需要完整的梯度矩陣來計算正交化的更新量,而現有的分布式訓練框架(如ZeRO-1、Megatron-LM等)都假設優化器狀態可以獨立地按元素切分到不同設備上,所以它們無法直接支持Muon。

為了解決這個問題,論文作者提出了分布式Muon的并行化策略。

它在ZeRO-1的基礎上引入了兩個額外的操作:

  • 一是在每個數據并行組內做梯度聚合通信,將分散的梯度切片合并成完整的矩陣;
  • 二是基于聚合后的梯度矩陣并行計算正交化的更新量,然后只保留與本地參數對應的那一部分。

這種實現方式在最小化內存占用和通信開銷的同時,最大限度地保留了原始Muon算法的數學性質。

圖片

證明Muon擴展可行性

基于上述Muon改進,作者取得了以下成果,作者在Llama架構的一系列稠密模型上,進行了Muon和AdamW的模型縮放對比實驗。

結果表明,在計算預算最優的情況下,Muon的樣本效率是AdamW的1.92倍,即訓練FLOPS只需AdamW的52%,就能達到相當的性能。

這一發現證實了Muon在大規模訓練中的效率優勢

圖片

在此基礎之上,作者以DeepSeek-V3-Small架構作為基礎,用改進的Muon訓練了Moonlight模型。

Moonlight是一個MoE模型,具有15.29B的總參數和2.24B激活參數,訓練token量為5.7T。

與相同規模和數據量的模型相比,Moonlight在英語理解與推理(MMLU、TriviaQA、BBH)、代碼生成(HumanEval、MBPP)、數學推理(GSM8K、MATH、CMATH)、中文理解(C-Eval、CMMLU)等各類任務上都取得了明顯更好的性能。

即使與使用更大數據集訓練的稠密模型相比,Moonlight也展現了極強的競爭力。

圖片

與多個知名語言模型的對比表明,Moonlight在性能-訓練預算平面上推進了帕累托前沿(Pareto Frontier)

(注:帕累托前沿是一個經濟學和管理學中的概念,描述的是在多目標決策問題中所有可能的最優解的集合,這些解在多個目標之間取得了最佳平衡。在帕累托前沿上的每一個點,都意味著一個目標的改善必然以犧牲另一個目標為代價,因此它代表了在多個目標之間實現的最佳權衡。)

圖片

為了進一步分析Muon更新矩陣參數的內在機制,作者對比了Muon和AdamW訓練得到的模型在不同訓練階段的參數矩陣奇異值譜。

結果發現,Muon優化的矩陣在各層各類參數上,總是比AdamW有更高的奇異值熵。這從經驗上驗證了Muon通過正交化來學習更多樣化表示的直覺。

圖片

最后,在Moonlight模型的基礎上,作者還探索了Muon在指導微調階段的效果,結果表明,在預訓練和微調階段均使用Muon的效果是最佳的。

圖片

技術報告:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Code:https://github.com/MoonshotAI/Moonlight
Moonlight模型:https://huggingface.co/moonshotai/Moonlight-16B-A3B

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-24 13:50:00

算力AI開源

2009-03-16 10:27:15

2025-07-17 07:12:45

2023-02-25 22:05:16

算力數據

2023-09-26 08:39:28

限流方式滑動窗口計數器

2025-08-14 10:20:10

2012-07-31 13:31:34

Windows 8鼠標鍵盤

2012-07-31 09:47:22

微軟Windows 8

2022-09-06 08:31:09

線程池工具系統

2025-02-25 18:41:39

2025-04-15 01:00:00

DeepSeek智算中心人工智能

2025-02-24 12:52:46

2025-02-24 11:32:57

2022-12-07 09:49:34

AI模型

2025-06-17 15:24:48

開源模型AI

2025-09-08 09:10:00

點贊
收藏

51CTO技術棧公眾號

国产精品最新| av在线观看地址| 色啦啦av综合| 亚州av在线播放| 久久精品影视| 色综合亚洲欧洲| 免费不卡在线观看av| 色欲av无码一区二区人妻| 97caocao| 手机在线一区二区三区| 日韩欧美黄色动漫| 精品卡一卡二| 国产亚洲精品久久久久久无几年桃| 九色成人搞黄网站| 91视频国产观看| 久久久久久久久久久91| www.午夜av| 免费在线看黄网站| 欧洲乱码伦视频免费| 欧美视频在线观看 亚洲欧| 一区二区精品在线| 亚洲视频一区在线播放| 日韩电影免费在线观看| 91国偷自产一区二区开放时间| 国产日韩一区二区三区| 久久久综合久久久| 日韩国产综合| 亚洲精品一区久久久久久| 日韩一级性生活片| 欧美18一19xxx性| 久久男人中文字幕资源站| 欧美中在线观看| 亚洲婷婷在线观看| 国产精品一二三产区| 成人精品免费看| 久久伊人精品天天| 久久久无码人妻精品无码| 天堂av中文在线| 丁香网亚洲国际| 久久久久久成人精品| 伊人久久久久久久久久久久久久| 亚洲国产天堂| 有坂深雪av一区二区精品| 91亚洲国产成人久久精品网站| av成人免费网站| 国产suv精品一区二区四区视频| 亚洲国产综合人成综合网站| 精品在线视频一区二区三区| 亚洲av永久无码国产精品久久| 亚洲国产激情| 一区二区三区视频免费| 色噜噜狠狠一区二区三区狼国成人| 好了av在线| 菠萝蜜视频在线观看一区| 亚洲综合大片69999| 日韩久久精品视频| 综合国产视频| 欧美日韩www| 黄色片免费在线观看视频| 蜜臀av午夜精品| 久久精品综合| 萌白酱国产一区二区| 天天操夜夜操av| 午夜精品久久| 亚洲天堂影视av| 成人一区二区三区仙踪林| 麻豆精品久久| 色综合天天在线| 88av.com| 韩国日本一区| 国产精品丝袜黑色高跟| 国产在线视频欧美| 欧美又粗又大又长| 深爱激情久久| 欧美成人性福生活免费看| 日韩中字在线观看| 日本黄色片在线观看| 97国产一区二区| 成人午夜在线视频一区| 中文字幕69页| 精品99视频| 久久久国产影院| 国产伦精品一区二区三区视频女| 国产精品成人自拍| 亚洲欧美国产视频| 污污污www精品国产网站| 欧美日韩破处视频| 在线一区二区三区| 人妻互换免费中文字幕| 成年午夜在线| 久久―日本道色综合久久| 日韩少妇中文字幕| 涩涩视频在线观看免费| 国产精品影视在线| 国产精品视频网站| 日本免费在线观看视频| 蜜桃视频一区二区三区在线观看| 97在线免费视频| 青青草精品在线视频| 香蕉久久夜色精品国产更新时间| 在线观看成人毛片| 二区三区精品| 色诱亚洲精品久久久久久| 嫩草av久久伊人妇女超级a| 成人污污www网站免费丝瓜| 亚洲国产精品一区二区三区| 制服下的诱惑暮生| 精品123区| 欧美成人a∨高清免费观看| 成人精品999| 亚洲+变态+欧美+另类+精品| 最新69国产成人精品视频免费| 中文字幕一区二区人妻在线不卡| 国产精品网在线观看| 亚洲天堂久久av| www.av天天| 九九亚洲视频| 欧美福利视频网站| 伊人365影院| 精品9999| 亚洲一区二区三区777| 国产一区二区影视| 国产片一区二区三区| 日本一区二区三区精品视频| 国产在线网站| 亚洲国产乱码最新视频| 欧美一区二区激情| 另类一区二区三区| 亚洲深夜福利在线| 欧美福利视频一区二区| 老鸭窝毛片一区二区三区| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | www.精品视频| 成人午夜av在线| 妞干网这里只有精品| 黄网址在线观看| 欧美性受xxxx黑人xyx性爽| 亚洲国产精品三区| 亚洲伊人精品酒店| 日韩片之四级片| 亚洲911精品成人18网站| 久久亚洲影视| 国产精品普通话| 黄色av免费在线观看| 欧美性极品xxxx做受| 欧美做受喷浆在线观看| 成人在线一区| 欧美人成在线视频| 国产又大又黄又粗| 美女性感视频久久| 日韩精品久久一区| 97精品国产综合久久久动漫日韩| 91精品国产美女浴室洗澡无遮挡| 成人欧美精品一区二区| 亚洲色图丝袜| 欧美亚洲成人网| 91精品中文字幕| 国产精品成人免费| 国产精品久久久久9999爆乳| 免费看日产一区二区三区 | 91九色在线播放| 在线日韩av片| 中国特黄一级片| 亚洲国产日本| 久久免费视频1| 亚洲第一图区| 亚洲成人动漫在线播放| 三级黄色片在线观看| 一区视频在线看| 久久精品第九区免费观看| 小视频免费在线观看| 91精品国产一区二区三区蜜臀| 国产真实乱在线更新| 视频一区二区中文字幕| 国产激情一区二区三区在线观看| 嫩草研究院在线观看| 一区二区三区小说| 韩国三级hd两男一女| 免费在线观看成人av| av免费观看久久| 黄色视屏免费在线观看| 欧美成人性福生活免费看| 男女啊啊啊视频| 国产精品自拍三区| 日本a视频在线观看| 欧美日韩播放| 1卡2卡3卡精品视频| 爱爱爱免费视频在线观看| 在线不卡免费av| 国产又粗又硬视频| 日韩成人精品在线| 欧美精品一区二区三区在线四季| 草美女在线观看| 亚洲欧美日韩爽爽影院| 国产精品嫩草影院桃色| 国产亚洲视频系列| 国产1区2区在线| 美日韩黄色大片| 高清一区二区三区日本久| 精品人妻一区二区三区蜜桃 | 97人妻一区二区精品视频| 成人h动漫精品一区二区| 92看片淫黄大片一级| 中文视频一区| 99九九视频| 成人看片网站| 亚洲小视频在线| 超碰在线观看99| 欧洲一区在线电影| 黄色激情视频在线观看| 国产欧美精品一区二区色综合| 国产精品无码自拍| 麻豆精品新av中文字幕| 91香蕉视频网址| 高清一区二区| 热re91久久精品国99热蜜臀| 天堂8中文在线| 久久精品亚洲精品| 黄色大片在线看| 日韩精品视频在线观看免费| 亚洲欧美自拍视频| 洋洋av久久久久久久一区| 亚洲成年人在线观看| 久久99精品国产.久久久久久| 艳色歌舞团一区二区三区| 日韩影视高清在线观看| 99在线观看视频网站| 亚洲毛片在线免费| 国产精品一区二区久久| 国内精品不卡| 中文字幕av一区中文字幕天堂| 亚洲无码精品在线播放| 日韩欧美一区二区在线| 日韩黄色三级视频| 亚洲一区在线播放| 国产精品成人免费观看| 亚洲色图在线播放| 人妻 日韩 欧美 综合 制服| 黄色小说综合网站| 热99这里只有精品| 欧洲乱码伦视频免费| 欧美日韩在线精品一区二区三区| 噜噜噜天天躁狠狠躁夜夜精品 | 九九久久婷婷| 日本不卡一区二区三区视频| 妖精视频一区二区三区| 久久久影院一区二区三区 | 精品中文字幕久久久久久| 亚洲精品18p| 亚洲第一福利在线观看| 香港三日本三级少妇66| 亚洲精品成人久久电影| 亚洲欧洲综合在线| 亚洲男人7777| 成人av电影观看| 精品国内自产拍在线观看| 黄色网址在线免费播放| 欧美成人午夜免费视在线看片 | 91麻豆国产自产在线观看亚洲| 亚洲成人精品电影在线观看| 久久久久久久久久久久电影| 91色在线观看| av成人资源网| 国产精品一区二区久久| 亚洲老司机网| 国产精品18毛片一区二区| 欧美午夜寂寞| 91色精品视频在线| 2023国产精华国产精品| 国产精品中文在线| 国产精品美女久久久久人| 91入口在线观看| 欧美日韩精品一区二区三区在线观看| 女人一区二区三区| 精品精品国产毛片在线看| 久久福利电影| 久久国产综合| 欧美xxxx吸乳| 亚洲一区二区三区高清| 青青视频免费在线| 日韩理论电影院| 成人免费看片视频在线观看| 亚洲国产专区| 亚洲成人av免费看| 香蕉视频成人在线观看| 一级在线免费视频| 国产成人综合在线| 亚洲天堂av一区二区三区| 成人免费高清在线观看| 免费看黄色av| 一级中文字幕一区二区| 精产国品一区二区| 7777女厕盗摄久久久| 亚洲一区中文字幕永久在线| 日韩欧美在线不卡| 中国女人真人一级毛片| 欧美日韩国产在线| 日韩xxx高潮hd| 欧美性色欧美a在线播放| www三级免费| 在线观看亚洲区| 国产精品69xx| 91精品久久久久久综合乱菊| 欧美日韩看看2015永久免费| 乱子伦一区二区| 奇米在线7777在线精品| 国产视频一区二区视频| 国产成人精品亚洲日本在线桃色| 蜜桃av免费看| 午夜欧美2019年伦理| 久久精品视频8| 欧美日韩亚洲国产综合| 这里只有精品6| 亚洲精品久久久久中文字幕欢迎你| 欧美三级理伦电影| 国产99久久久欧美黑人| 国模视频一区| 国产一区自拍视频| 午夜精品偷拍| 91精品999| 国产女主播视频一区二区| 国产手机在线视频| 欧美r级电影在线观看| 暖暖日本在线观看| 国产精品美女久久久久久免费 | 亚洲欧美久久234| 性感少妇一区| 日韩综合第一页| 亚洲自拍偷拍图区| xxxx18国产| 美女福利精品视频| 亚洲精品三区| 亚洲国产欧美不卡在线观看| 久久av在线| 四虎影成人精品a片| 粉嫩老牛aⅴ一区二区三区| 国产综合视频在线| 亚洲精品中文字幕女同| av电影免费在线看| 国产精品theporn88| 欧美日韩亚洲一区二区三区在线| ww国产内射精品后入国产| 新狼窝色av性久久久久久| 成人免费毛片日本片视频| 中文字幕免费不卡在线| 国产一级片免费在线观看| 欧美日韩国产精品成人| 2019中文字幕在线视频| 欧美激情免费在线| 视频精品一区二区三区| 人偷久久久久久久偷女厕| 亚洲女同在线| 受虐m奴xxx在线观看| 91成人免费电影| a中文在线播放| 国产日韩在线精品av| 亚洲最大av| 国产精九九网站漫画| 亚洲福利视频一区| 天堂av在线免费观看| 久久精品视频亚洲| 色妞ww精品视频7777| 丁香六月激情婷婷| 久久综合九色综合97婷婷| jizz国产在线观看| 日韩最新在线视频| 在线中文字幕播放| 日产精品高清视频免费| 美女脱光内衣内裤视频久久网站| 国产午夜精品理论片| 精品久久久网站| 户外露出一区二区三区| 亚洲最大免费| 成人av电影免费在线播放| 亚洲黄色免费观看| 日韩在线小视频| silk一区二区三区精品视频| 国产主播在线看| 国产精品激情偷乱一区二区∴| 不卡视频免费在线观看| 欧美在线视频导航| 久久久五月天| 黑丝av在线播放| 欧美日韩一区 二区 三区 久久精品| 黄色成人影院| 久久精品日产第一区二区三区 | 欧美日韩国产亚洲一区| 成人精品在线观看视频| 欧美猛男超大videosgay| jizz一区二区三区| 亚洲一卡二卡三卡四卡无卡网站在线看| 国产很黄免费观看久久| 日本一区二区免费电影| 久久国产精品久久精品| 国产精品免费99久久久| 四虎国产精品免费| 欧美三区免费完整视频在线观看| 色婷婷在线播放| 亚洲电影网站| 99精品久久免费看蜜臀剧情介绍|