精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源賽道太擠了!月之暗面開源新版Muon優化器

人工智能 開源
省一半算力跑出2倍效果,月之暗面開源優化器Muon,同預算下全面領先。

月之暗面和 DeepSeek 這次又「撞車」了。

上次是論文,兩家幾乎前后腳放出改進版的注意力機制,可參考《撞車 DeepSeek NSA,Kimi 楊植麟署名的新注意力架構 MoBA 發布,代碼也公開》、《剛剛!DeepSeek 梁文鋒親自掛名,公開新注意力架構 NSA》。

這次是開源。

上周五,DeepSeek 剛剛官宣這周要連續開源 5 個代碼庫,卻被月之暗面深夜截胡了。

昨天,月之暗面搶先一步開源了改進版 Muon 優化器,比 AdamW 優化器計算效率提升了 2 倍。

image.png

團隊人員表示,原始 Muon 優化器在訓練小型語言模型方面表現出色,但其在擴展到更大模型方面的可行性尚未得到證明。因此,團隊人員確定了兩種對擴展 Muon 至關重要的技術:

  • 添加權重衰減:對擴展到更大模型至關重要。
  • 一致的 RMS 更新:在模型更新上執行一致的均方根。

這些技術使得 Muon 能夠在大規模訓練中直接使用,而無需調整超參數。Scaling law 實驗表明,與計算最優訓練的 AdamW 相比,Muon 的計算效率提升了 2 倍。

基于這些改進,月之暗面推出了 Moonlight,這是一個 3B/16B 參數的 Mixture-of-Expert(MoE)模型,使用 Muon 進行了 5.7 萬億 tokens 的訓練。該模型刷新了當前的「帕累托前沿」,換句話說,在相同的訓練預算下,沒有其他模型能在所有性能指標上同時超越它。

與之前的模型相比,Moonlight 也以更少的訓練 FLOPs 獲得了更好的性能。

如下圖所示,該研究進行了 Scaling law 研究,將 Muon 與強大的 AdamW 基線進行了比較,結果展示了 Muon 的卓越性能。Muon 實現了與 AdamW 訓練相當的性能,同時僅需要大約 52% 的訓練 FLOP。

image.png

月之暗面不但開源了內存優化且通信高效的 Muon 實現代碼,并且還發布了預訓練、指令調優以及中間檢查點,以支持未來的研究。

論文《 MUON IS SCALABLE FOR LLM TRAINING 》。

image.png

  • 論文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
  • 代碼地址:https://github.com/MoonshotAI/Moonlight
  • 模型地址:https://huggingface.co/moonshotai/Moonlight-16B-A3B

研究介紹

擴展 Muon 

Muon 優化器為 OpenAI 研究者 Keller Jordan 等人在 2024 年提出的,他們的研究表明在小規模訓練中 Muon 的表現顯著優于 AdamW。

但月之暗面發現,當將其擴展到訓練更大模型并使用更多 token 時,模型性能提升逐漸減弱。他們觀察到,權重和層輸出的 RMS 值持續增長,最終超出了 bf16 的高精度范圍,這可能會損害模型的性能。

為了解決這個問題,月之暗面在 Muon 中引入了標準的 AdamW(Loshchilov 等人,2019)權重衰減機制。

為了探究這一機制,研究者對 Muon 進行了有無權重衰減的實驗,他們訓練了一個包含 800M 參數和 100B token(約為最優訓練 token 量的 5 倍)的模型。圖 2 展示了使用 AdamW、無權重衰減的原始 Muon 以及帶權重衰減的 Muon 訓練的模型的驗證損失曲線。

image.png

結果顯示,雖然原始 Muon 在初期收斂速度更快,但一些模型權重隨時間的推移增長過大,可能會影響模型的長期性能。

加入權重衰減后解決了這一問題 —— 結果表明,帶權重衰減的 Muon 優于原始 Muon 和 AdamW,獲得了更低的驗證損失。公式 3 為表達式,其中 λ 為權重衰減比率。

一致的 RMS 更新。研究者發現 Adam 和 AdamW 的一個重要特性是,它們將更新的 RMS 維持在 1 左右。然而,月之暗面發現 Muon 更新 RMS 會根據參數矩陣形狀的變化而變化,具體如下引理 1 所示:

image.png

為了在不同形狀矩陣之間保持一致的 RMS 更新,該研究通過image.png來擴展 Muon 矩陣更新,從而抵消引理 1 中提到的影響。

在實際應用中,研究者通常將 AdamW 與 Muon 結合使用,以處理非矩陣參數。本文希望優化器超參數(學習率 η、權重衰減 λ)能夠在矩陣參數和非矩陣參數之間共享。

因此他們提出將 Muon 更新的 RMS 調整到與 AdamW 相似的范圍。他們通過以下調整將 Muon 更新 RMS 縮放至這一范圍:

分布式 Muon

月之暗面團隊還提出了一種基于 ZeRO-1 的分布式解決方案,稱為分布式 Muon(Distributed Muon)。分布式 Muon 遵循 ZeRO-1 在數據并行(DP)上對優化器狀態進行劃分,并與普通的 ZeRO-1 AdamW 優化器相比引入了兩個額外的操作,算法 1 描述了分布式 Muon 的實現。

image.png

實驗

RMS 的一致性

為了使所有矩陣參數更新的 RMS 值與 AdamW 的 RMS 保持一致,研究團隊嘗試了兩種方法來控制參數更新的 RMS,并將其與只用了 AdamW 的基線的 RMS 進行了對比。

由于大規模訓練模型時,會出現各種意料之外的情況,因此,研究團隊測試了 Muon 對訓練早期階段的影響。當矩陣維度差異增大時,更新 RMS 不一致的問題會更加明顯。該團隊對模型架構進行了微調,用標準的 2 層 MLP 替換了 Swiglu MLP,并將其矩陣參數的形狀從 [H, 2.6H] 改為 [H, 4H]。

團隊評估了模型的損失,并監控了關鍵參數的 RMS,尤其是形狀為 [H, H] 的注意力查詢權重和形狀為 [H, 4H] 的 MLP 權重。

實驗結果表明(見表 1),Update Norm 和 Adjusted LR 均優于基線方法,且 Adjusted LR 的計算成本更低,因此被選用于后續實驗。

Muon 的 Scaling Law

為了與 AdamW 公平比較,該團隊在一系列基于 Llama 架構的模型上對 Muon 進行了拓展。

對于 Muon,由于其 RMS 與 AdamW 匹配,團隊直接復用了 AdamW 的超參數。

實驗結果顯示,擬合的 Scaling Law 曲線表明,在計算最優設置下,Muon 僅需約 52% 的訓練 FLOPs 即可達到與 AdamW 相當的性能。這進一步說明了 Muon 在大規模語言模型訓練中的高效性。

使用 Muon 進行預訓練

為了評估 Muon 在模型架構中的表現,該團隊使用 DeepSeek-V3-Small 架構從頭開始預訓練了 Moonlight 模型。

Moonlight 模型總共進行了 5.7 萬億 tokens 的訓練,但在訓練到 1.2 萬億 tokens 的階段,團隊將其與 DeepSeek-V3-Small(使用 1.33T tokens 訓練的 2.4B/16B 參數 MoE 模型)和 Moonlight-A(與 Moonlight 設置相同,但使用 AdamW 優化器)進行了比較。如表 4 所示,Moonlight 在語言、數學和編碼等任務上都顯著優于 Moonlight-A,證明了 Muon 的擴展優勢。

在完整訓練后,Moonlight 與類似規模的開源模型(如 LLAMA3-3B、Qwen2.5-3B 和 Deepseek-v2-Lite)進行了比較。結果顯示,Moonlight 在性能上優于使用相同數量 tokens 訓練的模型,與更大參數規模模型相比,也較有競爭力。

此外,研究團隊還發現,Muon 可以讓模型的權重更新更「多樣化」,尤其在 MoE 模型中表現突出。

在微調階段,在預訓練和微調階段都使用 Muon,模型表現會比用 AdamW 的組合更好,但如果微調和預訓練的優化器不一致,優勢就不明顯了。

更多細節,請參閱論文原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-24 09:15:00

2025-07-17 07:12:45

2025-08-14 10:20:10

2025-06-17 15:24:48

開源模型AI

2025-05-13 09:21:30

2012-10-09 09:25:57

2025-01-21 08:00:00

2012-02-23 23:08:50

mailpostfix開源

2012-02-23 23:20:46

2012-02-22 23:17:10

2009-08-18 09:32:21

Silverlight

2025-11-17 16:13:30

AI開源模型

2025-08-14 18:14:38

智能模型開源

2012-02-22 21:53:18

CentOS開源

2012-02-22 22:11:20

開源Tomcat

2009-05-26 09:04:07

skyeye嵌入式模擬器

2020-03-30 15:20:56

Java開發代碼

2025-06-23 09:00:00

2021-12-21 09:20:47

ReactOS開源Windows

2012-02-22 22:31:18

Nginx開源
點贊
收藏

51CTO技術棧公眾號

免费又黄又爽又色的视频| 欧美日精品一区视频| 亚洲国产成人久久综合一区| 欧美日韩在线一二三| 国产亚洲精品久久久久久无几年桃| 午夜日韩成人影院| 欧美99久久| 欧美日韩精品一区视频| 欧美重口乱码一区二区| 亚洲精品1区2区3区| 亚洲精品黑牛一区二区三区| 日韩一区在线看| 国产成人av在线| 精品国产av色一区二区深夜久久 | 国产成人综合自拍| 深夜精品寂寞黄网站在线观看| heyzo亚洲| 手机av免费在线观看| 激情婷婷久久| 精品久久一区二区三区| 天堂av在线中文| 精品人妻一区二区三区含羞草| 久久久久亚洲| 日韩你懂的在线播放| 男人的天堂avav| 全国男人的天堂网| 久久xxxx| 国产一区二区动漫| 日韩精品你懂的| 免费在线看黄网站| 午夜精品一区二区三区国产| 日韩av最新在线观看| 男女av免费观看| 国产在线高清| 蜜桃久久久久久| 色妞色视频一区二区三区四区| 国产网站无遮挡| 欧美成人免费电影| 亚洲va天堂va国产va久| 欧美激情第一页在线观看| 亚洲a视频在线| 99热免费精品| 一区二区欧美日韩视频| 日韩在线不卡一区| 日本伦理一区二区| 久久久久久久一区| 国产伦精品一区二区三区精品视频| 网站永久看片免费| 91蜜桃臀久久一区二区| 福利视频第一区| 亚洲精品成人自拍| 亚洲精品久久久久久无码色欲四季 | 国产精品情趣视频| 91影视免费在线观看| 青青草免费av| 亚洲另类春色校园小说| 欧美婷婷六月丁香综合色| 日本xxx免费| 欧美孕妇孕交| 黄一区二区三区| 国产91av在线| 一区二区视频免费看| 偷拍亚洲色图| 日韩西西人体444www| 国产91对白刺激露脸在线观看| 91在线品视觉盛宴免费| 成人性生交大片免费看视频在线 | 国产无人区码熟妇毛片多| 亚洲激情另类| www.日韩av.com| a天堂视频在线观看| 亚洲伊人精品酒店| 色婷婷狠狠综合| a天堂资源在线观看| 91探花在线观看| 中文字幕永久在线不卡| 鲁鲁狠狠狠7777一区二区| 国产精品视频一二区| 国产视频一区三区| 欧美日韩xxx| 九九热久久免费视频| 欧美大胆a级| 日韩一级完整毛片| 日韩 中文字幕| 久久激情电影| 日韩欧美一区二区久久婷婷| 国产调教打屁股xxxx网站| 一级黄色片日本| 亚洲国产欧美另类| 成人精品一区二区三区四区 | 国产精品欧美综合| 国产免费av一区二区三区| 国产成人精品999| 丰满人妻老熟妇伦人精品| 欧美一区亚洲| 欧美性受xxxx白人性爽| 中文字幕第一页在线播放| 亚洲主播在线| 久久免费视频在线| 黄色一级片在线免费观看| 亚洲第一网站| 国产精品久久久久久久久久久久久久 | 国产午夜视频在线观看| 丁香婷婷综合网| 欧洲一区二区在线观看| 金瓶狂野欧美性猛交xxxx| 自拍偷自拍亚洲精品播放| 久久久久久久中文| а√天堂8资源中文在线| 夜夜嗨av一区二区三区四季av | 99re在线视频上| 国产ts变态重口人妖hd| 国产一区啦啦啦在线观看| 国产一区红桃视频| 国产精品视频一区二区三区,| 9色porny自拍视频一区二区| 国产一级特黄a大片99| 亚洲第一天堂在线观看| 国产午夜精品一区二区三区四区| 免费一区二区三区| 污污的网站在线免费观看| 欧美性猛片aaaaaaa做受| 欧美大喷水吹潮合集在线观看| 91久久国产| 欧美乱大交xxxxx另类电影| 丰满人妻一区二区三区四区| av一区二区三区| 成人毛片100部免费看| 国产在线xxx| 欧美日韩一区二区三区| 国产伦理在线观看| 亚洲激情中文| 91精品久久久久久久久青青| 99热这里只有精| 国产精品久久久久久久久快鸭| 无码日韩人妻精品久久蜜桃| 99re8精品视频在线观看| 亚洲午夜小视频| 亚洲自拍一区在线观看| 91香蕉视频mp4| 亚洲不卡1区| 四虎影视国产在线视频| 538在线一区二区精品国产| 韩国黄色一级片| 午夜性色一区二区三区免费视频| 91精品国产综合久久香蕉| 日本中文字幕在线2020| 一区二区三区欧美在线观看| a级黄色一级片| 高潮久久久久久久久久久久久久| 亚洲网站视频福利| 自拍偷拍18p| 国产不卡在线视频| 免费久久久一本精品久久区| 亚洲啊v在线| 制服.丝袜.亚洲.另类.中文 | 一区二区三区鲁丝不卡| 潘金莲一级淫片aaaaaaa| 欧美日韩一区自拍| 国产精品久久久久久久久久久新郎| 日本精品专区| 欧美伊人久久久久久久久影院| 国产传媒在线看| 一本色道久久综合亚洲精品不| 国产精品亚洲一区| 日本中文字幕视频在线| 91精品在线观看入口| 免费又黄又爽又色的视频| www.亚洲国产| 日韩欧美xxxx| 国产精品99久久免费观看| 性欧美在线看片a免费观看 | 日韩精品一区二区三区视频| 免费看一级一片| 99久久久精品| 手机在线免费观看毛片| 蜜桃一区av| xx视频.9999.com| 99视频在线观看视频| 日韩在线你懂得| 亚洲国产高潮在线观看| 在线免费黄色av| 久久99亚洲热视| 亚洲欧美另类综合| 中文字幕一区av| 性一交一黄一片| 国产精品迅雷| 日韩av一区二区在线影视| 国产欧美在线播放| 国产在线更新| 91高清视频在线| 女同性恋一区二区三区| 日韩精品高清不卡| 久久久久久久久一区| 男人添女人下面高潮视频| 麻豆网站在线免费观看| 日韩三级视频中文字幕| 圆产精品久久久久久久久久久| 亚洲欧美卡通另类91av| 亚洲国产一区二区在线| 盗摄系列偷拍视频精品tp| 国产精品久久激情| 免费观看国产精品视频| 成人在线观看亚洲| 亚洲精品乱码久久久久| 精品夜夜澡人妻无码av| 日本欧美久久久久免费播放网| 欧美日韩中文字幕在线播放| 国产精品免费不| 国产精品香蕉视屏| 日韩精品一区二区三区中文字幕 | 亚洲天堂电影| 久久九九精品99国产精品| 免费av中文字幕| 久久综合久久鬼色| 日韩不卡中文字幕| 国产成人精品一区二区色戒| 亚洲制服丝袜av| 99成人在线观看| 国产色一区二区| 国产制服丝袜在线| 成人免费视频免费观看| 天天综合天天添夜夜添狠狠添| 日韩国产欧美| 蜜桃久久精品乱码一区二区 | 日韩三级免费观看| 在线观看毛片网站| 成人免费在线播放视频| 加勒比综合在线| 久久av中文字幕片| 女人床在线观看| 98精品久久久久久久| 亚洲国产精品一区二区第四页av| 国产videos久久| 久久综合九色99| 蜜桃tv一区二区三区| 国产日韩欧美日韩| avav成人| 久久6免费高清热精品| 日本视频在线观看| 色悠悠久久久久| 在线视频1区2区| 丝袜亚洲欧美日韩综合| 在线日本视频| 日韩中文娱乐网| 日本福利专区在线观看| 最新国产精品拍自在线播放| 69av亚洲| 久久久av网站| 午夜激情在线| 亚洲91精品在线| 国产在线88av| 日本欧美一二三区| 羞羞网站在线看| 欧美国产一区二区三区| 国产精品免费播放| 夜夜嗨av一区二区三区四区| caoporn国产精品免费视频| 日韩三级在线免费观看| 亚洲av无码一区二区乱子伦| 精品国产免费一区二区三区香蕉| 国产情侣呻吟对白高潮| 欧美日韩中字一区| 国产精品欧美综合亚洲| 欧美大片日本大片免费观看| 欧美一区二不卡视频| 日韩精品中文字幕有码专区| 精品国产18久久久久久| 精品奇米国产一区二区三区| 噜噜噜久久,亚洲精品国产品| 亚洲国产日韩欧美在线99| 国产三级漂亮女教师| 久久网站最新地址| 成年人性生活视频| 成人av动漫在线| 免费a级黄色片| 国产麻豆精品在线| 老熟妇仑乱视频一区二区| 久久国产夜色精品鲁鲁99| 国产肥臀一区二区福利视频| 日日夜夜精品视频天天综合网| 污污网站免费观看| 久久久一二三| 日韩精品 欧美| 丝袜亚洲另类欧美综合| 欧美激情国内自拍| 97久久超碰精品国产| 性猛交╳xxx乱大交| 激情综合色综合久久| 精品无码人妻少妇久久久久久| 国产精品亚洲专一区二区三区| 日本黄色免费观看| 国产精品理伦片| 久久精品视频9| 亚洲一区二区三区视频在线 | 欧美成人午夜视频| 欧美成人精品一区二区男人看| 欧美黑人极品猛少妇色xxxxx| 婷婷六月国产精品久久不卡| 51国偷自产一区二区三区| 国产精品欧美一区二区三区不卡 | 免费激情视频在线观看| 顶级嫩模精品视频在线看| 美国黄色特级片| 欧美性xxxx极品高清hd直播| 久久夜靖品2区| 欧美日韩免费一区二区三区| 日韩一卡二卡在线| 久久国产加勒比精品无码| 亚洲综合在线电影| 国产精品成人aaaaa网站| 综合欧美亚洲| 正在播放一区| 综合一区在线| 男人c女人视频| 麻豆精品一二三| 91麻豆精品国产91久久综合| 狠狠色香婷婷久久亚洲精品| www久久久久久| 久久精品国亚洲| 久久国内精品| 亚洲自拍另类欧美丝袜| 国产精品nxnn| 日本精品福利视频| 精品影院一区二区久久久| 天天舔天天操天天干| 欧美亚洲高清一区| 成人在线观看黄色| 国产成人精品综合久久久| 亚洲大片精品免费| 国产免费毛卡片| 91女人视频在线观看| 国产成人在线免费观看视频| 精品国产91久久久久久久妲己 | 国产精品wwwwww| 免费视频国产一区| 日韩av播放器| 国产日韩欧美a| 蜜臀尤物一区二区三区直播| 国产亚洲欧美视频| 电影一区二区| 一区二区不卡在线观看| 午夜久久久久| 97免费公开视频| 亚洲中国最大av网站| 日韩性xxxx| 热99精品里视频精品| 国产精品日本一区二区不卡视频 | 久久中文在线| 91激情视频在线观看| 一区二区国产盗摄色噜噜| 99久久精品免费看国产交换| 免费99精品国产自在在线| 日本一区二区三区电影免费观看| 久久香蕉视频网站| 成人动漫一区二区三区| 国产精品xxxx喷水欧美| 国产一区二区三区在线视频 | 首页亚洲欧美制服丝腿| 亚洲一级片在线播放| 欧美日韩性生活| 中国av在线播放| 国产精品久久久久久久久久久久久 | av电影院在线看| 久久一区二区三区欧美亚洲| 日韩精品乱码免费| 国产少妇在线观看| 亚洲激情免费观看| 日本精品裸体写真集在线观看| 在线成人性视频| 成人深夜视频在线观看| 四虎成人在线观看| 日韩资源在线观看| 91午夜精品| 久久精品网站视频| 一区二区三区在线观看动漫| 天天综合网天天综合| 国产精品久久久久久久久久久久久久| 久久久久久久久丰满| 偷偷色噜狠狠狠狠的777米奇| 欧美视频精品在线| 欧美极品少妇videossex| 欧洲精品亚洲精品| 国产精品一区二区黑丝| 亚洲 欧美 中文字幕| 色999日韩欧美国产| 国产精品jk白丝蜜臀av小说| 五月婷婷激情久久| 中文字幕制服丝袜一区二区三区 | 又嫩又硬又黄又爽的视频| 欧美男同性恋视频网站| 亚洲免费黄色片| 日韩av免费在线| 午夜精品久久| www.狠狠爱| 色婷婷国产精品| 欧美1—12sexvideos| 亚洲精品欧美精品| 99re在线视频这里只有精品| 国产又大又粗又长|