精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新 精華

發布于 2025-4-17 06:40
瀏覽
0收藏

人工智能(AI)快速發展,模型訓練是核心環節,優化器扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。多年來,AdamW優化器一直是優化器的標桿,因其穩定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規模的不斷擴大,訓練成本和時間的需求也在激增,這讓人們開始尋找更高效的優化方法。近期,一種名為Muon的優化器算法悄然出現(源代碼 ????https://github.com/KellerJordan/Muon ????),盡管它還未成為業界焦點,但其獨特的設計和卓越的性能表明,它可能是AI模型訓練領域的一次重大基礎創新。

優化器算法:AI訓練的“幕后推手”

為什么優化器如此重要?

在深度學習中,模型訓練的目標是通過調整參數,讓模型的預測結果盡可能接近真實數據。這個過程通常是通過定義一個損失函數來實現的,損失函數衡量了模型預測與真實值之間的差距。而優化器的任務,就是根據損失函數的梯度(gradient),一步步調整模型的參數,找到損失最小的“最佳狀態”。

想象一下,我們在一個崎嶇的山谷中尋找最低點。優化器就像我們的導航儀,告訴我們每一步該往哪個方向走、走多遠。一個好的優化器不僅能更快地帶我們到達谷底(收斂),還能避免在陡峭的坡道上上上下下(訓練不穩定)。優化器的效率直接決定了訓練速度、計算資源需求,以及最終模型的性能。

過去幾年,AdamW(Adam with Weight Decay)一直是訓練大型語言模型的首選(如Qwen、DeepSeek、LLaMA等,閉源的大模型不清楚,但大概率也是AdamW)。它結合了自適應學習率和權重衰減(weight decay)的優點,能夠在復雜的參數空間中穩定、高效地工作。然而,隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現——它在超大規模場景下的效率開始受到挑戰。進一步提升AI能力,我們需要更大的模型和更多的訓練資源。但計算資源的成本高昂,訓練時間過長也會拖慢研究和應用的進度。因此,開發更高效的優化器,不僅是技術上的追求,更是經濟和實踐上的迫切需求。

Muon:從動量到正交化的革新

Muon的基本原理

Muon的全稱是MomentUm Orthogonalized by Newton-Schulz(動量正交化Newton-Schulz),它是一種專為神經網絡隱藏層設計的優化器。它的核心思想并不復雜,但卻非常巧妙:先用經典的SGD(隨機梯度下降)動量法生成參數更新,然后通過一個特殊的“后處理”步驟——Newton-Schulz正交化,讓這些更新更高效。

讓我們一步步拆解這個過程:

  1. 動量法生成更新Muon首先沿用了SGD動量的思路。動量法就像給梯度加了一個“慣性”,讓參數更新不僅依賴當前梯度,還參考之前的更新方向。這樣可以加速收斂,避免在參數空間中“左搖右晃”。在Muon中,這一過程生成一個更新矩陣(記為(Bt))。
  2. 正交化:讓更新更“聰明”接下來,Muon引入了關鍵創新:通過Newton-Schulz迭代,將更新矩陣(Bt)“正交化”,生成一個新的更新矩陣(Ot)。所謂正交化,簡單來說,就是讓更新矩陣的列(或行)彼此垂直,變成一個“半正交矩陣”(滿足( OTO = I )或( O OT= I ))。為什么這樣做?傳統的動量更新往往會被某些“主導方向”牽著走,而其他“稀有方向”(對學習也很重要,但幅度小)的貢獻被掩蓋。正交化就像重新分配了這些方向的“發言權”,讓更新更全面、更高效地探索參數空間。
  3. 參數更新最后,Muon用正交化后的更新矩陣( Ot)來調整參數:

    Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

這里,η是學習率,θ是模型參數。

Newton-Schulz迭代:高效的正交化工具

正交化聽起來很高級,計算上也很復雜。如果用傳統的SVD(奇異值分解)來正交化,計算量太大,速度太慢,完全不適合現代GPU加速的訓練環境。而Muon采用的Newton-Schulz迭代,則是一個高效的替代方案。

這個迭代過程的核心是,通過反復計算一個多項式函數(比如五次多項式),逐步將更新矩陣調整到接近正交的狀態。它的優點在于:

  • 低計算開銷:每次迭代只需幾次矩陣乘法,遠比SVD快。
  • 數值穩定性:可以用bfloat16(一種低精度浮點格式)運行,非常適合現代GPU。

例如,Muon的實現中,Newton-Schulz迭代的公式是:

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

其中,(a = 3.4445, b = -4.7750, c = 2.0315)是精心調優的系數。經過5次迭代,就能得到一個“足夠正交”的更新矩陣,既高效又實用。

Muon的優勢:效率與潛力的結合

Muon并不是憑空出現的“黑魔法”,它的優勢經過了多次實驗驗證。以下是Muon相比AdamW的幾個突出優點:

  1. 更快的訓練速度在多個基準測試中,Muon展現了驚人的加速能力。例如:
  • 在CIFAR-10圖像分類任務中,Muon將達到94%準確率的時間從3.3 A100-seconds降到2.6 A100-seconds。
  • 在NanoGPT speedrunning任務(訓練一個小規模GPT模型)中,Muon將訓練速度提升了1.35倍。 這些結果表明,Muon能顯著縮短訓練時間,尤其是在資源有限的場景下。
  1. 卓越的可擴展性Muon在大規模模型上同樣表現出色。例如,在訓練一個1.5億參數的語言模型時,Muon僅用10個8xH100-hours就達到了GPT-2 XL的性能水平,而AdamW需要13.3 hours。隨著模型規模繼續擴大,這種差距可能會更明顯。
  2. 低計算開銷盡管正交化聽起來很復雜,但Muon的額外計算開銷非常小。在典型語言模型訓練中,Muon的FLOP(浮點運算)開銷低于1%。這得益于Newton-Schulz迭代的高效性,以及對現代硬件的優化。
  3. 與現有框架兼容Muon并非完全替代AdamW,而是與之互補。實際應用中,Muon通常優化網絡的隱藏層參數,而嵌入層(embedding)和分類器頭(head)仍由AdamW處理。這種“分工合作”的方式,讓Muon可以無縫集成到現有訓練流程中。

如果Muon替代AdamW

假設Muon的潛力被充分驗證,并逐步取代AdamW成為新的標準優化器,AI領域可能會迎來以下重大變化:

  1. 訓練成本大幅降低Muon的高效性意味著,訓練一個大規模模型所需的計算資源和時間將顯著減少。這不僅能節省數千萬RMB的算力成本,還能讓更多中小型研究團隊參與到前沿AI研究中,降低技術門檻。
  2. 模型規模的進一步突破更高的訓練效率,讓研究者有能力嘗試更大規模的模型。比如,現在訓練一個1000億參數模型可能需要數月,而有了Muon,或許幾周就能完成。這將推動AI能力的上限不斷提升。
  3. AI應用加速落地更快的訓練速度意味著模型從研究到應用的時間縮短。無論是工業大模型(創新奇智在做的事情),還是其他行業大模型,AI技術的普及速度都可能因此加快。
  4. 優化器研究的復興Muon的成功可能會重新點燃對優化器算法的興趣。過去幾年,AdamW幾乎“一統江湖”,新優化器的研究相對沉寂。如果Muon證明了創新優化器的價值,研究者可能會投入更多精力,探索其他潛在的突破。

OpenAI:Muon的未來舞臺?

2024年,Muon的開發者Jordan在個人博客中詳細介紹了Muon的設計理念和實驗結果,隨后不久,他宣布加入OpenAI。這一動向并非巧合,很可能OpenAI看中了Muon的潛力。

月之暗面的實踐:Muon的驗證

Moonshot AI(月之暗面)近期在Muon的基礎上進行了大規模實踐,驗證了它在真實場景中的潛力。他們不僅改進了Muon,還訓練了一個名為Moonlight的3B/16B參數Mixture-of-Expert(MoE)模型,用5.7萬億tokens的數據進行了測試。

Moonshot AI的改進

Moonshot AI發現,原始Muon在小規模任務上表現出色,但在超大規模訓練中會遇到問題,比如模型權重增長過大,影響穩定性。為此,他們提出了兩個關鍵改進:

  1. 引入權重衰減他們將AdamW的權重衰減機制融入Muon,更新公式變為:
  2. Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

  3. 這有效控制了權重大小,提升了長期訓練的性能。
  4. 調整更新尺度Muon的更新幅度(RMS)會因參數矩陣的形狀而變化,可能導致訓練不穩定。Moonshot AI提出按矩陣最大維度縮放更新,比如:
  5. Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

 這樣可以保持更新幅度一致,并與AdamW兼容。

Moonlight的驚艷表現

基于這些改進,Moonshot AI用Muon訓練了Moonlight模型,并在多個基準測試中取得了優異成績。例如:

  • 在MMLU(英語理解)上,Moonlight得分70.0,超越了同規模的Llama3.2-3B(54.7)和Deepseek-v2-Lite(58.3)。
  • 在GSM8K(數學推理)上,得分77.4,接近Qwen2.5-3B(79.1),但訓練tokens僅為后者的三分之一。
  • 訓練效率上,Moonlight只需約52%的FLOPs,就能達到AdamW的性能水平。

這些結果表明,Muon不僅能加速訓練,還能提升模型性能,尤其在數學和代碼任務上表現突出。

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

結語:Muon的潛力與未來

Muon作為一種新興的優化器算法,以其獨特的設計和卓越的性能,展現了巨大的潛力。它通過正交化更新矩陣,打破了傳統優化器的局限,在訓練速度、可擴展性和計算效率上都超越了AdamW。盡管目前它還未引起全球關注,但Keller Jordan的加入OpenAI,以及Moonshot AI的成功實踐,都預示著Muon可能成為AI訓練領域的下一個里程碑。

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

?本文轉載自???后向傳播???,作者: 張發恩

收藏
回復
舉報
回復
相關推薦
黄色欧美在线| caoporm免费视频在线| 国产精品入口66mio| 亚洲色无码播放| 男生操女生视频在线观看| 黄色网在线免费观看| 成人av网址在线| 国产精品6699| 久久久久97国产| 欧洲毛片在线视频免费观看| 日韩一级免费观看| 无码无遮挡又大又爽又黄的视频| 在线日本视频| 91日韩在线专区| 91久久在线播放| 久久精品视频5| 欧美视频不卡| 日韩中文字幕视频| 日本少妇高潮喷水xxxxxxx| 免费看日产一区二区三区| 欧美日韩视频在线| 亚洲国产一二三精品无码 | 日本美女一区二区三区视频| 久久影院资源网| 国产人妻大战黑人20p| 中文字幕区一区二区三| 欧美日韩国产精品成人| 欧美爱爱视频免费看| av在线free| 中文字幕成人av| 欧美一卡2卡3卡4卡无卡免费观看水多多| 精品人妻一区二区三区含羞草| 视频一区二区不卡| 91国内免费在线视频| 精品无码一区二区三区电影桃花| 成人在线电影在线观看视频| 国产视频精品xxxx| 黄色录像a级片| 国产日韩三级| 精品国产百合女同互慰| 天堂av在线8| 久久女人天堂| 欧美三级韩国三级日本三斤| 久久综合久久色| 成人性生活av| 欧美性猛交xxxx乱大交3| 国产一线二线三线女| 性爱视频在线播放| 亚洲综合久久久| 国产一二三四五| 麻豆视频免费在线观看| 国产精品护士白丝一区av| 色女人综合av| 亚洲s色大片| 中文文精品字幕一区二区| 亚洲欧洲精品一区二区| 男人的天堂在线视频免费观看| 国产欧美日韩卡一| 视频一区视频二区视频三区视频四区国产 | 精品中文字幕久久久久久| 强迫凌虐淫辱の牝奴在线观看| 999久久精品| 亚洲高清av在线| 香港三日本8a三级少妇三级99| 国产精品xxxav免费视频| 亚洲精品v欧美精品v日韩精品| 国产免费一区二区三区最新6| 国产无遮挡裸体免费久久| 日韩av一区在线观看| 中日韩精品一区二区三区| 精品国产一区一区二区三亚瑟 | 奇米精品一区二区三区在线观看| 国产精品大片wwwwww| 美女黄页在线观看| 狠狠色丁香久久婷婷综合_中| 51国产成人精品午夜福中文下载| 黄色www视频| 久久久亚洲午夜电影| 香蕉久久免费影视| 中国av在线播放| 精品久久久久久中文字幕大豆网| 国产淫片av片久久久久久| 日韩欧乱色一区二区三区在线| 制服丝袜成人动漫| 国产一级伦理片| 国产一区二区观看| 久久影视电视剧免费网站| 国产无遮挡免费视频| 媚黑女一区二区| 96国产粉嫩美女| 四虎精品成人影院观看地址| 国产精品天干天干在观线| www.18av.com| 国产精品久久久久av电视剧| 欧美一区二区在线不卡| 狠狠人妻久久久久久综合蜜桃| 精品一区二区三区中文字幕老牛| 久久伊人精品一区二区三区| 亚洲s码欧洲m码国产av| 精品一区二区在线看| 精品国产免费一区二区三区| www.黄在线观看| 亚洲福利一区二区| 久久婷五月综合| 北条麻妃一区二区三区在线| 在线观看日韩av| 日韩免费一二三区| 极品尤物av久久免费看| 精品一区久久久久久| 黄色网页在线看| 日本精品一级二级| 欧美午夜视频在线| 亚洲国产精品久久久久婷婷老年| yjizz视频网站在线播放| 亚洲国产另类精品专区| 日本在线一二三区| 校花撩起jk露出白色内裤国产精品 | 亚洲字幕久久| 国产91在线播放| 日韩一级片免费观看| 国产精品久久久99| 成人在线观看a| 久久精品66| 欧美大片在线免费观看| 中文字字幕在线中文乱码| 2欧美一区二区三区在线观看视频| 桥本有菜av在线| 日韩网站中文字幕| 亚洲大胆人体在线| 欧美激情国产精品免费| 久久超碰97中文字幕| 日本一区免费看| 菠萝蜜视频在线观看www入口| 91精品婷婷国产综合久久性色 | 少妇高潮一区二区三区69| 亚洲人成网站影音先锋播放| 手机在线免费观看毛片| 精品一区在线| 欧美一区二粉嫩精品国产一线天| 懂色av成人一区二区三区| 亚洲女爱视频在线| 不卡的av中文字幕| 欧美艳星介绍134位艳星| 欧美在线一区二区三区四| 色网站免费观看| 亚洲超丰满肉感bbw| 日本泡妞xxxx免费视频软件| 欧美久久一级| 亚洲一区二区三区香蕉 | 日韩成人一级| 97热精品视频官网| 四季av日韩精品一区| 亚洲综合免费观看高清在线观看| 最好看的中文字幕| 欧美日韩一区二区三区四区在线观看 | 一本大道久久加勒比香蕉| 综合网在线观看| 久久午夜老司机| 91看片就是不一样| 精品视频免费在线观看| 国产精品福利网| 国产视频福利在线| 欧美日韩国产首页| 看黄色录像一级片| 国产在线视频精品一区| eeuss中文| 日韩三级久久| 久久久久久这里只有精品| 人人妻人人澡人人爽久久av| 亚洲成人av资源| 黄色国产在线观看| 日韩av午夜在线观看| 免费看av软件| 2021年精品国产福利在线| 久久久午夜视频| 天堂v视频永久在线播放| 色偷偷久久人人79超碰人人澡| 久久日免费视频| 国产美女视频91| 成人免费性视频| 日韩高清成人在线| 国产精品久久久久7777婷婷| 欧美精品hd| 精品蜜桃在线看| 国产成人无码一区二区在线播放| 国产日韩av一区| 操人视频免费看| 欧美日本在线| 欧美亚洲丝袜| 成人亚洲精品| 欧美在线xxx| 欧美天天影院| 日韩电影免费观看中文字幕| 在线视频免费观看一区| 亚洲最新视频在线播放| 免费看污黄网站在线观看| 激情综合色综合久久综合| 91动漫在线看| 日韩在线观看一区| 国内精品视频免费| 日韩欧乱色一区二区三区在线| 久久久亚洲影院| 3p在线观看| 精品国产1区2区3区| 在线播放国产一区| 午夜欧美在线一二页| 色屁屁草草影院ccyy.com| 处破女av一区二区| 在线观看av日韩| 亚洲无线一线二线三线区别av| 手机看片福利永久国产日韩| 狼人天天伊人久久| 成人性生交xxxxx网站| 极品美鲍一区| 欧美人成在线视频| 欧美尤物美女在线| 亚洲视频在线看| 免费a视频在线观看| 67194成人在线观看| 免费黄色av片| 亚洲成a人在线观看| 成人三级视频在线观看| 91美女精品福利| 国产精品91av| 国产美女一区二区| 手机av在线网| 免费人成网站在线观看欧美高清| 国产免费观看高清视频| 女生裸体视频一区二区三区| 中国人体摄影一区二区三区| 久久不见久久见国语| 久久久精品动漫| 成人台湾亚洲精品一区二区| 国产视频999| 91成人抖音| 国产成人精品一区二区在线| 色偷偷偷在线视频播放| 久久久久久久成人| 色呦呦视频在线观看| 久久久久北条麻妃免费看| 成人在线播放视频| 亚洲人成在线播放| 免费国产在线观看| 亚洲欧美日韩图片| 黄色视屏网站在线免费观看| 亚洲美女av网站| 色视频在线观看免费| 亚洲精品videossex少妇| 色窝窝无码一区二区三区成人网站 | 国内揄拍国内精品| 欧美伦理免费在线| 欧美日韩国产成人高清视频| 久久精品视频观看| 欧美精品免费看| 日韩av激情| 久久久亚洲精品视频| 九色porny丨国产首页在线| 欧美激情一区二区三区高清视频| 日本在线观看高清完整版| 欧美黑人巨大精品一区二区| 青青草原av在线| 午夜精品一区二区三区在线播放 | 综合久久综合| 久久久99精品视频| 韩日成人在线| 黄色www网站| 亚洲男人影院| 9l视频白拍9色9l视频| 国产专区综合网| 老司机av网站| 99久久伊人精品| 在线观看国产网站| 久久精品无码一区二区三区| 综合 欧美 亚洲日本| 亚洲欧美一区二区三区国产精品| 劲爆欧美第一页| 欧美三级xxx| 正在播放亚洲精品| 欧美一区二区观看视频| 少妇一区二区三区四区| 亚洲日韩中文字幕| 国产激情在线| 57pao精品| 日日夜夜综合| 国产青春久久久国产毛片| 国产精品亚洲片在线播放| 欧美aaa在线观看| 亚洲精品社区| 老司机午夜性大片| 北条麻妃一区二区三区| 国产成人免费观看网站| 亚洲午夜精品网| 午夜精品久久久久久久蜜桃| 日韩亚洲欧美一区二区三区| 嫩草精品影院| 久操成人在线视频| 亚洲www.| 国产91视觉| 日韩精品久久久久久久电影99爱| 777久久精品一区二区三区无码 | 亚洲一区二区三区四区av| 国产日韩亚洲欧美综合| 欧美日韩国产精品一区二区三区 | 2018日韩中文字幕| 亚洲精品一区二区在线播放∴| 国产区二精品视| 中文不卡在线| 国产天堂在线播放| 成人av网站免费| 三级在线观看免费大全| 色999日韩国产欧美一区二区| 刘亦菲久久免费一区二区| 日韩在线视频线视频免费网站| 中文字幕21页在线看| www.一区二区三区| 91偷拍一区二区三区精品| 欧美 国产 小说 另类| 国产a视频精品免费观看| av在线免费播放网址| 一本色道久久综合狠狠躁的推荐| 朝桐光av在线一区二区三区| 中文字幕自拍vr一区二区三区| 一个人www视频在线免费观看| 91香蕉电影院| 99久久久久| 欧美午夜aaaaaa免费视频| 久久免费电影网| 亚洲男人的天堂在线视频| 精品国产伦理网| 伊人电影在线观看| 91在线观看免费观看| 日韩在线二区| 性欧美1819| 国产精品视频一区二区三区不卡| 青草视频在线观看免费| 亚洲精品久久视频| 欧美xxxx少妇| 国产精品jizz视频| 在线成人超碰| 久久久久无码精品| 亚洲女同女同女同女同女同69| 91精东传媒理伦片在线观看| 在线国产精品视频| 国模一区二区| 日本高清不卡三区| 久久精品123| www.av天天| 欧美在线视频不卡| av免费在线一区二区三区| 国产精品大陆在线观看| 国产va免费精品观看精品视频| 国产极品美女高潮无套久久久| 久久久国产综合精品女国产盗摄| 日日摸天天添天天添破| 亚洲精品网站在线播放gif| 都市激情亚洲综合| 视频一区视频二区视频| 久久99深爱久久99精品| 国产十六处破外女视频| 精品伦理精品一区| 国产在线88av| 日本一区二区免费看| 免费在线观看视频一区| 人人澡人人澡人人看| 日韩一级完整毛片| 涩涩视频在线免费看| 手机看片福利永久国产日韩| 国内精品伊人久久久久影院对白| 紧身裙女教师波多野结衣| 欧美精品一区二| 亚洲精品中文字幕| 亚洲欧洲一区二区在线观看| 久久国产生活片100| 久久精品一级片| 精品一区二区三区三区| www.一区| 五月天激情图片| 91亚洲国产成人精品一区二三| 精品人妻一区二区三区潮喷在线 | 久久精品30| 日韩欧美国产成人精品免费| 亚洲精品一区二区三区在线观看| 悠悠资源网亚洲青| 亚洲人体一区| 成人精品一区二区三区四区| 欧美三级午夜理伦| 最近中文字幕日韩精品| 亚洲经典视频| 男操女免费网站| 亚洲一级二级三级| 可以在线观看的av| 亚洲综合国产精品| 亚洲欧美久久| 日本黄色小说视频| 亚洲欧洲xxxx| 视频一区在线| 国产精彩免费视频| 亚洲国产一区二区三区| 成人全视频高清免费观看| 国产伦精品一区二区三|