精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福:優化器「諸神之戰」?AdamW 憑「穩定」勝出

人工智能 新聞
斯坦福大學 Percy Liang 團隊的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預訓練的穩健首選,但矩陣型方法在特定數據–模型比例下展現出明顯優勢。

自 2014 年提出以來,Adam 及其改進版 AdamW 長期占據開放權重語言模型預訓練的主導地位,幫助模型在海量數據下保持穩定并實現較快收斂。

隨著模型規模迅速擴大,預訓練已成為計算密集型任務的典型代表,在大模型研發中往往是最主要的計算開銷。在這種背景下,優化器的設計直接關系到收斂速度與計算成本。

研究者們探索了多種改進方向,其中最快的優化器往往采用矩陣型預條件子(如 Muon、Soap、Kron),相較于經過嚴格調優的 AdamW,可以帶來約 30–40% 的迭代級別加速。

斯坦福大學 Percy Liang 團隊的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預訓練的穩健首選,但矩陣型方法在特定數據–模型比例下展現出明顯優勢。

  • 論文標題:Fantastic Pretraining Optimizers and  Where to Find Them
  • 論文地址:https://www.arxiv.org/pdf/2509.02046v1
  • Github:https://github.com/marin-community/marin/issues/1290
  • 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者認為,這種現象可能源于兩個關鍵的方法論缺陷:

  • 問題 1:不公平的超參數調優。

基線模型通常調優不足:在常用的 AdamW 基線中,僅僅是調優學習率這一個參數,就能在 1.3 億參數規模的模型上實現 2 倍的加速。

固定共享的超參數并不能保證比較的公平性:例如,與標準的權重衰減值 0.1 相比,Lion 優化器更偏好較高的權重衰減值(如 0.6)。

左:常用的 AdamW 基線存在調優不足的問題。 在 Brown 等人 [2020] 提出、并被后續多項研究采用的 GPT-3 訓練方案中,僅僅針對一個 1 億參數的模型調整學習率這一個超參數,便可實現高達 2 倍的加速,這凸顯了進行恰當超參數優化的重要性。右:在不同優化器之間固定超參數并不能保證比較的公平性。 在以往的研究中,像學習率和權重衰減這類共享超參數通常被設為常量。然而,即使是概念上相似的優化器,其對應的最優超參數也可能大相徑庭。

  • 問題 2:測試規模不足

大多數測試僅使用小型模型(參數遠小于 10 億)或遵循 Chinchilla 論文提出的 1 倍數據配比。那么,在更大規模的模型或更高的數據配比下,結果會如何呢?

此外,訓練早期的檢查點也可能產生誤導,在學習率衰減階段,不同方法的損失曲線可能會發生交叉,從而導致最終排名反轉。因此,必須在(不同的)設定下進行訓練結束時的最終評估。

左:加速效果隨模型規模的增大而衰減。 盡管一些優化器在參數量小于 10 億的模型上相比 AdamW 能展現出較高的加速比(1.3-1.4 倍),但當模型規模增至 12 億參數時,其加速比會衰減至僅 1.1 倍。右:基于矩陣的優化器性能穩定優于基于標量的優化器。 該圖展示了三種基于標量的優化器(AdamW, Nesterov AdamW, Mars)和三種基于矩陣的優化器(Kron, Soap, Muon)在不同 Chinchilla 數據配比下訓練時的損失曲線。基于矩陣的優化器相比基于標量的優化器實現了一致的加速效果。此外,在過訓練(overtrained)的情況下,這三種基于矩陣的優化器最終會收斂到相似的損失值。

為了驗證這一假設,研究人員進行了系統性的比較研究,涵蓋了十一種不同的深度學習優化器。他們在多種模型規模(從 1 億到 12 億參數)和數據–模型比例(參照 Chinchilla 最優比例的 1 倍至 8 倍)下,為每一種優化器都進行了嚴謹、獨立的超參數調優。

本研究所使用的優化器。

研究發現:

  • 獨立調優至關重要:一個優化器的最優超參數配置往往無法直接遷移到另一種優化器上。如果缺乏獨立調優,不僅比較結果缺乏公平性,而且新優化器相較于精心調優過的 AdamW,實際加速效果遠低于其聲稱的數值。
  • 短期評估具有誤導性:僅在短時間訓練窗口內評估優化器性能是不可靠的。隨著訓練的進行和學習率衰減,不同優化器的性能排名可能會發生逆轉,其損失曲線甚至會多次交叉。
  • 矩陣方法性能領先:所有速度最快的優化器都采用了基于矩陣的預條件子,而非傳統的逐元素標量縮放。Muon、Soap 和 Kron 等方法,相比嚴格調優后的 AdamW,能夠實現 30–40% 的單步訓練速度提升。

有趣的是,最優選擇也與具體場景相關:在標準 Chinchilla 數據比例下,Muon 表現最佳;而當數據量相對于模型規模的比例提升至 8 倍以上時,Soap 則成為更優的選擇。

方法

研究設計了一套嚴謹的方法論來評估這些優化器,該方法分為三個主要階段。首先是通用設置階段,明確了實驗環境。研究使用了四種不同規模的 Transformer 模型,參數量從 130M 到 1.2B,序列長度均為 4096,并詳細列舉了各模型層數、隱藏維度等具體配置。

所研究的各個模型規模的詳細架構超參數。

數據方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 數據集,并使用 LLaMA-3 分詞器進行分詞,確保了訓練數據的豐富性。評估的優化器涵蓋了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了當前深度學習優化領域的主流和前沿方法。

階段 I: 全面參數掃描

研究旨在解決基線優化器超參數調整不當導致其性能被低估的問題。研究采用了坐標下降法,對所有優化器的超參數(包括學習率、權重衰減、預熱步數、β?、β?、ε、最大梯度范數和批次大?。┰陬A設網格上進行了詳盡搜索。

這一階段的實驗設置涵蓋了 130M、300M 和 500M 模型在 1 倍 Chinchilla 數據量下的訓練,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 數據量下的訓練。

研究發現,對每個優化器進行嚴格的超參數調整至關重要,因為不同優化器之間的最優超參數配置差異顯著,盲目遷移超參數會導致不公平的比較。

此外,研究也觀察到,與經過精心調整的基線 AdamW 相比,實際的加速效果普遍低于此前一些研究所聲稱的水平。

階段 II: 敏感超參數識別

研究根據第一階段的結果,識別出那些最優值會隨模型規模變化的敏感超參數,例如學習率和預熱長度。隨后,這些敏感超參數在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 數據量下進行了進一步的網格搜索。

第一階段與第二階段的主要結果。上圖: 我們繪制了第一階段和第二階段實驗中,模型在 C4/EN 數據集上的驗證集損失。圖中的每一個點都對應于每種優化器在相應的 Chinchilla 數據配比下所能達到的最優損失值。下圖: 我們針對部分優化器,繪制了它們在 HellaSwag 基準上的性能。這些優化器包括:AdamW 基線、性能排名前 2 的基于標量的優化器,以及性能排名前 3 的基于矩陣的優化器。性能數據來自于它們各自最優的運行批次。

通過結合前兩個階段的結果,研究獲得了 12 種不同設置下的近乎最優超參數集及其對應的損失。為了量化不同優化器相對于 AdamW 的加速效果,研究擬合了 AdamW 損失隨數據預算變化的縮放定律,并以此計算出達到相同損失所需的 AdamW 數據量與優化器實際所需數據量之比,作為加速比。

研究發現,基于矩陣的優化器雖然表現普遍優于基于標量的優化器,但其加速比在實際測試中均未超過 1.4 倍。許多替代優化器在小規模模型或有限數據比例下看似具有優勢,但隨著模型規模擴大,這些加速優勢逐漸消失甚至反轉,AdamW 依然是最穩健的預訓練首選。

階段 III: 案例研究

該階段旨在對更大規模的實驗進行深入探索。研究首先檢驗了超參數的擬合程度,通過擬合形式為 的平滑定律,預測了在模型規模 N 和數據規模 D 下的最優設置。

為了驗證這些縮放定律,研究對 1.2B 模型在 1 倍 Chinchilla 數據量下進行了全面掃描,結果顯示預測的配置與實際最優配置之間的性能差異極小,證明了預測的有效性。

隨后,研究進行了兩項案例研究:一是訓練 1.2B 模型在 1 至 8 倍 Chinchilla 數據量下,以檢驗優化器加速效果隨模型規模擴展的變化;二是在 16 倍 Chinchilla 數據量下訓練 130M 和 300M 模型,以觀察在極端數據量與模型比例下的優化器表現。

案例分析。左圖: 在 12 億參數模型上,AdamW、NAdamW、Muon 和 Soap 四種優化器的驗證集損失縮放情況。結果顯示,Muon 和 Soap 相比 AdamW 仍有顯著的加速效果,但相比 NAdamW 已無明顯加速優勢。中圖: 采用與圖 3 相同的方法估算加速比。我們觀察到,Muon 和 Soap 的加速比隨模型規模增大而衰減,最終降至僅 1.1 倍。右圖: 在 3 億參數模型和 16 倍 Chinchilla 數據配比的設定下,實驗結果表明,當數據與模型的比例進一步增大時,Soap 的性能優于 Muon。

這一階段的結果進一步揭示了 Muon 優化器的潛在局限性:盡管 Muon 對高達 1.2B 參數的模型仍有加速效果,但加速比會下降到 1.2 倍以下。在高數據與模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超過了 Muon。研究推測,在數據與模型比例很高時,Soap 和 Kron 所維持的二階動量變得更為有效。

更多細節請閱讀原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-15 10:35:16

GPTAI

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2018-08-13 21:19:07

Weld開源數據

2024-09-26 10:23:46

2025-01-17 10:26:19

模型開發ChatGPT

2025-09-08 08:59:00

2017-11-28 14:18:29

2018-12-03 09:35:26

互聯網

2016-09-27 16:06:48

2025-10-24 17:29:54

2023-03-06 10:26:37

AI研究

2024-10-21 12:40:00

視頻生成模型

2019-03-24 12:11:47

AI 數據人工智能

2022-02-09 10:06:21

觸覺設備計算機人工智能

2023-03-31 13:55:00

模型智能

2024-04-24 09:47:36

點贊
收藏

51CTO技術棧公眾號

国产丝袜欧美中文另类| 日本不卡一区二区三区高清视频| 欧美变态口味重另类| 日本丰满大乳奶| 色一情一乱一区二区三区| 免费亚洲网站| 免费成人高清视频| av网页在线观看| 国产精品字幕| 一区二区三区日韩| 欧美一卡2卡3卡4卡无卡免费观看水多多 | 日韩不卡在线观看| 性刺激的欧美三级视频| 黄色羞羞视频在线观看| 久久精品人人做| av一区二区三区免费| 国产午夜无码视频在线观看| 中文字幕一区二区三区在线视频| 日韩久久精品成人| 在线视频一二区| 免费成人美女女| 亚洲成人午夜电影| 中国一区二区三区| 免费动漫网站在线观看| 国产91精品一区二区麻豆网站| 国产成人免费91av在线| 久久久久久蜜桃| 欧美第一精品| 亚洲一区第一页| 日韩精品人妻中文字幕有码 | 一女三黑人理论片在线| 成人豆花视频| 欧美午夜精品一区| 欧美色图另类小说| av电影免费在线看| 亚洲欧美日本韩国| 亚洲国产欧美日韩| 精品亚洲综合| 91免费视频网址| 国产九区一区在线| 风流少妇一区二区三区91| 国产在线不卡视频| 成人淫片在线看| 日韩欧美国产另类| 久久黄色网页| 欧美综合一区第一页| 国产精品第108页| 午夜精品影院| 欧美老女人xx| 久久久久久久久久网站| 亚洲成人99| 久久激情视频久久| 在线观看亚洲网站| 欧美电影免费| 精品国产欧美成人夜夜嗨| 黄色激情小视频| 日韩一区自拍| 久久色精品视频| 麻豆明星ai换脸视频| 国产精品久久久久久久免费观看 | 久久欧美肥婆一二区| 2019中文字幕全在线观看| 国产精品第56页| 99视频+国产日韩欧美| 性欧美亚洲xxxx乳在线观看| 亚洲一区欧美在线| 亚洲一区久久| 国产精品高潮呻吟视频| 中文字幕一区二区免费| 久久成人免费电影| 91pron在线| 日本加勒比一区| 久久精品男人天堂av| 亚洲精品国产精品国自产观看| melody高清在线观看| 亚洲视频在线观看一区| 成人免费a级片| 热三久草你在线| 欧美中文字幕一区二区三区亚洲| 99re精彩视频| 另类视频一区二区三区| 亚洲福利在线观看| 亚洲人成人无码网www国产| 波多野结衣在线观看一区二区| 久久精品国产清自在天天线 | 欧美另类综合| 97碰碰碰免费色视频| 免费污污视频在线观看| 老汉av免费一区二区三区| 99爱精品视频| 日本福利片高清在线观看| 国产精品拍天天在线| 欧美大片免费播放| 北岛玲heyzo一区二区| 欧美日韩国产不卡| 性色av蜜臀av浪潮av老女人| 激情婷婷综合| 色综合色综合网色综合| 天堂网视频在线| 国产精品一区免费视频| 欧美不卡福利| 欧美人体视频xxxxx| 色婷婷久久久综合中文字幕| 免费看的av网站| 久久99视频| 欧美高跟鞋交xxxxxhd| 欧美特级黄色片| youjizz国产精品| 一本久久a久久精品vr综合 | 精品久久久国产精品999| 天天操,天天操| 久久九九热re6这里有精品| 日韩在线视频网站| 五月天婷婷激情| 国产麻豆视频一区二区| 午夜精品一区二区在线观看的| 爱情岛亚洲播放路线| 欧美精品视频www在线观看| 大黑人交xxx极品hd| 欧美jjzz| 国产综合在线观看视频| 天堂中文在线资| 一区二区三区影院| 国产999免费视频| 日韩极品一区| 国产99久久精品一区二区 夜夜躁日日躁| av中文字幕免费在线观看| 国产日韩欧美高清在线| 九色在线视频观看| 亚洲网址在线观看| www.久久撸.com| 中文字幕91爱爱| 久久久蜜桃精品| 91专区在线观看| 福利在线一区| 色综合五月天导航| 99免费在线视频| 亚洲少妇最新在线视频| 看欧美ab黄色大片视频免费 | av在线一区不卡| 精品香蕉在线观看视频一| 日韩乱码一区二区| www..com久久爱| 亚洲熟妇无码av在线播放| 国产成人免费av一区二区午夜 | 日本黄色激情视频| 日韩和欧美的一区| 日本午夜精品一区二区| xx欧美视频| 亚洲人成在线一二| 国产午夜无码视频在线观看| 国产三区在线成人av| 99免费视频观看| 日韩精品dvd| 91青草视频久久| av免费在线观| 精品美女在线播放| 日韩av黄色片| 91免费国产在线| 妞干网在线免费视频| 久久av资源| 国产精品久久国产精品99gif| 国产对白叫床清晰在线播放| 欧美日韩一区二区三区四区| 国产一二三四视频| 国产在线国偷精品免费看| 国内精品国产三级国产99| eeuss鲁片一区二区三区| 69视频在线免费观看| 黄色片在线免费观看| 欧美中文字幕一区| 久艹在线观看视频| 国产成人高清视频| 无码人妻丰满熟妇区96| 国产精品美女久久久久久不卡| 国产精品91在线| 国产剧情在线| 亚洲高清福利视频| 无码人妻久久一区二区三区| 中文字幕亚洲一区二区va在线| 九九热视频免费| 亚洲另类自拍| 亚洲精品在线视频观看| 日本久久伊人| 日韩免费中文字幕| 麻豆av在线免费看| 日韩一区二区不卡| 影音先锋在线国产| 日韩毛片精品高清免费| 网站免费在线观看| 美女免费视频一区二区| 日本阿v视频在线观看| 红桃成人av在线播放| www久久99| 一二区成人影院电影网| 欧美国产日韩xxxxx| 日本大片在线观看| 欧美一区二区国产| 亚洲AV无码成人精品区东京热| 国产精品伦理一区二区| 老司机免费视频| 看国产成人h片视频| 久久久一本二本三本| 99tv成人| 免费一区二区三区在在线视频| 永久免费观看精品视频| 欧美怡春院一区二区三区| av网站免费在线观看| 国产午夜精品一区二区三区| 亚洲va天堂va欧美ⅴa在线| 欧美视频一区二区三区四区 | 久操视频在线免费播放| 亚洲美女福利视频网站| 亚洲国产精品久久久久爰性色| 91极品美女在线| 日本天堂网在线观看| 国产精品不卡在线观看| 男人天堂av电影| 波多野结衣中文字幕一区| 亚洲综合伊人久久| 琪琪一区二区三区| 成年人在线看片| 亚洲欧洲另类| 精品视频在线观看一区二区| 久久激情电影| 色噜噜一区二区| 一区二区三区高清在线观看| 国产女人18毛片水18精品| 性欧美1819sex性高清| 91成人精品网站| 24小时免费看片在线观看 | 制服丝袜专区在线| 久久久久久尹人网香蕉| 成人影院在线看| 色777狠狠综合秋免鲁丝| 国产午夜在线视频| 亚洲丝袜一区在线| 久香视频在线观看| 国产婷婷色综合av蜜臀av | 中文字幕亚洲一区在线观看| 六十路在线观看| 亚洲精品在线91| 深夜福利在线看| 国产精品素人视频| 欧美日韩中文一区| 伊人伊成久久人综合网站| 九色精品美女在线| 91精品国产91久久久久青草| 国产精品久久久久久免费免熟| 色综合久久天天| 国产一级精品视频| 欧美日韩亚洲高清| 国内免费精品视频| 精品久久久国产| 91在线视频在线观看| 狠狠躁夜夜躁人人躁婷婷91| 日韩精品视频播放| 婷婷中文字幕综合| 亚洲国产成人精品女人久久| 一本大道久久a久久综合婷婷| 日本免费在线观看视频| 色94色欧美sute亚洲线路一ni| 一区二区三区在线观看av| 在线精品视频免费观看| 一级特黄免费视频| 欧美日韩视频第一区| 一二三四区视频| 欧美一级淫片007| 精品人妻伦一区二区三区久久| 日韩免费一区二区三区在线播放| 亚洲欧美激情国产综合久久久| 亚洲精品美女在线观看| 欧美成人片在线| 最新国产精品亚洲| 动漫一区在线| 国产91成人video| 日本一区二区电影| 亚洲xxxx在线| 欧美亚洲色图校园春色| 欧美日韩亚洲一区二区三区在线观看 | 色资源在线观看| 中文字幕无线精品亚洲乱码一区 | 精品国产av一区二区| 精品美女在线播放| 久久99久久| 久久亚洲一区二区三区四区五区高 | 中文字幕亚洲乱码熟女1区2区| 欧美色综合网站| 亚洲AV无码成人片在线观看| 亚洲欧美日韩国产中文| www.久久ai| 国产91精品网站| 免费一级欧美在线大片| 欧美凹凸一区二区三区视频| 一区二区影院| 少妇高潮喷水久久久久久久久久| 麻豆国产精品777777在线| 2018国产精品| 中文字幕免费在线观看视频一区| 久操免费在线视频| 欧美系列在线观看| 日韩一区免费视频| 久久精品国产亚洲精品| 在线观看特色大片免费视频| 91网站免费看| 精品一区二区三| 91动漫在线看| 蜜臀av亚洲一区中文字幕| 亚洲天堂av网站| 亚洲特黄一级片| 无码人妻aⅴ一区二区三区有奶水| 日韩女优视频免费观看| 自拍视频在线| 热久久视久久精品18亚洲精品| 国产欧美精品一区| 亚洲综合成人在线| 成人在线观看www| 亚洲激情婷婷| 香蕉视频999| 久久久www成人免费无遮挡大片| 欧美日韩偷拍视频| 蜜臀精品久久久久久蜜臀| 91精品在线一区二区| 国产一区二区无遮挡| av资源在线免费观看| 9999热视频在线观看| 精品国产免费久久 | 精品国产露脸精彩对白| 欧美黄色激情| 国产精品美女主播| 综合伊思人在钱三区| 水蜜桃色314在线观看| 激情偷乱视频一区二区三区| 国产精品久久久久久久av| 色偷偷久久一区二区三区| 天堂在线视频免费| 国内精品视频在线| 福利欧美精品在线| 亚洲理论电影在线观看| 国产成人aaa| 青娱乐免费在线视频| 日韩一二在线观看| av网站在线免费看推荐| 亚洲资源在线看| 欧美理论在线| www日本在线观看| 亚洲一区二区精品视频| 亚洲va久久久噜噜噜无码久久| 欧美男插女视频| 成人av影音| 久久精品视频16| www国产精品av| 秋霞av一区二区三区| 亚洲男人天堂久| 欧美一级二级视频| 亚洲精品人成| 精东粉嫩av免费一区二区三区| 亚洲 欧美 国产 另类| 欧美日韩精品一区二区天天拍小说 | 亚洲一区二区不卡视频| 美国毛片一区二区三区| 色婷婷粉嫩av| 日韩精品中文字幕在线不卡尤物| 精品欧美色视频网站在线观看| 亚洲999一在线观看www| 激情久久中文字幕| 亚洲蜜桃精久久久久久久久久久久| 富二代精品短视频| 国产在线观看免费| 成人激情综合网| 欧美日韩国内| 波多野结衣 在线| 欧美日韩一区二区三区免费看| 麻豆视频在线| 国产精品久久久一区二区三区| 国产精品久久久免费| 无码人妻aⅴ一区二区三区69岛| 欧美三级资源在线| 国产黄大片在线观看画质优化| 成人av播放| 久久久一二三| 三级全黄做爰视频| 亚洲国产精品系列| 日本精品不卡| aaa免费在线观看| av中文字幕一区| 影音先锋黄色网址| 欧美精品激情在线| 国产一区二区三区四区二区| 一级做a爱视频| 精品久久中文字幕久久av| aaa日本高清在线播放免费观看| 91久久精品国产91久久性色tv | 亚洲欧美日韩综合网| 亚洲在线观看免费视频| 久久综合九色综合久| 亚洲一区二区三区久久| 午夜综合激情| 欧美高清视频一区二区三区| 亚洲欧美日韩在线一区|