精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

震撼實錘!清華姚班校友揭「1.4×加速」陷阱:AI優化器為何名不符實?

人工智能 新聞
為了降低大模型預訓練成本,最近兩年,出現了很多新的優化器,聲稱能相比較AdamW,將預訓練加速1.4×到2×。但斯坦福的一項研究,指出不僅新優化器的加速低于宣稱值,而且會隨模型規模的增大而減弱,該研究證實了嚴格基準評測的必要性。

一直以來,預訓練,都是大模型訓練過程中最花錢的部分。

比如,在DeepSeek V3中,它的成本占比就超過95%。

誰能在這里節省算力,就等于賺了。

長期以來,AdamW都是「默認選項」。但最近兩年,出現了很多新的優化器。

它們大都聲稱能夠相比AdamW,將預訓練加速1.4×到2×,但卻很少能真正落地。

斯坦福大學的研究人員,認為問題主要出現在兩個方法學缺陷上:

一些基線的超參數調得不當;

許多實驗局限于較小規模的設置,導致這些優化器在更廣泛、更真實場景下的表現仍待驗證。

論文地址:https://arxiv.org/abs/2509.02046

有趣的是,這篇論文的標題「神奇優化器在哪里」(Fantastic Pretraining Optimizers and Where to Find Them),正是「捏它」自《神奇動物在哪里》(Fantastic Beasts and Where to Find Them)。

不得不說,論玩梗還是大佬們厲害!

不同縮放范式下的加速差異

研究人員對比了大模型在不同縮放范式下的加速差異。

他們在四種不同的數據-模型比(相當于Chinchilla最優范式的 1×、2×、4×、8×)下進行基準測試,并將模型規模擴展到1.2B參數。

圖1左上顯示,在被廣泛采用的GPT-3配方中,僅調一個超參數,就能讓預訓練獲得2×的加速,這突顯了正確超參數優化的重要性。

研究表明,在一系列模型規模和數據-模型比上,進行細致的超參數調優與訓練結束時的評測是必要的,主要有三個原因:

首先,超參數不能盲目遷移,在優化器間固定超參數會導致不公平的比較。

第二,新優化器的加速低于宣稱值,且隨模型規模增大而減弱。相對于研究人員調優的AdamW基線,其他優化器的加速不超過1.4×。

此外,雖然Muon、Soap等新優化器在小模型(0.1B)上顯示出1.3×加速,但在8×Chinchilla比例下的1.2B參數模型上,加速會降到約1.1×。

第三,早期的損失曲線可能產生顯著誤導。

在學習率衰減期間,不同優化器的損失曲線可能多次交叉,因此用中間檢查點來評判優化器,得到的排名可能與在目標訓練預算下比較的結果不同。

優化器設計的新見解

研究人員基于基準測試,帶來了三個關于優化器設計的新見解:

1. 小模型更適合基于矩陣的優化器

研究人員發現,對于小模型,基于矩陣的優化器,持續優于基于標量的優化器。

基于標量的優化器(如AdamW、Lion、Mars等),需要通過標量操作逐個更新參數。

經過適當調參后,所有基于標量的優化器的優化速度與AdamW相近,平均加速比不足1.2×。

盡管其更新規則多樣,但在小于520M參數的模型上,基于矩陣的優化器相對AdamW均可帶來約1.3×的加速。

2. 最優優化器的選擇,關鍵指標是「數據-模型比」

在1×Chinchilla范式下的贏家,隨著數據-模型比提升,可能不再最優。

比如,在較小的Chinchilla比例下,Muon一直是表現最好的優化器。

但當數據-模型比增至8×或更高時,Kron和Soap的表現優于Muon(圖3與圖4)。

在本項研究中,研究人員研究了表1所列的11種優化器。

模型參數量,涵蓋了130M、300M、520M、1.2B四種規模,詳細超參數見表2。

超參數的三種調參方式

按照不同階段,研究人員對超參數采用了三種不同程度的調參方式:

階段1:對超參數進行「細顆粒度」調參

研究人員在6種不同設置上執行該遍歷,具體為1×Chinchilla下的130M、300M、500M,以及2×、4×、8×Chinchilla下的130M。

對于每個優化器以及上述六種范式,研究人員都找到了一個按坐標的局部最優解。

表3是一個針對300M參數、1×Chinchilla的AdamW示例性超參數優化過程。

階段2:著重調整對「尺度敏感」的超參數

由于廣泛調參在更大規模實驗上代價過高,所以,研究人員對該過程進行了簡化,著重調整對「尺度敏感」的超參數。

如表4,研究人員僅將對尺度敏感的超參數帶入階段2,從而把下一輪調參對象集中在那些跨尺度確實需要重新調參的超參數上。

通過這組實驗,研究人員觀察到兩點現象:

1.基于矩陣的優化器始終優于基于標量的優化器,但所有優化器相對AdamW的加速比都不超過1.5×;

2.在基于矩陣的優化器內部,Muon在1–4×Chinchilla比例下表現最佳,但隨著Chinchilla比例提高,會被Soap與Kron反超。

階段3:為進一步外推而建立超參數縮放律

研究人員基于階段2獲得的優化超參數設置,擬合一個平滑的縮放律,用以預測每個隨尺度敏感的超參數的最優值。

作為模型大小N,與數據預算D的函數,研究人員將每個隨尺度敏感超參數h的最優值建模為:

其中A、B、α與β為學習得到的系數。

研究人員在每個優化器的12個觀測三元組(N,D,h)上,用非線性最小二乘來估計這些參數,使預測與真實最優超參數值的平方誤差最小。

為檢驗預測質量,研究人員在N=1.2B、Chinchilla=1的設置下對AdamW運行了完整的階段1遍歷,并將識別出的最優解與擬合出的超參數進行對比。

在圖2上圖中,研究人員繪制了兩個階段的C4/EN驗證損失;在圖2下圖中,研究人員繪制了為部分優化器選擇的運行所對應的HellaSwag表現。

在圖3中,顯示了跨尺度的不同優化器加速。

研究人員通過為AdamW擬合縮放律,并將不同優化器的損失映射到對應的等效數據預算來估計加速,得到了以下二點觀察:

1. 最高加速被限制在1.4×;

2. 基于矩陣的優化器始終優于基于標量的優化器,且隨數據預算增加呈現更高的加速(表現出超線性趨勢)。

實證發現

1. 在0.1B–0.5B參數模型上的結果

在所有模型規模與算力預算下,方差減少類的Adam變體(NAdamW、Mars、Cautious)與基于矩陣的優化器都相對AdamW基線,帶來了加速。

然而,沒有任何方法達到了過往文獻聲稱的2×的加速。

研究人員得出如下結論:

(1)基于矩陣的方法優于基于標量的方法。加速比隨數據預算增加而上升,但隨模型規模增大而下降。

(2)方差削減技術帶來小而穩定的提升。

在基于標量的家族中,所有方差削減型的Adam變體(NAdamW、Mars、Cautious)都穩定地超過vanilla的AdamW——僅在最小規模實驗上有輕微落后。

(3)AdamW的內存高效變體與AdamW的表現保持緊密。

兩種內存高效的AdamW變體(Lion、Adam-mini),盡管輔助狀態更少,其表現與AdamW緊密跟隨,最多僅慢5%,有時甚至優于AdamW。

2. 在1.2B參數模型上的結果

研究人員利用擬合的超參數縮放律,將模型規模擴大到1.2B,以考察優化器的加速如何隨模型規模變化。

觀察到NAdamW、Muon與Soap依然相對AdamW帶來加速,但這些優化器的加速減弱到約1.1×(圖4,左與中),且不再帶來下游改進(表 5)。

3. 高數據-模型比

在130M與520M模型的8×Chinchilla范式下,Muon已被Soap超過。

為進一步驗證,研究人員將三份300M模型訓練到16×Chinchilla,并確認當數據-模型比增加時,Muon不再是最優優化器(圖4,右)。

研究人員推測,當數據-模型比增大時,Soap與Kron保持的二階動量會更有效。從長期看,對參數方向異質性的自適應可能帶來更大的加速。

該研究證實了嚴格基準評測的必要性。

各優化器的共性現象

研究人員在預訓練中,通過對11種深度學習優化器進行了基準評測,發現它們相對AdamW的真實增益遠小于此前報道。

由此,研究人員強調了三個關鍵教訓:

1.許多聲稱的加速源于超參數調優不足,因為公平的掃參會消除大多數表面的優勢;

2.基于早期或不一致的評估進行比較可能具有誤導性,因為在完整訓練軌跡上優化器的排名常會發生變化;

3.即使表現最好的替代方案也只提供溫和的加速,且隨模型規模增大而進一步減弱,在12億參數時降至1.1×。

作者介紹

Kaiyue Wen

Kaiyue Wen是斯坦福大學的博士生。目前在馬騰宇 (Tengyu Ma) 的課題組進行輪轉,同時與Percy Liang老師合作。

他本科畢業于清華大學姚班,期間獲得了獲得了馬騰宇、劉知遠、Andrej Risteski、張景昭、王禹皓以及李志遠等多位老師的指導。

他的研究興趣涵蓋深度學習的理論與應用,長遠目標是理解深度學習背后的物理學原理,并堅信理論分析與實證研究相結合是實現這一目標的關鍵。

馬騰宇(Tengyu Ma)

Tengyu Ma是斯坦福大學計算機科學系和統計系的助理教授。

他本科畢業于清華姚班,于普林斯頓大學獲得博士學位。

他的研究興趣涵蓋機器學習、算法理論等方向,具體包括:深度學習、(深度)強化學習、預訓練/基礎模型、魯棒性、非凸優化、分布式優化以及高維統計學。

Percy Liang

Percy Liang是斯坦福大學計算機科學副教授,兼任基礎模型研究中心(CRFM)主任。同時也是CodaLab Worksheets的創建者,并借此堅定倡導科研工作的可復現性。

他專注于通過開源和嚴格的基準測試,提升基礎模型(特別是大語言模型)的可及性與可理解性。

他曾圍繞機器學習和自然語言處理領域進行了廣泛研究,具體方向包括魯棒性、可解釋性、人機交互、學習理論、知識落地、語義學以及推理等。

此前,他于2004年在MIT獲得學士學位,并于2011年在UC伯克利獲得博士學位。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-11-10 08:52:00

模型谷歌架構

2025-02-11 09:15:00

AI模型訓練

2023-07-21 12:57:40

ChatGPT能力檢測

2025-01-14 17:23:08

2025-11-17 08:48:00

AI模型Meta

2020-05-14 18:50:35

Chrome漏洞瀏覽器

2023-06-02 13:23:27

谷歌研究

2021-07-05 10:00:17

GitHub代碼AI

2021-11-10 09:57:11

業務華為技術

2025-11-20 08:56:30

2019-06-14 15:29:16

華為ERPSAP

2025-06-09 08:52:00

2025-09-10 09:14:00

AI硅谷996

2024-12-09 13:04:05

2025-01-16 09:20:00

AI論文模型

2025-05-13 15:10:50

AI用戶模型

2021-06-07 09:26:25

Windows11操作系統微軟

2019-05-23 09:40:58

華為操作系統手機

2021-12-04 05:54:29

Windows 11操作系統微軟
點贊
收藏

51CTO技術棧公眾號

国产小视频在线| 国产精品自拍视频一区| 日本精品裸体写真集在线观看| 国产午夜精品久久久久久免费视 | 国产又黄又粗视频| 91精品福利观看| 精品久久久一区| 性欧美大战久久久久久久免费观看| 国产熟女一区二区三区五月婷| 999亚洲国产精| 色婷婷久久av| 亚洲天堂久久新| 日韩高清一区| 在线亚洲一区观看| 丁香色欲久久久久久综合网| 毛片免费在线播放| 国产精品自在在线| 国产精品第2页| 福利一区二区三区四区| 97偷自拍亚洲综合二区| 亚洲国产一区自拍| 51自拍视频在线观看| av综合电影网站| 亚洲一区二区三区四区五区黄 | 99久久综合狠狠综合久久止| 国产成人自拍偷拍| 伊人影院久久| 欧美成人精品影院| 国产人与禽zoz0性伦| 九九热线有精品视频99| 欧美精品一区二区在线观看| 日本黄大片一区二区三区| 都市激情亚洲一区| 亚洲成人免费观看| 国产精品videossex国产高清| 日本在线视频站| 国产亚洲小视频| 91综合精品国产丝袜长腿久久| 欧美在线三级电影| 亚洲中文字幕无码不卡电影| √8天堂资源地址中文在线| 亚洲视频狠狠干| 亚洲一区二区三区精品视频| 牛牛澡牛牛爽一区二区| 91在线一区二区三区| 动漫一区二区在线| 亚洲a视频在线| 国产精品一区久久久久| 91最新国产视频| 国产情侣av在线| 国产做a爰片久久毛片| 成人a视频在线观看| 亚洲图片在线播放| 麻豆国产精品一区二区三区 | 男人天堂av片| 丰满诱人av在线播放| 亚洲自拍偷拍麻豆| 日韩成人三级视频| 97人人在线视频| 欧美日韩一区免费| 日韩 欧美 高清| 精品视频在线一区二区在线| 欧美无砖砖区免费| 午夜国产福利在线观看| 91精品网站在线观看| 日韩一区二区三区四区| 亚洲少妇中文字幕| 欧美日韩导航| 亚洲欧美国产一区二区三区| av电影在线不卡| 久久国产中文字幕| 欧美理论电影在线播放| 国产精彩视频在线| 韩国理伦片久久电影网| 亚洲一区av| 日韩欧美在线看| 亚洲三级视频网站| 国产精品欧美一区二区三区不卡 | 青春有你2免费观看完整版在线播放高清| 9久草视频在线视频精品| 欧美日韩大片一区二区三区| 国产精品一区二区婷婷| 亚洲私人影院在线观看| 免费人成自慰网站| 精品3atv在线视频| 欧美日韩视频在线第一区| 欧美熟妇另类久久久久久多毛| gogo久久日韩裸体艺术| 亚洲人成网站999久久久综合| 日日操免费视频| 伊人久久大香线蕉av超碰演员| 日本精品久久久久久久| 国产情侣自拍小视频| 91女神在线视频| 伊人久久99| 麻豆视频在线看| 欧美日韩国产一级二级| 丰满岳乱妇一区二区| 精品精品久久| 国产69精品久久久久9| 免费视频网站在线观看入口| 国产激情一区二区三区四区| 欧美人与物videos另类| 菠萝菠萝蜜在线观看| 欧美色道久久88综合亚洲精品| 国产精品嫩草影院8vv8| 亚洲另类av| 欧美xxxx14xxxxx性爽| 欧美一区二区三区网站| 国产成人精品亚洲日本在线桃色| 日本欧美色综合网站免费| 欧美xxxx做受欧美88bbw| 欧美色大人视频| 亚洲男女在线观看| 在线精品视频在线观看高清| 国产成人一区二区在线| 蜜臀久久精品久久久久| 中文字幕日韩欧美一区二区三区| 日韩精品视频久久| 91夜夜蜜桃臀一区二区三区| 久久精品国产久精国产一老狼| 日日夜夜综合网| 高清不卡一二三区| 国产精品av免费| 91精品国产66| 亚洲欧洲xxxx| 国产午夜性春猛交ⅹxxx| 国产91精品入口| 色香蕉在线观看| 国产又黄又大又爽| 亚洲精品视频一二三区| 色婷婷av一区二区三区在线观看 | 国偷自产av一区二区三区小尤奈| 欧美黑人激情| 欧美午夜电影在线播放| 精品无码一区二区三区| 国产日韩欧美一区二区三区在线观看| 97视频中文字幕| 欧美日韩在线资源| 欧美性猛交xxxx乱大交退制版| www.久久av| 在线亚洲欧美| 久久99精品国产99久久| av影院在线| 亚洲成av人影院在线观看| 美女的奶胸大爽爽大片| 国产一区二区三区久久悠悠色av| 亚洲精品一区国产精品| 成人国产网站| 日日骚久久av| 国产精品久久久久久久成人午夜 | 国产四区在线观看| 亚洲aⅴ网站| 久久成年人免费电影| aaa级黄色片| 亚洲国产精品自拍| 日韩精品极品在线观看| 四虎精品一区二区| 伊人久久亚洲影院| 国产在线一区二区三区播放| 国产精选在线| 亚洲片在线资源| 少妇无套内谢久久久久| 国产精品久久毛片| 亚洲第一区第二区第三区| 亚洲国产精品日韩专区av有中文| 91精品天堂| 交100部在线观看| 国产亚洲精品美女久久久| 亚洲无码精品在线观看| 亚洲欧美日韩国产一区二区三区 | 欧美激情一二三| 欧美视频在线观看一区二区三区| 亚洲人成7777| 亚洲少妇18p| 日韩中文字幕区一区有砖一区| 亚洲成人蜜桃| 日韩中文一区二区| 91精品国产91久久久久久吃药| 国产永久免费高清在线观看视频| 欧美日韩久久一区| 久久久久99精品成人片毛片| 91尤物视频在线观看| 国产免费999| 欧美精品一线| 清纯唯美一区二区三区| 精品国产一区二区三区性色av| 国内伊人久久久久久网站视频| 男女av在线| 欧美一区二区精品久久911| 日韩在线视频免费播放| 亚洲欧美另类动漫| а天堂中文最新一区二区三区| 色综合久久中文字幕综合网小说| 少妇精品高潮欲妇又嫩中文字幕| 在线观看日韩精品| 久久免费视频播放| 久久精品免视看| 久久发布国产伦子伦精品| 国产一区二区高清| 综合久久国产| 香蕉久久99| 91精品黄色| 妺妺窝人体色www在线观看| a成人v在线| 国模视频一区二区| 18视频免费网址在线观看| 亚洲电影av在线| 国产精品久久久久毛片| 日韩欧亚中文在线| 久久久久黄色片| 欧美极品少妇xxxxⅹ高跟鞋| 在线免费看黄色片| 精品影院一区二区久久久| 狠狠爱免费视频| 欧美精选在线| 正在播放精油久久| 少妇精品久久久一区二区三区| 不卡一区二区三区视频| 日本肉肉一区| 青草青草久热精品视频在线观看| 国产原创视频在线观看| 一区二区三区四区在线观看视频 | 三级在线观看视频| 久久伊人精品天天| porn亚洲| 亚洲区在线播放| 先锋av资源站| 精品国产一区二区精华| 国产男女裸体做爰爽爽| 欧美午夜精品理论片a级按摩| 国产嫩bbwbbw高潮| 天涯成人国产亚洲精品一区av| 欧美日韩激情在线观看| 亚洲精品视频一区| 日韩在线观看视频一区二区| 自拍偷拍欧美精品| 男人天堂资源网| 国产一区二区三区四区二区| 色国产精品一区在线观看| 欧美黄色免费看| 亚洲人成网站在线| 艳妇荡乳欲伦69影片| 国产精品传媒入口麻豆| 婷婷社区五月天| 综合亚洲深深色噜噜狠狠网站| 五月婷婷欧美激情| 亚洲国产成人午夜在线一区| 久久久久亚洲av无码a片| 国产丝袜欧美中文另类| 亚洲第一综合网| 欧美国产日本视频| 国产一二三四视频| 国产精品伦一区| 国产喷水在线观看| 国产精品福利av| 娇小11一12╳yⅹ╳毛片| 国产精品不卡一区| 一级片一级片一级片| 亚洲欧美区自拍先锋| 欧美做爰爽爽爽爽爽爽| 亚洲女同一区二区| 久久久精品91| 黄色一区二区三区| 无码人妻aⅴ一区二区三区有奶水| 一本到高清视频免费精品| 天天天天天天天干| 欧美日韩免费一区二区三区| 国产毛片毛片毛片毛片毛片| 日韩欧美一二区| 免费激情视频网站| 亚洲女人初尝黑人巨大| 2019中文字幕在线视频| 久久大大胆人体| 国产区美女在线| 日本精品视频网站| 欧美一级做a| 国产精品久久久久久免费观看| 欧美精品中文字幕亚洲专区| 明星裸体视频一区二区| 欧美电影免费观看高清| 国产精品国产对白熟妇| 久久久精品五月天| 在线视频一区二区免费| 伊人国产在线观看| 在线视频国内自拍亚洲视频| 99国产精品99| 亚洲免费影视第一页| 久久综合网导航| 97成人精品区在线播放| 国产91在线播放精品| 国产视频99| 三区四区不卡| 精品久久久久久久久久中文字幕| 日本不卡中文字幕| 亚洲免费观看在线| 欧美经典一区二区三区| 日本特黄特色aaa大片免费| 欧美日韩三级一区二区| 无码精品视频一区二区三区| 成人国产精品免费| 亚洲视频小说| 亚洲精选91| 久久成年人网站| 久久免费美女视频| 久久久精品国产sm调教| 欧美色老头old∨ideo| 亚洲欧美自偷自拍| 欧美成人免费播放| av在线播放一区| 欧美日韩免费观看一区| 欧美天堂亚洲电影院在线观看| 亚洲一区二区蜜桃| www.爱久久.com| 久久高清无码视频| 欧美日韩一区二区三区四区 | 成人影院网站ww555久久精品| 久久精品99久久| 国产精品v欧美精品v日本精品动漫| 色国产在线视频| 国产亚洲精品中文字幕| 日韩av男人天堂| 欧美xfplay| 性欧美videoshd高清| 国产一区二区丝袜| 日韩.com| 尤蜜粉嫩av国产一区二区三区| 91欧美一区二区| 国产成人在线视频观看| 亚洲成人网久久久| 女子免费在线观看视频www| 成人黄色av网| 99久久影视| 欧美三级午夜理伦三级富婆| 国产午夜精品福利| 亚洲精品男人的天堂| 日韩精品在线观看一区二区| www.51av欧美视频| 国产在线欧美日韩| 中文一区在线| 欲求不满的岳中文字幕| 亚洲国产精品久久艾草纯爱| 性生活视频软件| 欧美另类69精品久久久久9999| 国产精品一区二区三区av | 97久久夜色精品国产九色| 国产精品7m凸凹视频分类| 波多野结衣xxxx| 中文字幕精品三区| 亚洲影院一区二区三区| 日韩在线视频观看正片免费网站| jizzyou欧美16| 亚洲在线欧美| 国产一区欧美日韩| 中文字幕在线观看成人| 精品国产免费人成在线观看| wwwwxxxx在线观看| 久久精品国产精品国产精品污 | 中文字幕日韩亚洲| 久久亚洲免费| 久久综合图片| 又色又爽的视频| 欧美一区二区三区四区在线观看| 亚洲色图美国十次| 国产麻豆乱码精品一区二区三区| 亚洲狼人精品一区二区三区| 一级性生活大片| 欧美日韩黄视频| 天堂亚洲精品| 欧美日本韩国国产| 久久精品99国产国产精| 欧美日韩精品亚洲精品| 亚洲国产精品一区二区久| 69久成人做爰电影| 中文视频一区视频二区视频三区| 国产成人福利片| 亚洲毛片一区二区三区| 日韩中文字幕在线看| 香蕉成人app| 免费在线观看的av网站| 久久免费视频一区| 国产精品高潮呻吟av| 97国产在线视频| 日韩欧美网址| 丰满岳乱妇一区二区| 在线免费一区三区| 影音先锋中文在线视频| 欧美久久久久久| 国产精品一区二区在线观看不卡 | 欧美不卡在线一区二区三区| 免费人成精品欧美精品| 免费一级a毛片夜夜看 | 在线免费观看日韩av| 在线成人高清不卡| 午夜影院一区| 久久久天堂国产精品| 国产欧美一区二区精品久导航 | 免费视频观看成人| 成人网站免费观看入口| 国产精品欧美久久久久一区二区|