精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型訓練loss突刺原因和解決辦法

開發 前端
目前流行的fp8,fp16混合訓練,如果upscale設置的過小,導致梯度在進入優化器之前就下溢,是不是會增加淺層梯度長時間不更新的可能性,進而增加loss spike的出現的頻率。

最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練中出現loss spike的原因(loss 突然大幅度上漲),并介紹了一些可能的解決辦法。論文寫的非常精彩,但整體上有點散和深,我嘗試著站在工業立場上把它串一下

突刺是什么

首先介紹一下什么是loss spike:

loss spike指的是預訓練過程中,尤其容易在大模型(100B以上)預訓練過程中出現的loss突然暴漲的情況

圖片圖片

如圖所示模型訓練過程中紅框中突然上漲的loss尖峰 loss spike的現象會導致一系列的問題發生,譬如模型需要很長時間才能再次回到spike之前的狀態(論文中稱為pre-explosion),或者更嚴重的就是loss再也無法drop back down,即模型再也無法收斂

PaLM和GLM130b之前的解決辦法是找到loss spike之前最近的checkpoint,更換之后的訓練樣本來避免loss spike的出現。

突刺成因分析

這篇論文(以下稱本文)對loss spike的出現原因做了十分詳細的分析,最后認為預訓練使用的Adam優化器是導致這個現象出現的重要原因之一

Adam算法是牛頓下降法的一個迭代逼近 

圖片圖片

一切顯得十分完美,但是理想很豐滿,現實很骨感,收斂過程并不是一帆風順的

圖片圖片

非穩態

圖片圖片

中間態

圖片圖片

穩態 

進入正態分布的穩態之后,理想的更新參數變化趨勢應該是方差越來越小,所有更新參數逐漸向0靠近。這應該是一個單向的過程,即穩定的單峰狀態(unimodal)不會再次進入非穩定的雙峰狀態(bimodal),但事實并非如此,更新參數會再次進入非穩定的雙峰狀態

本文在理論層面做了研究和解釋,從中心極限定理(可以結合道爾頓板實驗理解)出發,認為隨機事件的疊加進入單峰的正態分布的必要條件之一是各個隨機事件事件之間應該是相互獨立的,但是梯度變化以及更新參數的變化并不能特別好的滿足獨立性這一條件,而這一點恰恰是導致更新參數振蕩,loss spike出現以及loss 不收斂的重要原因之一

圖片圖片

造成梯度變化不獨立的原因(1、淺層參數長時間不更新2、batch太大,后期梯度更新趨于平穩) 上述的理論有些晦澀,本文作者可能也了解這一點,之后開始直接點題,結合實驗觀察拋出了重要現象和結論

即訓練過程中loss spike的出現與:梯度更新幅度, 大小,batch大小這三個條件密切相關

本文作者對loss spike出現時模型的前后變化做了仔細拆解,發現下列一系列連續現象的出現導致了loss spike:

圖片圖片

  1. 當前模型處在穩態(健康狀態),即單峰的正態分布狀態,并且梯度值 ,此時loss平穩,訓練過程正常

圖片圖片

2.模型淺層(embedding層)梯度  ,這一般是由于訓練一段時間之后,淺層的語義知識表示此時一般已經學習的較好。但此時深層網絡(對應復雜任務)的梯度更新還是相對較大

圖片圖片

3.一段時間淺層(embedding層)梯度  之后會導致  ,  。此時趨于0。因此導致淺層參數得不到更新(也對應于上述參數更新事件不獨立的原因)

圖片圖片

4.此時雖然淺層(embedding層)參數長時間不更新,但是深層的參數依然一直在更新。長時間這樣的狀態之后,batch之間的樣本分布變化可能就會直接導致淺層(embedding層)再次出現較大的梯度變化(可以想象成一個水壩蓄水太久終于被沖開了。至于小模型為什么不會出現這種情況,推測是小模型函數空間小,無法捕獲樣本的分布變化,越大規模的模型對樣本之間不同維度的特征分布變化越敏感),此時 , 再次集中在 附近(此時 , ),變成雙峰的非穩定狀態,本文提到了淺層(embedding層)這種突然的參數變化可能造成模型的連鎖反應進而出現loss spike的現象(這也對應了更換樣本重新訓練有可能會減少loss spike的出現頻率,實際上就是選擇分布變化較小的樣本,減小淺層梯度變換幅度)

圖片圖片

5.這個階段模型處于非穩態,梯度變化幅度較大,每一次的梯度變化和更新參數變化事件之間又出現了一定的獨立性,因此經過一定的時間之后模型有可能再次進入穩態,loss再次drop back down(注意,本文著重提了這個再次drop back down并不是一定出現的,也很有可能loss長期處于flat狀態,再也無法收斂)

因此我們得出一些結論,loss spike的出現和淺層的梯度更新幅度, 大小密切相關(batch大小帶來的相關性問題倒是顯得沒那么大說服力),實際上就是淺層網絡參數突然進入到了之前長時間不在的狀態與模型深層參數當前的狀態形成了連鎖反應造成了模型進入非穩態。同時一般情況即使出現loss spike也會自動回復到正常狀態,但也有可能再也不會

突刺解法

本文最后提到了防止loss spike出現的一些方法:

1.如之前提到的PaLM和GLM130B提到的出現loss spike后更換batch樣本的方法(常規方法,但是成本比較高)

2.減小learning rate,這是個治標不治本的辦法,對更新參數的非穩態沒有做改進

3.減小 大小。或者直接把 設為0,重新定義

在等于0時候的值(這應該是個值得嘗試的辦法)

值得一提的是智譜華章在本文發表之前,在去年的GLM130B訓練時似乎也觀察到了淺層梯度變化和loss spike相關這一現象(GLM-130B: An Open Bilingual Pre-trained Model),他采取的是把淺層梯度直接乘以縮放系數 來減小淺層梯度更新值

出自130b出自130b

圖片圖片

其實這塊我有個自己的想法,和是否也可以做衰減,隨著訓練過程逐漸減小,來避免loss spike的現象

另外假設我們能一次性加載所有樣本進行訓練(實際上不可能做到),是否還會出現loss spike的現象

最后目前流行的fp8,fp16混合訓練,如果upscale設置的過小,導致梯度在進入優化器之前就下溢,是不是會增加淺層梯度長時間不更新的可能性,進而增加loss spike的出現的頻率。(這么看來似乎提升upscale大小以及優化 大小是進一步提升模型效果的一個思路)

責任編輯:武曉燕 來源: 包包算法筆記
相關推薦

2009-11-30 11:01:20

MySQL與PHP產生

2015-06-10 13:49:53

2017-06-21 08:30:20

MySQL原因解決辦法

2012-04-16 10:09:52

2010-05-04 13:52:00

Oracle用戶被鎖

2009-07-31 09:14:01

WinCE啟動失敗

2015-03-09 15:41:08

MongoDB查詢超時異常Socket Time

2009-11-30 10:09:31

PHP中文亂碼

2015-10-15 09:38:21

程序員發福

2023-06-20 11:46:58

2022-07-07 08:00:32

前端界面504

2009-06-03 16:41:21

Eclipse亂碼Eclipse

2011-03-04 13:07:47

Filezilla

2019-08-29 14:29:42

JVM內存 Java

2010-09-01 11:32:50

DB2暫掛

2011-05-07 10:05:17

打印機打印空白頁解決方法

2018-09-12 08:44:43

2025-04-29 08:20:00

無線監控網絡無線網絡

2011-10-17 14:41:26

激光打印機解決辦法

2011-06-17 11:10:51

Qt 中文 輸出
點贊
收藏

51CTO技術棧公眾號

视频一区三区| 亚洲一区欧美一区| 国产精品96久久久久久又黄又硬 | 雨宫琴音一区二区在线| 欧美大片在线观看| 免费人成自慰网站| 污视频在线免费| 国产农村妇女精品一二区| 日韩一区二区三区在线| www.av91| 欧美成人片在线| 日韩av中文在线观看| 一区二区三区天堂av| 性久久久久久久久久久久久久| 国产美女福利在线| 成人国产电影网| 日本在线观看天堂男亚洲| 欧美性受xxxx黑人| 久久伊人精品| 欧美三级免费观看| 亚洲一卡二卡三卡| 亚洲AV午夜精品| 美女国产一区| 久久国产精品99国产精| 亚洲黄色免费在线观看| 成人在线视频免费看| 一二三区精品视频| 欧美日韩大片一区二区三区| 国产精品一级视频| 国产精品久久国产愉拍| 一区二区三区黄色| 欧美激情一区二区三区p站| 欧美激情喷水| 一区二区三区欧美激情| 日本在线观看一区二区| 成人av手机在线| 日韩精品免费视频人成| 精品一区二区三区视频日产| 欧美,日韩,国产在线| 你懂的在线观看视频网站| 免费不卡在线观看| 97在线看福利| 日韩免费成人av| 91成人短视频| 欧美色手机在线观看| 精品噜噜噜噜久久久久久久久试看| 国产一级不卡视频| 国产福利电影在线| av在线不卡电影| 成人激情在线播放| 一级片在线观看免费| 午夜日韩av| 中文字幕精品一区久久久久| 久久中文字幕人妻| 欧美自拍视频| 欧美午夜片在线看| 丰满爆乳一区二区三区| 欧美hdxxxxx| 亚洲三级在线免费观看| 欧美一区亚洲二区| 日韩精品视频在线观看一区二区三区| 国产伦精品一区二区三区视频青涩 | 日韩高清a**址| 爱情岛论坛亚洲首页入口章节| sm性调教片在线观看| 欧美国产精品一区| 欧美黑人xxxxx| 天天干天天插天天操| 国产成人精品亚洲日本在线桃色| 成人黄色免费网站在线观看| 波多野结衣毛片| 国产精品五区| 2018日韩中文字幕| 91精品国产高潮对白| 欧美日韩国内| 久久久久久国产精品美女| 免费在线观看a级片| 婷婷亚洲五月| 久久久精品一区| 亚洲欧美精品aaaaaa片| 欧美jizz| 久久av.com| 色撸撸在线视频| 成人无号精品一区二区三区| 正在播放欧美一区| jizzjizzjizz国产| 99视频精品视频高清免费| 色妞色视频一区二区三区四区| 老头老太做爰xxx视频| 精品高清在线| 中文字幕日韩av电影| 欧美性生交大片| 亚洲国产一区二区三区在线播放| 久久久999精品视频| 国产又粗又长又硬| 综合日韩在线| 久久久久久久久综合| 国产一级做a爱片久久毛片a| 久久在线91| 国产精品色午夜在线观看| 在线观看日韩一区二区| 国产精品亚洲а∨天堂免在线| 99视频免费观看| 天天av天天翘| 欧美国产精品久久| 天堂av在线中文| www在线观看黄色| 第一福利在线| 狠狠久久亚洲欧美| 91久色国产| 青梅竹马是消防员在线| 国产精品视频线看| 韩日视频在线观看| 日韩和的一区二在线| 91.成人天堂一区| 熟女人妻一区二区三区免费看| 欧美一区 二区| 色婷婷**av毛片一区| 欧美日韩免费做爰视频| 亚洲无线视频| 国产精品a久久久久久| 国产绳艺sm调教室论坛| 白白色亚洲国产精品| 日本不卡久久| 日本乱理伦在线| 在线免费av一区| 日韩欧美色视频| 久草精品在线| 欧美精品免费在线观看| www.色国产| 国产成人精品免费在线| 日本黑人久久| 激情网站在线| 色综合久久久久| 最新中文字幕日本| 日韩精品一卡| 97色在线视频| 国产夫妻自拍av| 国产欧美一区二区精品性色| 精品一区二区三区无码视频| 伦一区二区三区中文字幕v亚洲| 精品乱码亚洲一区二区不卡| 中日韩一级黄色片| 国产亚洲一级| 国产精品免费一区二区三区| 色网站免费在线观看| 色综合色狠狠综合色| 韩国三级在线看| 日本精品三区| 国产精品扒开腿爽爽爽视频| 婷婷在线免费视频| 亚洲精品自拍动漫在线| 特级丰满少妇一级| 九一成人免费视频| 91大神在线播放精品| 亚洲国产精品久久久久久久| 国产精品久久久久久久久动漫| www.好吊操| 日本免费精品| 美女少妇精品视频| 国产喷水福利在线视频| 亚洲欧洲av在线| 九九精品久久久| 欧美色图国产精品| 国产999精品视频| 男男激情在线| 色88888久久久久久影院野外| 国产麻豆xxxvideo实拍| 亚洲网站在线| 国产在线精品一区| 欧洲中文在线| 欧美成人三级电影在线| 综合五月激情网| 国产综合一区二区| 宅男av一区二区三区| 欧美在线一级| 久久国产一区二区三区| 国产乱码久久久| 亚洲国产精品二十页| 午夜宅男在线视频| 香蕉国产精品| 51午夜精品| heyzo在线欧美播放| 亚洲第一级黄色片| 成人免费看片98欧美| 久久久久久日产精品| 激情伊人五月天| 亚洲精品无吗| 国产精品福利小视频| 婷婷视频在线| 日韩欧美电影一二三| 国产精品免费av一区二区| 久久一留热品黄| 美女网站视频黄色| 亚洲成人国产| 精品一卡二卡三卡四卡日本乱码| 黄色成人免费网| 日韩在线观看免费全集电视剧网站 | 992tv国产精品成人影院| 深夜成人在线观看| www.热久久| 偷窥少妇高潮呻吟av久久免费| 极品白嫩丰满美女无套| 欧美aaaaaa午夜精品| 国产精品一区在线免费观看| 精品三级av| 国产精品久久久久久av福利软件 | 欧美又粗又大又长| 97se狠狠狠综合亚洲狠狠| 欧美性猛交xxx乱久交| 欧美91大片| 久久综合给合久久狠狠色| 欧美日韩国产网站| 久久精品国产一区| 天堂av中文字幕| 欧美三级电影网| 国产色无码精品视频国产| 成人午夜电影久久影院| 国产二级片在线观看| 欧美高清视频手机在在线| 亚洲综合精品伊人久久| 一级毛片久久久| 久久综合久久八八| 亚洲国产精彩视频| 欧美日韩你懂得| 日本在线视频中文字幕| 国产精品丝袜91| 色婷婷免费视频| 精品亚洲国内自在自线福利| 国产亚洲综合视频| 91精品一区二区三区综合| 久久偷看各类wc女厕嘘嘘偷窃| 亚洲国产综合在线观看| 欧美在线播放视频| 天堂av中文在线| 色悠悠国产精品| 欧美一区,二区| 欧美精品欧美精品系列| 潘金莲一级淫片aaaaaa播放| 一区二区三区av电影| 国产传媒在线看| 93久久精品日日躁夜夜躁欧美 | 蜜桃av免费观看| 91视频.com| 人妻换人妻仑乱| 久久精品久久精品| 日韩欧美xxxx| 午夜亚洲性色福利视频| 欧美日韩一区二区三区高清| 成人网址在线观看| gogo亚洲高清大胆美女人体| 国语自产在线不卡| 日本无删减在线| 欧美放荡办公室videos4k| 99热国产在线| 欧美精品在线免费| 手机在线免费看av| 欧美激情精品久久久久久大尺度| 怡红院在线播放| 欧美黑人xxx| 91超碰免费在线| 6080yy精品一区二区三区| 国产福利片在线观看| 555www成人网| 欧亚一区二区| 成人欧美一区二区三区黑人| 欧美一级大片在线视频| 成人自拍爱视频| 日韩大片在线免费观看| 欧美一级日本a级v片| 日本一区二区在线看| 色乱码一区二区三区熟女| 正在播放日韩欧美一页| 青青青青在线视频| 新67194成人永久网站| 亚洲精品怡红院| 精品一区二区免费| 中文字幕无码毛片免费看| 成人a免费在线看| 精品无人区无码乱码毛片国产| 国产精品久久久久久久久动漫 | 国产女主播视频一区二区| 日本猛少妇色xxxxx免费网站| 日韩一区在线播放| 国产极品在线播放| 欧美亚洲精品一区| www.好吊色| 亚洲精品视频在线播放| 日本中文字幕在线2020| 欧美精品成人91久久久久久久| 日本在线影院| 91免费的视频在线播放| 精品自拍偷拍| 一本一本a久久| 亚洲美洲欧洲综合国产一区| 熟女少妇精品一区二区| 国产精品2024| 亚洲第一综合网| 一区二区三区久久久| 成人公开免费视频| 欧美一区二区视频免费观看| 青青草视频在线观看| 久久国产精品久久久| 中国字幕a在线看韩国电影| 成人黄色在线免费| 亚洲精华一区二区三区| 欧美美女黄色网| 日韩av中文在线观看| 精品熟女一区二区三区| 中文字幕日韩精品一区 | 在线成人h网| 天天操,天天操| 久久综合久久综合九色| 欧美黑吊大战白妞| 欧美日韩一区二区三区四区五区| 神马午夜精品95| 久久天天躁狠狠躁夜夜av| 久久爱91午夜羞羞| 国产高清在线精品一区二区三区| 99视频精品全部免费在线视频| 日韩精品视频久久| 粉嫩av亚洲一区二区图片| 国产日产在线观看| 色视频一区二区| 婷婷五月综合激情| 久久久久久久久久久av| 国产麻豆一区二区三区| 亚洲在线不卡| 日韩二区在线观看| 波多野结衣av在线免费观看| 亚洲国产日产av| www.久久久久久久久久| 久久久国产精彩视频美女艺术照福利| 亚洲天堂一区二区| 欧美精品二区三区四区免费看视频 | 精品久久久网| 日韩国产高清一区| 亚洲欧美日韩国产一区二区| 丝袜熟女一区二区三区| 亚洲国产乱码最新视频| 黑人精品一区二区| 久久欧美在线电影| 成人自拍在线| 免费拍拍拍网站| 成人av在线资源| 在线观看免费国产视频| 亚洲大胆美女视频| sm久久捆绑调教精品一区| 国产一区二区三区四区hd| 91久久视频| 免费观看av网站| 色先锋资源久久综合| 精品资源在线看| 国产www精品| 精品理论电影| 在线观看免费视频高清游戏推荐| 国产精品情趣视频| 一级黄色大片网站| 在线播放日韩欧美| 国产欧美在线观看免费| 中文字幕在线亚洲精品| 国产一区二区中文字幕| 国产一区二区播放| 亚洲精品在线三区| 91av亚洲| 亚洲一二三区精品| 国产精品一级黄| 一级免费在线观看| 亚洲视频视频在线| 久久麻豆视频| 久久艹国产精品| 久久综合av免费| 亚洲无码精品在线播放| 久久中文字幕国产| 狼人精品一区二区三区在线| 国产成人手机视频| 最新热久久免费视频| 亚洲第一页在线观看| 欧美野外猛男的大粗鳮| 日本一区二区在线看| 1314成人网| 欧美日在线观看| 无遮挡动作视频在线观看免费入口| 亚洲在线一区二区| 日韩一区二区免费看| 日本美女bbw| 日韩三级视频中文字幕| 乡村艳史在线观看| 影音先锋欧美在线| 不卡的av网站| 一级视频在线播放| 97久久精品人搡人人玩| 日韩中文在线电影| 精品少妇人妻av一区二区三区| 色素色在线综合| 欧美1—12sexvideos| 色噜噜一区二区| 成人h动漫精品一区二区| 中文字幕人成人乱码亚洲电影| 久久久久久久国产精品|