精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

低內存占用也能實現滿血訓練?!北理北大港中文MMLab推出Fira訓練框架

人工智能 新聞
來自北理、北大和港中文MMLab的研究團隊提出了一種滿足低秩約束的大模型全秩訓練框架——Fira,成功打破了傳統低秩方法中內存占用與訓練表現的“非此即彼”僵局。

內存占用小,訓練表現也要好……大模型訓練成功實現二者兼得。

來自北理、北大和港中文MMLab的研究團隊提出了一種滿足低秩約束大模型全秩訓練框架——Fira,成功打破了傳統低秩方法中內存占用與訓練表現的“非此即彼”僵局。

圖片

展開來說——

為了突破內存瓶頸,許多低秩訓練方法應運而生,如LoRA(分解參數矩陣)和GaLore(分解梯度矩陣)。

圖片△圖1:從宏觀層面分析三種內存高效低秩訓練方法

然而,如上圖所示,LoRA將訓練局限于參數的低秩子空間,降低了模型的表征能力,難以實現預訓練;GaLore將訓練局限于梯度的低秩子空間,造成了子空間外梯度的信息損失。

相較于全秩訓練,這兩種方法由于施加了低秩約束,會導致訓練表現有所下降。

但是,若提高秩值,則會相應地增加內存占用。

因此,在實際應用中,它們需要在確保訓練表現與降低內存消耗之間找到一個恰當的平衡點。

這引發了一個核心問題:

能否在維持低秩約束以確保內存高效的同時,實現全秩參數、全秩梯度的訓練以提升表現?

Fira即為最新答案,它有三大亮點:

  • 即插即用:Fira簡單易用,其核心實現僅涉及兩行關鍵公式,現已封裝進Python庫,可直接融入現有的大模型訓練流程中,替換原有優化器。代碼示例如下:
from fira import FiraAdamW, divide_params
param_groups = divide_params(model, target_modules_list = [“Linear”], rank=8)
optimizer = FiraAdamW(param_groups, lr=learning_rate)
  • 雙贏解決方案:在維持低秩約束的前提下,Fira實現了大模型的全秩訓練,打破了內存占用與訓練表現的取舍難題。與此同時,區別于系統方法(如梯度檢查點),Fira不以時間換內存;
  • 實驗驗證:Fira在多種規模的模型(60M至7B參數)以及預訓練微調任務中均展現出卓越性能,優于現有的LoRA和GaLore,甚至能達到或超越全秩訓練的效果。

打造Fira訓練框架

Fira訓練框架由兩部分組成:

1) 基于梯度模長的縮放策略:利用了團隊在大模型低秩和全秩訓練中發現的共通點——自適應優化器對原始梯度的修正效應,實現了低秩約束下的全秩訓練。

2) 梯度模長限制器,通過限制梯度模長的相對增長比例,解決了大模型訓練中常出現的損失尖峰問題。

背景動機

大模型訓練常常面臨顯著的內存瓶頸,尤其是其中的優化器狀態

舉例來說,使用Adam優化器從頭預訓練一個LLaMA 7B模型(batchsize為1,精度為BF16)可能需要至少58GB內存。

其中14GB用于加載參數,14GB用于儲存梯度,28GB用于儲存優化器狀態,剩下2GB用于儲存激活值。

在這之中,優化器狀態所占內存甚至要大于參數本身。

因此,使用低秩方法來減少這一部分內存,實現大模型的內存高效訓練十分重要。

而在現有的低秩方法中,LoRA通過分解參數矩陣,使用低秩適配器來減少內存占用;Galore通過分解梯度矩陣,在自適應優化器中儲存低秩梯度來減少內存占用。

鑒于使用LoRA低秩適配器方法來實現全參數訓練的困難性,團隊選擇拓展Galore的梯度投影方法來實現全秩訓練。

在Galore中,全秩梯度G?? ? ?mxn,會被投影矩陣P?? ? ?mxr分解成兩項低秩梯度P??R??和(G??—P??R??),其中圖片

為減少像Adam這樣的自適應優化器在內存中對應的狀態占用,Galore僅在優化器核心??中保留低秩梯度R??,而非全秩梯度G??

而另一項梯度(G??—P??R??),則會因為缺少對應的優化器狀態,被Galore直接丟棄,從而造成嚴重的信息損失。

這也解釋了,為什么Galore的性能會在rank值減小時,顯著衰減。

△圖2:Fira與Galore及其變體的訓練損失對比

為了彌補上述信息損失,最直觀的方法是直接加上這一部分梯度(G??—P??R??):

圖片

其中,W是參數矩陣, ??是學習率。

然而,如圖所示,使用這種方法(Galore-add)不僅未能帶來性能提升,反而可能導致訓練過程更加不穩定,且結果更差。

分析原因可歸結于這一部分的梯度缺乏優化器狀態,直接使用會退化為單純的SGD算法,并且可能與前面使用的Adam優化器的梯度不匹配,導致效果不佳。

基于梯度模長的縮放策略

為了解決上述挑戰,團隊提出了scaling factor概念,來描述Adam這樣的自適應優化器對原始梯度的修正效應,并揭示了它在大模型的低秩訓練和全秩訓練之間的相似性。

圖片

其中,?? 就是scaling factor,代表經過優化器修正過的梯度與原始梯度的模長比例。

如下圖,如果根據scaling factor的平均值對參數矩陣進行排序,可以發現低秩和全秩之間的排序非常相似。

△圖3:scaling factor在大模型低秩和全秩訓練間的相似性

基于這個觀察,團隊就嘗試在矩陣層面用低秩梯度R??的scaling factor,作為全秩梯度G??的scaling factor的替代,從而近似地修正(G??—P??R??),彌補其缺少的優化器狀態:

圖片

這樣團隊就在低秩約束下成功實現了全秩訓練。

進一步來說,剛才是從矩陣層面來考慮scaling factor。

順理成章地,團隊可以從更細粒度的角度——列的層面,來考慮scaling factor,實現更加精細地修正。

圖片

其中R??,:,?? 是低秩梯度R??的第i列,圖片是scaling factor的第i項。

梯度模長限制器

在訓練過程中,梯度常常會突然增大,導致損失函數出現尖峰,從而影響訓練的表現。

經過分析,可能原因是Galore在切換投影矩陣時存在不穩定性,以及維持(G??—P??R??)這種原始梯度的方向的方式,無法像Adam這樣的自適應算法,有效應對大模型訓練中存在的陡峭損失景觀。

圖片△圖4:3種Fira變體的訓練損失與梯度模長

然而,常見的梯度裁剪方法(如圖中的Fira-gradient-clipping)由于采用絕對裁剪,難以適應不同參數矩陣間梯度的較大差異,從而可能導致次優的訓練結果。

為此,團隊提出了一種新的梯度模長限制器,它通過限制梯度模長的相對增長比例,來更好地適應不同梯度的變化:

圖片

其中??是比例增長的上限,S??=????(R??)(G??—P??R??)是原始梯度(G??—P??R??)修正后的結果。

通過提出的控制梯度相對增長比例的方法,能夠將梯度的驟然增大轉化為平緩的上升,從而有效穩定訓練過程。

如圖2和圖3所示,團隊的限制器成功避免了損失函數的尖峰情況,并顯著提升了訓練表現。

實驗結果

如下表所示,在預訓練任務中,Fira在保持內存高效的前提下,驗證集困惑度(↓)顯著超過各類基線方法,甚至超越全秩方法。

具體來說,在預訓練LLaMA 1B模型時,Fira節約了61.1%優化器狀態所占內存,并且取得了比全秩訓練更加好的結果。

圖片△使用C4數據集預訓練不同大小的LLaMA模型驗證集困惑度(↓)對比

在預訓練LLaMA 7B模型時,Fira在使用了比Galore小8倍的秩rank的情況下,訓練表現遠超Galore。

這展現了Fira在大規模大模型上的有效性,以及相較Galore更高的內存減少能力。

△使用C4數據集預訓練LLaMA 7B的驗證集困惑度(↓)對比

在八個常識推理數據集微調LLaMA 7B的任務中,相較其他基線方法,Fira在一半的數據集下表現最好,平均準確率最高的同時實現了內存高效。

△在八個常識推理數據集微調LLaMA 7B準確率對比

另外,消融實驗也顯示了

  • Fira-w.o.-scaling說明了Fira使用基于梯度模長的縮放策略的有效性;
  • Fira-matrix說明了從更細粒度的列級別,而不是矩陣級別,考慮scaling factor的有效性;
  • Fira-w.o.-limiter說明了Fira中梯度模長限制器的有效性;
  • Fira-gradient-clipping說明了梯度裁剪可能無法完全解決損失尖峰問題,導致結果次優。

△消融實驗

與GaLore相比,Fira的表現幾乎不受秩rank值減少的影響。

在低秩的情況下(rank=16, rank=4),Fira仍然能與全秩訓練相當,相較Galore更加內存高效。

△不同rank下的預訓練驗證集困惑度(↓)

最后,團隊在不同模型大小,以及低秩和全秩條件下,訓練10,000步,并對得到的矩陣和列級別上Scaling factor做平均。

接著,使用了斯皮爾曼(Spearman)和肯德爾(Kendall)相關系數分析了Scaling factor在矩陣和列級別上大小順序的相關性。

其中,Coefficient中1代表完全正相關,-1代表完全負相關,而P-value越小越好(通常小于0.05為顯著)。

在所有規模的LLaMA模型中,Scaling factor在矩陣和列的級別上都表現出很強的正相關關系,并且所有的P-value小于0.05,非常顯著,為Fira中基于梯度模長的縮放策略提供了堅實的實驗基礎。

△矩陣和列級別上的Scaling factor低秩與全秩相似性分析

更多細節歡迎查閱原論文。

論文鏈接:https://arxiv.org/abs/2410.01623
代碼倉庫:https://github.com/xichen-fy/Fira

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-11-10 12:51:29

微軟AI

2025-03-13 10:28:07

2024-07-15 07:30:00

自動駕駛AI

2023-10-04 00:16:00

Chinchilla小模型

2023-11-07 11:50:14

AI訓練

2025-06-26 09:13:22

2025-03-07 10:02:10

2023-04-15 19:37:50

OpenAIGPT-5

2025-06-12 08:46:00

2025-03-06 10:00:00

2023-09-12 13:43:00

智能技術

2025-01-17 09:20:00

2025-02-24 08:30:00

視覺模型訓練

2017-06-11 21:55:47

深度學習神經網絡模型

2017-08-14 16:36:23

ASActivity內存

2025-02-10 14:05:00

訓練模型AI

2025-11-04 09:00:00

2022-03-04 19:07:03

模型視覺人工智能

2021-07-27 11:20:10

模型人工智能深度學習
點贊
收藏

51CTO技術棧公眾號

日本成人精品在线| 亚洲欧美成人精品| 免费av观看网址| 四虎影视2018在线播放alocalhost| 一本久道久久久| 一本一本久久a久久精品综合小说| 在线黄色免费观看| 国产蜜臀在线| 中文字幕乱码一区二区免费| 亚洲综合av影视| 中文字幕激情小说| 欧美在线三区| 亚洲香蕉成人av网站在线观看| 国内自拍第二页| 老司机深夜福利在线观看| 中文字幕不卡的av| 国产在线欧美日韩| 国产精品无码AV| 天堂资源在线中文精品| 久久99久久亚洲国产| 性の欲びの女javhd| 99久久人爽人人添人人澡| 欧美午夜理伦三级在线观看| 成人毛片100部免费看| 国产三级在线看| 成人精品国产免费网站| 国产欧美精品在线| 免费看日批视频| 亚洲国产日本| 九九久久国产精品| 成人性视频免费看| 久久99国产精品视频| 精品国产精品一区二区夜夜嗨| 99视频在线视频| av综合电影网站| 亚洲第一福利一区| 手机福利在线视频| 幼a在线观看| 久久久久久久精| 久久99精品久久久久久三级| www.com欧美| 精品无人码麻豆乱码1区2区 | 久久精品一区二区免费播放| 先锋影音一区二区| 欧美日韩中文国产| 三级在线视频观看| 素人啪啪色综合| 91激情在线视频| 欧美 激情 在线| 多野结衣av一区| 亚洲午夜私人影院| 美女黄色免费看| 丁香影院在线| 午夜久久久久久久久| 国产免费裸体视频| 日本片在线观看| 亚洲综合色丁香婷婷六月图片| 中文字幕日韩精品久久| 美女羞羞视频在线观看| 中文字幕一区二区三区四区不卡| 亚洲国产精品www| 欧洲不卡视频| 亚洲精品久久久蜜桃| 男人的天堂视频在线| av片哪里在线观看| 亚洲国产精品一区二区久久 | 欧美黄色视屏| 亚洲v日本v欧美v久久精品| www.亚洲视频.com| 天堂av中文在线观看| 一本色道久久综合精品竹菊| 99久久久无码国产精品6| 日韩成人影音| 欧美日韩国产区一| 亚洲最大视频网| 日韩理论电影中文字幕| 亚洲视频在线观看网站| 欧美xxxx精品| 一区二区日韩欧美| 97国产在线视频| 亚洲国产精品无码久久久| 毛片av一区二区三区| 亚洲精品日韩激情在线电影| 亚洲高清视频在线播放| 91亚洲精品一区二区乱码| 日韩电影大全在线观看| 欧美69xxxx| 亚洲一区二区三区视频在线播放| 国产亚洲综合视频| 成人毛片免费| 亚洲国产精品久久久| x88av在线| 欧美福利影院| 国产极品jizzhd欧美| 国产高清视频免费| 国产亚洲一区二区三区四区| 在线看视频不卡| 黑森林国产精品av| 欧美丰满一区二区免费视频| 俄罗斯黄色录像| 成人在线电影在线观看视频| 欧美成人免费在线观看| 成人免费毛片男人用品| 国产精品原创巨作av| 欧美三级网色| 色操视频在线| 欧美三级三级三级爽爽爽| youjizz.com国产| 欧美黄色大片在线观看| 97超级碰碰碰| 成人高潮片免费视频| 国产肉丝袜一区二区| 精品成在人线av无码免费看| 国产一区影院| 亚洲另类欧美自拍| 久草国产在线视频| 日本中文字幕不卡| 久久综合久久久| 欧美xxxbbb| 欧美美女喷水视频| 亚洲综合欧美综合| 小嫩嫩精品导航| 国产精品成人观看视频免费| 免费在线观看av| 欧美中文字幕一二三区视频| 亚洲天堂av网站| 欧美日韩精品一本二本三本| 国产精品视频999| 欧美成人免费| 午夜av一区二区| 91传媒理伦片在线观看| 伊人色**天天综合婷婷| 国产精品一区二区在线| 精品三级久久久久久久电影聊斋| 亚洲午夜电影网| 在线观看欧美一区二区| 欧美电影《睫毛膏》| 国产精品视频一区国模私拍| 免费a在线观看| 欧美午夜激情在线| 国产呦小j女精品视频| 99国产精品| 国内精品视频在线播放| missav|免费高清av在线看| 欧美一区二区精美| 青青草偷拍视频| 国产伦精一区二区三区| 亚洲欧美一二三| 精品欧美视频| 欧美日韩国产123| 亚洲精品国产suv一区| 亚洲精品欧美专区| 性猛交╳xxx乱大交| 伊人激情综合| 久久精品日产第一区二区三区乱码| av人人综合网| 精品丝袜一区二区三区| 亚洲欧美日韩一区二区三区四区| 久久免费精品国产久精品久久久久| 欧美日韩亚洲一| 奇米亚洲欧美| 国产精品美女999| 黄色国产网站在线播放| 在线综合亚洲欧美在线视频| 国产精品久久久精品四季影院| 国产精品系列在线观看| 妞干网在线观看视频| 奇米777国产一区国产二区| 性色av一区二区三区免费| 日韩大胆人体| 欧美亚洲高清一区| 日本少妇高清视频| 成人黄色在线视频| 凹凸日日摸日日碰夜夜爽1| 日韩欧美高清| 亚洲aⅴ男人的天堂在线观看| 日本在线观看大片免费视频| 亚洲黄色www网站| 这里只有久久精品视频| 一区免费观看视频| 大乳护士喂奶hd| 日韩经典一区二区| 永久免费在线看片视频| 超碰成人97| 国产精品一区二区女厕厕| a毛片在线播放| 精品无人区太爽高潮在线播放 | 可以看av的网站久久看| 伊人av成人| 久久夜色电影| 国产一区二区在线播放| 精灵使的剑舞无删减版在线观看| 亚洲精品网址在线观看| 国产男男gay网站| 狠狠做深爱婷婷久久综合一区| 东京热无码av男人的天堂| 福利视频网站一区二区三区| 国产一级不卡毛片| 国内自拍一区| 亚洲一区二三| 色先锋久久影院av| 亚洲free性xxxx护士白浆| 黄色在线观看www| 久久中国妇女中文字幕| 欧美美乳在线| 精品999在线播放| 国产精品久久久久久久一区二区| 欧美日韩亚洲天堂| 欧美日韩国产精品综合| 日本一区二区免费在线观看视频 | 久久久久久久久久久电影| 绯色av蜜臀vs少妇| 美女一区二区三区| 黄色国产精品视频| 精品二区视频| 国产精品久久久影院| 成人午夜av| 麻豆亚洲一区| 精品亚洲自拍| 91沈先生播放一区二区| 成人黄色图片网站| 日本一区二区在线免费播放| 天天色天天射天天综合网| 色婷婷av一区二区三区在线观看| 欧美一区二区三区少妇| 精品国精品国产| 国产不卡av在线播放| 欧美午夜一区二区三区免费大片| 91av在线免费视频| 亚洲午夜电影网| 极品盗摄国产盗摄合集| 国产精品免费网站在线观看| 一级黄色片大全| 久久综合九色欧美综合狠狠| 成年人小视频在线观看| 国产福利一区在线| 99热这里只有精品2| 久久爱www久久做| 日韩不卡一二三| 日韩成人伦理电影在线观看| 国产精品99久久免费黑人人妻| 亚洲福利专区| 成年人午夜视频在线观看| 亚洲第一区色| jizzjizz国产精品喷水| 99热这里只有精品8| 99色这里只有精品| 亚洲精品人人| 精品www久久久久奶水| 日韩精品视频网| 欧美三级理论片| 麻豆传媒一区二区三区| gogogo高清免费观看在线视频| 美女在线一区二区| 国产三级精品三级在线| 国产精品一区二区无线| 无码人妻一区二区三区精品视频| 国产成人av一区二区三区在线 | 久久久久久亚洲综合影院红桃 | 三上悠亚在线一区二区| 极品销魂美女一区二区三区| 午夜一级免费视频| 国产精品一二三四| 国产成人精品无码片区在线| 99精品热视频| 国产三级短视频| 1区2区3区欧美| 国产一级片网址| 欧美午夜精品久久久久久久| 中文字幕资源网| 日韩一区二区三区四区| 黑人精品一区二区三区| 亚洲女人天堂成人av在线| 福利片在线观看| 久久久精品一区| 久久影院午夜精品| 国产精品久久久亚洲| 精品国产不卡一区二区| 精品国产第一页| 色综合久久网| 国产va亚洲va在线va| 日韩影院免费视频| 国内精品国产三级国产aⅴ久| 不卡大黄网站免费看| 青青青视频在线播放| 一区二区三区四区不卡在线 | 蜜桃av免费在线观看| 一区二区成人在线| 免费又黄又爽又猛大片午夜| 欧美精选在线播放| 天堂在线中文| 久久艹在线视频| 91av亚洲| 国产 高清 精品 在线 a| 国产一区二区三区四区五区传媒 | 亚洲伦伦在线| 69久久久久久| 99精品热视频| 国产高潮流白浆| 日韩欧美在线中文字幕| 999av视频| 国产一区二区三区久久精品 | 日韩1区在线| 国产 日韩 亚洲 欧美| 精品一区二区在线观看| 中文字幕一区二区人妻在线不卡| 亚洲精品高清在线| 日本妇乱大交xxxxx| 亚洲激情视频网| 最新超碰在线| 国产精品三级美女白浆呻吟| 久久中文资源| 99er在线视频| 国产伦精品一区二区三区免费| 高清国产在线观看| 欧美日韩亚洲系列| 内射无码专区久久亚洲| 日韩中文字幕免费看| av高清不卡| 蜜桃狠狠色伊人亚洲综合网站| 国产一区二区三区自拍| 中文字幕一区久久| 国产精品视频看| 免费黄色片视频| 日韩电影中文 亚洲精品乱码| 在线你懂的视频| 91系列在线观看| 婷婷精品进入| 中文字幕66页| 中文字幕中文在线不卡住| 日本免费精品视频| 国产丝袜一区二区三区| 91精品国产黑色瑜伽裤| 成人午夜电影免费在线观看| 先锋资源久久| www,av在线| 亚洲欧美激情视频在线观看一区二区三区 | 亚洲高清视频在线播放| 欧美大胆在线视频| 玖玖玖视频精品| 欧美一二三不卡| 国产成人欧美日韩在线电影| 中文字幕av播放| 日韩欧美国产成人一区二区| 成人黄视频在线观看| 成人免费网视频| 香港欧美日韩三级黄色一级电影网站| 久久国产精品国产精品| 国产精品不卡在线观看| 国产又粗又大又爽视频| 久久综合久久美利坚合众国| 国产美女精品视频免费播放软件| 日本特级黄色大片| 国产黄色精品网站| 久久精品无码人妻| 亚洲精品电影久久久| 在线天堂新版最新版在线8| 免费99视频| 日本网站在线观看一区二区三区| xxxxx99| 69av一区二区三区| 欧美日韩经典丝袜| 久久久久免费网| 久久一区二区三区四区五区| 日韩视频在线观看免费视频| 欧美日韩国产片| 中文字幕在线三区| 国产一区二区三区四区五区在线 | 日韩免费观看视频| 日韩精品网站| 三上悠亚 电影| 精品久久久久久久久久| 黄色在线网站| 91性高湖久久久久久久久_久久99| 国产精品扒开腿做爽爽爽软件| www.日本高清| 欧洲一区二区三区在线| 中文字幕第69页| 极品少妇一区二区| 欧美久久精品| 亚洲一区 在线播放| 国产69精品久久777的优势| 天天综合网入口| 色噜噜亚洲精品中文字幕| 亚洲国产高清在线观看| 337p粉嫩大胆噜噜噜鲁| 国产精品乱人伦一区二区| 性网爆门事件集合av| 人妖精品videosex性欧美| 亚洲国产精品91| 日本黄色片在线播放| 884aa四虎影成人精品一区| 波多野结衣视频一区二区| 亚洲欧洲在线一区| 9色porny自拍视频一区二区| 又骚又黄的视频| 久久免费观看视频| 久久在线免费| 丰满少妇一区二区| 欧美www视频|