精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動

發布于 2024-5-13 09:38
瀏覽
0收藏

眾所周知,大語言模型的訓練常常需要數月的時間,使用數百乃至上千個 GPU。以 LLaMA2 70B 模型為例,其訓練總共需要 1,720,320 GPU hours。由于這些工作負載的規模和復雜性,導致訓練大模型存在著獨特的系統性挑戰。


最近,許多機構在訓練 SOTA 生成式 AI 模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,比如谷歌的 PaLM 模型訓練過程中出現了多達 20 次的損失尖峰。


數值偏差是造成這種訓練不穩定性的潛在原因,由于大語言模型訓練運行成本極高,如何量化數值偏差儼然成為關鍵問題。


在最新的一項工作中,來自 Meta、哈佛大學的研究者開發了一個原則性定量方法來理解訓練優化中的數值偏差,以此評估不同的最新優化技術,并確定它們在用于訓練大模型時是否可能引入意外的不穩定性。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


  • 論文標題:Is Flash Attention Stable?
  • 論文鏈接:https://arxiv.org/pdf/2405.02803


結果發現,在一次單獨的前向傳遞過程中,Flash Attention 的數值偏差比 BF16 的 Baseline Attention 大一個數量級。


具體而言,該方法包括兩個階段,包括:


(1)開發一個微基準來擾動給定優化中的數值精度;

(2)通過基于 Wasserstein 距離的數據驅動分析評估數值偏差如何轉化為模型權重的變化。


研究者分析了 SOTA 優化技術 Flash Attention ,并量化了可能引入的數值偏差。Flash Attention 是一種廣泛用于加速注意力機制的技術,通常被認為是 Transformer 模型中的系統瓶頸。Flash Attention 在提高速度和減少內存訪問量的同時,也依賴于算法優化,而算法優化有可能導致數值偏差的增加。


研究者假設添加重新縮放因子(rescaling factors )可能會引入無意的近似,導致數值折衷,這可能會在后續影響訓練穩定性。


他們在多模態文本到圖像工作負載的背景下分析了 Flash Attention,以確定 Flash Attention 與其基線之間數值偏差的潛在重要性。最終,他們引入了一個框架來量化訓練優化的數值偏差及其下游影響。


研究者在數值偏差量化上主要作出了以下兩點貢獻:


(1)設計了一個微基準來分離數值精度對數值偏差的影響。


研究者所設計的微基準作為一種技術,用于衡量和量化傳統黑盒優化(如 Flash Attention)所導致的數值偏差。通過擾動通常在提供的內核中不可用的方面,他們開創性地發現在低數值精度(BF16)下,與 Baseline Attention 相比,Flash Attention 的數值偏差大約高出一個數量級。


(2)基于 Wasserstein Distance 度量進行了數據驅動的分析。


通過該分析,研究者將觀察到的數值偏差置于上下文,并為其對下游模型屬性的影響形成一個上限(upper bound)。在研究者的案例研究中,他們能夠限制觀察到的數值偏差的影響,并發現:「Flash Attention 引入的模型權重偏差大約為低精度訓練的 1/2 至 1/5 倍。」


這項研究強調了開發一種原則性方法的重要性:「不僅要量化,而且要將訓練優化對數值偏差的影響置于上下文中。」通過構建代理(proxies)來將數值偏差置于上下文中,旨在推斷通常難以衡量的下游模型效果(即訓練不穩定性)的可能性。


實驗方法


研究者首先開發了一個微基準來分離并研究 Flash Attention 引起的數值偏差。如圖 2 所示,他們通過對 Flash Attention 進行數值上的重新實現,以分析不同的數值精度,并在算法的每個步驟應用潛在的優化措施。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 2: 微基準設計摘要。


這是必要的,因為 Flash Attention 內核目前僅支持 FP16 和 BF16 數值格式。該內核還是 CUDA 代碼的包裝 API 調用,這使得擾動算法以檢查數值偏差的影響變得具有挑戰性。


相比之下,他們的微基準設計允許在算法內部進行精度輸入和修改。研究者將微基準與原始的 Flash Attention kernel 進行了驗證。


他們進一步設計了一種技術,以比較模型執行過程中每個步驟的 Attention 矩陣的輸出。并修改了模型代碼,每次調用注意力時都計算 Baseline Attention 和 Flash Attention,這允許對相同的輸入矩陣進行精確的輸出矩陣比較。


為了將其置于上下文中,研究者還通過相同和獨立的訓練運行,使用 Max difference 和 Wasserstein Distance 度量來量化模型權重在整個訓練過程中的差異。


對于訓練實驗,研究者則使用一種將文本輸入轉換為圖像的生成式 AI workload(即文本到圖像模型)。他們使用 Shutterstock 數據集重新訓練模型,并在一組英偉達 80GB A100 GPU 集群上運行此實驗。


通過微基準量化數值偏差


研究者首先分析了 Flash Attention 在前向傳遞過程中的影響。他們利用微基準測試,在隨機初始化查詢、鍵、值向量相同的情況下,檢驗不同數值精度對 Attention 計算的輸出矩陣的影響。


正如圖 3 所示,當研究者使用從 BF16 到 FP64 變化的不同數值格式時,Flash Attention 和 Baseline Attention 之間的數值偏差隨著尾數位數的增加而減小。這表明數值差異是由于較少的尾數位數所固有的近似造成的。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 3:數值格式對于 Flash Attention 的數值偏差所產生的效果。


之后,研究者為進行標準比較,在 FP64 數值格式下的 Baseline Attention 設置了「黃金值」,然后將不同數值格式下的 Attention 輸出與該值進行了比較(如圖 4 所示)。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 4:FP64 下 Baseline Attention「黃金值」的比較。


結果表明,Flash Attention 的數值偏差大約是在 BF16 下 Baseline 的 10 倍。


為了進一步分析這種觀察到的數值偏差,研究者保持 tile 大小和 SRAM 大小不變的同時,掃描了矩陣的序列長度(如圖 5 所示)。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 5: 序列長度對 Flash Attention 數值偏差的影響。


如圖所示,隨著序列長度的增加,無論是通過(a)最大差異上限的測量,還是通過(b)差異的平均值和標準差的測量,Flash Attention 和 Baseline Attention 之間的數值偏差都在增加。


除此之外,研究者還利用微基準設計進行不同優化的實驗,以便更好地了解數值偏差的影響(如圖 6 所示)。


圖 6a 顯示了調換 block 維數的順序如何導致 Flash Attention 和 Baseline Attention 之間的數值差異增大。圖 6b 中的其他擾動,比如限制 tile 大小為正方形,不會對數值偏差產生影響。圖 6c 表明了 block/tile 大小越大,數值偏差越小。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 6: 算法的改變及其對觀察到的數值偏差的影響。


通過權重差異來了解數值偏差


雖然在前向傳遞過程中,Flash Attention 可能會導致 Attention 輸出的數值偏差,但這項研究的最終目標是確定這是否會在模型訓練過程中產生任何影響,以研究它是否會導致訓練的不穩定性。


因此,研究者希望量化 Flash Attention 是否在訓練過程中改變了模型,即上文觀察到的 Attention 輸出差異是否反映在訓練過程中更新的模型權重中。


研究者利用兩個指標來衡量使用 Baseline Attention 訓練的模型與使用 Flash Attention 訓練的模型之間的模型權重差異。首先計算最大差異,即找出權重矩陣之間差異的絕對值并取最大值,從而得出偏差的上限,如下所示:


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


雖然最大差值提供了數值偏差的上限,但它沒有考慮到每個矩陣的分布情況。因此,研究者通過 Wasserstein Distance 來量化權重差異,這是衡量張量之間相似性的常用度量。雖然在計算上稍顯復雜,但 Wasserstein Distance 包含了張量分布的形狀信息以衡量相似性。計算公式概述如下:


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


數值越低,表明矩陣之間的相似度越高。


利用這兩個指標,研究者隨后量化了在整個訓練過程中與 Baseline Attention 相比,Flash Attention 的模型權重是如何變化的:


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


根據 Wasserstein Distance 和 Max Difference 這兩個指標,在整個訓練過程中,Flash Attention 的加入確實改變了模型權重,而且隨著訓練的繼續,這種差異只會越來越大,這表明了使用 Flash Attention 訓練的模型與使用 Baseline Attention 訓練的相同模型收斂到了不同的模型。


然而,訓練是一個隨機過程,某些模型結構的改變可能會在下游效應和準確性方面產生相似的結果。即使使用 Flash Attention 和 Baseline Attention 訓練的模型權重不同,這也是值得關注的。


完全訓練模型并評估準確性是一項成本昂貴且資源密集的任務,特別是對于訓練需要數月的大模型來說。


研究者通過配置一個 proxy 來探尋:


(a) 這些權重變化的意義有多大?

(b) 能否將其與其他廣泛采用的訓練優化中的標準權重變化聯系起來?


為了實現這一目標,研究者設計了一系列實驗來比較在不同場景下,訓練過程中的權重差異是如何變化的。


除了對比使用 Flash Attention 和 Baseline Attention 的訓練過程外,他們還量化了在訓練開始時權重被初始化為不同隨機值的相同訓練過程中的權重差異。這提供了一個界限,因為隨機權重初始化是一種常用的技術,并且通常會產生等效的結果。


此外,研究者還測量了使用不同精度訓練的模型權重的變化。數值精度(即 FP16 與 FP32)有可能導致下游變化,這作為確定了 Flash Attention 權重重要性的一個上限。


如圖 8 所示,可以發現,使用 Flash Attention 的模型權重偏差變化率與不同模型初始化的權重偏差變化率相當或更小(注意紅色和藍色曲線的斜率)。


此外,使用 FP16 與 FP32 時的權重變化率比不同模型初始化時的權重變化率更高,變化也更大。


這些結果提供了一個 proxy,并表明:「雖然 Flash Attention 會出現數值偏差,但它會被隨機模型初始化和低精度訓練所限制。而且所引入的模型權重偏差大約是低精度訓練時的 1/2 至 1/5 倍。」


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 8: 使用 Wasserstein Distance metric 測量的訓練過程中的相對權重差異。


更多研究細節,可參考原論文。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/sG3JaZR1isZApWP6ZkYe6Q??

收藏
回復
舉報
回復
相關推薦
在线观看三级视频| 四虎永久免费在线| 国产精品专区免费| 久久综合久久综合久久综合| 日本精品性网站在线观看| 亚洲区 欧美区| 福利视频在线| 国产一区二区三区精品欧美日韩一区二区三区 | 91国产视频在线| 黄色一级视频在线播放| 日韩有码第一页| 国产精品久久久久9999高清| 亚洲欧美制服第一页| 最新中文字幕2018| 好操啊在线观看免费视频| 国产成人亚洲综合a∨婷婷图片 | 黄色免费在线播放| 美女mm1313爽爽久久久蜜臀| 久久五月情影视| 亚洲自拍偷拍精品| 欧洲一级精品| 亚洲视频中文字幕| 久久精品五月婷婷| 一级黄色片免费| 亚洲电影av| 最近的2019中文字幕免费一页| 91丨porny丨九色| 免费成人直播| 一区二区三区国产| 精品一区二区三区免费毛片| 亚洲一级在线播放| 在线亚洲精品| 欧美插天视频在线播放| 一级性生活毛片| 亚洲成人黄色| 欧洲日韩一区二区三区| 日韩 欧美 视频| 中文字幕在线观看日本| 成人高清视频免费观看| 国产欧美日韩视频| 亚洲日本视频在线观看| 欧美另类视频| 日韩在线观看免费网站| 色噜噜在线观看| 欧美a级大片在线| 在线精品国精品国产尤物884a| 日本精品福利视频| eeuss影院www在线播放| 91在线观看一区二区| 91福利视频导航| 中文字幕人妻色偷偷久久| 9久re热视频在线精品| 欧美成人午夜激情在线| 日韩免费成人av| 欧美美女啪啪| 欧美精品一区二区三| aaa一级黄色片| 成人性片免费| 在线视频欧美精品| 国产又大又硬又粗| 偷拍自拍在线看| 亚洲va天堂va国产va久| 中国女人做爰视频| 国产成人在线视频免费观看| 中文字幕va一区二区三区| 欧美性天天影院| 日韩偷拍自拍| 久久色在线观看| 久久久久久久久四区三区| 性做久久久久久久久久| 日本亚洲最大的色成网站www| 久久久久亚洲精品国产| 国产亚洲欧美精品久久久久久| 综合一区二区三区| 欧美成人午夜剧场免费观看| 欧美色图亚洲天堂| 欧美视频官网| 欧美激情视频在线免费观看 欧美视频免费一| 久久视频一区二区三区| 日韩片欧美片| 久久九九热免费视频| 精品丰满少妇一区二区三区| 色喇叭免费久久综合| 中文综合在线观看| 亚洲图片第一页| 色综合蜜月久久综合网| 久久精品视频一| 99久久99久久精品国产| 欧美欧美天天天天操| 欧美激情第三页| 亚洲欧美在线视频免费| 美女91精品| 国产精品视频在线观看| 久久国产视频一区| 最新日韩欧美| 欧美激情综合亚洲一二区| 久热这里只有精品6| 轻轻草成人在线| 91在线中文字幕| 日本xxxxwww| 国产欧美日韩不卡免费| 成年人免费观看的视频| 手机在线免费看av| 韩曰欧美视频免费观看| 簧片在线免费看| 秋霞影院一区| 日韩高清a**址| 欧美一级特黄高清视频| 亚洲国产日韩欧美一区二区三区| 欧美在线一级视频| 亚洲一区在线观| 国产99久久久久久免费看农村| 国产综合精品一区二区三区| 成人精品一区二区三区校园激情| 亚洲欧美日韩久久| 噜噜噜久久亚洲精品国产品麻豆| 成人黄色视屏网站| 欧美精品一区二区在线观看| 亚洲精品国产精品国自| 欧美日韩ab| 4p变态网欧美系列| 国产特级aaaaaa大片| 91在线观看下载| 午夜久久久久久久久久久| 亚洲天堂资源| 日韩一区二区在线观看视频播放| 波多野结衣一本| 中文字幕一区二区av| 日韩av免费网站| 丰满人妻一区二区三区四区53| 国产亚洲精品精华液| 高清无码一区二区在线观看吞精| 日日夜夜天天综合| 亚洲第五色综合网| 天天做夜夜爱爱爱| 日韩电影在线一区二区三区| 国产精品18毛片一区二区| av大片在线看| 欧美性高潮床叫视频| 成年人看片网站| 五月精品视频| 国产不卡一区二区在线播放| 丰满人妻熟女aⅴ一区| 成人免费小视频| 日本精品久久久久中文字幕| 香蕉大人久久国产成人av| 在线看日韩欧美| 狠狠人妻久久久久久| 成人黄色在线视频| 超级碰在线观看| 亚洲伦理网站| 在线看日韩欧美| 一级片在线免费播放| 久久一区二区三区四区| avove在线观看| 欧美日韩在线精品一区二区三区激情综合| 久热精品在线视频| 天天操天天干天天操天天干| 国产综合视频| 亚洲自拍高清视频网站| 女女色综合影院| 欧美高清一级片在线| 国产第一页精品| 喷水一区二区三区| 日韩在线三级| 最新日韩一区| 在线观看国产精品日韩av| 狠狠狠狠狠狠狠| 久久久久国产免费免费| 免费无码av片在线观看| 日韩av字幕| 97国产一区二区精品久久呦| 特黄视频在线观看| 伊人性伊人情综合网| 久久无码人妻一区二区三区| 日本久久一二三四| 成人激情视频在线观看| 大地资源网3页在线观看| 欧美一区二区三区四区在线观看 | 人妻少妇精品一区二区三区| 美女www一区二区| 亚洲欧美日韩在线综合 | 十八禁一区二区三区| 亚洲电影在线免费观看| 国产性生活毛片| 亚洲影音一区| 特级西西444www大精品视频| 日韩欧美三区| 欧美大片va欧美在线播放| 精品国产亚洲av麻豆| 亚洲成人动漫在线观看| 国产偷人妻精品一区| 日本欧美加勒比视频| 国产大尺度在线观看| 成人动漫视频| 日韩69视频在线观看| 最新av网站在线观看| 欧美精品乱码久久久久久| 岛国毛片在线观看| av一二三不卡影片| 欧美中文字幕在线观看视频| 亚洲丝袜美腿一区| 国产精品69久久久久| 在线视频观看国产| 日韩精品在线观看网站| 国产欧美综合视频| 狠狠躁夜夜躁久久躁别揉| 任你操精品视频| 不卡在线视频中文字幕| 久久撸在线视频| 久久久久久久久久国产精品| 国产一区二区三区播放| 亚洲成熟少妇视频在线观看| 国产精品无遮挡| 一级日本黄色片| 激情综合亚洲| 成年人免费观看的视频| 亚洲精品高潮| 国产精品久久久久久搜索| 污片在线免费观看| 亚洲网址你懂得| 亚洲欧美另类综合| 欧美四级电影在线观看| 亚洲国产综合久久| 国产精品初高中害羞小美女文| 成人区人妻精品一区二| 精品在线播放午夜| 久久久久人妻精品一区三寸| 午夜日韩电影| 亚洲欧洲日本国产| 日韩美女毛片| 福利视频久久| 亚洲国产91视频| 国产91色在线|| 国产羞羞视频在线播放| 亚洲精品中文字幕女同| 国产美女自慰在线观看| 在线观看网站黄不卡| 国产精品suv一区二区69| 亚洲女厕所小便bbb| 亚洲一区 欧美| 久久午夜国产精品| 69亚洲乱人伦| 国产精品一二一区| 污视频网址在线观看| 日韩av一区二区三区四区| 亚洲熟妇av日韩熟妇在线| 激情久久婷婷| 成年丰满熟妇午夜免费视频| 97人人精品| 色女人综合av| 国产在视频线精品视频www666| 国产精品免费一区二区三区四区| 97色婷婷成人综合在线观看| 国产精品永久免费观看| 欧美暴力调教| 国产精品爱久久久久久久| 男人久久天堂| 91精品国产91久久久| h片在线观看下载| 亚洲人午夜精品| 蜜桃成人在线视频| 亚洲人午夜色婷婷| 二区在线视频| 国产亚洲欧美日韩一区二区| 韩国精品视频| 亚洲色图第三页| 欧美色图另类| 亚洲欧美视频在线| 国产精品久久一区二区三区不卡| 亚洲免费伊人电影在线观看av| 少妇精品视频一区二区| 欧美一区二区三区在| 国产chinasex对白videos麻豆| 日韩一区二区三区视频在线| www.97av| 亚洲第一色中文字幕| 少妇精品视频一区二区| 亚洲精品720p| 国产小视频免费在线观看| 一本色道久久88综合亚洲精品ⅰ | 深夜做爰性大片蜜桃| 国产精品一区二区果冻传媒| 久久无码人妻一区二区三区| 成人一级片网址| 在线观看日韩精品视频| 国产片一区二区三区| 日韩一级片在线免费观看| 亚洲人成网站精品片在线观看| 久久精品www人人爽人人| 天天综合网 天天综合色| 懂色av蜜臀av粉嫩av分享吧最新章节| 在线观看91视频| 国产农村妇女毛片精品| 亚洲第一国产精品| 三级在线播放| 日韩最新在线视频| 成年网站在线视频网站| 忘忧草精品久久久久久久高清| 日韩激情久久| 羞羞答答成人影院www| 久久亚洲精品无码va白人极品| 国产精品久久久久9999高清| 精品久久久久av| 国内精品在线播放| 亚洲天堂2024| 中文字幕精品一区二区精品绿巨人| 国产精品一区二区亚洲| 亚洲成人午夜电影| 一个人看的www日本高清视频| 欧美第一区第二区| 国产视频网站在线| 久久久久国产精品免费| 99久久综合国产精品二区| yellow视频在线观看一区二区| 精品在线播放| 中文字幕日韩精品无码内射| 在线亚洲伦理| 激情成人在线观看| 久久久不卡影院| 国产在线综合网| 欧美日韩激情一区二区| 婷婷五月综合久久中文字幕| 日韩一级裸体免费视频| 欧美13videosex性极品| 91日本视频在线| 精品久久视频| 国产精品999视频| 老司机午夜精品| 国产精品揄拍100视频| 亚洲精品乱码久久久久| 欧美一级淫片免费视频黄| 欧美一区二区成人| 1024视频在线| 国产xxx69麻豆国语对白| 一区二区三区欧洲区| 亚洲福利av| 日韩中文字幕不卡| 国产黄色三级网站| 亚洲一区中文日韩| av网站免费播放| 色狠狠av一区二区三区香蕉蜜桃| 亚洲免费福利| 国产尤物99| 欧美福利电影在线观看| 91欧美视频在线| 国产无一区二区| 成人免费看片98欧美| 精品少妇一区二区三区视频免付费| 麻豆tv入口在线看| 国产精品一区二区久久精品| 久久91麻豆精品一区| 国产极品尤物在线| 狠狠色丁香婷婷综合久久片| 99在线视频免费| 欧美视频一区二| 国产大学生校花援交在线播放| 日本一区二区在线播放| 色愁久久久久久| 成人免费观看cn| av中文字幕亚洲| 久久久久久久久久免费视频 | 波多野结衣中文字幕一区二区三区 | 成年人性生活视频| 夜夜嗨av一区二区三区四季av| 亚洲欧美激情在线观看| 2018国产精品视频| 波多野结衣在线播放一区| 毛片毛片毛片毛| 亚洲国产裸拍裸体视频在线观看乱了| 色噜噜一区二区三区| 日本久久久久久久| 97在线精品| 国产成人av无码精品| 欧美亚洲一区二区三区四区| 黄色网页在线免费看| 国产欧美日韩伦理| 天使萌一区二区三区免费观看| 男女全黄做爰文章| 亚洲精美色品网站| 精品69视频一区二区三区| www.男人天堂网| 久久久美女毛片| aaaa一级片| 日本最新高清不卡中文字幕| 91蜜臀精品国产自偷在线| 国产精品一区二区在线免费观看| 色偷偷久久一区二区三区| 久久久久久国产精品免费无遮挡| 国产女主播一区二区三区| 免费成人性网站| 国产情侣在线视频| 久久精品国产成人精品| 校园春色另类视频| 91香蕉国产线在线观看| 在线视频你懂得一区二区三区| 国模雨婷捆绑高清在线| 亚洲一区二区四区| 久久伊99综合婷婷久久伊| sm在线播放|