精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小模型性能飽和、表現不佳,根源是因為Softmax?

發布于 2024-5-6 08:59
瀏覽
0收藏

語言建模領域的最新進展在于在極大規模的網絡文本語料庫上預訓練高參數化的神經網絡。在實踐中,使用這樣的模型進行訓練和推斷可能會成本高昂,這促使人們使用較小的替代模型。然而,已經觀察到較小的模型可能會出現飽和現象,表現為在訓練的某個高級階段性能下降并趨于穩定。


最近的一篇論文發現,這種飽和現象可以通過較小模型的隱藏維度與目標上下文概率分布的高秩之間的不匹配來解釋。這種不匹配通過著名的 softmax 瓶頸現象影響了這些模型中使用的線性預測頭的性能。

小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區


論文鏈接:???https://arxiv.org/pdf/2404.07647.pdf??


本文在不同設置下衡量了 softmax 瓶頸的影響,并發現基于小于 1000 個隱藏維度的模型往往在預訓練的后期采用退化的潛在表征,從而導致評估性能降低。


簡介


表征退化問題是影響用于文本數據的自監督學習方法等多種模態的常見現象。對語言模型的中間表征進行的許多觀察揭示了它們的低角度可變性(或各向異性),或者在訓練過程中出現的異常維度。然而,這些觀察大多是針對維度與 BERT 或 GPT-2 系列模型相當的相對較小規模的模型進行的。


這些模型通常由一個神經網絡 f_θ 組成,該神經網絡接受 token 序列:


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區


并在 R^d 中生成一個相對低維的上下文表征,其中 d 是模型的隱藏維度。然后它們依賴于一個語言建模頭,該頭部產生上下文 token 概率的對數。語言建模頭的常見選擇是一個線性層,其參數為 W ∈ R^(V×d),其中 V 是可能 token 的數量。因此得到的下一個 token 概率分布是

小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

其中 σ 是 softmax 函數。


在語言建模領域,當前的趨勢在于擴展引入了 GPT-2 的生成預訓練方法,這意味著在巨大的網絡文本語料庫上訓練由數十億參數組成的神經模型。然而,訓練和應用這些高參數化模型會引發能源和硬件相關的問題,這需要尋求通過較小的模型實現類似性能水平的方法。


然而,對 Pythia 模型套件的評估表明,將小型模型訓練在非常大的語料庫上可能會導致飽和,表現為在預訓練后期性能下降。本文通過表征退化的視角探討了這種飽和現象,并發現這兩種現象之間存在著強烈的相關性,同時進一步證明了表征退化在小型模型的語言建模頭中發生,并在理論和實證上展示了線性語言建模頭如何成為基于小隱藏維度的架構的性能瓶頸。


語言模型飽和現象


本文首先驗證了確實可以觀察和量化 Pythia 檢查點的性能飽和,因為它們是一系列模型尺寸的唯一發布的中間檢查點。本文測量了從它們的預訓練數據集(即 The Pile)中隨機抽取的 5 萬個 token 的 Pythia 檢查點的交叉熵。


在圖 1a 中可以清楚地看到,連 4.1 億參數的模型都遇到了飽和現象,表現為在高級訓練階段域內損失的增加。


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

在圖 1b 中,本文根據 Hoffmann et al. (2022) 的方法,對從 4.1 億參數開始的模型的數據點進行了擬合,只優化模型相關的常數(A 和 α),同時重用所有其他值(B = 410.7,β = 0.28,E = 1.69)。這里回顧了 Hoffmann  et al. (2022) 給出的參數計數 N 和 token 計數 T 之間的關系:

小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

本文發現最佳參數為 A = 119.09 和 α = 0.246。作者展示了與最佳和最終檢查點相對應的 token 計數的擬合曲線。可以觀察到,最終檢查點的性能平均低于外推值約 8%。損失最小(最佳)檢查點由于學習率冷卻不完全,預計會低于外推法,但其表現僅低于外推法約 4%。


在用于語言模型評估工具(LM Evaluation Harness)評估的數據集中,也觀察到了類似的性能飽和現象,如表 1 所示。


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

性能飽和是秩飽和(Rank Saturation)


規模各向異性


各向異性是是在各種小型語言模型中觀察到的一種常見的表征退化形式,它包括特定層中表征分布的角度可變性降低。之前的研究(Ethayarajh, 2019; Godey et al., 2024)注意到,小型變形語言模型的幾乎所有層都是各向異性的。衡量向量表征集合 H 中各向異性的常用方法是平均余弦相似度:

小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區


然而,目前尚不清楚各向異性是否會影響具有超過 10 億參數的模型。為了解決這個問題,本文計算了一系列模型中間表征在層間的平均余弦相似度;即 GPT-2,OPT,Pythia 和 Gemma。本文使用了 The Pile 的子樣本,因為假設該數據集的領域包括或匹配這些套件中使用的預訓練數據集的領域。


在圖 2 中,可以觀察到,大多數 Transformer 模型的大多數層在某種程度上都是各向異性的,而不論其規模如何。然而,在最后一層中似乎存在一個二分現象,其中模型要么幾乎是各向同性的,要么是高度各向異性的。本文注意到這種二分現象與 Pythia 套件的飽和現象之一相一致,其中只有包含 1.6 億個或更少參數的模型受到最后一層各向異性的影響。


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區


本文研究了 Pythia 套件中各向異性的訓練動態,并將其與圖 3 中的飽和現象進行比較。


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

圖 3 清晰地展示了性能飽和現象的出現與模型最后一層表征中各向異性出現之間的明顯相關性。它還顯示了在訓練過程中,各向異性在飽和點附近會突然增加。在這里觀察到,在特定的領域內語料庫中,模型在飽和時迅速失去性能,并且似乎永遠無法完全從這種爆炸中恢復過來。


奇異值飽和


平均余弦相似度是衡量分布均勻性的有價值的指標,但包含其他指標可以幫助更好地捕捉某些流形的復雜性。此外,它只關注語言模型的輸出嵌入,而不關注它們的權重。本節通過研究語言建模頭的奇異值分布來擴展本文的分析,以將實證觀察與本文的理論發現聯系起來。


圖 4 展示了沿訓練過程中最終預測層權重 W 的奇異值分布:


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

圖 4 揭示了一種特定的頻譜飽和模式,它與性能飽和現象大致同時發生。圖中顯示,奇異值分布在訓練過程中逐漸變平,幾乎達到均勻性,然后突然演變為尖峰分布,最大奇異值相對其他分布較高。


為了更準確地量化這種行為,本文使用奇異熵度量,計算為歸一化奇異值分布與均勻分布之間的 Kullback-Leibler 散度。


圖 5 顯示了使用少于 4.1 億個參數的模型與使用較大參數的模型的奇異分布演變方式不同。小型模型的頭部看到它們的奇異值分布逐漸變得更加均勻,直到它們突然退化為止,這再次與語言模型性能下降相關。較大模型的奇異值分布趨于更穩定,并且在整個訓練過程中沒有顯示出明顯的單調模式。

小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

Softmax 瓶頸與語言維度


自然語言的固有維度


直觀地說,上文中觀察到的奇異值分布飽和現象只適用于較小的模型,這就對 LM 頭的優化所涉及的維度提出了質疑。本節建議根據經驗測量 LM 頭的秩的臨界值,并估計該頭的輸出應該匹配的上下文概率分布的維度。


為了經驗性地測量線性頭部秩的影響,本文提出在預訓練的上下文表征上訓練秩受限的頭部,這些上下文表征來自高參數化語言模型。為了控制最大秩 r,考慮形式為 W = AB ∈ R^(V×d) 的頭部,其中 A ∈ R^(V×r) 和 B ∈ R^(r×d) 的系數從 N(0,1)中抽取(d 是模型的隱藏維度)。這種 W 矩陣的秩受參數 r ∈ [1, d] 的限制對一系列值進行了掃描。


通過凍結語言模型,并在大約 1.5 億 token 上訓練秩受限的頭部,同時調整學習速率以適應可訓練參數的數量。


在圖 6 中可以觀察到,無論模型大小如何,當語言建模頭 W 的秩低于 1000 時,困惑度開始明顯下降。這暗示了對于具有更大隱藏維度的模型來說,頭部不是主要的性能瓶頸,但對于具有較小隱藏維度的模型來說,它可能會獨立于輸出表征的質量而損害性能。


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區


另一個有趣的因素是估計數據本身固有的維度。為了避免與特定歸納偏差相關的可能影響,本文在覆蓋范圍各異的幾個數據集上訓練了樸素的 5-gram 語言模型(IMDb,Wikitext,以及 The Pile),使用了兩種不同詞匯量的分詞器(Llama-2 為 30k tokens,Pythia 為 50k tokens)。給定 C 個觀察到的 5-gram,本文考慮矩陣 W ∈ R^(C×V),其中每行是給定 4 個 token 上可能 token 的概率分布,并計算它們的奇異值分布,如 Terashima et al. (2003) 所述。


圖 7 報告了 W-error,根據 Eckart-Young-Mirsky 定理預測的秩為 d 的矩陣 W 的最小近似誤差(見引理 5.2),并將其歸一化為 W 的 Frobenius 范數。

小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區


小模型性能飽和、表現不佳,根源是因為Softmax?-AI.x社區

理論瓶頸


同時,W 的估計秩與隱藏維度的常規數量級相比也不可忽視。這里將從理論角度分析理想線性語言建模頭的維度與性能之間的聯系。


本節旨在確定上下文分布固有維度與可歸因于語言模型輸出表征的較低維度而產生的性能瓶頸之間的正式聯系。為此構想了一個在理想上下文表征上優化的語言建模頭,探討了其譜特性與在相同表征上訓練低秩頭時產生的性能差距之間的關系。


更多研究細節,可查看原論文。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/bvv-frM8bKhkZiqOa9nqDA??

標簽
收藏
回復
舉報
回復
相關推薦
亚洲片在线观看| 亚洲va欧美va人人爽| 国产日韩专区在线| 美女视频黄免费| 日韩高清在线免费观看| 欧美日韩午夜在线视频| 很污的网站在线观看| 免费在线一级视频| 国产在线精品一区二区三区不卡| 久久久久久久久久久网站| 成年人免费观看视频网站| 国产亚洲高清一区| 一本色道久久综合亚洲91| 特色特色大片在线| 精品久久av| 粉嫩欧美一区二区三区高清影视| 国产91亚洲精品| 久久久久久久久久久网| 北条麻妃国产九九九精品小说| 日韩欧美激情四射| 中文av一区二区三区| 欧美另类老肥妇| 悠悠色在线精品| 五月婷婷一区| 青草久久伊人| eeuss鲁片一区二区三区在线观看| 国产日韩欧美在线播放| 在线观看 亚洲| 136国产福利精品导航网址| 精品国产依人香蕉在线精品| 午夜理伦三级做爰电影| 国产精品超碰| 欧美一级高清片在线观看| 爱情岛论坛成人| 亚洲美女炮图| 午夜激情一区二区| 激情成人开心网| 久久综合网导航| 国产精品盗摄一区二区三区| 欧美大香线蕉线伊人久久国产精品| 亚洲AV午夜精品| 国产乱码精品一区二区三区av | 激情五月婷婷在线| 日本午夜一区| 在线观看久久久久久| 免费看黄色的视频| 国产精品片aa在线观看| 日韩精品久久久久久久玫瑰园| 苍井空张开腿实干12次| 视频精品一区二区三区| 日韩欧美一二区| 色中色综合影院手机版在线观看| 亚洲一区影院| 91女主播在线观看| 国产女人aaa级久久久级| 日本黄网免费一区二区精品| 国产在线一二| 国产欧美日本一区二区三区| 日韩精品国内| 毛片在线播放a| 亚洲人成亚洲人成在线观看图片 | 婷婷五月精品中文字幕| julia中文字幕一区二区99在线| 欧美一级片在线| 最新中文字幕日本| 免费看成人人体视频| 亚洲精品国产精品久久清纯直播| aaaaa一级片| 国产精品探花在线观看| 日日噜噜噜夜夜爽亚洲精品| 天天操天天操天天操天天操天天操| 欧美激情精品久久久六区热门| 久久久久免费精品国产| aaa人片在线| 日本亚洲欧美天堂免费| 91精品视频一区| 全部免费毛片在线播放一个| 91丨porny丨在线| 天堂一区二区三区| 在线观看h网| 精品国产91久久久久久| 黄色av免费在线播放| 4438五月综合| 亚洲国产精品久久久| 中文字幕第4页| 亚洲成人日韩| 日本国产一区二区三区| 国产精品无码天天爽视频| www.成人在线| 一级日韩一区在线观看| aa国产成人| 欧美日韩一二三| 岛国av免费观看| 不卡一区综合视频| 久久久久久国产精品美女| 波多野结衣视频在线观看| 国产精品一区二区在线播放 | 欧美视频免费| 欧美精品videofree1080p| 无码人妻av一区二区三区波多野| 激情久久久久久久久久久久久久久久| 国产精品一区二区三区精品| 91涩漫在线观看| 精品成人乱色一区二区| 九九热99视频| 欧美激情在线精品一区二区三区| 久久夜色精品亚洲噜噜国产mv| 久久久久久久黄色片| 国产一区二区福利视频| 色视频一区二区三区| 538视频在线| 337p亚洲精品色噜噜噜| japanese中文字幕| 99这里有精品| 超碰国产精品久久国产精品99| 番号在线播放| 欧美性色视频在线| 中文字幕在线视频播放| 欧美fxxxxxx另类| 国产精品视频99| 精品视频二区| 欧美性猛交xxxx乱大交| a级片在线观看视频| 91精品一区二区三区综合| 国产精品1234| 手机亚洲第一页| 亚洲第一主播视频| 韩国三级hd中文字幕有哪些| 日韩在线高清| 国产精品丝袜视频| 青青操视频在线| 精品久久久视频| 亚洲成人av免费在线观看| 亚洲福利专区| 国产精品我不卡| 毛片大全在线观看| 欧美大片在线观看| 欧美日韩一级在线观看| 国产一区二区91| 99亚洲国产精品| 91精品国产一区二区在线观看| 最近2019好看的中文字幕免费| 中文字幕精品视频在线观看| 久久综合久久综合久久| 欧美 日韩 国产一区| 九九在线高清精品视频| 日本精品视频在线播放| 青青草手机在线| 欧日韩精品视频| 婷婷国产成人精品视频| 狠狠色丁香婷婷综合久久片| 国产免费一区二区三区四在线播放 | 私拍精品福利视频在线一区| 欧美性资源免费| 欧美女优在线观看| 欧美性猛片xxxx免费看久爱| 亚洲欧美综合7777色婷婷| 国产一区在线观看视频| 黄网站色视频免费观看| 欧美日韩麻豆| 国产mv久久久| 欧美18hd| 精品久久久久久久久久久久久久久久久| 久久久久久久9999| 91视视频在线观看入口直接观看www | 亚洲二区中文字幕| 亚洲国产av一区二区三区| 国产精品入口麻豆九色| 日本55丰满熟妇厨房伦| 亚洲大胆av| 欧美另类高清视频在线| 激情久久一区二区| 九九热在线精品视频| 日本免费一区视频| 欧美亚洲一区三区| 欧产日产国产v| 91欧美激情一区二区三区成人| 国产欧美高清在线| 国产精品88久久久久久| 国产精品久久一区二区三区| 亚洲成人激情社区| 欧美成人精品xxx| 亚洲欧美丝袜中文综合| 欧美日韩一区二区三区免费看| 精品自拍偷拍视频| 91麻豆文化传媒在线观看| 国产精品区在线| 亚洲国产片色| 亚洲人成77777| 国产一区调教| 成人av在线网址| 少妇在线看www| 蜜月aⅴ免费一区二区三区| 午夜视频免费看| 制服丝袜亚洲播放| 久久久精品视频网站 | 尤物yw午夜国产精品视频明星| 国产熟女一区二区三区四区| 欧美性猛交xxxx免费看| 欧美日韩一级大片| 亚洲国产精品ⅴa在线观看| 亚洲精品激情视频| 九一久久久久久| 中文字幕乱码人妻综合二区三区| 综合精品久久| 色播亚洲婷婷| 久久夜色电影| 91免费版黄色| 国产成人精选| 欧美在线视频一区二区| 免费在线中文字幕| 另类专区欧美制服同性| 福利小视频在线观看| 日韩av在线网| 亚洲男人天堂久久| 欧美一区二区精品| 一本一道精品欧美中文字幕| 一本一道久久a久久精品| 久久网免费视频| 亚洲欧美日韩国产成人精品影院| 精品无码国产污污污免费网站 | 亚洲女人毛茸茸高潮| 久久综合狠狠综合久久综合88| 精品久久久久久无码人妻| 国内精品视频666| 超碰人人草人人| 毛片不卡一区二区| 亚洲色图久久久| 日韩极品在线观看| 免费观看成人在线视频| 噜噜噜91成人网| 国产原创中文在线观看| 伊人成人网在线看| 免费看毛片的网址| 亚洲大黄网站| 国产精品又粗又长| 亚洲日本视频| 免费看日本毛片| 999在线观看精品免费不卡网站| 精品成在人线av无码免费看| 国内精品久久久久久久影视蜜臀| 国产青草视频在线观看| 欧美精品黄色| 精品久久久久久无码中文野结衣| 欧美另类女人| 日韩av中文字幕第一页| 影音先锋久久久| xxxx18hd亚洲hd捆绑| 国产欧美一级| 国产v亚洲v天堂无码久久久| 日产欧产美韩系列久久99| 欧美精品第三页| 久久精品国产亚洲高清剧情介绍| 国产免费又粗又猛又爽| 九九视频精品免费| 亚洲 自拍 另类 欧美 丝袜| 岛国精品在线观看| 一女三黑人理论片在线| 久久久99久久| 污污视频网站在线免费观看| 中文字幕一区二区三区色视频| 国产免费无码一区二区视频| 亚洲一区二区视频在线观看| 日韩黄色精品视频| 色综合久久综合网97色综合| 波多野结衣大片| 欧美一区二区网站| 人妻视频一区二区三区| 亚洲欧美国产日韩天堂区| 成人在线高清视频| 九九热精品视频国产| 欧美少妇网站| 国产中文字幕91| 99a精品视频在线观看| 日本一区视频在线播放| 亚洲男女av一区二区| 欧美日韩性生活片| 久久er99热精品一区二区| 久久人妻少妇嫩草av蜜桃| 91蜜桃网址入口| 亚洲成人生活片| 狠狠色噜噜狠狠狠狠97| 夜夜爽8888| 日韩精品中文字幕视频在线| 在线免费黄色| 国内精品久久久久| 国产一区高清| 国产一区不卡在线观看| 第一社区sis001原创亚洲| 97碰在线视频| 蜜桃在线一区二区三区| 免费a v网站| 国产精品成人午夜| 国产精品999在线观看| 欧美日韩国产精品成人| 后入内射欧美99二区视频| 中文字幕日本欧美| 成人bbav| 亚洲一区亚洲二区亚洲三区| 国产成人三级| 久久久久久人妻一区二区三区| 看电视剧不卡顿的网站| 黄色性生活一级片| 亚洲激情六月丁香| 欧美 亚洲 另类 激情 另类| 亚洲二区中文字幕| 50度灰在线| 国产欧美日韩免费| 亚州精品视频| 波多野结衣av一区二区全免费观看| 奇米色一区二区| 中文字幕xxx| 亚洲无人区一区| 国产黄色免费大片| 色妞一区二区三区| gogo亚洲高清大胆美女人体| 国产区一区二区三区| 欧美fxxxxxx另类| 亚洲三级在线观看视频| 国产亚洲视频系列| 欧美激情黑白配| 欧美精品一区二区三区视频| av文字幕在线观看| 国产精品视频久久久| 亚洲区小说区图片区qvod按摩| 97超碰国产精品| 国产成人亚洲综合a∨猫咪| 久久爱一区二区| 欧美日本在线观看| 欧洲不卡av| 成人在线播放av| 久久精品高清| jizzzz日本| 国产精品国产三级国产普通话蜜臀| 69视频免费看| 亚洲色无码播放| jizz亚洲女人高潮大叫| 日韩精品欧美专区| 免费在线观看一区二区三区| 国产探花视频在线播放| 欧美少妇bbb| 成人日韩欧美| 亚洲最大成人免费视频| 欧美激情综合色综合啪啪| 国产免费无码一区二区| 亚洲电影第三页| 三级在线播放| 国产精品jvid在线观看蜜臀| 国产一区二区三区四区大秀| 992kp快乐看片永久免费网址| 国产欧美日韩精品a在线观看| 中文字幕人妻一区二区三区视频| 日韩中文字幕免费| 精品国产一区二区三区性色av| 美女黄色片网站| 成人少妇影院yyyy| 黄色大片网站在线观看| 国产亚洲视频在线观看| 久久亚洲资源中文字| 福利网在线观看| 从欧美一区二区三区| 亚洲天堂一区在线观看| 在线观看精品国产视频| 精品视频成人| 免费av手机在线观看| 久久免费国产精品| 在线观看免费高清视频| 免费不卡欧美自拍视频| 精品国产午夜肉伦伦影院| 欧美日韩第二页| 国产精品久久久久久久久免费丝袜 | 992tv国产精品成人影院| 中文字幕一区二区三区在线乱码 | 99热6这里只有精品| 日韩一区二区三区电影| 老色鬼在线视频| 亚洲乱码国产乱码精品天美传媒| 国产黄人亚洲片| 尤物视频免费观看| 久久成人18免费网站| 国产精品jk白丝蜜臀av小说| 午夜免费福利在线| 亚洲一区二区三区小说| 国产综合在线观看| 亚洲一区久久久| 日韩有码一区二区三区| 免费在线观看一级片| 亚洲精品网站在线播放gif| 成人豆花视频| 日韩a在线播放| 亚洲综合免费观看高清完整版在线 | 91久久精品国产91性色69| 97视频在线看| 国产精品91一区二区三区| 玖玖爱在线观看| 精品sm捆绑视频| 在线视频成人| 国产精品第12页| 午夜a成v人精品| av网站在线免费看推荐|