精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

簡化版Transformer來了,網友:年度論文

人工智能 新聞
在最近的一篇論文中,來自 ETH Zurich 的研究者討論了如何在不影響收斂特性和下游任務性能的情況下簡化 LLM 所必需的標準 Transformer 塊。

Transformer 架構可以說是近期深度學習領域許多成功案例背后的主力軍。構建深度 Transformer 架構的一種簡單方法是將多個相同的 Transformer 「塊」(block)依次堆疊起來,但每個「塊」都比較復雜,由許多不同的組件組成,需要以特定的排列組合才能實現良好的性能。

自從 2017 年 Transformer 架構誕生以來,研究者們基于其推出了大量衍生研究,但幾乎沒有改動過 Transformer 「塊」。

那么問題來了,標準 Transformer 塊是否可以簡化?

在最近的一篇論文中,來自 ETH Zurich 的研究者討論了如何在不影響收斂特性和下游任務性能的情況下簡化 LLM 所必需的標準 Transformer 塊。基于信號傳播理論和經驗證據,他們發現可以移除一些部分,比如殘差連接、歸一化層(LayerNorm)、投影和值參數以及 MLP 序列化子塊(有利于并行布局),以簡化類似 GPT 的解碼器架構以及編碼器式 BERT 模型。

對于每個涉及的組件,研究者都探討了是否可以在不降低訓練速度的情況下將其移除(包括每次更新步驟和運行時間),以及為此需要 Transformer 塊進行哪些架構修改。

論文鏈接:https://arxiv.org/pdf/2311.01906.pdf

Lightning AI 創始人、機器學習研究者 Sebastian Raschka 將這項研究稱為自己的「年度最愛論文之一」:

但也有研究者質疑:「這很難評,除非我看過完整的訓練過程。如果沒有歸一化層,也沒有殘差連接,如何能在大于 1 億參數的網絡中進行擴展?

圖片

Sebastian Raschka 表示贊同:「是的,他們試驗的架構相對較小,這是否能推廣到數十億參數的 Transformer 上還有待觀察。」但他仍然表示這項工作令人印象深刻,并認為成功移除殘差連接是完全合理的(考慮到其初始化方案)。

對此,圖靈獎得主 Yann LeCun 的評價是:「我們僅僅觸及了深度學習架構領域的皮毛。這是一個高維空間,因此體積幾乎完全包含在表面中,但我們只觸及了表面的一小部分。

圖片

為什么需要簡化 Transformer 塊?

研究者表示,在不影響訓練速度的前提下簡化 Transformer 塊是一個有趣的研究問題。

首先,現代神經網絡架構設計復雜,包含許多組件,而這些不同組件在神經網絡訓練動態中所扮演的角色,以及它們之間如何相互作用,人們對此尚不清楚。這個問題事關深度學習理論與實踐之間存在的差距,因此非常重要。

信號傳播理論(Signal propagation)已被證明具有影響力,因為它能夠激勵深度神經網絡架構中的實際設計選擇。信號傳播研究了初始化時神經網絡中幾何信息的演化,通過跨輸入的分層表征的內積來捕捉,在訓練深度神經網絡方面取得了許多令人印象深刻的成果。

然而,目前該理論只考慮初始化時的模型,而且往往只考慮初始前向傳遞,因此無法揭示深度神經網絡訓練動態的許多復雜問題,例如殘差連接對訓練速度的助益。雖然信號傳播對修改動機至關重要,但研究者表示,他們不能僅從理論上就得出簡化的 Transformer 模塊,還要依靠經驗見解。

在實際應用方面,考慮到目前訓練和部署大型 Transformer 模型的高昂成本,Transformer 架構的訓練和推理流水線的任何效率提升都代表著巨大的潛在節約意義。如果能夠通過移除非必要組件來簡化 Transformer 模塊,既能減少參數數量,又能提高模型的吞吐量。

這篇論文也提到,移除殘差連接、值參數、投影參數和序列化子塊之后,可以同時做到在訓練速度和下游任務性能方面與標準 Transformer 相匹配。最終,研究者將參數量減少了 16%,并觀察到訓練和推理時間的吞吐量增加了 16%。

如何簡化 Transformer 塊?

研究者結合信號傳播理論和經驗觀察,介紹了如何從 Pre-LN 模塊出發,生成最簡單的 Transformer 塊(如下圖)。

圖片

在論文第四章的每一個小節,作者分別介紹了如何在不影響訓練速度的情況下每次刪除一個塊組件。

這一部分的所有實驗都在 CodeParrot 數據集上使用了一個 18-block 768-width 的因果僅解碼器類 GPT 模型,這個數據集足夠大,因此當作者處于單個訓練 epoch 模式時,泛化差距非常小(見圖 2),這使得他們可以專注于訓練速度。

圖片

刪除殘差連接

研究者首先考慮刪除注意力子塊中的殘差連接。在公式(1)的符號中,這相當于將 α_SA 固定為 0。簡單地移除注意力殘差連接會導致信號退化,即秩崩潰(rank collapse),從而導致可訓練性差。在論文 4.1 部分,研究者詳細解釋了他們的方法。

圖片

刪除投影 / 值參數

從圖 3 中可以得出結論,完全移除值和投影參數 W^V、W^P 是可能的,而且每次更新的訓練速度損失最小。也就是說,當 β_V = β_P = 0 和 identity 初始化的

圖片

時,在相同的訓練步數后,本研究基本上能達到 Pre-LN 塊的性能。在這種情況下,在整個訓練過程中都有 W^V = W^P = I,即值和投影參數是一致的。作者在 4.2 節介紹了詳細方法。

圖片

刪除 MLP 子塊殘差連接

與上述幾個模塊相比,刪除 MLP 子塊殘差連接要更具挑戰性。與之前的研究一樣,作者發現,在使用 Adam 時,如果沒有 MLP 殘差連接,通過信號傳播使激活更加線性仍會導致每次更新訓練速度的顯著下降,如圖 22 所示。

圖片

他們還嘗試了 Looks Linear 初始化的各種變體,包括高斯權重、正交權重或恒等權重,但都無濟于事。因此,他們在整個工作中使用標準激活(例如 ReLU)和 MLP 子塊中的初始化。

作者轉向并行 MHA 和 MLP 子塊的概念,這在幾個近期的大型 transformer 模型中已被證明很受歡迎,例如 PALM 和 ViT-22B。并行 transformer 塊如下圖所示。

圖片

作者在論文 4.3 節詳細介紹了移除 MLP 子塊殘差連接的具體操作。

刪除歸一化層

最后一個被刪除的是歸一化層,這樣就得到了圖 1 右上角的最簡塊。從信號傳播初始化的角度來看,作者可以在本節簡化的任何階段移除歸一化層。他們的想法是,Pre-LN 塊中的歸一化會隱式地降低殘差分支的權重,而這種有利的效果可以通過另一種機制在沒有歸一化層的情況下復制:要么在使用殘差連接時明確降低殘差分支的權重,要么將注意力矩陣偏向 identity / 將 MLP 非線性轉化為「更」線性。

由于作者在修改過程中考慮到了這些機制(如降低 MLP β_FF 和 Shaped Attention 的權重),因此無需進行歸一化處理。作者在第 4.4 節介紹了更多信息。

實驗結果

深度擴展

鑒于信號傳播理論通常關注很大的深度,而這種情況下通常會出現信號退化。因此一個很自然的問題就是,本文的簡化 transformer 塊所提高的訓練速度是否也能擴展到更大的深度?

從圖 6 中可以觀察到,將深度從 18 個塊擴展到 72 個塊后,本研究的模型和 Pre-LN transformer 的性能都得到了提高,這表明本研究中的簡化模型不僅訓練速度更快,而且還能利用更大的深度所提供的額外能力。事實上,在使用歸一化時,本研究中的簡化塊和 Pre-LN 的每次更新軌跡在不同深度下幾乎沒有區別。

圖片

BERT

接下來,作者展示了他們的簡化塊性能除了適用于自回歸解碼器之外,還適用于不同的數據集和架構,以及下游任務。他們選擇了雙向僅編碼器 BERT 模型的流行設置,用于掩蔽語言建模,并采用下游 GLUE 基準。

如圖 7 所示,在 24 小時運行時內,與(Crammed)Pre-LN 基線相比,本研究的簡化塊可以媲美掩蔽語言建模任務的預訓練速度。另一方面,在不修改值和投影的情況下刪除殘差連接再次導致訓練速度的顯著下降。在圖 24 中,作者提供了 microbatch 步驟的等效圖。

圖片

此外,在表 1 中,研究者發現他們的方法在 GLUE 基準上經過微調后,性能與 Crammed BERT 基準相當。

圖片

他們在表 2 中對下游任務進行了細分。為了進行公平比較,他們使用了與 Geiping & Goldstein (2023) 相同的微調協議(5 個 epoch、各任務超參數恒定、dropout regularisation)。

圖片

效率提升

在表 1 中,研究者還詳細列出了使用不同 Transformer 塊的模型在掩蔽語言建模任務中的參數數量和訓練速度。他們以預訓練 24 小時內所采取的 microbatch 步驟數與基線 Pre-LN Crammed BERT 的比率計算了速度。結論是,模型使用的參數減少了 16%,SAS-P 和 SAS 的每次迭代速度分別比 Pre-LN 塊快 16% 和 9%。

可以注意到,在這里的實現中,并行塊只比 Pre-LN 塊快 5%,而 Chowdhery et al.(2022 )觀察到的訓練速度則快 15%,這表明通過更優化的實現,整個訓練速度有可能進一步提高。與 Geiping & Goldstein(2023 年)一樣,此處實現也使用了 PyTorch 中的自動算子融合技術 (Sarofeen et al., 2022)。

更長的訓練

最后,考慮到當前在更多數據上長時間訓練較小模型的趨勢,研究者討論了簡化塊在長時間訓練后是否仍能達到 Pre-LN 塊的訓練速度。為此,他們在 CodeParrot 上使用圖 5 中的模型,并使用 3 倍 token 進行訓練。準確地說,是在批大小為 128、序列長度為 128 的情況下進行了約 120K 步(而不是 40K 步)的訓練,這將導致約 2B 個 token。

從圖 8 可以看出,當使用更多的 token 進行訓練時,簡化的 SAS 和 SAS-P 代碼塊的訓練速度仍然與 PreLN 代碼塊相當,甚至優于 PreLN 代碼塊。

圖片

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2010-05-17 15:50:06

2009-12-17 15:59:44

VS2010簡化版

2015-03-16 14:09:33

GoogleUbuntuDocker

2009-06-01 09:04:15

Windows 7微軟操作系統

2010-08-04 13:30:07

Visual Stud

2023-02-28 12:41:20

2013-07-03 10:38:17

CA Technolo

2017-12-06 14:39:05

Android手機操作系統

2022-06-06 15:56:22

Google自動駕駛系統Android汽車

2010-06-21 13:17:35

office2010

2016-03-24 14:01:36

三星電子物聯網操作系統Tizen

2024-08-15 11:37:05

2025-10-24 10:34:55

2022-12-08 08:27:18

HystrixQPS數據

2019-12-04 17:49:11

戴爾

2025-07-14 08:50:00

語言模型AI論文

2025-11-12 08:56:15

2022-04-11 09:20:00

模型訓練

2024-05-13 10:38:08

2023-05-09 17:18:35

代碼AI
點贊
收藏

51CTO技術棧公眾號

亚洲国产精品久久久久| 伊人夜夜躁av伊人久久| 国产欧美日韩专区发布| 欧美成人免费观看视频 | 精品福利免费观看| 色就是色欧美| 深爱激情五月婷婷| 久久国产精品99久久人人澡| 国产+人+亚洲| 亚洲一二三四五六区| 卡一精品卡二卡三网站乱码| 欧美性受xxxx黑人xyx| 青青草国产免费| 日韩伦理在线观看| 2019国产精品| 99re在线| 丰满人妻一区二区三区四区| 亚洲激情在线| 久久91超碰青草是什么| 人妻少妇无码精品视频区| 秋霞一区二区| 欧美性视频一区二区三区| 免费超爽大片黄| www免费视频观看在线| 中国色在线观看另类| 久久综合福利| 欧美在线 | 亚洲| 国产一区二区不卡| 国产精品中文在线| 国产一级一级国产| 国产一区二区精品| 欧美激情一区二区三区成人 | 亚洲一区二区三区在线播放| 日韩亚洲视频| 蝌蚪视频在线播放| 国产河南妇女毛片精品久久久 | 久热国产精品视频| 美国黄色特级片| 要久久爱电视剧全集完整观看| 日韩欧美一级精品久久| 看看黄色一级片| 成人免费视频观看| 欧洲亚洲精品在线| av无码精品一区二区三区| 日本乱码一区二区三区不卡| 亚洲国产综合人成综合网站| 女人色极品影院| 影音先锋在线视频| 亚洲精品免费在线| 成人免费a级片| 草美女在线观看| 天天做天天摸天天爽国产一区| 蜜臀精品一区二区| 91白丝在线| 亚洲va欧美va天堂v国产综合| 国产尤物av一区二区三区| 丁香花在线观看完整版电影| 亚洲一区二区三区激情| 日韩国产一级片| а√天堂8资源在线| 欧美日韩性视频| 粗暴91大变态调教| 99精品国自产在线| 欧美精品1区2区3区| 亚洲高清在线不卡| 91麻豆精品国产91久久久久推荐资源| 精品1区2区在线观看| 男人网站在线观看| 免费精品国产的网站免费观看| 亚洲欧美激情精品一区二区| 国产精品高清无码在线观看| 国产精品视频一区二区三区四蜜臂| 亚洲人成电影网站色…| 欧美aaa级片| 在线精品小视频| 久久久影视精品| 亚洲 日本 欧美 中文幕| 男女男精品网站| 国产日韩欧美91| 亚洲国产一二三区| 久久亚洲免费视频| 在线观看日韩羞羞视频| 天堂av中文在线| 色94色欧美sute亚洲13| 亚洲一区二区偷拍| 秋霞影视一区二区三区| 中文字幕亚洲字幕| 国产一级片视频| 三级欧美在线一区| 91最新在线免费观看| 日韩精品视频在线观看一区二区三区| 欧美经典一区二区| 欧美一级片免费播放| 日韩高清在线| 日韩天堂在线观看| 日韩丰满少妇无码内射| 欧美激情91| 国产精品扒开腿做爽爽爽男男| a毛片在线免费观看| 26uuu久久天堂性欧美| 亚洲欧洲日本国产| 亚洲妇女成熟| 日韩一本二本av| 麻豆精品免费视频| 欧美午夜在线视频| 国产精品久久一| 天天射天天操天天干| 亚洲日本一区二区三区| 男女av免费观看| 99精品在免费线中文字幕网站一区| 亚洲性猛交xxxxwww| 国产一级在线观看视频| 麻豆视频观看网址久久| 久久艳妇乳肉豪妇荡乳av| 中文字幕中文字幕在线十八区| 色域天天综合网| 国产人妻精品午夜福利免费| 久久精品国产99久久| 2019精品视频| 亚洲国产综合一区| 亚洲欧美日韩久久| 五月激情婷婷在线| 国产一区二区欧美| 91高清免费视频| 日本精品一二区| 亚洲激情图片qvod| 九九久久久久久| 久久美女视频| 国产精品视频网| 国产美女性感在线观看懂色av| 亚洲成人精品在线观看| 国产又粗又猛大又黄又爽| 日韩在线观看电影完整版高清免费悬疑悬疑 | 日本美女在线中文版| 91福利区一区二区三区| 黄色a一级视频| 亚洲一区激情| 久99久在线| 深夜成人在线| 亚洲精品720p| a v视频在线观看| 99久久亚洲一区二区三区青草| 福利视频一区二区三区四区| h视频久久久| 午夜精品一区二区三区在线| 欧美特级特黄aaaaaa在线看| 亚洲国产一区二区视频| 亚洲一区二区在线免费| 91久久黄色| 久久福利电影| 欧美成人免费电影| 一本久久综合亚洲鲁鲁| 中文字幕在线播放av| 国产日韩精品视频一区| 在线观看的毛片| 国产欧美高清视频在线| 国产精品欧美一区二区| 色综合久久影院| 91麻豆精品国产自产在线| 国产极品国产极品| 国产成人精品综合在线观看| 成人黄色大片网站| 亚洲瘦老头同性70tv| 日本一区二区不卡| 69视频在线观看| 91精品国产综合久久婷婷香蕉| 91视频综合网| av电影在线观看一区| 岳毛多又紧做起爽| 日韩精品首页| 97人人模人人爽人人喊38tv| 国产高清视频色在线www| 亚洲精品视频在线播放| 中文字幕1区2区3区| 亚洲视频香蕉人妖| 污污污www精品国产网站| 久久婷婷激情| 精品国产三级a∨在线| 好吊妞视频这里有精品| 国产成人精品一区二区三区| 免费在线观看黄色| 亚洲高清久久久久久| 中文在线资源天堂| 一区二区三区视频在线看| 男男做爰猛烈叫床爽爽小说| 青草av.久久免费一区| 人妻无码一区二区三区四区| 国产99久久| 97在线中文字幕| av免费在线一区| 欧美精品videosex性欧美| 日本高清中文字幕二区在线| 欧美美女黄视频| 青青草av在线播放| 亚洲欧美日本韩国| 亚洲激情视频小说| 成人性生交大合| 国产喷水theporn| 在线亚洲免费| 亚洲黄色网址在线观看| 国产a久久精品一区二区三区| 亚洲bt天天射| 午夜激情成人网| 午夜精品久久久久久久久久久久 | 日韩欧美一区二区三区在线视频| 国产精品国产精品国产专区蜜臀ah | 精品久久久久久久久久| 久草手机视频在线观看| 久久丝袜美腿综合| 午夜不卡久久精品无码免费| 久久99国产精品尤物| 国产偷人视频免费| 好吊日精品视频| 裸体大乳女做爰69| 大胆日韩av| 奇米精品在线| 啪啪国产精品| 国产精品一区在线观看| 日韩精品一区国产| 成人免费网站在线观看| 暖暖成人免费视频| 欧美亚洲一区在线| 成人观看网址| 97不卡在线视频| 成人影音在线| 欧美国产日本高清在线| www.欧美日本韩国| 欧美另类在线观看| 久久黄色美女电影| 日韩亚洲综合在线| 日本在线人成| 色av中文字幕一区| 天堂аⅴ在线地址8| 最近2019免费中文字幕视频三| 加勒比一区二区三区在线| 日韩久久免费视频| 同心难改在线观看| 亚洲精品一区av在线播放| 午夜成人免费影院| 日韩av一区二区在线| 人人妻人人澡人人爽久久av| 精品国产乱码久久久久久1区2区| 亚洲AV无码一区二区三区性| 欧美一二区视频| 亚洲国产视频一区二区三区| 精品国产一区二区三区忘忧草| 成人av免费播放| 日韩欧美在线网站| 亚洲成a人片在线| 精品国精品自拍自在线| 色婷婷中文字幕| 亚洲欧美综合精品久久成人| 九色蝌蚪在线| 爽爽爽爽爽爽爽成人免费观看| 日本不卡视频| 欧美激情免费在线| 超级白嫩亚洲国产第一| 日本一区二区不卡| 欧洲精品久久久久毛片完整版| 成人深夜直播免费观看| 日韩中文字幕视频网| 精品乱色一区二区中文字幕| 九九热爱视频精品视频| 日韩av一级大片| 成人黄色av| 污污污污污污www网站免费| 一区二区动漫| 我要看一级黄色大片| 国产精品正在播放| 亚洲激情 欧美| 久久久亚洲午夜电影| 少妇视频一区二区| 亚洲自拍偷拍av| 欧美一区二区三区不卡视频| 欧美男同性恋视频网站| 女人18毛片一区二区三区| 亚洲欧美国产日韩中文字幕| 美女国产在线| 51ⅴ精品国产91久久久久久| www.精品国产| 国产精品乱码| 久久精品国产68国产精品亚洲| 成年丰满熟妇午夜免费视频| 久久av在线| 色婷婷综合在线观看| 久久久久久久久久看片| 国内偷拍精品视频| 一本大道久久a久久综合 | 亚洲激情国产精品| av在线三区| 久久久免费观看视频| 精品久久毛片| 精品国产电影| 97偷自拍亚洲综合二区| 国产二区视频在线播放| 国产在线精品免费| 公侵犯人妻一区二区三区| 亚洲乱码国产乱码精品精可以看 | 日本精品600av| 国产精品激情av电影在线观看| 爱高潮www亚洲精品| 在线观看福利一区| 久久精品首页| 毛茸茸free性熟hd| 亚洲人妖av一区二区| 日本中文字幕在线观看视频| 精品国产一区二区三区av性色| wwwww在线观看免费视频| 性欧美在线看片a免费观看| 美女精品视频在线| 亚洲一区二区高清视频| 久久久久中文| 精品影片一区二区入口| 亚洲黄网站在线观看| 在线免费观看高清视频| 亚洲片av在线| 在线看片福利| 国产一区二区高清视频| 欧美福利网址| 日日干日日操日日射| 国产精品天美传媒| 欧美男人亚洲天堂| 亚洲美女性视频| 激情av在线| 99re6在线| 自拍欧美日韩| 无码人妻少妇色欲av一区二区| 中文字幕成人在线观看| 麻豆精品久久久久久久99蜜桃| 精品欧美一区二区久久| 手机av在线播放| 999热视频| 黄色在线一区| 9.1在线观看免费| 亚洲女人小视频在线观看| ,一级淫片a看免费| 日韩中文字幕网址| 日韩av黄色| 天天综合中文字幕| 国内外成人在线视频| 一区二区国产精品精华液| 欧美老人xxxx18| 麻豆视频在线免费观看| 成人淫片在线看| 亚洲一区在线| 麻豆精品国产传媒| 亚洲国产毛片aaaaa无费看 | 97免费视频观看| 成人精品在线视频观看| 国产黄色片视频| 亚洲精品国产综合久久| 天堂а√在线最新版中文在线| 久久成人资源| 日韩电影一区二区三区四区| 天天干天天舔天天操| 欧美日韩1234| 三级福利片在线观看| 国产精品污www一区二区三区| 99热这里只有成人精品国产| 黄色在线观看av| 日本高清不卡aⅴ免费网站| 成年网站在线| 91视频最新| 午夜宅男久久久| 少妇的滋味中文字幕bd| 日韩欧美卡一卡二| 色在线视频观看| 亚洲 国产 欧美一区| 狠狠色丁香久久婷婷综合丁香| 校园春色 亚洲| 精品一区二区三区四区| 欧美爱爱视频| 草b视频在线观看| 日本一区二区成人| 国产黄色片免费观看| 热99在线视频| 66国产精品| 国产人妻人伦精品1国产丝袜| 欧美色涩在线第一页| 精灵使的剑舞无删减版在线观看| 精品日本一区二区三区在线观看| 日韩电影免费在线看| 久久久久亚洲av无码专区体验| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 亚洲一区二区三区免费观看| 国产麻豆视频精品| 国产精品va无码一区二区三区| 日韩在线观看免费全| 红杏aⅴ成人免费视频| 亚洲人辣妹窥探嘘嘘| 亚洲国产另类精品专区| 幼a在线观看| 精品国产乱码久久久久| 蜜桃av噜噜一区| 亚洲免费激情视频| 日韩中文第一页| 香蕉一区二区| 欧美一级片在线免费观看| 欧美在线观看视频一区二区三区| 狂野欧美性猛交xxxxx视频|