精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Transformer的上下文學習能力是哪來的?

人工智能 新聞
最近,來自 Google AI、蘇黎世聯(lián)邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。

為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領(lǐng)域里,transformer 已成為深度學習中的主導(dǎo)模型,但人們對于它卓越性能的理論基礎(chǔ)卻一直研究不足。

最近,來自 Google AI、蘇黎世聯(lián)邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對 transformer 進行了逆向工程,尋找到了一些優(yōu)化方法。論文《Uncovering mesa-optimization algorithms in Transformers》:

論文鏈接:https://arxiv.org/abs/2309.05858

作者證明,最小化通用自回歸損失會產(chǎn)生在 Transformer 的前向傳遞中運行的基于輔助梯度的優(yōu)化算法。這種現(xiàn)象最近被稱為「mesa 優(yōu)化(mesa-optimization)」。此外,研究人員發(fā)現(xiàn)所得的 mesa 優(yōu)化算法表現(xiàn)出上下文中的小樣本學習能力,與模型規(guī)模無關(guān)。因此,新的結(jié)果對此前大語言模型中出現(xiàn)的小樣本學習的原理進行了補充。

研究人員認為:Transformers 的成功基于其在前向傳遞中實現(xiàn) mesa 優(yōu)化算法的架構(gòu)偏差:(i) 定義內(nèi)部學習目標,以及 (ii) 對其進行優(yōu)化。

圖 1:新假設(shè)的說明:優(yōu)化自回歸 Transformer fθ 的權(quán)重 θ 會產(chǎn)生在模型前向傳播中實現(xiàn)的 mesa 優(yōu)化算法。作為輸入序列 s_1, . 。。, s_t 被處理到時間步 t,Transformer (i) 創(chuàng)建一個由輸入 - 目標關(guān)聯(lián)對組成的內(nèi)部訓練集,(ii) 通過結(jié)果數(shù)據(jù)集定義內(nèi)部目標函數(shù),用于衡量內(nèi)部模型的性能 使用權(quán)重 W,(iii) 優(yōu)化該目標并使用學習的模型生成未來的預(yù)測圖片

該研究的貢獻包括:

  • 概括了 von Oswald 等人的理論,并展示了從理論上,Transformers 是如何通過使用基于梯度的方法優(yōu)化內(nèi)部構(gòu)建的目標來自回歸預(yù)測序列下一個元素的。
  • 通過實驗對在簡單序列建模任務(wù)上訓練的 Transformer 進行了逆向工程,并發(fā)現(xiàn)強有力的證據(jù)表明它們的前向傳遞實現(xiàn)了兩步算法:(i) 早期自注意力層通過分組和復(fù)制標記構(gòu)建內(nèi)部訓練數(shù)據(jù)集,因此隱式地構(gòu)建內(nèi)部訓練數(shù)據(jù)集。定義內(nèi)部目標函數(shù),(ii) 更深層次優(yōu)化這些目標以生成預(yù)測。
  • 與 LLM 類似,實驗表明簡單的自回歸訓練模型也可以成為上下文學習者,而即時調(diào)整對于改善 LLM 的上下文學習至關(guān)重要,也可以提高特定環(huán)境中的表現(xiàn)。
  • 受發(fā)現(xiàn)注意力層試圖隱式優(yōu)化內(nèi)部目標函數(shù)的啟發(fā),作者引入了 mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優(yōu)化問題,而不是僅采取單個梯度步驟來實現(xiàn)最優(yōu)。實驗證明單個 mesa 層在簡單的順序任務(wù)上優(yōu)于深度線性和 softmax 自注意力 Transformer,同時提供更多的可解釋性。


  • 在初步的語言建模實驗后發(fā)現(xiàn),用 mesa 層替換標準的自注意力層獲得了有希望的結(jié)果,證明了該層具有強大的上下文學習能力。

基于最近人們的工作表明,經(jīng)過明確訓練來解決上下文中的小樣本任務(wù)的 transformer 可以實現(xiàn)梯度下降(GD)算法。在這里,作者展示了這些結(jié)果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。

首先分析在簡單線性動力學上訓練的 transformer,其中每個序列由不同的 W* 生成 - 以防止跨序列記憶。在這個簡單的設(shè)置中,作者展示了 transformer 創(chuàng)建 mesa 數(shù)據(jù)集,然后使用預(yù)處理的 GD 優(yōu)化 mesa 目標。

圖片

該研究在聚合相鄰序列元素的 token 結(jié)構(gòu)上訓練深度 transformer。有趣的是,這種簡單的預(yù)處理會產(chǎn)生極其稀疏的權(quán)重矩陣(只有不到 1% 的權(quán)重非零),從而產(chǎn)生逆向工程算法。

圖片

對于單層線性自注意力,權(quán)重對應(yīng)一個 GD 步驟。對于深度 transformer,可解釋性就變得困難。該研究依靠線性探測并檢查隱藏激活是否可以預(yù)測自回歸目標或預(yù)處理輸入。

有趣的是,兩種探測方法的可預(yù)測性都會隨著網(wǎng)絡(luò)深度的增加而逐漸提高。這一發(fā)現(xiàn)表明模型中隱藏著預(yù)處理的 GD。

圖 2:對經(jīng)過訓練的線性自注意力層進行逆向工程。

該研究發(fā)現(xiàn),在構(gòu)建中使用所有自由度時,可以完美地擬合訓練層,不僅包括學習的學習率 η,還包括一組學習的初始權(quán)重 W_0。重要的是,如圖 2 所示,學得的 one-step 算法的性能仍然遠遠優(yōu)于單個 mesa 層。

我們可以注意到,在簡單的權(quán)重設(shè)置下,很容易通過基礎(chǔ)優(yōu)化發(fā)現(xiàn),該層可以最優(yōu)地解決此處研究的任務(wù)。該結(jié)果證明了硬編碼歸納偏差有利于 mesa 優(yōu)化的優(yōu)勢。

憑借對多層案例的理論見解,先分析深度線性和 softmax 僅注意 Transformer。作者根據(jù) 4 通道結(jié)構(gòu)設(shè)置輸入格式,圖片,這對應(yīng)于選擇 W_0 = 0。

與單層模型一樣,作者在訓練模型的權(quán)重中看到了清晰的結(jié)構(gòu)。作為第一個逆向工程分析,該研究利用這個結(jié)構(gòu)并構(gòu)建一個算法(RevAlg-d,其中 d 表示層數(shù)),每個層頭包含 16 個參數(shù)(而不是 3200 個)。作者發(fā)現(xiàn)這種壓縮但復(fù)雜的表達式可以描述經(jīng)過訓練的模型。特別是,它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權(quán)重之間進行插值。

雖然 RevAlg-d 表達式解釋了具有少量自由參數(shù)的經(jīng)過訓練的多層 Transformer,但很難將其解釋為 mesa 優(yōu)化算法。因此,作者采用線性回歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設(shè)的 mesa 優(yōu)化算法的特征。

在圖 3 所示的深度線性自注意力 Transformer 上,我們可以看到兩個探針都可以線性解碼,解碼性能隨著序列長度和網(wǎng)絡(luò)深度的增加而增加。因此,基礎(chǔ)優(yōu)化發(fā)現(xiàn)了一種混合算法,該算法在原始 mesa-objective Lt (W) 的基礎(chǔ)上逐層下降,同時改進 mesa 優(yōu)化問題的條件數(shù)。這導(dǎo)致  mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。

因此可以認為自回歸 mesa-objective Lt (W) 的快速下降是通過對更好的預(yù)處理數(shù)據(jù)進行逐步(跨層)mesa 優(yōu)化來實現(xiàn)的。

圖 3:對構(gòu)建的 token 輸入進行逆向工程的多層 Transformer 訓練。

這表明,如果 transformer 在構(gòu)建的 token 上進行訓練,它就會通過 mesa 優(yōu)化進行預(yù)測。有趣的是,當直接給出序列元素時,transformer 會自行通過對元素進行分組來構(gòu)造 token,研究團隊將其稱為「創(chuàng)建 mesa 數(shù)據(jù)集」。

結(jié)論

該研究表明,當在標準自回歸目標下針對序列預(yù)測任務(wù)進行訓練時,Transformer 模型能夠開發(fā)基于梯度的推理算法。因此,在多任務(wù)、元學習設(shè)置下獲得的最新結(jié)果也可以轉(zhuǎn)化到傳統(tǒng)的自監(jiān)督 LLM 訓練設(shè)置中。

此外,該研究還發(fā)現(xiàn)學得的自回歸推理算法可以在無需重新訓練的情況下重新調(diào)整用途,以解決有監(jiān)督的上下文學習任務(wù),從而在單個統(tǒng)一框架內(nèi)解釋結(jié)果。

那么,這些與上下文學習(in-context learning)有什么關(guān)系呢?該研究認為:在自回歸序列任務(wù)上訓練 transformer 后,它實現(xiàn)了適當?shù)?mesa 優(yōu)化,因此可以進行少樣本(few-shot)上下文學習,而無需任何微調(diào)。

該研究假設(shè) LLM 也存在 mesa 優(yōu)化,從而提高了其上下文學習能力。有趣的是,該研究還觀察到,為 LLM 有效調(diào)整 prompt 也可以帶來上下文學習能力的實質(zhì)性改進。


圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-15 15:45:42

自然語言語言模型

2024-11-04 08:45:00

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-03-18 08:14:05

2023-03-31 13:37:34

研究

2023-07-09 15:09:18

機器學習能力

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2023-07-11 10:02:23

2022-04-24 15:37:26

LinuxCPU

2025-10-31 01:00:00

2025-04-07 01:02:00

GoAPI語言

2024-03-14 08:11:45

模型RoPELlama

2025-05-29 02:11:00

2023-11-03 12:55:00

數(shù)據(jù)文本

2025-10-13 08:00:00

2021-09-06 14:53:15

人工智能機器學習技術(shù)

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2012-07-18 11:39:18

ibmdw

2022-09-26 23:36:33

Linux系統(tǒng)CPU
點贊
收藏

51CTO技術(shù)棧公眾號

一区二区欧美精品| 国产精品中文字幕日韩精品| 亚洲欧美日韩高清| 午夜激情av在线| 久久日韩视频| proumb性欧美在线观看| 国产精品一香蕉国产线看观看| 国产午夜精品理论片| 国产成人精品亚洲线观看| 日韩欧美999| 天堂av在线中文| 免费国产黄色片| 奇米一区二区三区| 午夜精品久久久久久久久久久久| av电影网站在线观看| 综合视频一区| 欧美日韩一级黄| 国产3p露脸普通话对白| 日本网站在线免费观看视频| 不卡大黄网站免费看| 国产精品一区二区女厕厕| 日产欧产va高清| 国产精品久久久久无码av| 日韩成人av网址| 日韩av影视大全| 97成人超碰| 狠狠爱在线视频一区| 国产女人18毛片| 亚洲s色大片| 久久伊人中文字幕| 国产超碰91| 国产精品久久久久久免费| 视频一区欧美精品| 91av视频在线免费观看| 久久久久成人精品无码| 亚洲h色精品| 在线亚洲午夜片av大片| 加勒比一区二区| 欧美亚洲色图校园春色| 日韩欧美在线网站| 欧美国产日韩另类| 国产精品第一| 色老综合老女人久久久| 国产视频九色蝌蚪| 678在线观看视频| 一区二区日韩电影| 777久久精品一区二区三区无码 | 日韩精品免费观看| 国产69视频在线观看| 日韩欧美久久| 欧美一区日韩一区| www激情五月| 国产精品视频一区二区三区| 欧美剧在线免费观看网站| 国产一区二区在线免费播放| 国产综合av| 欧美中文字幕久久| 久久久久免费精品| 欧美日韩尤物久久| 欧美老肥妇做.爰bbww| 国内外成人免费在线视频| 国产综合色在线观看| 欧美亚洲动漫另类| 成年网站免费在线观看| 亚洲欧美一级| 欧美一级生活片| 日韩女优在线视频| 麻豆一区二区| zzijzzij亚洲日本少妇熟睡| 91免费看网站| 欧美一区,二区| 99re这里只有精品视频首页| 国产综合欧美在线看| 亚洲 欧美 精品| 9久草视频在线视频精品| 精品一区二区三区日本| 免费a级毛片在线观看| 日本一区二区三区免费乱视频| 欧美中文娱乐网| 欧美性videos| 亚洲永久免费视频| 美女福利视频在线| 国产91ⅴ在线精品免费观看| 99久久久无码国产精品免费蜜柚| 青青草精品视频| 亚洲伊人久久大香线蕉av| 黄色av免费观看| 国产婷婷色一区二区三区| 在线观看福利一区| 日本大胆在线观看| 日本久久精品电影| 992tv人人草| 久久丝袜视频| 神马久久桃色视频| 日韩xxxxxxxxx| 青青青爽久久午夜综合久久午夜| 99久久精品免费看国产四区| 暖暖视频在线免费观看| 综合欧美一区二区三区| 国产www免费| 国产成人午夜性a一级毛片| 欧美一级一区二区| 久久亚洲无码视频| 极品av少妇一区二区| 国产精品老女人视频| 亚洲国产www| 亚洲国产精品av| 少妇高潮喷水在线观看| 亚洲午夜国产成人| 精品一区电影国产| 久久久久亚洲天堂| 蜜桃视频一区二区三区| 国产一区二区久久久| 日本中文字幕在线播放| 激情成人在线视频| 巨乳女教师的诱惑| 日韩精品dvd| 日本成人黄色片| 国产成人无码www免费视频播放| 亚洲国产精品t66y| 日本在线视频www| 国产精品tv| 欧美裸体xxxx极品少妇| 亚洲天堂手机在线| 久久精品欧美一区二区三区不卡| 日韩小视频网站| 国产中文欧美日韩在线| 中文字幕日韩欧美精品在线观看| 国产午夜免费福利| gogogo免费视频观看亚洲一| 国产精品免费看久久久无码| www.久久久.com| 色哟哟入口国产精品| 精品久久久久久久久久久久久久久久| 大尺度一区二区| 国产精品无码电影在线观看| 亚洲精品自拍| 播播国产欧美激情| 在线观看免费黄色小视频| 国产亚洲精品福利| 青青在线视频免费| 精品国产一区二区三区久久久樱花 | 毛片av一区二区三区| 久久精品国产精品国产精品污 | 亚洲一级片网站| 欧美日一区二区| 热久久美女精品天天吊色| 亚洲日本国产精品| 精品福利樱桃av导航| 日韩aaaaa| 亚洲一区二区三区高清| 久久精品国产一区二区三区日韩 | 国产精品一区二区三区在线播放| 国产在线中文字幕| 欧美视频一区在线| 国产传媒免费在线观看| 国产一区二区久久| 国产精品综合久久久| 成人午夜电影在线观看| 在线区一区二视频| 成年人免费视频播放| 国产真实精品久久二三区| 丰满女人性猛交| 午夜精品在线| 国产91对白在线播放| 国产精品毛片一区二区三区四区| 欧美无砖砖区免费| 欧美色图亚洲视频| av一本久道久久综合久久鬼色| 黄色一级视频片| 成人三级视频| 91在线观看免费观看 | 欧洲精品久久一区二区| 精品福利一区二区| 国产精品视频在| 国产毛片一区二区| 青青艹视频在线| blacked蜜桃精品一区| 国产在线视频欧美| av在线播放资源| 亚洲网站在线看| 免费三片在线播放| 91在线播放网址| 校园春色 亚洲色图| 久久久久国产精品| 国产一区二区三区四区hd| 久久夜夜操妹子| 久久最新资源网| 亚洲人妻一区二区三区| 欧美精品九九99久久| 国产午夜精品无码一区二区| 久久久电影一区二区三区| 91精产国品一二三产区别沈先生| 精品福利av| 丝袜足脚交91精品| 成人午夜网址| 国产精品亚洲视频在线观看| 成人av影院在线观看| 中文字幕av一区二区| 亚洲精品国产一区二| 欧美在线视频日韩| 国产精品第108页| 国产精品免费视频网站| xxxxxx黄色| 国产在线不卡一区| 女性隐私黄www网站视频| 在线精品国产| 亚欧精品在线| 午夜精品福利影院| 99精品国产一区二区| h1515四虎成人| 欧美性做爰毛片| 精品国产99久久久久久| 亚洲新中文字幕| 少妇又色又爽又黄的视频| 欧美夫妻性生活| 不卡av电影在线| 午夜国产精品一区| 九九热视频精品| 国产精品麻豆视频| 欧美大波大乳巨大乳| 成人app下载| 亚洲最大视频网| 韩国三级中文字幕hd久久精品| 激情五月开心婷婷| 亚洲精品1区2区| 国产乱子伦精品视频| 久久中文字幕二区| 日本不卡一区二区三区在线观看| 欧美电影在线观看完整版| av日韩免费电影| 久久久久毛片免费观看| 91免费看国产| 国产aa精品| 国产又爽又黄的激情精品视频| 美女写真久久影院| 国产99久久精品一区二区| 色吧亚洲日本| 青青青国产精品一区二区| 黑森林国产精品av| 性金发美女69hd大尺寸| 黄色污污视频在线观看| 欧美高清在线视频观看不卡| 国产激情在线| 久久999免费视频| 女同视频在线观看| 欧美精品www在线观看| 日韩成人伦理| 久久久免费高清电视剧观看| 牛牛精品视频在线| 久久久久久亚洲精品中文字幕| 女同视频在线观看| 性欧美在线看片a免费观看| 91九色国产在线播放| 777午夜精品福利在线观看| 亚洲精品88| 国产成人精品免高潮在线观看| 亚洲欧洲自拍| 国产精品久久久久一区二区| 精品自拍视频| 91中文字幕一区| 8848成人影院| 久久综合伊人77777麻豆| 蜜乳av综合| 亚洲精品成人自拍| 亚洲欧美偷拍自拍| 国产手机免费视频| 久久久久久9| 鲁一鲁一鲁一鲁一av| 国产一区二区福利视频| 国产女主播在线播放| 久久久久久影视| 国产人与禽zoz0性伦| 亚洲男人的天堂在线观看| 国产精品.www| 在线观看亚洲成人| 国产ts人妖调教重口男| 欧美精品一区二区不卡| 国产精品一区在线看| 久久久国产精品x99av | 国产亚洲电影| 熟妇熟女乱妇乱女网站| 亚洲美女91| 成人午夜视频免费在线观看| 美女视频第一区二区三区免费观看网站| 无套内谢丰满少妇中文字幕| zzijzzij亚洲日本少妇熟睡| 黄色激情小视频| 亚洲国产精品久久久久秋霞影院| 天干夜夜爽爽日日日日| 91精品国产aⅴ一区二区| 亚洲aⅴ乱码精品成人区| 久久国产一区二区三区| av手机在线观看| 91精品视频播放| 色吊丝一区二区| 在线观看免费黄色片| 国产视频一区三区| 国产xxxxhd| 国产欧美日本一区二区三区| 69av.com| 欧美性videosxxxxx| 天堂网av2014| 久久香蕉频线观| 亚洲第一会所| 成人免费视频97| 狠狠做六月爱婷婷综合aⅴ| 日本香蕉视频在线观看| 免费一区二区视频| 黄色国产在线观看| 一区二区三区中文在线观看| 欧美激情一区二区三区免费观看| 亚洲精品在线电影| 日本三级视频在线观看| 日本老师69xxx| 加勒比色老久久爱综合网| 亚洲制服中文| 麻豆九一精品爱看视频在线观看免费| 99久久99精品| 中文字幕乱码日本亚洲一区二区| 亚洲精品国产精品乱码| 精品久久久久99| 亚洲卡一卡二| 91中文字幕在线观看| 99久久综合| 亚欧美在线观看| 国产欧美一区二区三区沐欲| 日日夜夜综合网| 亚洲国产精品美女| 超免费在线视频| 99久久久久国产精品免费| 日韩在线中文| 激情五月婷婷久久| 久久青草国产手机看片福利盒子| 日韩三级视频在线| 精品久久久久久久人人人人传媒| www.欧美日本韩国| 91久久国产精品| 91精品秘密在线观看| √天堂资源在线| 亚洲欧美电影一区二区| 国产三级小视频| 欧美成人精品一区二区| 精品国产亚洲日本| 人妻无码一区二区三区四区| 国产乱人伦精品一区二区在线观看 | 成人片免费看| 国产综合精品一区二区三区| 99亚洲视频| 国产呦小j女精品视频| 欧美日韩亚洲视频| 日本不卡免费播放| 国产福利成人在线| 色中色综合网| 操人视频免费看| 一区二区三区日韩精品视频| 亚洲精品国产片| 538国产精品一区二区免费视频| 国产精品jk白丝蜜臀av小说| 日韩欧美视频网站| 久久久不卡网国产精品一区| 中文字幕av网站| 久久精品一区中文字幕| 亚洲国产中文在线| 国产精品久久中文字幕| 久久人人爽爽爽人久久久| 中国老头性行为xxxx| 久久国产精彩视频| 国产精品巨作av| 激情视频综合网| 亚洲精品免费在线| 少妇一区二区三区四区| 国产福利精品在线| 亚洲自拍偷拍网| 91av在线免费| 欧美日韩一区精品| 色av手机在线| 日本精品二区| 国产精一区二区三区| 日本高清www免费视频| 中文字幕成人在线| 成人动态视频| 网站一区二区三区| 一区二区三区毛片| 国产免费a∨片在线观看不卡| 91久久精品视频| 国产一区二区三区的电影| 久久久久久久久福利| 日韩女优制服丝袜电影| 欧美日韩精品免费观看视完整| 在线观看日韩羞羞视频| 成人黄色国产精品网站大全在线免费观看| 51国产偷自视频区视频| 久久中文字幕在线视频| 爽爽窝窝午夜精品一区二区| 欧美视频亚洲图片| 91久久国产综合久久| 欧美卡一卡二| 亚洲成色最大综合在线| av电影在线观看不卡|