精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Multi-Token突破注意力機制瓶頸,Meta發明了一種很新的Transformer

人工智能 新聞
在本文中,研究者提出了一種超越「單個 token」瓶頸的新型注意力機制 ——Multi-Token 注意力(MTA),其高層次目標是利用多個向量對的相似性來確定注意力必須集中在哪里。

當上下文包含大量 Token 時,如何在忽略干擾因素的同時關注到相關部分,是一個至關重要的問題。然而,大量研究表明,標準注意力在這種情況下可能會出現性能不佳的問題。

標準多頭注意力的工作原理是使用點積比較當前查詢向量與上下文 Token 對應的鍵向量的相似性。與查詢相似的關鍵字會獲得更高的注意力權重,隨后其值向量會主導輸出向量。

例如,與「Alice」Token 相對應的查詢向量能夠定位上下文中所有提及「Alice」的內容。然而,每個注意力權重只取決于單個關鍵字和查詢向量(除了歸一化為 1)。

對單個 token 向量相似性的依賴給注意力機制帶來了根本性的限制。在許多情況下,上下文的相關部分無法通過單個 token 來識別。例如,查找一個同時提到「Alice」和「rabbit」的句子需要查詢向量對這兩個 token 進行編碼。用一個注意頭查找「Alice」,再用另一個注意頭查找「rabbit」,可以分別找到這兩個詞,但不足以確定這兩個詞在哪里被同時提及雖然可以通過 Transformer 的層將多個 token 編碼成一個向量,但這需要增加維度,而且模型需要將大量容量用于這項任務。

在本文中,研究者提出了一種超越「單個 token」瓶頸的新型注意力機制 ——Multi-Token 注意力(MTA),其高層次目標是利用多個向量對的相似性來確定注意力必須集中在哪里。

而研究者僅通過對現有注意力機制進行簡單的修改去實現這一目標。他們設計了對注意力權重的卷積運算,該運算在三個維度上運行:鍵、查詢和注意力頭。這就允許其注意力權重以相鄰鍵、之前的查詢和其他頭為條件。

直觀地說,在上述例子中,MTA 可以先分別查找「Alice」和「rabbit」的提及,然后將這些注意力組合在一起,只關注兩者都存在的地方。

圖片

具體來說,這項研究的亮點在于:

  • 研究者首先用一個有趣的玩具任務進行實驗,該任務揭示了標準注意力的缺陷,并證明 MTA 可以輕松解決這一問題;
  • 接下來,研究者通過在標準語言建模任務中對 1050 億個詞庫的 880M 個參數模型進行預訓練,對本文的方法進行了大規模測試;
  • 研究者發現 MTA 在驗證復雜度和標準基準任務方面都有所改進,而參數數量只增加了 0.001%;
  • 此外,研究者還在長語境任務(如 Needle-in-the-Haystack 和 BabiLong)上評估了所生成的模型,結果發現 MTA 的表現明顯優于基線。

方法概覽

如圖 1(右圖)所示,本文提出的「Multi-Token 注意力」由建立在多頭注意力基礎上的三個重要部分組成:鍵 - 查詢卷積、頭混合卷積和帶深度縮放的組歸一化。

研究者提出了鍵 - 查詢卷積,以在頭部內組合多個鍵和查詢,并提出了頭卷積,在頭之間共享知識并放大重要信息。最后,研究者應用具有深度縮放功能的組歸一化來抵消殘差流,改善梯度流。

圖片

鍵 - 查詢卷積(key-query convolution)

對于 pre-softmax 卷積,MTA 在注意力 logit 上進行了一個卷積操作,并結合來自多個查詢和鍵 token 的信息:

圖片

鍵和查詢的長度維數中采用了卷積,同時 batch 和頭維數保持獨立。更確切地說,從查詢 q_i 到鍵 k_j 的注意力權重 a_ij 計算如下:

圖片

對于鍵,研究者使用指示函數 1_i≥j?j′將未來鍵歸零。但是,這樣的掩碼太復雜,無法實現(必須修改卷積 CUDA 內核),因此本文提出了一個更簡單的版本,將已有的因果掩碼應用了兩次:

圖片

對于 post-softmax 卷積,研究者同樣在注意力權重的頂部進行卷積操作:

圖片

這使得注意力權重之間的交互累加而不是相乘。研究者試驗了兩個版本,但默認情況下使用 pre-softmax 版本。每個注意力頭都有單獨的 θ 參數,所以它們可以執行不同的卷積操作。選擇的內核維數決定了如何將離得遠的 token 組合在一起。

頭混合卷積(head mixing convolution)

鍵 - 查詢卷積允許從不同的時間步中混合注意力權重,而研究者進一步提出在頭組中使用頭卷積,因此可以將不同頭的注意力權重組合起來。

具體地,對于大小為 c_h 的頭卷積內核,所有頭被分為 M/c_h 個組。在每個組中,研究者使用了不重疊的卷積操作。這樣一來,MTA 不僅允許在每個頭內部的多個查詢和鍵向量上調整注意力權重,還可以跨頭共享注意力信息。

舉例而言,考慮將所有頭分為兩個組,使內核大小為「c_h = 2」。當使用上標來表示頭指數時,則 A^1 和 A^2 是來自兩個不同頭的注意力權重。這時,新的注意力權重如下:

圖片

其中 w_11、w_12、w_21 和 w_22 是內核權重。這里 softmax 之后出現混合,但可以在 softmax 之前混合 logit。

圖片

將一切組合起來(putting everything together)

在前文中,研究者引入兩種不同的方式來混合注意力權重,一是跨鍵 - 查詢時間步,二是跨不同頭。這兩種方式都可以在單個 MTA 模塊中實現。每種方式都有 pre - 和 post-softmax 版本,因此有多種方法將它們組合在一起。如果都采用 pre-softmax 來混合,則可以通過單個 3 維卷積操作來實現,如下圖 2 所示。

圖片

實驗結果

研究者在一系列標準和長距離(long-range)依賴任務上對 MTA 架構進行了實驗,并與基線進行了比較,從「toy」任務開始。他們使用了鍵 - 查詢卷積 pre-softmax 和頭混合 post-softmax,另有說明除外。

簡單的 toy 任務

研究者首先測試了 toy 任務,以驗證本文方法相較于標準多頭注意力的有效性。此任務中為模型提供了一個塊序列,其中每個塊由 N 個隨機字母組成。相比之下,MTA 先是找到了每個問題字母的位置,然后使用卷積操作來增加所有 L 字母一起被發現的位置的注意力。

結果如下表 1 所示,如預期一樣,具有標準多頭注意力的 transformer 解決這項任務時,即使問題中只有「L = 2」字母,通常也無法找到目標塊。相比之下,MTA 以接近零誤差的成功率解決了所有版本的任務。

圖片

大型語言建模

對于語言建模實驗,研究者對 880M 參數的模型進行了預訓練,并比較了 Transformer、DIFF Transformer 和 Transformer with MTA。對于每個模型,他們進行了兩次訓練,并在下表 2 中提供了平均驗證困惑度。

結果顯示,經過 MTA 訓練的模型,在所有驗證數據集上均實現了性能提升,即使只在四分之一的層中應用鍵 - 查詢卷積,并且要比 DIFF Transformer 的可學習參數更少。此外,使用層 scaling 的組歸一化是一個重要組件,可以為 DIFF Transformer 和 MTA 架構提供更優越的性能。

圖片

接著,研究者在以上相同的六個數據集上對模型進行了另外 10.5B token 的微調,并將上下文長度從 2048 增加到了 4096。同時將 RoPE 的 θ 值增加到了 50 萬,將權重衰減變成 0,并將預熱步驟降為 50,其他參數與預訓練階段保持一致。結果表明,使用 MTA 生成的 Transformer 模型在困惑度評估中同樣優于新的基線。

在 zero-shot 設置下,研究者進一步評估了模型在一系列流行基準上的表現,結果如下表 3 所示。經過 MTA 訓練的模型在大多數基準上優于基線,并取得了更高的平均分,盡管這些并不是長上下文任務。

圖片

長距離依賴任務 Long-range dependency tasks

此前的研究表明,Transformer 很難找到相關信息,尤其是在長上下文中。

為了在這種情況下測試 MTA,研究者在三個任務中對訓練有素的模型進行了評估: LAMBADA、NeedleIn-A-Haystack 和 BabiLong。所有這些任務都要求模型幾乎要密切關注埋藏在上下文中的長距離 tokens。

LAMBADA。研究者觀察到使用 MTA 訓練的模型在正確猜測下一個單詞方面更勝一籌(如表 4),明顯優于基線 Transformer 模型。

圖片

如表 5 所示,使用 MTA 訓練的模型在所有「針數」和不同上下文長度的撈針能力都有顯著提高。

圖片

BabiLong。研究者將重點放在了 QA1-5 任務上,在這些任務中,正確的回答需要不同數量的事實或論據關系。輸入和目標輸出樣本如表 7 所示。

圖片

圖 4(左)展示了平均準確率,附圖 5 展示了每個任務的準確率。與其他模型相比,MTA 模型表現良好,尤其是當輸入中有較多干擾文本(4K token)時。

圖片


圖片

更多實驗結果請查看原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-08 09:00:00

2023-11-24 12:36:00

模型訓練

2024-10-31 10:00:39

注意力機制核心組件

2024-09-19 10:07:41

2024-12-04 09:25:00

2018-08-26 22:25:36

自注意力機制神經網絡算法

2024-11-04 10:40:00

AI模型

2024-12-17 14:39:16

2024-02-19 00:12:00

模型數據

2017-10-19 15:19:54

機器人人工智能深度學習

2023-06-12 09:57:22

AIChatGPT

2022-02-08 15:43:08

AITransforme模型

2025-06-17 09:05:00

2024-07-16 14:15:09

2024-06-28 08:04:43

語言模型應用

2024-12-31 15:34:00

大型語言模型Softmax架構

2020-09-17 12:40:54

神經網絡CNN機器學習

2025-02-07 16:15:27

2025-04-29 09:05:00

2020-05-11 15:06:36

物聯網電子元件
點贊
收藏

51CTO技術棧公眾號

春日野结衣av| 久久久一本精品99久久精品66 | 青青草手机视频在线观看| 24小时成人在线视频| 亚洲综合久久av| 久久精品国产一区二区三区日韩 | 日韩成人精品一区| 6080午夜不卡| 久久久久久免费看| 国产小视频在线观看| 麻豆精品在线观看| 欧美精品在线看| 中国xxxx性xxxx产国| 偷拍视频一区二区三区| |精品福利一区二区三区| 国产精品伊人日日| 台湾佬中文在线| 99热国内精品| 亚洲黄页网在线观看| 免费涩涩18网站入口| 免费不卡av| www国产精品av| 热久久美女精品天天吊色| 老熟妇高潮一区二区三区| 久久动漫网址| 欧美一级午夜免费电影| 91看片就是不一样| 美足av综合网| 中文字幕在线观看一区| 精品国产免费一区二区三区四区 | 午夜日韩激情| 亚洲欧美国产一区二区三区| 中文 日韩 欧美| 成人亚洲欧美| 亚洲一区二区三区精品在线| 神马欧美一区二区| 无码精品一区二区三区在线| 狠狠色狠狠色综合| 国产成人亚洲综合| 中日韩精品视频在线观看| 久久久久久久久国产一区| 亚洲女人天堂av| 成人免费看片载| 亚州精品国产| 欧美在线播放高清精品| 无码精品a∨在线观看中文| 宅男网站在线免费观看| 国产精品免费久久久久| 欧美少妇一区| 色欲久久久天天天综合网 | 在线xxxxx| 2020国产精品小视频| 欧美视频一区二区在线观看| 国内外成人激情视频| av影片在线| 有坂深雪av一区二区精品| 中国成人在线视频| av在线中文| 国产亚洲1区2区3区| 久久精品美女| 亚洲色欧美另类| 不卡的av电影| 国产一区二区三区免费不卡| 内射无码专区久久亚洲| 不卡av免费在线观看| 国产欧美日韩综合一区在线观看| 性生活免费网站| 福利一区二区在线观看| 动漫美女被爆操久久久| 黄色一级大片在线免费看国产一 | 国产在线一区二区三区| 在线免费看91| 国产真实乱对白精彩久久| 91在线免费网站| 国产丝袜视频在线观看| 激情偷乱视频一区二区三区| 国产欧美一区二区三区在线| 91黄色在线视频| 国产一区亚洲一区| 91原创国产| 欧美熟女一区二区| 91亚洲永久精品| 欧美在线一区二区三区四区| yes4444视频在线观看| 国产精品久久夜| 黄色污污在线观看| av今日在线| 色呦呦网站一区| 9l视频白拍9色9l视频| 亚洲欧洲一二区| 日韩精品一区二区三区中文不卡 | 亚洲精品资源美女情侣酒店| 一区二区三区伦理片| 三级电影一区| 欧美激情a在线| 成人精品免费在线观看| 免费成人性网站| 91在线看网站| 青青久在线视频| 国产精品国产三级国产aⅴ原创| 一二三在线视频| 在线人成日本视频| 欧美日韩国产小视频| 国产伦精品一区二区免费| 精品国产精品国产偷麻豆| 久热在线中文字幕色999舞| 国产无码精品久久久| 天堂成人国产精品一区| 亚洲tv在线观看| 欧美套图亚洲一区| 亚洲乱码国产乱码精品精98午夜| 激情综合在线观看| 国产美女视频一区二区| 亚洲美女精品久久| 福利所第一导航| 日韩不卡手机在线v区| 97在线电影| 成人福利在线| 五月婷婷色综合| 国内av一区二区| 蜜乳av综合| 欧美激情亚洲视频| 一区精品在线观看| 91免费在线视频观看| 9色视频在线观看| 亚洲第一会所001| 亚洲精品v天堂中文字幕| 午夜三级在线观看| 日产国产欧美视频一区精品| 国内一区二区在线视频观看| 精品视频在线一区二区| 色噜噜狠狠色综合中国| 白嫩情侣偷拍呻吟刺激| 综合一区av| 国产伦精品免费视频| 欧美少妇另类| 舔着乳尖日韩一区| 亚洲区 欧美区| 99视频精品全部免费在线视频| 日本久久久久亚洲中字幕| 韩国av在线免费观看| 亚洲视频小说图片| 亚洲高清免费在线观看| 欧洲杯半决赛直播| 人人爽久久涩噜噜噜网站| 成人久久精品人妻一区二区三区| 中文字幕日本乱码精品影院| 成人黄色一区二区| 欧美日韩爱爱| 日本韩国欧美精品大片卡二| 手机看片一区二区三区| 亚洲成人资源网| 99久久久无码国产精品性波多| 狠狠入ady亚洲精品| 91丨九色丨国产| 在线看一级片| 日韩欧美高清在线| 麻豆成人在线视频| 国产 欧美在线| www.av蜜桃| 国产精品中文字幕制服诱惑| 久久久噜噜噜久久中文字免| 成人午夜免费福利| 亚洲成a人片在线不卡一二三区| 午夜福利三级理论电影| 在线国产欧美| 国产精品区一区二区三在线播放 | 中文字幕精品综合| 一区二区三区国产免费| 精品国产乱码| 91久久精品国产| 婷婷丁香在线| 亚洲第一免费网站| 中文字幕亚洲乱码熟女1区2区| 久久久综合网站| 爱情岛论坛亚洲首页入口章节| 日韩欧美网址| 97超碰人人模人人爽人人看| 成人影音在线| 亚洲美女福利视频网站| 中文字幕在线观看1| 综合久久久久久久| 精品国产乱码久久久久夜深人妻| 亚洲黄色三级| 日本一区二区精品| 亚洲伊人精品酒店| 欧美精品18videos性欧美| 亚洲色图另类小说| 欧美午夜不卡在线观看免费| www.99re7| 99r国产精品| 欧美日韩在线成人| 亚洲区综合中文字幕日日| 国产精品久久久对白| 成人直播视频| 久热99视频在线观看| 日日夜夜精品免费| 欧美亚洲禁片免费| 强行糟蹋人妻hd中文| 2024国产精品| 污污的视频免费观看| 亚洲精品麻豆| 一区二区三区四区欧美| 久久狠狠久久| 成人高h视频在线| 日韩电影免费看| 色偷偷888欧美精品久久久| 蜜桃视频在线观看www| 欧美日免费三级在线| 国产精品50页| 国产精品妹子av| 91视频啊啊啊| 国产呦萝稀缺另类资源| 国产精品第12页| 色婷婷一区二区三区| 精品无人乱码一区二区三区的优势| 99久久婷婷国产综合精品首页| 欧美精品videos| 五月天婷婷在线视频| 日韩激情视频在线播放| 一道本在线视频| 欧美性20hd另类| 久久久国产精品人人片| 中文一区一区三区高中清不卡| 日本护士做爰视频| 国产美女在线观看一区| 精品少妇无遮挡毛片| 亚洲国产精品一区| www亚洲国产| 精品免费在线| 精品国产_亚洲人成在线| 精品国产乱码一区二区三区 | mm131午夜| 精品国产精品国产偷麻豆| 蜜桃视频成人| 久久影视三级福利片| 99久热re在线精品视频| 欧美天堂一区二区| 国产精品狠色婷| 一级毛片久久久| 91av视频在线| 91九色在线看| 久久久久久久久久久网站| 岛国中文字幕在线| 日韩视频免费大全中文字幕| 色鬼7777久久| 亚洲精品一二区| 亚洲日本在线播放| 日韩精品在线免费| 偷拍自拍在线| 日韩激情视频在线播放| 亚洲av成人无码久久精品老人 | av天堂一区二区三区| 91麻豆精品久久久久蜜臀| 一本色道久久综合精品婷婷| 欧美影片第一页| 中文字幕视频免费观看| 欧美视频中文一区二区三区在线观看| 99成人精品视频| 欧美影院一区二区三区| 综合久久中文字幕| 欧美日韩国产a| 国产又粗又猛又黄| 欧美剧在线免费观看网站| 国产精品视频第一页| 欧美日韩精品欧美日韩精品一| 一级欧美一级日韩| 欧美一区二区三区性视频| www.国产精品视频| 亚洲精品一区二区三区四区高清| 黄色av中文字幕| 精品亚洲aⅴ在线观看| 国产无套粉嫩白浆在线2022年| 国产午夜一区二区| 欧美性videos| 久久69精品久久久久久久电影好| 国产美女情趣调教h一区二区| 欧美极品少妇xxxxⅹ喷水 | 亚洲男人的天堂网| 免费看一级一片| 婷婷开心激情综合| 在线观看污污网站| 4438成人网| 女人18毛片水真多18精品| 亚洲视频专区在线| 黄色成人在线观看| 午夜精品一区二区三区在线| gay欧美网站| 成人免费观看网址| 国产人妖ts一区二区| 日韩精品久久久免费观看| 亚洲成人精选| 国产乱子伦农村叉叉叉| 蜜桃av一区二区在线观看 | 国产日韩一区二区三免费高清| 成人免费在线一区二区三区| 亚洲人成网www| 中文字幕一区二区三区有限公司| 亚洲第一黄色| 尤蜜粉嫩av国产一区二区三区| 国产精品1区2区3区在线观看| 18禁裸乳无遮挡啪啪无码免费| 亚洲同性同志一二三专区| 日韩成年人视频| 欧美日韩在线精品一区二区三区激情 | sm久久捆绑调教精品一区| 青青草精品毛片| 欧美午夜在线播放| 区一区二区三区中文字幕| 国产一区观看| 人人干人人干人人| 91在线视频18| 99久久婷婷国产综合| 日韩欧美精品网址| av网站在线观看免费| 国产亚洲福利一区| av在线不卡免费| 91视频-88av| 欧美军人男男激情gay| 日韩av高清在线看片| 国产在线日韩欧美| 亚洲色成人网站www永久四虎| 亚洲综合一区二区三区| 在线免费看av的网站| 亚洲精品日韩久久久| 色女人在线视频| 国产精品网站视频| 影视先锋久久| 成人免费性视频| 激情文学综合丁香| 极品尤物一区二区| 色婷婷综合久久久久中文| 欧美自拍第一页| 九九精品视频在线| 免费成人高清在线视频| 奇米视频888战线精品播放| 亚洲第一毛片| 香蕉视频1024| 亚洲免费观看高清| 97超碰人人草| 深夜福利一区二区| 欧美日韩不卡| 欧美日韩精品久久| 午夜宅男久久久| 久久无码人妻精品一区二区三区| 亚洲国产成人av网| 好吊色一区二区| 国内精品久久久久| 国产成人精品亚洲线观看| 日本免费成人网| 国产电影一区在线| 精品视频一区二区在线观看| 日韩欧美视频在线| 污视频在线免费观看网站| 99视频在线免费观看| 欧美三级特黄| 人妻av一区二区| 午夜激情久久久| 日本福利片在线| 青青精品视频播放| 国产探花一区在线观看| 日本熟妇人妻xxxxx| 日本一区二区三区四区在线视频 | 一本久道综合久久精品| v天堂中文在线| 日韩欧美有码在线| 黄色av免费在线看| 国产精品视频一区二区三区四 | 精品视频在线一区二区在线| 蜜桃成人免费视频| 日本不卡一区二区三区高清视频| 超碰97av在线| 777a∨成人精品桃花网| 国产视频中文字幕在线观看| www.成人av.com| 国产精品毛片在线看| 97人妻精品一区二区免费| 欧美性一级生活| aaa大片在线观看| 激情欧美一区二区三区中文字幕| 先锋a资源在线看亚洲| 一级特黄曰皮片视频| 91精品福利在线一区二区三区| 国产丝袜在线播放| 日本在线观看一区二区三区| 麻豆成人综合网| 久久综合色综合| 亚洲日本中文字幕| 国产一区二区三区免费观看在线| 欧美久久久久久久久久久久久久| 亚洲高清视频免费| 亚洲va天堂va国产va久| 福利成人在线观看| 91免费版黄色| 毛片一区二区| 高h视频免费观看| 亚洲精品中文字幕av| 国产视频网站一区二区三区| www黄色av| 亚洲伦在线观看|