精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

人工智能
DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力。可以近似理解為,原來每層有固定的H個注意力頭,現在用幾乎同樣的參數量和算力,可按需動態組合出多至HxH個注意力頭。

改進Transformer核心機制注意力,讓小模型能打兩倍大的模型!

ICML 2024高分論文,彩云科技團隊構建DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),提出可動態組合的多頭注意力(DCMHA)。

DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力。

可以近似理解為,原來每層有固定的H個注意力頭,現在用幾乎同樣的參數量和算力,可按需動態組合出多至HxH個注意力頭。

DCMHA即插即用,可在任何Transformer架構中替換MHA,得到通用、高效和可擴展的新架構DCFormer。

圖片

這項工作由來自北京郵電大學、AI創業公司彩云科技的研究人員共同完成。

研究人員用在DCFormer基礎上打造的模型DCPythia-6.9B,在預訓練困惑度和下游任務評估上都優于開源Pythia-12B。

DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當。

圖片

多頭注意力模塊有何局限?

大模型的scaling law告訴我們,隨著算力的提升,模型更大、數據更多,模型效果會越來越好。雖然還沒有人能明確說明這條路的天花板有多高,能否達到AGI,但這確實是目前大家最普遍的做法。

但除此以外,另一個問題同樣值得思考:目前絕大多數大模型都基于Transformer,它們都是用一個一個Transformer塊像搭積木一樣搭起來的,那作為積木塊的Transformer本身,還有多大的改進提升空間?

這是模型結構研究要回答的基本問題,也正是彩云科技和北京郵電大學聯合完成的DCFormer這項工作的出發點。

在Transformer的多頭注意力模塊(MHA)中,各個注意力頭彼此完全獨立的工作。

這個設計因其簡單易實現的優點已在實踐中大獲成功,但同時也帶來注意力分數矩陣的低秩化削弱了表達能力、注意力頭功能的重復冗余浪費了參數和計算資源等一些弊端。基于此,近年來有一些研究工作試圖引入某種形式的注意力頭間的交互。

根據Transformer回路理論,在MHA中 ,每個注意力頭的行為由WQ、WK、WV、WO四個權重矩陣刻畫(其中WO由MHA的輸出投影矩陣切分得到)

其中,WQWK叫做QK回路(或叫查找選擇回路),決定從當前token關注上下文中的哪個(些)token,例如:

圖片

WOWV叫做OV回路(或叫投影變換回路),決定從關注到的token取回什么信息(或投影什么屬性)寫入當前位置的殘差流,進而預測下一個token。例如:

圖片

研究人員注意到,查找(從哪拿)和變換(拿什么)本來是獨立的兩件事,理應可以分別指定并按需自由組合(就像在SQL查詢中,WHERE后的選擇條件和SELECT后的屬性投影是分開寫的一樣),MHA硬把它們放到一個注意力頭的QKOV里“捆綁銷售”,限制了靈活性和表達能力。

例如,假設有個模型存在注意力頭A、B、C其QK和OV回路能夠完成上面的例子=,那換成:

圖片

需要交叉組合現有注意力頭的QK和OV回路,模型就可能“轉不過彎兒”了(經研究人員系統構造的合成測試集驗證,<=6B的中小尺寸模型在這類看似簡單的任務上確實表現不佳)。

動態組合多頭注意力長啥樣?

以此為出發點,本文研究團隊在MHA中引入compose操作

圖片

如下圖所示,得到DCMHA:

圖片
△圖1. DCMHA總體結構

將QWQ和KWK算出的注意力分數矩陣AS和注意力權重矩陣AW,與VWV相乘之前,對其在num_heads維上做線性映射得到新的矩陣A’,通過不同的線性映射矩陣(composition map),以實現各種注意力頭組合的效果。

例如圖2(c)中將head 3和7的QK回路與head 1的OV回路組合在一起,形成一個“新的”注意力頭。

圖片

圖片
△圖2. 8個注意力頭的簡化的典型composition map的功能,淺色表示大值

為了最大限度的增強表達能力,研究人員希望映射矩陣由輸入動態生成,即動態決定注意力頭怎樣組合。

但他們要生成的映射矩陣不是一個,而是對序列中每對源位置的query Qi和目的位置的key Kj,都要生成這樣一個矩陣,計算開銷和顯存占用都將難以接受。

為此,他們進一步將映射矩陣分解為一個輸入無關的靜態矩陣Wb、一個低秩矩陣w1w2和一個對角矩陣Diag(wg)之和,分別負責基礎組合、注意力頭間的有限方式(即秩R<=2)的動態組合和頭自身的動態門控(見圖2(d)和圖3(b))。其中后兩個矩陣由Q矩陣和K矩陣動態生成。

在不犧牲效果的前提下,將計算和參數復雜度降低到幾乎可以忽略的程度(詳見論文中復雜度分析)。再結合JAX和PyTorch實現層面的優化,讓DCFormer可以高效訓練和推理。

圖片
△圖3. Compose的計算

效果如何?

規模擴展

評估一個架構的好壞,研究人員關注的最核心指標是算力轉化為智能的效率(或叫性能算力比),即投入單位算力能帶來的模型性能提升——花更少的算力,得到更好的模型。

從圖4和圖5的scaling law曲線(在對數坐標下,每個模型架構的損失隨算力的變化可畫出一條近似直線,損失越低,模型越好)可以看出,DCFormer可以達到1.7~2倍算力的Transformer模型的效果,即算力智能轉化率提升了1.7~2倍。

圖片
△圖4. Transformer和DCFormer的規模擴展效果
圖片
△圖5. Pythia和DCPythia的規模擴展效果

怎么理解這個提升幅度呢?

自2017年Transformer誕生至今,從改進性能算力比的角度,GLU MLP和旋轉位置編碼RoPE是經大量實踐驗證普適有效且被廣泛采用的為數不多的兩項架構改進。

在原始Transformer中加入這兩項改進的架構也叫Transformer++,Llama、Mistral等最強開源模型均采用該架構。無論Transformer還是Transformer++架構,都可通過DCMHA獲得顯著改進。

在1.4B模型規模下,DCMHA的改進幅度大于Transformer++的兩項改進之和,且擴展性更好(圖4下藍綠線和黑線的對比,DCMHA的改進幅度隨算力增加衰減的更慢,以及圖4和圖5的對比)。

可以說,DCFormer讓Transformer的能力又躍上一個新臺階。

下游任務評測

研究團隊訓練了DCPythia-2.8B和DCPythia-6.9B兩個模型在主流NLP下游任務上進行測評并和同規模的開源模型Pythia進行比較(訓練采用和Pythia完全相同超參數設置)

圖片
△表1. DCFormer 和 Pythia 在下游任務中的表現

從表1中可以看出,DCPythia-2.8B和6.9B不僅在Pile驗證集上的ppl 更低,而且在大部分下游任務上都顯著超過了Pythia,DCPythia6.9B在 ppl 和下游任務上的平均準確率甚至超過了Pythia-12B。

DCFormer++2.8B相對于DCPythia-2.8B有進一步的提升,驗證了DCMHA和Lllama架構結合的有效性。

訓練和推理速度

雖然引入DCMHA會帶來額外的訓練和推理開銷,但是從表2中可以看出DCFormer++的訓練速度是Transformer++的74.5%-89.2%,推理速度則是81.1%-89.7%,而且隨著模型參數的增長,額外的計算開銷會逐漸降低。

圖片
△表2. Transformer++和DCFormer++的訓練和推理速度對比

訓練速度是在TPU v3 pod,序列長度為2048,batch_size為1k的情況下對比得到的;推理速度是在A100 80G GPU上進行評測的,輸入長度1024,生成長度128。

消融實驗

結果如下:

圖片
△表3. DCMHA的消融實驗

從表3中可以看出以下幾點:

  • 雖然加入靜態的組合權重就可以降低ppl,但引入動態的組合權重可以進一步降低ppl,說明了動態組合的必要性。
  • 低秩動態組合比動態門控的效果更好。
  • 只用query-wise或者key-wise的動態組合得到的ppl相當,與DCFormer++的差距很小。
  • 在softmax后做注意力頭組合比在softmax前做更有效,可能是因為softmax后的概率能更直接影響輸出。
  • 動態組合權重的秩無需設置過大,也說明了組合權重的低秩性。

此外,研究人員還通過增加局部注意力層的比例和只用query-wise動態組合的方式去進一步減少訓練和推理開銷,詳見論文Table 10。

總的來說,研究團隊有兩點總結。

關于動態權重:近期Mamba,GLA,RWKV6,HGRN等SSM和線性注意力/RNN的工作,通過引入動態(input-dependent)權重的方式,追趕上了Transformer++,但DCFormer用動態組合注意力頭的方式說明了在使用 softmax 注意力的情況下,通過引入動態權重也可以大幅提升Transformer++的效果。

關于模型架構創新:這項工作表明,如果存在一個具有極限算力智能轉化效率的“理想模型架構”,當前的Transformer架構雖已非常強大,但距離這個理想架構很可能還存在很大的差距,仍有廣闊的提升空間。因此,除了堆算力堆數據的大力出奇跡路線,模型架構創新同樣大有可為。

研究團隊還表示,彩云科技會率先在旗下產品彩云天氣、彩云小譯、彩云小夢上應用DCformer。

有關更多研究細節,可參閱原始論文。

ICML2024論文鏈接:https://icml.cc/virtual/2024/poster/34047。
Arxiv 論文鏈接:https://arxiv.org/abs/2405.08553。
代碼鏈接:https://github.com/Caiyun-AI/DCFormer。

責任編輯:姜華 來源: 量子位
相關推薦

2024-07-01 12:17:54

2025-10-22 08:52:23

2024-06-28 08:04:43

語言模型應用

2025-03-18 09:23:22

2024-12-27 13:59:33

數據訓練模型

2025-10-16 09:00:00

大模型

2023-05-05 13:11:16

2024-12-09 00:00:10

2025-05-07 09:12:00

模型研究LLM

2025-07-16 10:15:51

2022-03-25 11:29:04

視覺算法美團

2024-04-03 14:31:08

大型語言模型PytorchGQA

2025-05-08 09:14:54

2024-02-01 12:43:16

模型數據

2024-12-17 14:39:16

2025-08-04 09:31:49

2023-05-15 09:43:49

模型數據

2025-08-11 06:17:54

2024-04-17 12:55:05

谷歌模型注意力

2018-05-03 16:27:29

RNN神經網絡ResNet
點贊
收藏

51CTO技術棧公眾號

国产精品国产三级国产aⅴ入口 | 精品一区电影国产| 一卡二卡三卡视频| 欧美色18zzzzxxxxx| 蜜臀精品一区二区三区在线观看 | 欧美色爱综合网| 免费在线精品视频| 四虎影视2018在线播放alocalhost| 久久av最新网址| 日韩有码片在线观看| 亚洲欧洲国产视频| 中韩乱幕日产无线码一区| 亚洲精品视频自拍| 欧美连裤袜在线视频| 国产又粗又猛又爽又黄的视频一| 国自产拍偷拍福利精品免费一| 亚洲欧美精品一区二区| 深爱五月综合网| 中文字幕资源网在线观看免费| 国产精品久久久久久福利一牛影视| 国产精品国产精品| 亚洲一区二区三区高清视频| 亚洲国产一区二区精品专区| 中文字幕九色91在线| 国产av一区二区三区传媒| jizzjizz少妇亚洲水多| 亚洲va欧美va国产va天堂影院| 日韩一区不卡| 三级做a全过程在线观看| 国产一区二区三区在线观看精品 | 国产98色在线|日韩| 国产精品久久久久久久av大片| 久久久久人妻一区精品色欧美| 国产日产一区 | 亚洲欧洲美洲一区二区三区| 亚洲欧美日韩高清| 菠萝菠萝蜜网站| 99国产精品免费网站| 6080午夜不卡| 黄色片在线免费| 午夜影院在线播放| 午夜精品久久久久久久| 国产片侵犯亲女视频播放| 第三区美女视频在线| 99久久国产综合精品女不卡| 99在线热播| 国产成人精品免费看视频| 看国产成人h片视频| 国产精品第1页| 99精品人妻国产毛片| 一区二区久久| 久久久噜噜噜久久久| 免费人成视频在线| 欧美视频久久| 欧美黄色性视频| 免费一级片在线观看| 欧美精品国产一区二区| 欧美成人中文字幕在线| 九九这里只有精品视频| 日韩精品一区二区三区免费观影| 亚洲欧洲在线视频| 欧美日韩高清丝袜| 激情综合网五月| 一本色道久久88综合亚洲精品ⅰ| 自拍偷拍视频亚洲| 波多野结衣一区| 色偷偷888欧美精品久久久| 免费视频91蜜桃| 成人网18免费网站| 久久久999精品| 粉嫩av性色av蜜臀av网站| 午夜欧美理论片| 97久久久久久| 亚洲伊人成人网| 美女久久一区| 国产精品久久久一区| 亚洲手机在线观看| 国产成人午夜高潮毛片| 国语精品免费视频| 欧美69xxxxx| 国产精品乱人伦| 青青视频免费在线| 19禁羞羞电影院在线观看| 精品久久久久久| 搡女人真爽免费午夜网站| 日韩av黄色| 欧美成人午夜电影| 欧美深性狂猛ⅹxxx深喉| 国产一区二区三区日韩精品 | av黄在线观看| 亚洲午夜免费福利视频| 国产精品wwwww| a一区二区三区亚洲| 精品国产凹凸成av人导航| 99久久免费看精品国产一区| 国产探花一区二区| 欧美成人高清视频| 69成人免费视频| 韩国精品在线观看| 激情视频一区二区| 日韩免费啪啪| 精品免费在线视频| 午夜啪啪小视频| 日韩高清影视在线观看| 精品国偷自产在线视频| 日韩女优在线观看| 精品一区二区日韩| 久久久影院一区二区三区| 免费高清在线观看| 岛国av午夜精品| 不卡的一区二区| 精品视频免费| 97人人做人人爱| 国产乱码精品一区二区| 久久无码av三级| 免费在线黄网站| 国产精品第一| 国产视频丨精品|在线观看| 综合在线观看色| 性久久久久久久久| 男人日女人bb视频| 激情不卡一区二区三区视频在线| 亚洲精品国偷自产在线99热| 91香蕉一区二区三区在线观看| 国产日韩欧美| 懂色一区二区三区av片| 1024视频在线| 色综合网色综合| 蜜臀aⅴ国产精品久久久国产老师| 成人在线免费观看91| 91成人福利在线| 国产黄色av网站| 国产精品久久久久影视| 国产精品免费观看久久| 高清一区二区三区| 欧美成年人视频网站| 一级黄色免费片| 欧美经典一区二区| 成人一区二区三| 偷拍一区二区| 2019中文在线观看| 天天摸天天碰天天爽天天弄| 一区二区三区欧美亚洲| 亚洲一区二区福利视频| 日本电影一区二区| 国产不卡精品视男人的天堂| 天天干天天插天天操| 五月天精品一区二区三区| 97中文字幕在线观看| 一区二区中文| 3d动漫啪啪精品一区二区免费| 日本黄色片在线观看| 欧美性猛片xxxx免费看久爱| 波多野吉衣中文字幕| 亚洲国产裸拍裸体视频在线观看乱了中文| 91在线观看网站| 呦呦在线视频| 欧美videossexotv100| 久久久久久久久久综合| www.日韩av| 国产精品333| 一区二区三区韩国免费中文网站| 青青草一区二区| 国产中文字幕在线| 欧美日韩视频在线观看一区二区三区| 99精品全国免费观看| 青青草国产成人99久久| 中文字幕日韩精品一区二区| 国产激情综合| 欧美激情国产高清| 五月婷在线视频| 精品久久久视频| 国产精品高清无码在线观看| 日本vs亚洲vs韩国一区三区 | a级片在线免费看| 亚洲精品成人悠悠色影视| 国产一精品一aⅴ一免费| 亚洲经典自拍| 午夜精品电影在线观看| 91精品福利观看| 久久久综合免费视频| 日韩av视屏| 欧美日韩精品免费| 久久高清无码视频| 久久综合色播五月| 午夜剧场高清版免费观看 | 99视频在线免费播放| 亚洲成人一品| 成人黄色在线免费| 高清精品在线| 在线中文字幕日韩| 亚洲欧美激情在线观看| 91官网在线观看| 永久免费看黄网站| 久久久久国产精品麻豆| 欧洲美女亚洲激情| 日韩一级大片| 国产精品jizz在线观看老狼| 另类ts人妖一区二区三区| 国产精品∨欧美精品v日韩精品| 毛片av在线| 精品性高朝久久久久久久| 亚洲综合一区中| 欧美三级免费观看| 中文字幕在线2021| 久久精品视频一区二区三区| 午夜影院免费观看视频| 久久久久国产精品午夜一区| ijzzijzzij亚洲大全| 欧美美女在线| 国产视频在线观看一区| 日韩电影精品| 国产精品h片在线播放| 欧美videosex性欧美黑吊| 中文字幕久久精品| 麻豆影视在线| 亚洲国产美女久久久久 | 精品国产污污免费网站入口| 成人黄色三级视频| 精品二区三区线观看| 久久久久亚洲av无码专区体验| 国产欧美一区视频| 久久人人爽人人爽人人片| 国产精品自拍三区| 奇米影视四色在线| 日韩中文欧美在线| 91精品91久久久中77777老牛| 欧美成人一品| 一区二区三区av| heyzo久久| 欧美日韩一区二区三区免费| caoporn成人免费视频在线| 国产在线拍偷自揄拍精品| 日韩美女在线看免费观看| 欧美在线播放视频| 9999在线视频| 久久久久久久久久久国产| 超碰在线观看免费版| 日韩亚洲欧美成人| www.亚洲视频| 伊人精品在线观看| 韩日在线视频| 一区二区三区国产视频| 国产黄色片在线播放| 亚洲人成网站免费播放| 青青草在线播放| 国产视频亚洲视频| 色播色播色播色播色播在线| 日韩av一区二区在线| 天天干,夜夜爽| 精品对白一区国产伦| 六月丁香色婷婷| 亚洲第一区中文字幕| 天天躁日日躁狠狠躁喷水| 亚洲高清在线观看| 亚洲欧美日韩动漫| 亚洲人av在线影院| jizz视频在线观看| 日韩在线观看免费高清完整版| 在线观看黄色av| 久久久精品在线| 欧美videossex| 欧美一级大片在线观看| 亚洲天堂免费电影| 国产精品爱久久久久久久| 国产精品天堂蜜av在线播放| 国产欧洲精品视频| 日韩成人精品| 精品国产乱码久久久久久久软件 | 欧美日韩综合久久| 成人免费在线观看av| 在线观看免费黄色片| 国产专区一区| 18禁男女爽爽爽午夜网站免费 | 成人黄色一级大片| 国产激情一区二区三区四区| 麻豆精品国产传媒av| 久久日韩粉嫩一区二区三区| 国精产品一区一区| 亚洲精选视频免费看| 亚洲视频免费播放| 91成人在线精品| 国产免费一区二区三区免费视频| 精品成人免费观看| 久草在现在线| 久久成人精品视频| 在线视频超级| 成人免费淫片视频软件| 激情小说亚洲色图| 亚洲日本无吗高清不卡| 好看的亚洲午夜视频在线| 亚洲自偷自拍熟女另类| 久久精品国产精品亚洲精品| 中文字幕一区二区三区人妻在线视频| www日韩大片| 中文字幕av播放| 福利视频第一区| 国产日韩欧美一区二区东京热| 亚洲精品黄网在线观看| 精品欧美色视频网站在线观看| 国外色69视频在线观看| 欧美在线一级| 久久视频在线观看中文字幕| 91精品亚洲| www.日日操| 大美女一区二区三区| 美女网站视频色| 一本大道久久a久久精品综合| 99久久精品国产成人一区二区| 亚洲欧洲在线观看| 丰乳肥臀在线| 成人午夜激情网| 国产在线日韩精品| 三上悠亚久久精品| 国产一区二区中文字幕| 伊人影院综合网| 欧美日韩免费在线观看| 超碰在线人人干| 久久激情视频久久| 三上悠亚亚洲一区| 精品国产一区二区三区麻豆免费观看完整版 | 一区二区久久| 国产精九九网站漫画| 成人欧美一区二区三区白人| 亚洲成熟少妇视频在线观看| 精品国产制服丝袜高跟| 黄网页在线观看| 国产精品丝袜久久久久久高清| 婷婷成人综合| 久久久久久久久久网| 国产成人av一区| 天天综合天天做| 欧美精品久久一区二区三区| 黄色在线视频观看网站| 欧美中文在线免费| 欧美成人一区在线观看| 国产妇女馒头高清泬20p多| 国产老肥熟一区二区三区| 国产精品99久久久久久成人| 欧美日精品一区视频| 国产九色在线| 国产精品成人在线| 欧洲杯足球赛直播| 三年中国国语在线播放免费| 91麻豆国产福利在线观看| 日韩特黄一级片| 亚洲精品久久久久久久久久久久| 男女羞羞视频在线观看| 高清一区二区三区视频| 欧美成人69| 风韵丰满熟妇啪啪区老熟熟女| 亚洲综合在线观看视频| 黄色片网站免费在线观看| 欧美国产视频日韩| 精品国产乱子伦一区二区| 成人性免费视频| 91香蕉视频mp4| 在线视频一区二区三区四区| 亚洲欧美在线一区二区| 亚洲天堂一区二区| 中国人体摄影一区二区三区| 国产最新精品免费| 欧美激情国产精品免费| 亚洲第一精品夜夜躁人人爽 | 亚欧美一区二区三区| 亚洲免费毛片网站| 高清国产mv在线观看| 26uuu亚洲伊人春色| 国产精品片aa在线观看| 波多结衣在线观看| 亚洲美女屁股眼交| 国产77777| 欧美中文字幕在线播放| 日本精品三区| 性生活一级大片| 天天操天天干天天综合网| 黄色在线网站| 成人黄色免费看| 亚洲青涩在线| 久久婷婷五月综合| 日韩一区二区三区免费看| 成人免费高清观看| 视频一区视频二区视频三区视频四区国产| 麻豆一区二区在线| 国产一级片免费观看| 亚洲欧美日韩精品| 韩国三级大全久久网站| 国产免费一区二区三区视频| 国产精品色呦呦| 秋霞视频一区二区| 国产精品美女999| 国产在线不卡| 色偷偷男人天堂| 亚洲国产精品久久91精品| 国产原创一区| 日本国产在线播放| 亚洲欧洲av一区二区三区久久| 天天操天天操天天干| 成人国产在线激情| 久久不射2019中文字幕|