精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了

人工智能 新聞
本文探索了 Monarch Mixer (M2) ,這是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率。

從 BERT、GPT 和 Flan-T5 等語言模型到 SAM 和 Stable Diffusion 等圖像模型,Transformer 正以銳不可當之勢席卷這個世界,但人們也不禁會問:Transformer 是唯一選擇嗎?

斯坦福大學和紐約州立大學布法羅分校的一個研究團隊不僅為這一問題給出了否定答案,而且還提出了一種新的替代技術:Monarch Mixer。近日,該團隊在 arXiv 公布了相關論文和一些檢查點模型及訓練代碼。順帶一提,該論文已入選 NeurIPS 2023 并獲得 Oral Presentation 資格。

圖片

論文地址:https://arxiv.org/abs/2310.12109

代碼地址:https://github.com/HazyResearch/m2

該方法去掉了 Transformer 中高成本的注意力和 MLP,代之以富有表現力的 Monarch 矩陣,使之在語言和圖像實驗中以更低的成本取得了更優的表現。

這并不是斯坦福大學第一次提出 Transformer 的替代技術。今年六月該校的另一個團隊還曾提出過一種名為 Backpack 的技術,參閱機器之心文章《斯坦福訓練 Transformer 替代模型:1.7 億參數,能除偏、可控可解釋性強》。當然,這些技術要取得真正的成功,還需要研究社區的進一步檢驗并在應用開發者手中變成切實好用的產品。

下面我們看看這篇論文中對 Monarch Mixer 的介紹以及一些實驗結果。

論文介紹

在自然語言處理和計算機視覺領域,機器學習模型已能處理更長的序列和更高維度的表征,從而支持更長的上下文和更高的質量。然而,現有架構的時間和空間復雜性在序列長度和 / 或模型維度上呈二次增長模式,這會限制上下文長度并提升擴展成本。舉個例子,Transformer 中的注意力和 MLP 會隨序列長度和模型維度呈二次擴展模式。

針對這一問題,斯坦福大學和紐約州立大學布法羅分校的這個研究團隊聲稱找到了一種高性能的架構,其復雜度隨序列長度和模型維度的增長是次二次的(sub-quadratic)。

他們的研究靈感來自 MLP-mixer 和 ConvMixer;這兩項研究觀察到:許多機器學習模型的運作方式都是沿序列和模型維度軸對信息進行混合,并且它們往往對兩個軸使用了單個算子。

尋找表現力強、次二次且硬件效率高的混合算子的難度很大。舉個例子,MLP-mixer 中的 MLP 和 ConvMixer 中的卷積都頗具表現力,但它們都會隨輸入維度二次擴展。近期有一些研究提出了一些次二次的序列混合方法,這些方法使用了較長的卷積或狀態空間模型,而且它們都會用到 FFT,但這些模型的 FLOP 利用率很低并且在模型維度方面依然是二次擴展。與此同時,不損質量的稀疏密集 MLP 層方面也有一些頗具潛力的進展,但由于硬件利用率較低,某些模型實際上可能還比密集模型更慢。

基于這些靈感,這個研究團隊提出了 Monarch Mixer (M2),其使用到了一類富有表現力的次二次結構化矩陣:Monarch 矩陣。

Monarch 矩陣是一類泛化了快速傅立葉變換(FFT)的結構化矩陣,并且研究表明其涵蓋了范圍廣泛的線性變換,包括哈達瑪變換、托普利茲矩陣、AFDF 矩陣和卷積。它們可通過分塊對角矩陣的積進行參數化,這些參數被稱為 Monarch 因子,與排列交織。

它們的計算是次二次擴展的:如果將因子的數量設為 p,則當輸入長度為 N 時,計算復雜度為 圖片,從而讓計算復雜度可以位于 p = log N 時的 O (N log N) 與 p = 2 時的 之間。

M2 使用了 Monarch 矩陣來沿序列和模型維度軸混合信息。這種方法不僅易于實現,而且硬件效率也很高:使用支持 GEMM(廣義矩陣乘法算法)的現代硬件就能高效地計算分塊對角 Monarch 因子。

圖片

該研究團隊實現了一個 M2 層來進行概念驗證 —— 完全使用 PyTorch 編寫,代碼行數不到 40(包括 import 軟件包),而且其只需依賴矩陣乘法、轉置、reshape 和逐元素乘積(見圖 1 中部的偽代碼);結果,對于大小為 64k 的輸入,這些代碼在一臺 A100 GPU 上實現了 25.6% 的 FLOP 利用率。在 RTX 4090 等更新的架構上,對于同樣大小的輸入,一個簡單的 CUDA 實現就能實現 41.4% 的 FLOP 利用率。

圖片

有關 Monarch Mixer 的更多數學描述和理論分析請參看原論文。

實驗

該研究團隊在 Transformer 已占主導地位的三個任務上對 Monarch Mixer 和 Transformer 進行了比較:BERT 風格的非因果掩碼語言建模任務、ViT 風格的圖像分類任務、GPT 風格的因果語言建模任務。

在每個任務上,實驗結果表明新提出的方法在不使用注意力和 MLP 的前提下均能達到與 Transformer 相媲美的水平。他們還在 BERT 設置中評估了新方法相較于強大 Transformer 基準模型的加速情況。

非因果語言建模

對于非因果語言建模任務,該團隊構建了一種基于 M2 的架構:M2-BERT。M2-BERT 可以直接替代 BERT 風格的語言模型,而 BERT 是 Transformer 架構的一大主力應用。對于 M2-BERT 的訓練,使用了在 C4 上的掩碼語言建模,token 化器則是 bert-base-uncased。

M2-BERT 基于 Transformer 骨干,但其中的注意力層和 MLP 被 M2 層替換,如圖 3 所示。

圖片

在序列混合器中,注意力被帶殘差卷積的雙向門控卷積替代(見圖 3 左側)。為了恢復卷積,該團隊將 Monarch 矩陣設置為 DFT 和逆 DFT 矩陣。他們還在投射步驟之后添加了逐深度的卷積。

在維度混合器中,MLP 中兩個密集矩陣被替換成了學習得到的分塊對角矩陣(1 階 Monarch 矩陣,b = 4)。

研究者預訓練了 4 個 M2-BERT 模型:其中兩個是大小分別為 80M 和 110M 的 M2-BERT-base 模型,另外兩個是大小分別為 260M 和 341M 的 M2-BERT-large 模型。它們分別相當于 BERT-base 和 BERT-large。

表 3 給出了相當于 BERT-base 的模型的性能表現,表 4 給出了相當于 BERT-large 的模型的性能表現。

圖片

從表中可以看到,在 GLUE 基準上,M2-BERT-base 的表現可以媲美 BERT-base,同時參數還少了 27%;而當兩者參數數量相當時,M2-BERT-base 勝過 BERT-base 1.3 分。類似地,參數少 24% 的 M2-BERT-large 與 BERT-large 表現相當,而參數數量一樣時,M2-BERT-large 有 0.7 分的優勢。

表 5 給出了相當于 BERT-base 的模型的前向吞吐量情況。其中報告的是在 A100-40GB GPU 上每毫秒處理的 token 數,這能反映推理時間。

圖片


可以看到,M2-BERT-base 的吞吐量甚至超過了經過高度優化的 BERT 模型;相較于在 4k 序列長度上的標準 HuggingFace 實現,M2-BERT-base 的吞吐量可達其 9.1 倍!


表 6 則報告了 M2-BERT-base (80M) 和 BERT-base 的 CPU 推理時間 —— 結果是直接運行這兩個模型的 PyTorch 實現得到的。


圖片

當序列較短時,數據局部性的影響依然主導著 FLOP 的減少情況,而過濾器生成(BERT 中沒有)等操作的成本更高。而當序列長度超過 1K 時,M2-BERT-base 的加速優勢就漸漸起來了,當序列長度達 8K 時,速度優勢可達 6.5 倍。

圖像分類

在非因果建模方面,為了驗證新方法在圖像上也有在語言上一樣的優勢,該團隊還評估了 M2 在圖像分類任務上的表現。

表 7 給出了 Monarch Mixer、ViT-b、HyenaViT-b 和 ViT-b-Monarch(用 Monarch 矩陣替換了標準 ViT-b 中的 MLP 模塊)在 ImageNet-1k 上的性能表現。

圖片

Monarch Mixer 優勢非常明顯:只需一半的參數量,其表現就能勝過原始 ViT-b 模型。而更讓人驚訝的是,參數更少的 Monarch Mixer 很能勝過 ResNet-152;要知道,ResNet-152 可是專門針對 ImageNet 任務設計的。

因果語言建模

GPT 風格的因果語言建模是 Transformer 的一大關鍵應用。該團隊為因果語言建模構建了一個基于 M2 的架構:M2-GPT。

對于序列混合器,M2-GPT 組合使用了來自 Hyena 的卷積過濾器、當前最佳的無注意力語言模型以及來自 H3 的跨多頭參數共享。他們使用因果參數化替換了這些架構中的 FFT,并完全移除了 MLP 層。所得到的架構完全沒有注意力,也完全沒有 MLP。

他們在因果語言建模的標準數據集 PILE 上對 M2-GPT 進行了預訓練。結果見表 8。

圖片

可以看到,盡管基于新架構的模型完全沒有注意力和 MLP,但其在預訓練的困惑度指標上依然勝過 Transformer 和 Hyena。這些結果表明,與 Transformer 大不相同的模型也可能在因果語言建模取得出色表現。

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-22 16:23:05

2023-06-05 14:04:59

模型AI

2023-08-15 10:33:06

微軟必應人工智能

2025-10-22 08:41:22

2023-05-22 07:10:38

GPTpromptPerplexity

2021-08-31 23:33:50

AndroidiOS功能

2023-03-30 11:08:49

AI模型訓練

2023-03-28 08:23:38

2025-01-16 08:20:00

2021-07-21 08:59:10

requestsPython協程

2020-06-16 16:27:28

戴爾

2022-04-25 10:04:56

df命令Linux

2022-04-20 12:17:50

命令Batcat

2010-02-03 17:51:42

Ubuntu Linu

2010-03-04 09:41:39

Ubuntu Joli

2023-11-07 08:28:08

GPT模型環境

2025-10-23 08:25:08

2023-12-25 09:41:37

點云訓練

2023-07-18 15:00:00

AI代碼

2023-05-09 15:41:03

點贊
收藏

51CTO技術棧公眾號

日韩女同互慰一区二区| 蜜桃一区二区三区在线观看| 精品日韩成人av| 男女激情无遮挡| 深夜影院在线观看| 日本中文在线一区| 欧美激情免费观看| 色无极影院亚洲| 精品国产乱码一区二区三区| 天天综合色天天综合色h| 日韩高清av| 国产aⅴ爽av久久久久成人| 日韩视频不卡| 久久久成人的性感天堂| www.久久国产| 麻豆国产精品| 在线精品视频免费观看| 国产精品久久久久久久乖乖| 川上优的av在线一区二区| 国产精品18久久久久久久久| 国产成人精品电影久久久| 日韩精品一区二区亚洲av性色 | 韩国三级丰满少妇高潮| 黄色视屏在线免费观看| 国产精品卡一卡二卡三| 国内精品视频在线播放| 国产精品嫩草影院精东| 老司机精品久久| 欧美精品999| 天堂av免费在线| 久9久9色综合| 亚洲福利在线视频| 国产毛片久久久久久| 搜成人激情视频| 亚洲18女电影在线观看| 在线看无码的免费网站| 国产三级视频在线看| www.成人在线| 国产成人免费电影| 国产三级按摩推拿按摩| 全部av―极品视觉盛宴亚洲| 2024亚洲男人天堂| 日韩精品一区二区三区国语自制| 综合天堂av久久久久久久| 中文字幕欧美亚洲| 免费看污片网站| 日韩三级毛片| 日韩av综合中文字幕| 日本少妇xxxx软件| 我要色综合中文字幕| 欧美日韩的一区二区| 一区二区三区入口| 97久久网站| 在线免费观看一区| 欧美综合在线观看视频| av日韩亚洲| 色综合婷婷久久| 精品视频一区二区在线| 亚洲综合在线电影| 欧美亚洲综合色| 一区二区在线播放视频| 嫩草伊人久久精品少妇av杨幂| 欧美视频在线观看 亚洲欧| 亚洲国产精品久久久久婷蜜芽| 成人影院在线视频| 欧美色另类天堂2015| 久久国产亚洲精品无码| 成人性生交大片免费观看网站| 欧美性猛交xxxx富婆弯腰| 成人免费观看视频在线观看| 玛雅亚洲电影| 欧美午夜精品电影| 婷婷中文字幕在线观看| 欧美成年网站| 亚洲国产精品va在线观看黑人| xxxxxx黄色| 最新国产一区| 中文字幕亚洲情99在线| 国产高潮流白浆| 亚洲视频福利| 日韩美女在线观看| 在线免费看av片| 国产精品影视在线| 高清一区二区三区视频| 天天综合网在线观看| 久久看人人爽人人| 亚洲欧洲三级| 成人性免费视频| 欧美成人午夜视频| 亚洲亚洲精品在线观看| 久久伊人亚洲| 亚洲综合中文| 亚洲精品tv久久久久久久久久| 99精品国自产在线| 久久久久se| 亚洲国产精品久久久久秋霞蜜臀 | 成人免费的视频| 香蕉视频亚洲一级| av一区二区三| 国产aⅴ激情无码久久久无码| 伊人久久大香线蕉精品| 中文字幕在线亚洲| 疯狂蹂躏欧美一区二区精品| 国产精品一区一区三区| 欧美码中文字幕在线| 国产99re66在线视频| 在线观看黄色国产| 免费看毛片的网站| 久久伊人一区二区| 91麻豆精品国产91| 精品一区二区三区香蕉蜜桃| 国产精品久久久久久吹潮| 无码精品黑人一区二区三区| 国产精品扒开腿做爽爽| 自拍偷拍亚洲色图欧美| 久久99国产综合精品女同| 亚洲一区二区精品视频| 美女网站在线免费欧美精品| 亚洲色图综合| 伊人精品在线视频| 欧美激情一区二区三区p站| 国产精品日韩一区二区| 在线日韩欧美视频| 一区二区三区中文在线观看| 国产欧美成人| 久久人体av| 狠狠狠综合7777久夜色撩人| 黑人操日本美女| 四虎一区二区| 国产一区二区三区在线播放免费观看| 日韩一区在线免费观看| 亚洲女人av| 综合五月婷婷| 日韩黄色高清视频| 免费三级在线观看| 日韩黄色免费电影| 麻豆一区区三区四区产品精品蜜桃| 成人午夜在线影视| 欧美制服丝袜第一页| 大地资源二中文在线影视观看| 综合天堂久久久久久久| 91色精品视频在线| 免费a级人成a大片在线观看| 欧美三电影在线| 免费看黄色av| 日韩电影在线观看一区| 日韩动漫在线观看| 奇米影音第四色| 在线无限看免费粉色视频| 亚洲最大福利网| 亚洲午夜激情免费视频| 日韩一区二区三区电影在线观看 | 久久91亚洲精品中文字幕| 波多野结衣视频在线观看| 97久久久精品综合88久久| 久草视频这里只有精品| 成人黄色理论片| 久久精品99久久久香蕉| 国产精品亚洲lv粉色| 亚洲天堂久久久久久久| 国产高清999| 在线成人直播| 成人情视频高清免费观看电影| 欧美性受ⅹ╳╳╳黑人a性爽| 日韩一级大片在线| 青青草免费av| 北条麻妃一区二区三区| 欧美一区二区激情| 女同另类激情重口| 欧美影院在线播放| 国产在线中文字幕| 欧美夫妻性生活| 欧美又粗又大又长| 99国产精品久久久久| 国产精品无码一本二本三本色| av在线不卡顿| 亚洲综合中文字幕在线观看| wwww亚洲| 在线午夜精品自拍| 国产成人精品一区二区无码呦| 亚洲一区免费在线观看| 人妻丰满熟妇av无码久久洗澡| 丝袜诱惑制服诱惑色一区在线观看| 日韩中文字幕一区二区| 国产精品日本一区二区三区在线 | 亚洲精品永久www嫩草| 国产一区 二区| 91精品成人久久| 成人在线高清视频| 日韩美女天天操| 影音先锋亚洲天堂| 一区免费观看视频| 中文字幕99页| 日本中文字幕一区二区有限公司| 91制片厂免费观看| 欧美在线关看| 91久久国产精品| 在线观看爽视频| 久久亚洲精品中文字幕冲田杏梨| 日本精品久久久久| 欧美三电影在线| 在线观看中文字幕视频| 亚洲欧美综合网| 中文在线永久免费观看| 久久99精品国产91久久来源| 久久久久久免费看| 99久久亚洲精品蜜臀| 久久青青草原| 青草伊人久久| 国产精品久久久久影院日本 | 日韩av电影院| 麻豆福利在线观看| 中文字幕亚洲第一| 午夜在线视频免费| 日韩三级在线免费观看| 在线视频精品免费| 午夜精品在线看| 无码黑人精品一区二区| 国产欧美一区二区精品性| 风韵丰满熟妇啪啪区老熟熟女| 久久精品理论片| 国内外免费激情视频| 日韩视频二区| 嫩草影院中文字幕| 99久久精品网| 日韩在线三区| 欧洲激情综合| 免费看成人午夜电影| 国内自拍欧美| av在线不卡观看| 国产精品亚洲欧美一级在线| 国产精品va在线播放我和闺蜜| 高潮在线视频| 久久久噜久噜久久综合| dj大片免费在线观看| 深夜精品寂寞黄网站在线观看| 蜜桃免费在线| 精品亚洲一区二区| 午夜成人鲁丝片午夜精品| 欧美v日韩v国产v| www.久久久久久| 欧美一级高清片在线观看| 一级淫片免费看| 欧美片在线播放| 中文在线最新版天堂| 色婷婷精品大在线视频 | 国产精品免费看| 波多野结衣乳巨码无在线| 精久久久久久| 免费国产a级片| 国产午夜久久| 国产美女无遮挡网站| 国产精品亚洲综合久久| 777精品久无码人妻蜜桃| 在线观看一区| a级黄色一级片| 99热免费精品在线观看| 欧美视频在线观看网站| 影院欧美亚洲| 久久精品视频16| 久久久久久黄| 依人在线免费视频| 狠狠色狠狠色综合系列| 免费高清视频在线观看| 国产成人亚洲精品青草天美| 女同性αv亚洲女同志| 不卡区在线中文字幕| 右手影院亚洲欧美| 国产欧美日韩不卡免费| 国精产品久拍自产在线网站| 亚洲欧美另类久久久精品2019| 黑人巨大精品一区二区在线| 一区二区三区在线视频观看| 国产在线欧美在线| 色综合欧美在线视频区| 中文字幕永久免费视频| 日韩一区二区三区精品视频| 日本黄色免费视频| 一区二区三区视频在线| 黄网站视频在线观看| 国产69精品99久久久久久宅男| 色老头在线一区二区三区| 国产精品丝袜高跟| 一区二区免费| 日韩欧美一区二区三区久久婷婷| 99久久夜色精品国产亚洲1000部| 免费无码毛片一区二三区| 视频一区二区三区入口| 无码人妻少妇色欲av一区二区| 国产99久久久久| 亚洲v国产v欧美v久久久久久| 国产精品国产三级国产有无不卡 | 免费亚洲网站| 欧美激情国内自拍| 久久亚洲免费视频| 三级在线观看免费大全| 午夜在线电影亚洲一区| 午夜视频网站在线观看| 精品国产乱码91久久久久久网站| 黄色电影免费在线看| 欧美成年人视频网站| 日韩福利一区| 国产精品国模大尺度私拍| 欧美一区二区三| 免费高清一区二区三区| 蜜臀av性久久久久蜜臀aⅴ| 中国黄色片视频| 国产精品成人免费在线| 日韩精品一区二区av| 欧美一区二区精品| 国产露出视频在线观看| 午夜剧场成人观在线视频免费观看| se69色成人网wwwsex| 国产麻豆乱码精品一区二区三区| 91欧美大片| 日av中文字幕| 91网页版在线| 精品处破女学生| 91麻豆精品国产91久久久久久| 黄色视屏网站在线免费观看| 久久久视频免费观看| 成人51免费| 一级特黄录像免费播放全99| 亚久久调教视频| 欧美xxxx×黑人性爽| 一区二区三区高清在线| 国产一区二区视频免费观看| 亚洲人高潮女人毛茸茸| 免费一二一二在线视频| 国产精品久久久久久久久久直播| 99视频精品视频高清免费| 九一精品在线观看| 91丝袜美腿高跟国产极品老师| 久久精品视频8| 日韩一区二区三区三四区视频在线观看| 99se视频在线观看| 国产精品老牛影院在线观看| 国产成人久久| 国产精品人人妻人人爽人人牛| 91老师片黄在线观看| 男女视频免费看| 日韩成人av网址| 男人久久天堂| 久久资源亚洲| 久久看片网站| 天天躁夜夜躁狠狠是什么心态| 懂色av影视一区二区三区| 亚洲 美腿 欧美 偷拍| 97在线观看免费| 四虎5151久久欧美毛片| 免费看日本毛片| 久久久国产一区二区三区四区小说 | 亚洲精品免费一二三区| 国产成人精品一区二三区四区五区| 日韩中文综合网| 亚洲精品tv| 老汉色影院首页| 国产精品一区免费视频| 欧美黄色免费观看| 亚洲成avwww人| 日韩av影片| 日韩欧美亚洲v片| 国产一区二区中文字幕| 福利所第一导航| 亚洲高清一区二| 中文字幕在线高清| 色阁综合av| 国产麻豆精品久久一二三| 久久久国产精华液| 日韩黄色高清视频| 国产成人精品一区二区三区免费| 中文字幕日韩精品一区二区| 国产乱子轮精品视频| 国产一级在线观看视频| 亚洲精品mp4| 亚洲激情图片| 精品系列免费在线观看| a在线视频播放观看免费观看| 精品成人一区二区三区| 厕沟全景美女厕沟精品| 亚洲电影网站| 国产精品一级在线| 成人精品免费在线观看| 国产午夜精品一区二区三区| 9999精品免费视频| 欧美在线一区视频| 中文字幕第一区二区| 精品人妻少妇嫩草av无码专区| 午夜精品一区二区三区在线视频 | 夜夜爽99久久国产综合精品女不卡 | 亚洲在线视频免费观看| 日本黄在线观看| 国产在线一区二区三区| 亚洲精品在线二区| 国产一级淫片久久久片a级| 亚洲成人激情视频| 成人在线免费电影网站| 男人添女荫道口图片| 国产精品你懂的在线欣赏| 欧美 日韩 国产 成人 在线 91|