精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MoE與Mamba強強聯(lián)合,將狀態(tài)空間模型擴展到數(shù)百億參數(shù)

人工智能 新聞
近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創(chuàng)造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

狀態(tài)空間模型(SSM)是近來一種備受關注的 Transformer 替代技術,其優(yōu)勢是能在長上下文任務上實現(xiàn)線性時間的推理、并行化訓練和強大的性能。而基于選擇性 SSM 和硬件感知型設計的 Mamba 更是表現(xiàn)出色,成為了基于注意力的 Transformer 架構的一大有力替代架構。

近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創(chuàng)造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

近日,波蘭一個研究團隊發(fā)現(xiàn),如果將 SSM 與混合專家系統(tǒng)(MoE/Mixture of Experts)組合起來,可望讓 SSM 實現(xiàn)大規(guī)模擴展。MoE 是目前常用于擴展 Transformer 的技術,比如近期的 Mixtral 模型就使用了這一技術,參閱機器之心文章

這個波蘭研究團隊給出的研究成果是 MoE-Mamba,即將 Mamba 和混合專家層組合起來的模型。

圖片

論文地址:https://arxiv.org/pdf/2401.04081.pdf

MoE-Mamba 能同時提升 SSM 和 MoE 的效率。而且該團隊還發(fā)現(xiàn),當專家的數(shù)量發(fā)生變化時,MoE-Mamba 的行為是可預測的。

該團隊也進行了實驗論證,如圖 1 所示,結果表明:相比于 Mamba,MoE-Mamba 達到同等性能時所需的訓練步驟數(shù)少 2.2 倍,這彰顯了新方法相較于 Transformer 和 Transformer-MoE 的潛在優(yōu)勢。這些初步結果也指出了一個頗具潛力的研究方向:SSM 也許可以擴展到數(shù)百億參數(shù)!

圖片

相關研究

狀態(tài)空間模型

狀態(tài)空間模型(SSM)是一類用于序列建模的架構。這些模型的思想源自控制論領域,可被看作是 RNN 和 CNN 的組合。盡管它們具有相當大的優(yōu)勢,但也有一些問題,因此難以成為語言建模任務的主導架構。但是,近期的一些研究突破卻讓深度 SSM 可以擴展到數(shù)十億參數(shù),同時還能維持計算效率和強大的性能表現(xiàn)。

Mamba

Mamba 是基于 SSM 構建的模型,能實現(xiàn)線性時間的推理速度(對上下文長度而言),并且其還通過硬件感知型設計實現(xiàn)了高效的訓練流程。Mamba 采用了一種工作高效型的并行掃描方法,可以減輕循環(huán)的序列性的影響,而融合 GPU 操作則可無需實現(xiàn)擴展狀態(tài)。反向傳播所必需的中間狀態(tài)不會被保存下來,而是會在反向通過過程中被重新計算,由此可以降低內(nèi)存需求。Mamba 優(yōu)于注意力機制的優(yōu)勢在推理階段尤其顯著,因為其不僅能降低計算復雜度,而且內(nèi)存使用量還不會取決于上下文長度。

Mamba 能解決序列模型的效率和效果之間的根本性權衡,這就凸顯了狀態(tài)壓縮的重要性。高效的模型必需要小狀態(tài),而有效的模型所需的狀態(tài)應當包含上下文的所有關鍵信息。不同于其它 SSM 對時間和輸入不變性的需求,Mamba 引入了一種選擇機制,可以控制信息沿序列維度傳播的方式。這一設計選擇的靈感來自對選擇性復制和歸納頭等合成任務的直觀理解,讓模型可以分辨和保留關鍵信息,同時濾除無關信息。

研究發(fā)現(xiàn),Mamba 有能力高效地利用更長的上下文(長達 1M token),并且隨著上下文長度增長,預訓練困惑度也會得到改善。Mamba 模型是由堆疊的 Mamba 塊構成的,在 NLP、基因組學、音頻等多個不同領域都取得了非常好的結果,其性能可以媲美和超越已有的 Transformer 模型。因此,Mamba 成為了通用序列建模骨干模型的一個有力候選模型,參閱《五倍吞吐量,性能全面包圍 Transformer:新架構 Mamba 引爆 AI 圈》。

混合專家

混合專家(MoE)這類技術能極大提升模型的參數(shù)數(shù)量,同時不會影響模型推理和訓練所需的 FLOPs。MoE 最早由 Jacobs et al. 于 1991 年提出,并在 2017 年由 Shazeer et al. 開始用于 NLP 任務。

MoE 有一個優(yōu)勢:激活很稀疏 —— 對于處理的每個 token,只會用到模型的一小部分參數(shù)。由于其計算需求,Transformer 中的前向層已經(jīng)變成了多種 MoE 技術的標準目標。

研究社區(qū)已經(jīng)提出了多種方法用于解決 MoE 的核心問題,即將 token 分配給專家的過程,也稱路由(routing)過程。目前有兩種基本的路由算法:Token Choice 和 Expert Choice。其中前者是將每個 token 路由到一定數(shù)量(K)的專家,至于后者則是路由到每個專家的 token 數(shù)量是固定的。

Fedus et al. 在 2022 年的論文《Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity》中提出的 Switch 是一種 Token Choice 架構,其是將每個 token 路由到單個專家(K=1),而他們使用該方法將 Transformer 的參數(shù)規(guī)模成功擴增至了 1.6 萬億。波蘭的這個團隊在實驗中也采用了這種 MoE 設計。

最近,MoE 也開始進入開源社區(qū),比如 OpenMoE。

項目地址:https://github.com/XueFuzhao/OpenMoE

尤其值得一提的是 Mistral 開源的 Mixtral 8×7B,其性能可比肩 LLaMa 2 70B,同時所需的推理計算預算只有后者的約六分之一。

模型架構

盡管 Mamba 的主要底層機制與 Transformer 中使用的注意力機制大不相同,但 Mamba 保留了 Transformer 模型的高層級、基于模塊的結構。使用這一范式,由相同模塊構成的一層或多層會彼此堆疊在一起,而每一層的輸出都會被添加到殘差流(residual stream)中,見圖 2。之后,這個殘差流的最終值會被用于預測語言建模任務的下一個 token。

MoE-Mamba 利用了這兩種架構的兼容能力。如圖 2 所示,在 MoE-Mamba 中,每間隔一個 Mamba 層就會被替換成一個基于 Switch 的 MoE 前饋層。

圖片

不過該團隊也注意到這一設計和《Mamba: Linear-time sequence modeling with selective state spaces》的設計有些相似;后者交替堆疊了 Mamba 層和前饋層,但得到的模型相比于單純的 Mamba 還略有不及。該設計在圖 1 中被記為 Mamba-MLP。

MoE-Mamba 分開了 Mamba 層執(zhí)行的每個 token 的無條件處理和 MoE 層執(zhí)行的有條件處理;其中的無條件處理可高效地將序列的整個上下文整合到一個內(nèi)部表征中,而有條件處理可為每個 token 使用最相關的專家。這種將有條件處理和無條件處理交替起來的思路在一些基于 MoE 的模型中已經(jīng)得到了應用,不過它們通常是交替基本的和 MoE 的前饋層。

主要結果

訓練設置

該團隊比較了 5 種不同設置:基本 Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。

在大多數(shù) Transformers 中,前饋層包含 8dm2 個參數(shù),而 Mamba 論文中則讓 Mamba 更小一些(約 6dm2),這樣兩個 Mamba 層的參數(shù)數(shù)量與一個前饋層和一個注意力層加起來差不多。為了讓 Mamba 和新模型中每個 token 的活動參數(shù)數(shù)量大致一樣,該團隊將每個專家前向層的大小縮小到了 6dm2。除了嵌入層和解除嵌入(unembedding)層,所有模型都是每個 token 使用大約 2600 萬參數(shù)。訓練過程使用了 65 億個 token,訓練步驟數(shù)為 100k。

訓練使用的數(shù)據(jù)集是 English C4 數(shù)據(jù)集,任務是預測下一 token。文本的 token 化使用了 GPT2 tokenizer。表 3 給出了超參數(shù)的完整列表。

圖片

結果

表 1 給出了訓練結果。MoE-Mamba 的表現(xiàn)顯著優(yōu)于普通 Mamba 模型。

圖片

值得注意的是,MoE-Mamba 只用僅僅 46% 的訓練步驟就達到了與普通 Mamba 同等的結果水平。由于學習率是針對普通 Mamba 進行調(diào)整的,因此可以預計,如果再針對 MoE-Mamba 對訓練流程進行一番優(yōu)化,MoE-Mamba 的表現(xiàn)還會更好。

消融研究

為了評估 Mamba 是否能隨專家數(shù)量的增長而很好地擴展,研究者比較了使用不同數(shù)量專家的模型。

圖 3 展示了使用不同數(shù)量的專家時的訓練運行步驟情況。

圖片

表 2 給出了 100k 步驟后的結果。

圖片

這些結果表明新提出的方法能隨專家數(shù)量而很好地擴展。如果專家的數(shù)量為 8 或更多,新模型的最終性能優(yōu)于普通 Mamba。由于 Mamba-MLP 比普通 Mamba 差,可以預見使用少量專家的 MoE-Mamba 的性能表現(xiàn)會比 Mamba 差。當專家數(shù)為 32 時,新方法得到了最佳結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-24 09:36:43

模型架構

2023-07-18 09:54:43

模型語言

2013-02-21 09:41:49

CitusData數(shù)據(jù)庫Postgres

2023-11-16 16:33:43

谷歌人工智能

2015-08-13 13:44:21

優(yōu)化多核

2017-02-09 16:39:54

百度

2023-03-08 14:14:51

微軟ChatGPT

2009-11-12 15:30:44

2009-02-26 10:50:04

NetApp虛擬化VMware ESX

2009-11-12 15:19:54

2022-03-23 16:28:18

微軟NVIDIAGPU

2017-05-26 23:09:47

2009-02-25 16:50:00

2021-01-01 09:46:43

微軟Windows 10Windows

2022-11-10 08:02:41

GitOpsDevOpsKubernetes

2009-09-08 11:05:00

JRuby入門Ruby

2020-09-25 22:29:06

OPPO終端美的

2020-06-05 14:30:03

CephCPU 線程

2022-11-01 08:00:00

2023-03-03 14:08:51

網(wǎng)絡安全首席信息安全官
點贊
收藏

51CTO技術棧公眾號

欧美在线亚洲| 亚洲综合影院| 中文字幕人成不卡一区| 91在线观看免费网站| 久久免费视频99| 蜜臀久久99精品久久一区二区| 欧美午夜免费电影| 欧美中文字幕在线观看视频 | 欧美人与性动交xxⅹxx| 国产精品毛片高清在线完整版| 91九色国产社区在线观看| 国产一级片免费观看| 国产探花一区在线观看| 91精品国产综合久久国产大片| 韩日视频在线观看| 香蕉视频免费在线播放| 成人免费视频网站在线观看| 国产精品久久不能| 国产精品1234区| 日韩在线观看| 日韩精品亚洲元码| 丰满人妻一区二区三区53视频| 一根才成人网| 一区二区三区日本| 亚洲五月六月| 青青草手机在线| 国产成人精品1024| 国产欧美在线视频| 日韩精品成人免费观看视频| 久久久久午夜电影| 一本色道久久88精品综合| 人妻av一区二区三区| 国产精品久久久久久久久久齐齐 | 成人污网站在线观看| 久久精品国产亚洲a∨麻豆| 国产成人自拍高清视频在线免费播放| 日韩女优人人人人射在线视频| 青青操国产视频| 国产精品99一区二区三区| 亚洲视频在线观看| 国产在线观看无码免费视频| aiai久久| 日韩欧美一级二级三级| 色婷婷激情视频| 日韩成人一区| 欧美伊人久久大香线蕉综合69 | 波多野结衣在线播放| 亚洲人成网站影音先锋播放| 亚洲国产一区二区三区在线| 国产日本在线| 国产亲近乱来精品视频| 欧美日韩精品免费观看| 午夜视频在线播放| 不卡欧美aaaaa| 国产综合动作在线观看| 日韩中文字幕免费观看| 大尺度一区二区| 国产精品国产三级欧美二区| 亚洲精品久久久久avwww潮水| 国产成人综合视频| 肥熟一91porny丨九色丨| 精品国产亚洲av麻豆| 国产剧情一区二区三区| 91免费精品视频| 国产免费黄色网址| 国产福利精品一区| 春色成人在线视频| www精品国产| 成人av网站在线观看免费| 国产精品一区二区三区免费观看| 亚洲美女福利视频| 93久久精品日日躁夜夜躁欧美| 久久久久九九九| 黄视频在线观看免费| 国产午夜亚洲精品理论片色戒 | 老司机福利在线视频| |精品福利一区二区三区| av不卡在线免费观看| 欧美24videosex性欧美| 午夜视频一区在线观看| 超碰97人人射妻| 精品亚洲a∨| 精品乱人伦小说| 国产精品1000部啪视频| 日韩1区2区| 欧美精品18videos性欧美| 久久久久久久99| 热久久久久久久| 97中文在线观看| 亚洲日本中文字幕在线| 国产日本欧洲亚洲| 日韩精品福利片午夜免费观看| caoporn视频在线观看| 色综合久久久久综合| 婷婷激情5月天| 欧美18xxxx| 日韩在线观看免费高清| 国产精品成人免费一区二区视频| 三级一区在线视频先锋| 97netav| 国产中文在线视频| 一区二区三区在线看| 虎白女粉嫩尤物福利视频| 国产高清精品二区| 亚洲欧洲国产伦综合| 尤物在线免费视频| 国产深夜精品| 成人欧美一区二区三区在线湿哒哒| 手机看片1024国产| 中文字幕欧美一| 欧美精品色婷婷五月综合| 麻豆久久一区| 中文字幕久热精品在线视频| 久久婷婷综合国产| 久久99精品久久只有精品| 国产一区二区不卡视频在线观看 | 欧美精品久久久久久久免费观看| 国产寡妇亲子伦一区二区三区四区| 国产麻豆精品久久一二三| 青青草原成人| caoprom在线| 777亚洲妇女| 欧美a在线播放| 一区二区国产在线观看| 91日韩在线播放| 91最新在线| 色综合激情久久| 精品视频站长推荐| 欧美日韩理论| 亚洲a∨日韩av高清在线观看| 国产黄在线观看免费观看不卡| 午夜精品影院在线观看| 欧美午夜精品一区二区| 亚洲人成免费网站| 91精品久久久久久| av在线第一页| 欧美午夜精品一区二区三区 | 中文字幕一区二区不卡| 国产xxxxx视频| 亚洲资源网你懂的| 欧美尤物巨大精品爽| 亚洲大尺度网站| 亚洲精品成人少妇| 国产精品中文久久久久久| 不卡视频在线| 国产精品色午夜在线观看| 日本亚洲欧美| 欧美日韩亚洲一区二区三区| 精品无码人妻少妇久久久久久| 你懂的一区二区| 5566中文字幕一区二区| 在线观看免费视频你懂的| 欧美久久久一区| 欧美做爰啪啪xxxⅹ性| 青椒成人免费视频| 亚洲成人自拍视频| 国产亚洲人成a在线v网站| 中文精品99久久国产香蕉| 国产精品尤物视频| 中文字幕免费观看一区| www.日本一区| 91精品国产91久久综合| 91免费国产视频| 日本高清成人vr专区| 精品日本一线二线三线不卡| 久久草视频在线| 久久综合色天天久久综合图片| 日本精品久久久久中文字幕| 欧美精品系列| 成人午夜激情网| 超碰在线97国产| 亚洲欧美日韩高清| 中文文字幕一区二区三三| 国产精品久线在线观看| 亚洲综合在线一区二区| 国产一区激情| 欧美日韩国产精品一区二区| 亚洲精品粉嫩美女一区| 久久视频免费观看| 亚洲精品国产suv一区| 欧美日韩国产中文字幕| 影音先锋男人在线| 韩国毛片一区二区三区| 国产传媒久久久| 最近国产精品视频| 国产日韩欧美成人| 久草在线新免费首页资源站| 亚洲精品成人网| 一区二区视频免费| 亚洲一二三四区| 国产高清一区二区三区四区| 国产精品一区二区三区四区| 免费看一级大黄情大片| 清纯唯美日韩| 国产欧美日韩视频一区二区三区| 偷拍中文亚洲欧美动漫| 久久亚洲精品网站| 天堂v视频永久在线播放| 欧美午夜精品一区| 精品成人免费视频| 18成人在线视频| 国产熟妇久久777777| 国产乱码字幕精品高清av| 69堂免费视频| 欧美日韩四区| 亚洲一卡二卡三卡四卡无卡网站在线看| 成人搞黄视频| 成人午夜两性视频| 成人看片在线观看| 午夜精品国产精品大乳美女| 在线观看h片| 亚洲毛片在线观看| 欧美 日韩 国产 在线| 欧美日韩的一区二区| 中文字幕第15页| 亚洲永久免费av| 天天爽天天爽天天爽| 久久久久成人黄色影片| 国产原创剧情av| 狠狠色丁香久久婷婷综| 能看的毛片网站| 国产午夜精品一区二区三区欧美| 亚洲免费av网| blacked蜜桃精品一区| 国产在线一区二区三区欧美| 国产精品高清一区二区| 国产精品久久久久久久久久| 欧美裸体视频| 97在线观看视频国产| av片在线观看永久免费| 伊人久久久久久久久久久| 婷婷av一区二区三区| 欧美va亚洲va香蕉在线| 国产sm主人调教女m视频| 欧美日韩国产天堂| 日韩精品一区二区亚洲av观看| 性做久久久久久久免费看| 亚洲熟女www一区二区三区| 国产精品萝li| 国产一二三四视频| 国产欧美一区二区精品仙草咪| 国产高清自拍视频| 成人av网在线| 污污内射在线观看一区二区少妇| 国产精品性做久久久久久| 手机免费av片| 寂寞少妇一区二区三区| 亚洲综合激情视频| 激情综合网最新| 欧美日韩久久婷婷| 国产在线观看免费一区| 久久久久久综合网| 狠狠色丁香婷婷综合久久片| 日本在线观看视频一区| 国产一区福利在线| 精品人妻无码中文字幕18禁| 国产精品自产自拍| 欧美一级大片免费看| 国产成人av影院| 日韩无码精品一区二区| 成人高清在线视频| 变态另类丨国产精品| 久久久www成人免费无遮挡大片| 蜜桃传媒一区二区亚洲av| 久久久另类综合| 后入内射无码人妻一区| 亚洲精品日日夜夜| 日韩手机在线观看| 91黄色免费网站| 国产精品人人爽| 日韩精品中午字幕| 日韩福利一区二区| 中文字幕成人精品久久不卡| 成人影院www在线观看| 欧美激情极品视频| 天堂在线中文网官网| 国产精品精品国产| 国产欧美视频在线| 国产伦视频一区二区三区| 九九亚洲精品| 伊人色综合影院| 国内精品久久久久久久影视蜜臀| 日韩av资源在线| 另类小说一区二区三区| 色欲欲www成人网站| 久久午夜国产精品| 污软件在线观看| 精品久久久久久久久中文字幕| 无码视频一区二区三区| 日韩区在线观看| 欧美日本韩国一区二区| 色系列之999| 波多野结衣精品| 国产精品青青在线观看爽香蕉 | 欧美理论一区二区| 天天色天天射综合网| 欧美在线一区视频| 卡一卡二国产精品| 日本少妇xxxx| 17c精品麻豆一区二区免费| 国产成人免费观看视频 | 天天视频天天爽| 成人av高清在线| 国产视频精品免费| 欧美日韩亚洲一区二区| 国产日本精品视频| 一区二区三区视频在线| 里番在线播放| 国产一区二区色| 蜜桃tv一区二区三区| 菠萝蜜视频在线观看入口| 捆绑变态av一区二区三区| 中文文字幕文字幕高清| 亚洲视频 欧洲视频| 永久免费无码av网站在线观看| 日韩欧美一区二区在线视频| 国产在线黄色| 欧美一区在线直播| 大奶在线精品| 特色特色大片在线| 美国一区二区三区在线播放| 黄色正能量网站| 亚洲成av人影院在线观看网| 国产黄色片av| 欧美久久精品一级黑人c片| yiren22亚洲综合| 欧美日本国产精品| 亚洲美女一区| 人妻av一区二区| 亚洲最大成人网4388xx| 国产又粗又黄又爽的视频| 中文字幕亚洲无线码a| 浪潮色综合久久天堂| 欧美lavv| 久久国产精品久久久久久电车| 国产精品无码在线| 五月天国产精品| 三级视频在线看| 91成人在线观看国产| 国产精品久久久久av蜜臀| 男人天堂a在线| 国v精品久久久网| 欧美成人三级视频| 欧美成人一区二区| 色呦呦在线播放| 99超碰麻豆| 狠狠综合久久| 国产精品久久AV无码| 香蕉乱码成人久久天堂爱免费| 蜜桃在线一区二区| 国内揄拍国内精品| 欧美电影在线观看免费| 久久久久久久久久久视频| www国产精品av| 91视频在线视频| 最近中文字幕日韩精品| 91精品国产一区二区在线观看 | 日韩成人毛片视频| 欧美一区二区成人| 毛片网站在线看| 久久国产精品一区二区三区四区| 午夜综合激情| 日韩一级av毛片| 91麻豆精品国产综合久久久久久| 在线不卡日本v二区707| 国产精品免费看一区二区三区| 一区二区三区精品视频在线观看| 国产ts在线播放| 69堂国产成人免费视频| 在线h片观看| 久久久久资源| 久久精品99国产精品日本| 国产免费美女视频| 亚洲白虎美女被爆操| 久久电影tv| 亚洲人成77777| 国产99久久久国产精品免费看| 国产精品免费av一区二区| 国产一区二区欧美日韩| 高清一区二区| 欧美日韩二三区| 1024成人网色www| 五月婷婷综合久久| 国产在线日韩在线| 最新日韩在线| 2017亚洲天堂| 亚洲成成品网站| 国产精品.xx视频.xxtv| 妞干网在线播放| 中文欧美字幕免费| 秋霞网一区二区| 国产日韩欧美在线视频观看| 欧美久色视频| 日本高清黄色片| 亚洲第一精品久久忘忧草社区| 日本美女久久| 日韩av在线第一页| 亚洲青青青在线视频| 欧美高清成人| av资源一区二区|