精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度揭秘爆火MoE!GPT-4關鍵架構,成開源模型逆襲殺手锏

人工智能 新聞
上周末,Mistral甩出的開源MoE大模型,震驚了整個開源社區(qū)。MoE究竟是什么?它又是如何提升了大語言模型的性能?

Mistral上周末丟出的磁力鏈接震驚了開源圈子,這個7B×8E的開源MoE大模型性能已經(jīng)到達了LLaMA2 70B的級別!

而根據(jù)Jim Fan猜測,如果Mistral內部訓練了34B×8E或者甚至100B+×8E級別的模型,那他們的能力很有可能已經(jīng)無限接近GPT-4了。

而在之前對于GPT-4結構的曝料中,大部分的信息也指向GPT-4很可能是由8個或者是16個MoE構成。

為什么MoE能成為高性能大模型的必選項?

簡單來說,MoE是一種神經(jīng)網(wǎng)絡架構設計,在Transformer模塊中集成了專家/模型層。

當數(shù)據(jù)流經(jīng)MoE層時,每個輸入token都會動態(tài)路由到專家子模型進行處理。當每個專家專門從事特定任務時,這種方法可以實現(xiàn)更高效的計算并獲得更好的結果。

MoE最關鍵的組件:

- 專家(Expert):MoE層由許多專家、小型MLP或復雜的LLM(如 Mistral 7B)組成。

- 路由器(Router):路由器確定將哪些輸入token分配給哪些專家。

路由策略有兩種:token選擇路由器或路由器選擇token。

路由器使用softmax門控函數(shù)通過專家或token對概率分布進行建模,并選擇前k個。

MoE能夠帶來的好處:

- 每個專家都可以專門處理不同的任務或數(shù)據(jù)的不同部分。

- MoE構架能向LLM添加可學習參數(shù),而不增加推理成本。

- 可以利用稀疏矩陣的高效計算

- 并行計算所有專家層,以有效利用GPU的并行能力

- 幫助有效地擴展模型并減少訓練時間。以更低的計算成本獲得更好的結果!

MoE:建立高效大模型的關鍵技術

大型語言模型(LLM)席卷了機器學習領域,而隨著現(xiàn)代數(shù)據(jù)集的復雜性和規(guī)模的增加,每個數(shù)據(jù)集都包含不同的模式,特征和標注之間的關系截然不同。

——這時,就需要MoE出手了。

專家混合(MoE)就像神經(jīng)網(wǎng)絡世界中的一種團隊合作技術。

想象一下,將一項大任務分解成更小的部分,并讓不同的專家處理每個部分。然后,有一個聰明的法官會根據(jù)情況,決定遵循哪位專家的建議,所有這些建議都混合在一起。

——就像你利用不同的口味,組合成一道好吃的菜。

對于復雜的數(shù)據(jù)集,可以劃分為局部子集(local subsets),同樣,將需要預測的問題劃分為子任務(采用領域知識或者無監(jiān)督聚類算法)。

然后,針對每個數(shù)據(jù)子集訓練專家模型(Expert Models),專家模型可以是任何模型,比如支持向量機 (SVM) 或者神經(jīng)網(wǎng)絡,每個專家模型接收相同的輸入模式并進行預測。

MoE還包含門控模型(Gating Model),用于解釋每個專家做出的預測,并根據(jù)輸入選擇信任哪個專家。

最后,MoE需要一種聚合機制(Pooling Method),根據(jù)門控模型和專家的輸出進行預測。

在現(xiàn)實的應用中,研究人員提出一種稱為「稀疏門控專家混合層」的方法,作為原始MoE的迭代,這個方法提供了一個通用的神經(jīng)網(wǎng)絡組件,可以適應不同類型的任務。

稀疏門控專家混合層(Sparsely-Gated Mixture-of-Experts Layer)由許多專家網(wǎng)絡組成,每個專家網(wǎng)絡都是一個簡單的前饋神經(jīng)網(wǎng)絡和一個可訓練的門控網(wǎng)絡。門控網(wǎng)絡負責選擇這些專家的稀疏組合來處理每個輸入。

這里的重點是在門控功能中使用稀疏性,——這意味著對于每個輸入實例,門控網(wǎng)絡只選擇少數(shù)專家進行處理,其余的專家保持非活動狀態(tài)。

這種稀疏性和專家選擇是針對每個輸入動態(tài)實現(xiàn)的,整個過程具有高度的靈活性和適應性,而由于不需要處理網(wǎng)絡的非活動部分,計算效率大大提高。

——簡單來說就是,算得快、消耗少、省錢。

MoE層可以分層堆疊,其中主MoE選擇稀疏加權的「專家」組合。每個組合都使用一個MoE圖層。

此外,研究人員還提出了一種名為「Noisy Top-K Gating」的創(chuàng)新技術。

這種機制在門控函數(shù)中增加了一個可調的高斯噪聲,只保留前K個值,并將其余值分配給負無窮大,從而轉換為零門控值。

這種方法確保了門控網(wǎng)絡的稀疏性,同時保持了對門控函數(shù)輸出中潛在不連續(xù)性的魯棒性。另外,它還有助于跨專家網(wǎng)絡進行負載平衡。

MoE和Transformer

下面我們來看一下MoE在Transformer ,也就是當下大火的大語言模型中發(fā)揮了怎樣的作用。

MoE作為一種神經(jīng)網(wǎng)絡架構設計,可以集成進Transformer的結構中。

當數(shù)據(jù)流經(jīng)MoE層時,每個輸入(tokens)都會動態(tài)路由到某個專家模型進行計算,這樣每個專家都可以專注于特定的任務,更好、更高效地給出結果。

上圖展示了具有MoE層的Transformer編碼器的演化(對于解碼器的修改也類似),MoE層取代了Transformer的前饋層。

上圖左邊是標準Transformer模型的編碼器,包括自注意力層和前饋層,交錯著殘差連接和歸一化層。

中間部分通過用MoE層替換其他前饋層,得到了MoE Transformer Encoder的模型結構。

上圖右側是當模型擴展到多個設備時的情況,MoE層將跨設備分片,而所有其他層都會被復制。

我們可以看到MoE的關鍵組件就是各種專家模型和路由模塊。

專家模型也可以是小型MLP, 或者復雜的LLM,如Mistral 7B。

而路由模塊用來確定將哪些輸入tokens分配給哪些專家。

一般有兩種路由策略:token選擇路由器,或路由器選擇token。這里使用softmax門控函數(shù),通過專家模型或者tokens,對概率分布進行建模,并選擇top k。

由此,我們可知MoE層在Transformer中發(fā)揮了重要的作用。

每個專家都可以專門處理不同的任務或數(shù)據(jù)的不同部分;使用MoE可以在不增加推理成本的情況下向LLM添加可學習參數(shù);

此外,MoE還有助于對稀疏矩陣進行高效計算;而MoE中的專家層可以并行計算,這樣就有效利用了GPU的并行能力。

最后,MoE在幫助減少訓練時間的同時,還可以做到有效地擴展模型,以更低的計算成本獲得更好的結果。

MoE開源再受關注

在Mistral放出這個開源的7B×8E的MoE之前,英偉達和谷歌也放出過其他完全開源的MoE。

曾在英偉達實習的新加坡國立大學博士生Fuzhao Xue表示,他們的團隊在4個月前也開源了一個80億參數(shù)的MoE模型。

項目地址:https://github.com/XueFuzhao/OpenMoE

數(shù)據(jù)來源

- 一半來自The RedPajama,另一半來自The Stack Dedup

- 為提升模型的推理能力,采用了大量的編程相關數(shù)據(jù)

模型架構

- OpenMoE模型基于「ST-MoE」,但采用了decoder-only架構。

其它設計

- 采用umT5 tokenizer

- 使用RoPE技術

- 采用SwiGLU激活函數(shù)

- 設定2000 token的上下文長度

BigBench評估

團隊在BigBench-Lite上進行了少樣本測試,其中包括與BIG-G、BIG-G-Sparse以及GPT-3的對比。

通過計算每個詞元激活的參數(shù)數(shù)量和訓練詞元的數(shù)量來大致估計相對成本。圖中每個點的大小代表了相應詞元激活的參數(shù)數(shù)量。特別需要指出的是,淺灰色的點表示MoE模型的總參數(shù)量。

對此,Jim Fan也表示,MoE并不新鮮,它只是沒有得到那么多關注而已......

比如,谷歌很早之前就開源了基于T5的MoE模型——Switch Transformer。

面臨的挑戰(zhàn)和機遇

MoE基礎設施建設

由于MoE擁有大量可訓練參數(shù),理想的軟件環(huán)境應該支持靈活組合的專家級、張量級、流水線級和數(shù)據(jù)并行,無論是節(jié)點內還是節(jié)點間。

此外,如果能支持簡單快速的激活卸載和權重量化,從而減輕MoE權重的內存占用,就更好了。

MoE指令微調

FLAN-MoE研究提出:盡管將MoE的性能通過特定任務的微調轉移到下游任務上存在挑戰(zhàn),但指令微調卻能有效地與MoE模型協(xié)調一致。這展示了基于MoE的語言模型巨大的潛力。

MoE 評估

MoE模型的歸納偏置(Inductive bias)可能在困惑度(perplexity)之外還有其他效果,就像其他自適應模型(如Universal Transformer和AdaTape)那樣。

硬件挑戰(zhàn)

值得一提的是,GPU在跨節(jié)點通信方面面臨挑戰(zhàn),因為每個節(jié)點通常只能配備有限數(shù)量的GPU。這使得專家并行中,通信成為瓶頸。

幸運的是,NVIDIA最近推出了DGX GH200,將256個NVIDIA Grace Hopper Superchips集成到一個單一GPU中,很大程度上解決了通信帶寬問題,為開源領域的MoE模型的訓練和部署提供了幫助。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-12 13:57:00

GPT-3.5MistralAI

2019-08-29 10:46:42

2010-01-18 17:02:06

2022-02-25 08:55:19

BitMapRedis面試題

2010-01-15 09:43:49

Windows 7殺手

2022-02-10 09:04:18

RediSDS數(shù)據(jù)結構

2025-03-03 04:20:00

2009-04-08 08:29:01

蘋果諾基亞移動OS

2023-05-15 12:32:29

GPT-4開源

2012-12-19 13:00:36

飛魚星WLANVF16

2010-03-23 17:06:01

2015-06-15 14:48:21

蘋果iOS9軟實力

2025-06-05 09:08:43

2011-06-27 22:08:42

臺式機評測

2022-12-23 10:50:20

模型開源

2014-12-01 15:20:36

微信點評商家

2013-08-13 09:07:20

大數(shù)據(jù)

2011-07-04 10:00:02

虛擬化

2019-04-22 08:07:31

MySQL數(shù)據(jù)庫索引
點贊
收藏

51CTO技術棧公眾號

综合久久中文字幕| 国产精品无码午夜福利| 肉肉视频在线观看| 成人免费黄色大片| 欧美一级片一区| 精品无码人妻一区二区免费蜜桃| 日韩一级特黄| 一级中文字幕一区二区| 久久精品欧美| 一级做a爱片久久毛片| 欧美日韩一区二区国产| 国产丝袜一区二区| 中文字幕成人免费视频| av免费不卡国产观看| 日本一区二区免费在线观看视频 | 伊人久久久久久久久久| 初高中福利视频网站| 日本成人三级电影| 亚洲欧美经典视频| 日本成人黄色| 亚洲精品97久久中文字幕无码| 日韩精品成人一区二区三区| 欧美另类交人妖| 18啪啪污污免费网站| 欧美a一欧美| 欧美一区二区精美| 欧美亚洲日本在线观看| 久草在线新免费首页资源站| 国产亚洲精品aa| 国产一区免费在线| 国产模特av私拍大尺度| 先锋亚洲精品| 国外视频精品毛片| 91九色丨porny丨极品女神| 深爱激情综合| 日韩国产精品视频| 亚洲一级Av无码毛片久久精品| 欧美亚洲综合视频| 欧美中文字幕久久| 久久精品视频91| 免费成人动漫| 欧美日韩亚洲网| 国内自拍在线观看| 久久青草伊人| 欧美日韩国产精品一区二区三区四区 | 亚洲一区免费观看| 国产树林野战在线播放| 在线观看h片| 国产日韩v精品一区二区| 国内精品视频在线播放| 成人爽a毛片一区二区| 国产精品99久久久久久似苏梦涵| 国产女精品视频网站免费| 亚洲永久精品一区| 日本不卡免费在线视频| 国产成人一区二区三区小说| 成人a v视频| 久久中文在线| 国产精品成人一区二区| 激情网站在线观看| 日韩av在线发布| 国产精品第一区| 最近中文字幕在线视频| 七七婷婷婷婷精品国产| 国产精品高精视频免费| 中文字幕在线天堂| 久久精品二区亚洲w码| 国产一区深夜福利| av男人天堂网| 成人av在线播放网站| 国产偷国产偷亚洲高清97cao| 色一情一乱一乱一区91av| 99免费精品在线| 欧美一区二区三区电影在线观看 | 久久久久久久久久久网站| 国产一级做a爱免费视频| 激情欧美一区| 日本高清久久天堂| 中日韩av在线| 国产激情偷乱视频一区二区三区| 国产精品9999久久久久仙踪林| 免费观看成年人视频| 9l国产精品久久久久麻豆| 欧美性色黄大片人与善| 中文字幕在线免费| 亚洲激情中文1区| www.av毛片| 日韩av免费| 欧美一区二区日韩一区二区| 天天躁日日躁狠狠躁av麻豆男男| 国产伦精品一区二区三区千人斩 | 91嫩草丨国产丨精品| 狠狠色丁香久久综合频道| 欧美中文在线观看| 在线观看中文字幕网站| 国产成人午夜精品5599| 免费精品视频一区| 激情成人四房播| 欧美日韩性生活视频| 日本激情视频在线播放| 中文一区二区三区四区| 亚洲色图13p| 久草网站在线观看| 老牛国产精品一区的观看方式| 91精品久久久久久久| 色欲av伊人久久大香线蕉影院| 国产三区在线成人av| 国产情侣第一页| 欧洲成人一区| 亚洲国产精久久久久久 | 亚洲福利视频三区| 91人人澡人人爽人人精品| 57pao国产一区二区| 亚洲夜晚福利在线观看| 久久久无码精品亚洲国产| 日韩二区三区四区| 国产精品露出视频| 欧美18hd| 91国在线观看| 精品一区二区视频在线观看| 99国产精品一区二区| 欧美性受xxxx黑人猛交| jlzzjlzzjlzz亚洲人| 国产欧美日韩在线| 欧美啪啪免费视频| 伊人久久影院| 久久久精品网站| 中文字幕久久久久| 久久一区二区视频| 美脚丝袜脚交一区二区| 欧美激情三区| 中文字幕精品视频| 国模私拍一区二区| 99精品桃花视频在线观看| 蜜桃视频一区二区在线观看| 日韩精品一级毛片在线播放| 国产一区二区三区三区在线观看| 六月丁香在线视频| 99这里都是精品| 国产原创popny丨九色| 福利欧美精品在线| 欧美极品少妇xxxxx| 国产99视频在线| 亚洲欧美日韩中文播放 | youjizz在线视频| 99这里只有久久精品视频| 精品无码国产一区二区三区av| 久久久91麻豆精品国产一区| 精品久久久av| 国产毛片毛片毛片毛片| 亚洲私人黄色宅男| 红桃视频一区二区三区免费| 欧美激情1区2区3区| 亚洲影院在线看| 青草av在线| 精品奇米国产一区二区三区| 国产成人精品av久久| av电影天堂一区二区在线| 北条麻妃69av| jiujiure精品视频播放| 国产精品丝袜白浆摸在线| 77777影视视频在线观看| 欧美日韩精品电影| 国产成人av免费在线观看| 国产一区二区在线观看免费| 国产在线无码精品| 第一区第二区在线| 97精品一区二区三区| 你懂的在线免费观看| 色噜噜狠狠一区二区三区果冻| 国内精品卡一卡二卡三| 美女视频黄频大全不卡视频在线播放 | 精品毛片在线观看| 亚洲国产精品一区二区www在线| 日本人添下边视频免费| 老司机午夜精品视频在线观看| 亚洲v国产v在线观看| 日韩一级特黄| 久久久久久69| 国产在线免费观看| 欧美日韩一区久久| 欧美片一区二区| 久久亚洲一级片| 五月天婷婷亚洲| 亚洲小说欧美另类婷婷| 久久青青草综合| 日韩精品第二页| 91精品国产乱码久久久久久蜜臀| 国产裸舞福利在线视频合集| 欧美一区三区四区| 国产成人在线免费视频| 中文字幕免费不卡| 色悠悠在线视频| 蜜臀av一区二区在线观看 | 青青草原av在线| 亚洲视频精品在线| www.久久伊人| 91福利精品第一导航| 少妇久久久久久被弄高潮| 久久亚洲一区二区三区四区| 天天操夜夜操很很操| 美女网站久久| 欧美另类videosbestsex日本| 婷婷精品在线观看| 亚洲精品免费网站| 欧美magnet| 久久免费视频这里只有精品| 一级日本在线| 亚洲精品国产精品国自产在线 | 国产情侣在线视频| 国产精品久久久久婷婷二区次| 日本三级日本三级日本三级极| 麻豆视频观看网址久久| 欧美a v在线播放| 欧美先锋影音| 日本xxx免费| 久久综合av| 欧美黑人3p| 精品少妇3p| 91一区二区三区| 国产国产一区| 日本精品在线视频| 国产伦子伦对白在线播放观看| 久久九九热免费视频| 国产午夜精品一区理论片| 精品国产1区二区| 精品国产18久久久久久| 欧美日韩精品一区二区三区四区 | 国产偷亚洲偷欧美偷精品| 99久久国产热无码精品免费| 在线观看亚洲精品视频| 51国产偷自视频区视频| 亚洲国产精品久久久久婷婷884 | 99免费在线观看视频| 九九热这里有精品| 国产精品美女久久久久久免费| 麻豆mv在线看| 91黄色8090| 欧美男男激情videos| 欧美高清自拍一区| 成人av福利| 久久久999精品视频| 中文日本在线观看| 日韩在线观看网址| 欧美黄色激情| 久久九九亚洲综合| 爆操欧美美女| 欧美老肥婆性猛交视频| 五月花成人网| 欧美黑人性视频| 精品自拍一区| 久久婷婷国产麻豆91天堂| 欧美人xxx| 久久影院模特热| 少妇av在线| 久久青草福利网站| 国产在线精彩视频| 青草成人免费视频| 欧美成人a交片免费看| 国产91热爆ts人妖在线| 六九午夜精品视频| 91免费精品视频| 91精品尤物| 久久国产精品亚洲va麻豆| 婷婷精品在线观看| 亚洲福利av在线| 91精品国产视频| 九色自拍视频在线观看| 久久男女视频| 在线看免费毛片| 懂色av中文一区二区三区| 熟妇人妻久久中文字幕| 久久久久久亚洲综合影院红桃| 五月激情四射婷婷| 亚洲蜜臀av乱码久久精品 | 欧美色综合天天久久综合精品| 在线观看中文字幕2021| 日韩美一区二区三区| 性xxxxbbbb| 色香阁99久久精品久久久| 成人在线影视| 2021国产精品视频| 久久91视频| 精品免费日产一区一区三区免费| 精品盗摄女厕tp美女嘘嘘| 自拍另类欧美| 亚洲黄页一区| 国产福利在线免费| 成人爽a毛片一区二区免费| 成人片黄网站色大片免费毛片| 国产精品二三区| 懂色av.com| 欧美日韩国产首页在线观看| 黄频网站在线观看| 中文字幕av一区中文字幕天堂| 后进极品白嫩翘臀在线播放| 国产suv精品一区二区| 清纯唯美激情亚洲| 欧美日韩精品免费观看| 综合一区二区三区| 国产免费一区二区三区视频| 国产在线精品一区二区夜色| 人妻丰满熟妇av无码久久洗澡| 亚洲欧洲日产国码二区| 亚洲天堂一区在线| 日韩一级二级三级| 国产小视频福利在线| 91国产精品电影| 精品国产欧美| 亚洲精品一区二区三区av| 国产精品久久久久9999高清| 日韩欧美中文视频| 国产精品色一区二区三区| 欧美一级高潮片| 日韩一区二区在线看| 国产福利电影在线| 97久久精品人搡人人玩 | 久久久久久99| 黄色成人av网站| 999在线精品视频| 日本一区二区三区四区在线视频| 可以免费看的av毛片| 欧美xxxxx牲另类人与| 日韩美女网站| 国产精品99蜜臀久久不卡二区| 乱亲女h秽乱长久久久| 国产激情片在线观看| 极品少妇一区二区| 极品尤物一区二区| 日本韩国精品在线| 色播色播色播色播色播在线| 欧美黑人xxx| 欧美a在线观看| 大桥未久一区二区| 久久狠狠亚洲综合| 五月婷婷六月香| 在线观看亚洲精品视频| 国产精品二线| 国产精品人成电影| 成人精品视频| 丰满少妇被猛烈进入高清播放| 99re这里只有精品首页| 中文字幕一区二区三区手机版| 欧美成va人片在线观看| 日韩另类在线| 成人精品水蜜桃| 黄色日韩精品| 日本黄色录像片| 婷婷综合另类小说色区| 五月天婷婷社区| 97视频在线观看免费高清完整版在线观看| 香蕉大人久久国产成人av| 欧美在线观看黄| av一区二区三区黑人| 草久久免费视频| 亚洲欧美激情视频| 一区在线影院| 最新不卡av| 国产成人免费视频精品含羞草妖精| 青青草偷拍视频| 亚洲精品福利在线| 吞精囗交69激情欧美| 亚洲国产精品www| 国产在线不卡一卡二卡三卡四卡| 欧美又粗又大又长| 亚洲福利视频久久| 成人爱爱网址| 亚洲视频在线二区| 国产精品一区二区三区四区| 国产一级生活片| 亚洲美女视频网站| 成人午夜亚洲| 波多野结衣与黑人| 26uuu精品一区二区在线观看| 嫩草影院一区二区三区| 久久久91精品国产| 久久综合五月婷婷| 黄色片在线免费| 亚洲欧美日韩精品久久久久| 乱精品一区字幕二区| 日韩美女在线看| 51精产品一区一区三区| 一级黄色电影片| 欧美在线一二三四区| 99在线视频观看| 免费在线成人av电影| 老司机午夜精品| 日本免费一二三区| 在线观看欧美日韩国产| 999久久精品| 不卡av免费在线| 亚洲一区二区视频在线| 国产系列在线观看| 国产成人免费电影| 日本v片在线高清不卡在线观看| 精品无码人妻一区二区三区| 亚洲色图国产精品| 影音先锋欧美激情| www.夜夜爽| 欧美视频专区一二在线观看|