精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

專家模型不要專家并行!微軟開源MoE新路徑

人工智能 新聞
近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。

繼Phi家族之后,微軟又開源了新的混合專家大模型——GRIN MoE。

與Phi-3.5同樣的個頭(16 * 3.8B),卻采用了截然不同的訓練方法。

這個「不走尋常路」如果寫個太長不看版,那就是兩句話:

1. 使用新一代SparseMixer來精確估計專家路由的梯度,解決傳統方案中利用門控梯度代替路由梯度的問題。


2. 專家并行不要了,訓練中改用數據、pipeline和張量并行,避免了傳統方法丟棄token的問題。

圖片

論文地址:https://arxiv.org/abs/2409.12136

當然了,上面兩句話是小編說的,多少有點糙,文中細節,還請諸君繼續閱讀~

這年頭,新來一個LLM,當然要先刷分了——

參數要少,效果要好,所以要在左上角:

圖片

GRIN作為MoE架構,總參數量約42B,推理時激活的參數為6.6B,打同級別(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3還要略勝一籌。

圖片

在上面的這份成績單中,GRIN MoE表現優異,尤其是在編碼和數學測試中。

比如,在衡量數學問題解決能力的GSM-8K中,GRIN MoE得分為90.4,而在編碼任務基準HumanEval上拿到了74.4分。

在MMLU(大規模多任務語言理解)基準測試中GRIN得分為79.4,超過了同為MoE架構的Mixtral(70.5分),以及自家的Phi-3.5(78.9分)。

如果對比流行的商用模型,GPT-3.5表示感受到時代的力量,默默退出群聊。

圖片

開放權重:https://huggingface.co/microsoft/GRIN-MoE

demo:https://github.com/microsoft/GRIN-MoE

MoE全新訓練路徑

GRIN MoE由常規的Transformer塊構成,采用分組查詢注意力(GQA)和滑動窗口注意力來提高計算效率。

采用RoPE進行位置編碼,以便在預訓練后實現長上下文能力。

圖片

在MoE架構中,模型通過路由網絡為每個輸入token挑選適合的專家模塊。對于有n個專家的網絡,一個用于推理的MoE模塊的輸出為:

圖片

其中z = Router(x,r),本文中Router采用線性網絡,Gating是門控函數(通常為softmax),Expert是FNN層。

MoE通過TopK函數進行專家分配,這個專家路由的過程是不可微的,所以反向傳播的時候沒法求導。

對此,傳統的MoE訓練將TopK視為常數,僅通過Gating來反向傳播計算路由權重梯度,相當于用門控的梯度代替了路由的梯度。

這多少有點糙。

不可導怎么辦

恰好,本文一作之前有一篇工作(SparseMixer):

圖片

論文地址:https://arxiv.org/pdf/2310.00811

受到直通梯度估計器的啟發,作者擴展了前作,提出了SparseMixer-v2。

作者首先將TopK函數替換為模型訓練中離散變量的隨機采樣,然后應用heun’s third order method來近似專家路由梯度,并構建一個改進的反向傳播,為專家路由給出數學上合理的梯度估計。

圖片

前作中,SparseMixer的有效性在神經機器翻譯任務和ELECTRA語言模型訓練中得到了證明。

而在GRIN MoE的開發過程中,SparseMixer-v2終于有機會大規模應用于自回歸語言模型訓練。

作者用2.5T token訓練了兩個16×0.9B MoE。其中一個遵循GRIN MoE中使用的相同方案,另一個用傳統的GShard方法替換 SparseMixer-v2。

圖片

如上圖所示,將SparseMixer-v2的性能提升推廣到16×0.9B尺度的自回歸語言模型訓練。

在前0.5T token上GShard表現更好,但SparseMixer-v2在訓練后期取得了更強的性能。

專家模型不要專家并行

傳統的MoE訓練采用專家并行,簡單理解就是把不同的專家分配到不同的顯卡上。

一個明顯的問題是負載不均衡,有的專家會分到更多的token,有的專家卻很閑。

圖片

之前的做法是設定一個閾值,比如1000個token分給4個專家,每人應該是250,這時候每張卡就最多只算250個token,超過后直接丟棄(送到下一層)。

而在本文中,作者利用數據并行、pipeline并行和張量并行來訓練GRIN MoE。

此外,對于沒有專家并行性的MoE計算,作者發現Megablocks包非常有用,它的grouped_GEMM內核和包裝器的性能更好。

應用這些新的工程化方法避免了專家并行,也就不用丟棄token了。

最終,與具有相同激活參數的密集模型相比,本文的方法實現了超過80%的訓練效率提升。

圖片

上表中,作者將兩種不同大小的MoE模型與具有相同激活參數量的密集模型進行了比較,使用相同的硬件測量了它們的訓練吞吐量。

盡管MoE總的參數量是密集模型的六倍多,但在實驗中達到了超過80%的相對吞吐量,證實了使用GRIN MoE方法的模型具有顯著的計算擴展潛力。

(PS:密集模型的吞吐量是在與MoE模型相同的并行度設置下測量的,這里的比較是為了研究密集激活網絡(非MoE)和稀疏激活網絡(MoE)的GPU內核效率)

此外,在擴大模型大小時,密集模型和MoE模型顯示出相似的減速模式,比如6.6B密集模型的訓練吞吐量大約比1.6B密集模型的訓練吞吐量慢4.19倍(后者的參數少4倍)。同樣,42B MoE模型的訓練吞吐量比10B MoE 模型的訓練吞吐量慢約3.96倍(對應參數少4.2倍)。

并行實驗

在只使用pipeline并行的情況下,通過在GPU之間進一步劃分不同層,可以將最大專家數量從16個擴展到32個。但是,如果再增加專家數量,則會導致單個層的參數過多,一個GPU就放不下了。

所以下一個維度采用張量并行。

專家并行在前向和后向計算中有兩個all-to-all通信開銷,而張量并行在前向和后向計算中有兩個all-reduce通信開銷。

相比之下all-reduce操作的延遲更高一點,但可以通過精心排布前向和反向的計算來overlap掉一部分開銷。

圖片

如上圖所示,通過結合pipeline并行和張量并行,系統支持的最大專家數量擴展到52個(總共132B參數)。

這個數量是因為實驗只用了64個GPU,最多能將模型劃分為64個階段,如果有更多的GPU,那么還能繼續向上擴展。

不過作者也表示,使用更復雜的并行通常會導致計算吞吐量降低。

負載均衡

如前所述,本文沒有采用專家并行,但是負載不均衡的事實依然存在。

作者在這里通過調整負載均衡損失來調節全局的負載均衡。常見的負載均衡損失定義為:

圖片

其中α是超參數,n是專家數量,fi是調度給專家的token比例。

傳統方法在本地不同的GPU上計算fi,因此負載均衡損失將調節本地專家負載均衡并緩解token丟棄。

在本文中,作者通過計算全局的fi(比如數據并行過程中組內的all-reduce)來修改負載均衡損失,調節專家負載以達到全局平衡。

盡管這種調整會產生額外的通信開銷,但類似于張量并行,這些通信也可以與計算overlap,從而在很大程度上減少額外的延遲。

最后,放一個測試結果來show一下GRIN MoE的數學推理能力:

圖片

作者注:我們對新發布的GAOKAO(即全國普通大學和學院入學統一考試)的數學問題進行案例研究,這是中國一年一度的全國本科入學考試。


該考試以其嚴格的安全協議而聞名,是評估AI模型回答數學問題的能力的理想測試平臺。請注意,GRIN MoE的訓練于太平洋標準時間6月3日結束,2024年GAOKAO于中國標準時間6月7日開始。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-10 16:01:28

2024-01-10 17:37:17

概率token模型

2024-05-14 09:06:42

谷歌模型

2025-02-17 03:00:00

LLMsMoELLM

2025-03-11 00:35:00

DeepSeektoC業務

2025-05-30 09:06:00

2025-01-24 14:19:21

2025-02-25 18:41:39

2013-01-04 15:57:49

微軟Tech 2012

2024-08-06 08:16:05

2010-11-12 10:50:07

微軟Azure

2023-12-09 13:32:21

GPT-4MoE架構開源大模型

2024-07-15 13:22:56

2013-10-29 09:27:34

383方案專家電信重組

2009-07-17 16:38:40

2010-07-01 10:24:30

UML小工具

2010-01-13 14:25:49

C++特點

2009-12-31 13:50:46

ADO.NET模型

2012-03-05 11:23:52

2015-11-03 15:13:34

CDO大數據首席數據官
點贊
收藏

51CTO技術棧公眾號

在线播放黄色av| 日本亚洲自拍| 69精品久久久| 日日天天久久| 欧美日韩第一区日日骚| 国产情侣第一页| 国产美女性感在线观看懂色av | 国产精品玖玖玖在线资源| 精品欧美国产一区二区三区| 亚洲巨乳在线观看| 成人久久久精品国产乱码一区二区 | 96视频在线观看欧美| 亚洲国产另类精品专区| 五月天久久狠狠| 黄色一级a毛片| 蜜桃一区二区三区在线| 久久久欧美一区二区| 黄色国产在线播放| 日本一区福利在线| 91麻豆精品国产91久久久久 | 亚洲国产精品yw在线观看| 亚洲高清在线免费观看| av丝袜在线| 1024成人网| 欧美系列一区| 日韩一级片免费观看| 九一久久久久久| 欧洲午夜精品久久久| 欧美成人精品欧美一级| 欧美色婷婷久久99精品红桃| 精品国产一区二区三区四区四| 色婷婷成人在线| 亚洲精品福利电影| 亚洲不卡在线观看| 女女百合国产免费网站| porn亚洲| 欧美激情在线观看视频免费| 久久精品一二三区| 亚洲欧美另类综合| 国产精品夜夜嗨| 91精品国产自产在线| 波多野结衣高清在线| 国产毛片一区| 777777777亚洲妇女| 久久久久久福利| 亚洲综合自拍| 欧美成人h版在线观看| 蜜桃av.com| 久久在线视频免费观看| 中文字幕无线精品亚洲乱码一区| 六月婷婷七月丁香| 天天躁日日躁狠狠躁欧美巨大小说| 精品久久人人做人人爱| 亚洲少妇一区二区| jazzjazz国产精品久久| 日韩精品一区二区三区swag | 久久91亚洲人成电影网站| 亚洲综合久久av一区二区三区| 国产精品视频一区二区三区四蜜臂| 亚洲国产日韩欧美在线99| 国产一级黄色录像| 欧美巨大xxxx| 亚洲欧美在线一区| 日本性高潮视频| 日本大胆欧美| 精品精品国产国产自在线| 亚洲欧美小视频| 欧美午夜不卡| 91av在线不卡| 国产精品免费无遮挡无码永久视频| 久久天堂成人| 国产精品人成电影在线观看| 一区二区日韩视频| 国产精品一区二区视频| www.久久草| 亚洲色欧美另类| 久久久精品国产免大香伊| 日韩久久久久久久| 久草免费在线观看| 亚洲一区二区三区激情| 中国丰满人妻videoshd| 性感美女一区二区在线观看| 精品污污网站免费看| 亚洲av无日韩毛片久久| 91精品短视频| 亚洲欧洲中文天堂| 暗呦丨小u女国产精品| 国产精品v日韩精品v欧美精品网站| 久久久免费电影| 超碰在线免费97| 国产乱人伦偷精品视频免下载| 成人区精品一区二区| 国产日本在线| 一区二区三区高清不卡| 日本成年人网址| 亚洲综合伊人| 亚洲精品有码在线| 极品盗摄国产盗摄合集| 久久激情一区| 2014国产精品| 丁香婷婷在线观看| 亚洲一区二区三区四区五区中文 | 久久国产精品色| 国精产品一区二区| 麻豆影院在线| 一本久久a久久精品亚洲| 亚洲天堂伊人网| 国产一区二区亚洲| 久久久久久这里只有精品| 亚洲天堂国产精品| 99精品欧美一区二区三区小说| 亚洲精品一区二区三区av| 97久久人人超碰caoprom| 欧美日韩国产片| 国产三级国产精品| 欧美日韩国产精品一区二区亚洲| 国产97色在线|日韩| 风流少妇一区二区三区91| 国产精品初高中害羞小美女文| 少妇人妻大乳在线视频| 免费观看亚洲视频大全| 中日韩美女免费视频网址在线观看| 国产一级二级三级| 久久国产三级精品| 日韩高清国产一区在线观看| 黑人玩欧美人三根一起进| 欧美日韩国产综合视频在线观看| 中国一级特黄录像播放| 国产精品xvideos88| 成人精品一区二区三区电影免费| 你懂的视频在线| 午夜久久久久久久久| 午夜性福利视频| 欧美99久久| 91精品国产自产在线老师啪| bbbbbbbbbbb在线视频| 91国内精品野花午夜精品| 国产在线观看无码免费视频| 亚洲国产裸拍裸体视频在线观看乱了中文 | 欧美一级黄色影院| 亚洲va久久| 国产91精品久久久久| 婷婷丁香花五月天| 激情久久av一区av二区av三区 | 国产日本精品视频| 亚洲欧洲av在线| av亚洲天堂网| 99九九热只有国产精品| 国产啪精品视频| 免费观看在线黄色网| 欧美日韩一二三区| 在线观看黄网址| 国模娜娜一区二区三区| 97超碰人人爱| 2020国产精品极品色在线观看| 九九视频直播综合网| 丁香六月天婷婷| 偷窥少妇高潮呻吟av久久免费| 国产日韩视频一区| 国产精品嫩草99av在线| 欧美日韩综合精品| 123成人网| 中文字幕日韩专区| 国产黄色av网站| 亚洲a一区二区| 人妻无码一区二区三区| 老司机精品久久| 午夜一区二区三区| 亚洲男人在线| 久久久久久久久网站| 天堂成人在线视频| 91久久久免费一区二区| 国产无遮挡在线观看| 激情综合色综合久久综合| 青青草综合视频| 精品亚洲自拍| 国产精品第一第二| 91网在线看| 亚洲精品久久视频| 国产精品第六页| 亚洲四区在线观看| 97精品人妻一区二区三区蜜桃| 国产精品入口66mio| 天堂精品一区二区三区| 国产精品一级在线观看| 97在线观看免费高清| 福利片在线观看| 欧美一级日韩不卡播放免费| 免费无遮挡无码永久在线观看视频 | 国产精品久久久久久搜索| 免费黄色网页在线观看| 亚洲国产精品人人爽夜夜爽| 69视频免费在线观看| 国产精品国模大尺度视频| 日本xxxx免费| japanese在线观看| 天堂影院一区二区| 久久av秘一区二区三区| 国产精品流白浆在线观看| 2019av中文字幕| 日本网站在线免费观看视频| 日韩欧美中文字幕一区| 午夜婷婷在线观看| 伊人性伊人情综合网| 亚洲做受高潮无遮挡| 国产一区二区三区香蕉| 国内外成人激情视频| 国产精品久久久久一区二区三区厕所| 97影院在线午夜| 日韩美女在线| 91精品国产色综合| av网站在线免费看推荐| 亚洲欧美日韩一区二区三区在线| 国产理论片在线观看| 欧美日韩一区免费| 久久午夜鲁丝片午夜精品| 欧美国产综合一区二区| 亚洲制服丝袜在线播放| 国产毛片一区二区| 国产高潮免费视频| 国产日韩欧美高清免费| 伊人再见免费在线观看高清版| 国产精品一区二区三区av麻| 不卡视频一区| 国产激情一区| 国产精品专区第二| 欧美日韩电影免费看| 久久久欧美一区二区| 麻豆免费在线观看| 伊人伊成久久人综合网小说 | 日本蜜桃在线观看视频| 欧美精品制服第一页| jizz在线免费观看| 亚洲最新中文字幕| 秋霞av在线| 亚洲成人精品av| 午夜精品久久久久久久爽| 欧美日韩高清一区二区| 在线免费观看高清视频| 欧美专区日韩专区| 日本免费精品视频| 欧美日韩亚洲视频一区| 三级黄色在线视频| 红桃视频成人在线观看| 国产情侣在线视频| 亚洲aⅴ怡春院| 日本一区二区欧美| 精品国产91久久久| 成人午夜视频精品一区| 激情成人中文字幕| 亚洲黄色小说图片| 疯狂欧美牲乱大交777| 午夜精品三级久久久有码| 五月天欧美精品| 91精品国产乱码久久久张津瑜| 亚洲国产毛片aaaaa无费看| 国产第100页| 婷婷久久综合九色综合绿巨人| 久久久久亚洲av片无码下载蜜桃| 尤物视频一区二区| 日韩黄色在线视频| 懂色aⅴ精品一区二区三区蜜月 | 欧美日韩国产精品自在自线| 中文在线字幕av| 欧美人妖巨大在线| av网站免费播放| 欧美大胆一级视频| 手机看片1024国产| 亚洲欧美日韩区| av天在线观看| 欧美大尺度激情区在线播放| 污视频免费在线观看| 韩国三级电影久久久久久| 亚洲福利影院| 国产成人精品免费视频| 日韩一区中文| 91av免费看| 亚洲小说图片| 亚洲国产一区二区精品视频| 亚洲天天综合| 少妇高潮毛片色欲ava片| 三级在线观看一区二区| 欧美成人三级在线播放| 国产一区二区不卡| 国产精品久久无码| 中文字幕精品一区二区精品绿巨人 | 国产熟女一区二区三区四区| 精品剧情在线观看| 国产在线日本| 欧美激情手机在线视频| 日韩成人动漫| 69堂成人精品视频免费| 免费精品国产| 狠狠噜天天噜日日噜| 久久久精品性| 午夜xxxxx| 久久夜色精品国产噜噜av| 在线观看日本黄色| 黄色成人在线播放| 国产视频www| 亚洲人成电影在线播放| av在线免费观看网址| 日本成熟性欧美| 免费一级欧美片在线观看网站| 久久综合给合久久狠狠色| 久久久久国产| 久久久久狠狠高潮亚洲精品| 国产乱子轮精品视频| 久操视频免费看| 一区二区三区美女视频| 中文精品久久久久人妻不卡| 亚洲国产精品久久久久| 免费日本一区二区三区视频| 欧美中文在线观看国产| 日韩欧美高清一区二区三区| 亚洲精品成人自拍| 亚洲欧美卡通另类91av| 手机看片国产精品| 中文字幕国产精品一区二区| 日韩在线观看第一页| 欧美成人猛片aaaaaaa| 亚洲免费视频一区二区三区| 69av在线视频| 动漫视频在线一区| 黄色一级片国产| 久久国产欧美日韩精品| 色婷婷在线影院| 精品久久久久久久久久国产| 亚洲xxx在线| 久热精品视频在线免费观看| 91超碰碰碰碰久久久久久综合| 国产精品毛片va一区二区三区| 91中文字幕精品永久在线| 日本新janpanese乱熟| 99久久国产免费看| 国产无码精品视频| 欧美成人精品高清在线播放 | 国产精品黑丝在线播放 | 国产91精品一区二区麻豆亚洲| 午夜激情视频在线播放| 精品视频在线视频| 天堂中文8资源在线8| 国产玖玖精品视频| 色综合狠狠操| 亚洲另类第一页| 国产精品久久三| 国产精品无码天天爽视频| 中文字幕在线看视频国产欧美在线看完整 | 国产欧美亚洲精品a| 国产真实乱子伦| 久久久午夜电影| 日日夜夜狠狠操| 国产亚洲精品成人av久久ww| 91九色综合| 一区二区在线高清视频| 久久国产综合精品| 亚洲最大的黄色网址| 欧美videofree性高清杂交| 欧美大片黄色| 国产亚洲二区| 久久久久国产精品午夜一区| 国产又黄又粗视频| 欧美日韩国产电影| 高清免费电影在线观看| 电影午夜精品一区二区三区| 在线国产欧美| 国产精品无码午夜福利| 91国偷自产一区二区开放时间| 91精彩视频在线观看| 成人精品视频久久久久| 欧美日本国产| 在线天堂www在线国语对白| 日本久久精品电影| 欧美成年黄网站色视频| 97se视频在线观看| 国产视频一区三区| 久久久久久成人网| 91精品国产高清一区二区三区| 国产探花在线观看| 日本一区二区免费看| 国模娜娜一区二区三区| 日韩av片在线播放| 国产亚洲激情在线| 欧美专区一区| 啊啊啊一区二区| 中文字幕中文在线不卡住| 亚洲欧美另类一区| 国产精品极品美女粉嫩高清在线| 久久在线视频| 久久久久成人精品无码中文字幕| 日本韩国一区二区三区视频| 成a人片在线观看| 久久国产精品99久久久久久丝袜 | 欧美三级网页| 人妻少妇无码精品视频区| 欧美一级欧美三级| 视频在线日韩| 丰满的少妇愉情hd高清果冻传媒| 久久久久成人黄色影片| 精品国产999久久久免费|