精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

又有人來問MOE和Dense模型到底差哪了?

發布于 2025-9-29 07:29
瀏覽
0收藏

最近更新的比較少,因為一直在打街霸6的天梯,我已經沖到鉆石了,離大師一步之遙。

又有人來問MOE和Dense模型到底差哪了?-AI.x社區

然而...今天又被人問了MOE和dense到底區別在哪,但是他說的很多理解是完全錯的。其實我以前講過,但是可能沒那么細,所以我今天仔細澄清一下大家理解的誤區。

如果隨便答,其實什么推理省顯存,簡單的道理,因為activation 少了么,原來要激活整個MLP,現在激活的幾個expert之類的云答案,這種很好找的。

那么問題來了,激活experts(一般需要*N)就比你dense模型激活少么?

首先MOE的experts和dense的 MLP是什么關系?

估計大部分兄弟隨口一云,就會說per_expert_dim * expert_num= MLP

這對么?

看起來好像對的答案,其實是經不起推敲的。

我們知道transformer的layer的架構排布是下面這樣的。

又有人來問MOE和Dense模型到底差哪了?-AI.x社區圖片


因為我們為了簡單就用標準的causal LLM也就是右邊的這個來講。

首先MH attention 層要經過qkv矩陣之后算注意力然后由liner o 也就是output會產生出來送給MLP層的tensor,這個東西對mlp層計算的dim(維度)是和mlp層的input layer是相同的。

那就變了MOE就能不同?

想象都知道不可能得事嗎,維度不一樣,你怎么矩陣計算呢?

所以這個在互聯網上普及的看似正確的答案就是個純扯淡的意淫流答案。

那實際是怎么樣的呢?

我們分兩個思路來看

第一,假設你原有一個模型,你就想給它升級MOE

那你升級哪呢?

升級MLP么,對吧,基于我剛才講的,liner o出來的維度要和mlp維度等價,所以你如果有8個experts,就是相當于給你的整個MLP層擴大了8倍參數。

這么做的話呢,首先可以肯定的是,如果你會訓練,知道怎么穩定MOE梯度之類的操作,那么效果自然是好的,因為擴參數,想都不用想。

但是,你省資源了嗎?

那必然是沒省,因為你整個參數擴大了,對于transformer模型來講最大頭的參數肯定是MLP,也就是你放大了幾倍的參數,weight顯存,你占定了,同樣的激活,原來我激活一個mlp,哪怕你是最簡單的8 experts only激活2個,那也是2倍一樣的激活顯存,這個不管訓練還是推理,你都要投入對應的顯存容量來fulfill。

所以這個和你初始的要求不太一樣啊!

所以第二個思路,我重做一個,重頭design。

我們以qwen的32b和qwen 30B A3B來做一個對比。

又有人來問MOE和Dense模型到底差哪了?-AI.x社區圖片

這倆模型差不多大,對于weight顯存的占用肯定是差不多了。

那么我們現在來分析左邊的dense 32B 和右邊的MOE 30B-A3B的區別。

一、誰變了、變到哪

  • 層數 L
    dense: num_hidden_layers=64
    MoE: num_hidden_layers=48
    MoE 版顯著減少了層數。因為在總參受限了,就30B左右,所以FFN(MLP)大點,地方就那么大,那前面attention層就要受擠壓,MoE 會讓骨干深度變淺,把參數預算讓給 experts。
  • 模型隱維 d_model 與注意力dense: hidden_size=5120, num_attention_heads=64, head_dim=128(由圖左側 head_dim=128 可見)MoE: hidden_size=2048, num_attention_heads=32, head_dim=128MoE 版把 d_model 從 5120 降到 2048;注意力頭數也從 64 降到 32,但單頭寬度 head_dim 仍是 128。這意味著注意力與殘差主干被整體“瘦身”了,剛才把attention的層干淺了,這次把整個模型的dim寬度也干窄了,進一步為了維持30B左右的參數,繼續砍?
  • FFN/MLP 中間維(dense 的 intermediate_size)dense: intermediate_size=25600(≈5× d_model=5120)MoE: intermediate_size=6144(這是 MoE 層里每個 expert 的中間維度 d_ff_expert;≈3× d_model=2048)關鍵點:MoE 不是把 dense 的中間維切片,而是每個 expert 自己一套、但更“瘦”。這里清楚顯示了業界常用策略:保持輸入輸出維為 d_model,降低專家的中間寬度來控參控算。當然有人也會杠,那為什么沒有人在liner o,也就是proj o 后面加一個降為的liner來和mlp的expert對齊,這個問題我不回答,大家自己琢磨琢磨,留個彩蛋,當然你想明白這個問題就自然會心一笑。
  • MoE 相關字段"moe_intermediate_size": 768(圖右存在該字段,通常用于門控/共享投影等 MoE 內部維度,具體實現依賴庫)"num_experts": 128"num_experts_per_tok": 3(就是 top-k=3)還有 router/負載均衡的若干超參(如 router_aux_loss_coeff 等)這是一個較大 N 的 MoE(128 個專家),每個 token 激活 3 個。從訓練的角度這個確實省激活,其實推理就還好。別看好像省了125個experts,但是對于推理來講,它不是訓練,不用考慮反向。這種沒那么大的模型,activation的顯存能省,但是省不了你們想那么多,除非你input的seq特別長,batch太大。
  • KV headsdense: num_key_value_heads=64(與總頭數一致)
    MoE: num_key_value_heads=4(顯著更少,采用 GQA:少量 KV 頭共享給多查詢頭)
    這進一步壓縮了注意力狀態與推理緩存(KV cache),降低顯存與帶寬壓力。

二、從這些變化得出的結論

  • MoE 版把“共享、每 token 必算”的主干(d_model、注意力頭數、層數)都縮小了;把參數預算轉移到“稀疏激活”的專家集合上。在總參固定下,MoE 也沒有超能力,所以只能讓注意力/層數變小或變淺。
  • 每個 expert 的中間維度被降了:dense 的 25600(≈5×5120)對比 MoE 每 expert 的 6144(≈3×2048),其實單個的mlp(一個expert)的表達能力是被降低了,我們知道mlp層的核心訴求就是需求隱空間的語義信息,那降低了怎么辦?用多experts來承載多樣性。
  • 同時引入 GQA(num_key_value_heads 遠小于總頭數)來進一步節約注意力側的參數與 KV cache,適配大 N、top?k 的 MoE 設計,保障吞吐和顯存可行。

三、對訓練/推理與效果的含義

  • 訓練/推理 FLOPs
    每 token 的 MoE 計算量主要隨 k=3 與 d_ff_expert=6144 走;N=128 對單 token FLOPs 影響不大(更多影響參數量與路由)。
    注意力側因 d_model 變小、頭數變少、GQA 化,計算與 KV cache 顯著下降,有利于吞吐。
  • 表達力與路由
    雖然單個 expert 比 dense 的 FFN 更瘦,但有 128 個專家且 top?3 激活,整體表達多樣性提升;負載均衡和路由質量變得關鍵。
  • 長上下文與注意力質量
    d_model 與頭數變小對注意力分辨率不利,但通過層數/專家多樣性、訓練策略與數據規模可以部分補償。具體效果要看實際評測。這個也是moe的一個弱點(同等參數下),當然如果你能給upset做到671B又做到1T,那當我沒說

四、可復制的設計要點(如果你要做同類改型)

  • 保持子層輸入/輸出維一致為 d_model(方便殘差與實現),把“瘦身”放在 expert 的中間維 d_ff_expert。
  • 通過減少 L、d_model、注意力頭數和使用 GQA 來為 MoE 挪參數預算。
  • 選擇合適的 N 與 k,常見 k=1–2;這里采用 k=3,配合更強的路由/均衡與較瘦的 expert。
  • 關注 router 正則(如 router_aux_loss_coeff)與 capacity 設置,保證均衡與穩定訓練。

好,那么我們總結一下!

看這兩個模型config.json的配置,并對比,非常清晰地展示了標準業界的 MoE 的典型取舍:在總參相近時,MoE 模型顯著縮小了主干(d_model、層數、注意力頭/GQA),并把 FFN 從 dense 的單路大寬度,改成多專家的中等寬度;每個 expert 的維度被刻意降了,以換取“多專家 + 稀疏激活”的表達力與性價比。

本文轉載自??熵減AI??,作者:周博洋

已于2025-9-29 10:11:56修改
收藏
回復
舉報
回復
相關推薦
911精品国产一区二区在线| 久久99在线观看| 精品视频久久久久久久| 久草精品在线播放| 无遮挡动作视频在线观看免费入口 | 日韩国产欧美在线视频| 综合136福利视频在线| 成年人看片网站| 成人小电影网站| 亚洲欧美在线观看| 欧美第一黄网| 亚洲伦理在线观看| 日本不卡一二三区黄网| 欧美激情第一页xxx| 欧美大波大乳巨大乳| 免费观看亚洲视频大全| 色哟哟一区二区在线观看| 一区二区三区视频| 日韩av资源| 成人丝袜视频网| 国产精品小说在线| 久久久国产精品成人免费| 亚洲91中文字幕无线码三区| 国产视频在线一区二区| 色偷偷中文字幕| 成人一级视频| 欧美日韩亚洲国产一区| 黄色一级大片免费| 欧美日本一道| 国产欧美精品区一区二区三区| 国产欧美韩日| 国产av无码专区亚洲a∨毛片| 久久久久综合| 欧美丰满少妇xxxxx做受| 日韩在线视频免费看| 夜色77av精品影院| 亚洲国产免费av| 香蕉视频在线观看黄| 亚洲成人高清| 欧美视频完全免费看| 国产女女做受ⅹxx高潮| 国产精品论坛| 午夜日韩激情| 蜜桃91丨九色丨蝌蚪91桃色| 欧美极品少妇与黑人| 国产精品嫩草影院俄罗斯| 精品久久不卡| 亚洲天堂av在线免费| 日本丰满少妇裸体自慰| 巨人精品**| 亚洲激情视频网| 午夜剧场免费看| 黄色免费大全亚洲| 亚洲精品一区二区三区蜜桃下载 | 国产传媒一区在线| 91亚洲精品在线| 国产视频在线观看免费| 黑人巨大精品欧美黑白配亚洲| 国产精品高潮呻吟久久av野狼 | 这里只有精品免费| 五月天开心婷婷| 国产激情精品一区二区三区| 91精品欧美综合在线观看最新| www.国产视频.com| 国产精品久久免费视频| 欧美一级黄色大片| 色悠悠久久88| 成人在线观看黄| 日韩一区二区三区在线免费观看| 色综合网色综合| 欧美日韩在线成人| 欧美黄页在线免费观看| 8x8x8国产精品| 少妇伦子伦精品无吗| 91嫩草精品| 日韩国产精品视频| 精品国产成人亚洲午夜福利| 成人三级视频| 精品国内自产拍在线观看| 欧美成人一区二区三区高清| 一区二区自拍| 欧美自拍视频在线| 亚洲天堂视频网| 国产精品一二三| 国产伦精品一区二区三区视频免费| 午夜av免费在线观看| 久久久久久黄色| 日本特级黄色大片| 2001个疯子在线观看| 欧美性猛交xxxx富婆| 日本在线一二三区| 91精品尤物| 亚洲深夜福利在线| 国产高潮国产高潮久久久91| 一本一本久久| 亚欧色一区w666天堂| 国产在线精品二区| 国产香蕉视频在线看| 亚洲欧美偷拍卡通变态| aa在线观看视频| 欧美激情三区| 日韩av网站在线| 国产乱子轮xxx农村| 在线视频观看日韩| 成人激情视频网| 日韩精品福利| 亚洲精选视频免费看| 成人久久久久久久久| 国产一区二区视频在线看| 日韩国产高清污视频在线观看| 亚洲欧美综合7777色婷婷| 亚洲三级色网| 91高跟黑色丝袜呻吟在线观看| 色视频在线观看免费| 亚洲视频一二三| 免费黄色特级片| 日韩一区二区三区精品视频第3页| 国产一区二区美女视频| 国产性xxxx高清| 国内精品在线播放| 日韩电影在线播放| 国产盗摄——sm在线视频| 4438亚洲最大| 美女爆乳18禁www久久久久久| 国产亚洲一卡2卡3卡4卡新区| 欧美华人在线视频| 国产一区二区三区四区视频| 久久色成人在线| 成人精品视频在线播放| 日韩成人免费在线观看| 久久电影天堂| 亚洲欧美精品一区二区| 日本熟妇毛耸耸xxxxxx| 国产自产高清不卡| 亚洲一区二区三区加勒比| 一区二区电影免费观看| 亚洲激情视频在线观看| 免费在线观看黄视频| 国精产品一区一区三区mba桃花| 日韩久久在线| 久久久久久久| 亚洲精品午夜精品| 国产尤物在线视频| 成人动漫一区二区在线| 91精品国产毛片武则天| 国内不卡的一区二区三区中文字幕 | 日韩一区二区三区国产| 久久精品视频2| 91女厕偷拍女厕偷拍高清| 精品视频免费在线播放| 久久a爱视频| 性色av一区二区三区免费 | 国偷自产av一区二区三区小尤奈| 2024最新电影免费在线观看| 91麻豆精品国产91久久久更新时间| 岛国片在线免费观看| 蜜臀久久99精品久久久画质超高清| 日本婷婷久久久久久久久一区二区| 午夜影院在线播放| 亚洲视频免费一区| 精品国产www| 亚洲特级片在线| 免费人成视频在线播放| 亚洲天堂免费| 成人欧美一区二区三区视频xxx| 怡红院在线播放| 亚洲第一中文字幕| 国产欧美日韩另类| 国产亚洲精品aa午夜观看| 国产裸体免费无遮挡| 日韩在线第七页| 亚洲jizzjizz日本少妇| 欧洲性视频在线播放| 亚洲а∨天堂久久精品9966| 日韩伦理在线视频| 国产视频一区不卡| 三区视频在线观看| 亚洲国产国产亚洲一二三| 六十路精品视频| 欧美大陆国产| 久久久亚洲影院你懂的| 欧美人体大胆444www| 欧美日韩免费在线视频| 欧美黄色免费在线观看| 99精品欧美一区二区蜜桃免费| 久久免费在线观看| 国产肉体xxxx裸体784大胆| 亚洲欧美大片| 影音先锋亚洲视频| 精品少妇一区| 国产精品爽爽爽爽爽爽在线观看| 在线免费av导航| 亚洲美女精品成人在线视频| 亚洲影视一区二区| 精品毛片网大全| 国产黄a三级三级| www.日韩在线| 久热精品在线播放| 99国产精品99久久久久久粉嫩| 日本一区免费看| 国产一区二区三区免费在线| 7777kkkk成人观看| 国产丝袜在线| 亚洲天堂av在线免费| 亚洲国产福利视频| 欧美性大战久久久久久久蜜臀| av黄色免费网站| 懂色av一区二区在线播放| www.99av.com| 国产一区二区三区久久| 超级碰在线观看| 日本大胆欧美| 麻豆成人在线播放| 6080成人| 91日本在线观看| 成人在线爆射| 97久久国产精品| 超碰porn在线| 色偷偷av一区二区三区乱| 午夜在线视频免费| 日韩精品一区二区三区中文不卡 | 国产又黄又粗的视频| 成人免费视频网站在线观看| 成 人 黄 色 小说网站 s色| 午夜在线一区| 国产精品国产对白熟妇| 欧美精品啪啪| 性欧美18一19内谢| 日韩免费一区| 日本在线免费观看一区| 日韩av三区| 国产精品一 二 三| 日韩欧美中文字幕一区二区三区| 国产精选久久久久久| 少妇一区视频| 日韩免费在线视频| 欧美18—19sex性hd| 欧美亚洲另类视频| 日本黄色一级网站| 国产精品久久久久9999赢消| 日本在线免费观看一区| 久久成人高清| 日韩动漫在线观看| 红桃成人av在线播放| 日本精品一区| 成人精品久久| 一本色道久久99精品综合| 欧美一区二区三区高清视频| 日本在线播放一区| 欧美日韩国产免费观看视频| 秋霞在线观看一区二区三区| 色爱av综合网| 欧美在线播放一区| 精品日韩毛片| 一级二级三级欧美| 一区二区三区中文| 17c丨国产丨精品视频| 欧美午夜一区| 阿v天堂2018| 日韩视频久久| 黑森林福利视频导航| 日韩国产欧美一区二区三区| 爆乳熟妇一区二区三区霸乳| 男男成人高潮片免费网站| 中文字幕永久有效| 国产成人免费视| 日本免费福利视频| 国产精品网曝门| 青青草手机在线观看| 天天av天天翘天天综合网| 亚洲欧美自拍视频| 在线观看欧美黄色| 国产一区二区在线不卡| 日韩美女视频在线| 污视频在线免费观看| 国产亚洲欧洲高清一区| 高清免费电影在线观看| 久久久久久久久久婷婷| 惠美惠精品网| 成人免费自拍视频| 欧美xxxx在线| 亚洲国产婷婷香蕉久久久久久99 | av影院午夜一区| 91精品人妻一区二区| 国产精品国产自产拍高清av| 欧美日韩在线观看成人| 精品久久久久久久久久久| 日韩久久久久久久久久| 日韩视频免费观看高清完整版在线观看 | 日韩亚洲欧美一区二区三区| 日批视频免费播放| 一区二区在线视频播放| 日韩三级免费| av午夜一区麻豆| 国产免费视频传媒| 国产伦精品一区二区三区免费 | 色爱av美腿丝袜综合粉嫩av| 在线观看中文| 国产精品久久久久久久一区探花| 激情久久免费视频| 日本精品一区二区| 欧美午夜一区| 日本中文字幕二区| 久久综合九色综合97_久久久| 日本成人精品视频| 欧美性猛交xxxx乱大交| 精品人妻aV中文字幕乱码色欲| 精品一区二区三区电影| 八戒八戒神马在线电影| 国产精品久久久久久久久久久久 | 精品剧情v国产在线观看在线| 伦理片一区二区三区| 欧美大成色www永久网站婷| 三上悠亚亚洲一区| 国产91aaa| 欧美激情另类| 日韩精品一区二区三区色欲av| 国产精品影视网| 欧美性受xxxx黑人| 欧美日韩在线视频一区二区| 国产suv一区二区| 日韩在线欧美在线国产在线| 小视频免费在线观看| 国产精华一区二区三区| 亚洲精品中文字幕乱码| 色噜噜狠狠一区二区| 久久精品水蜜桃av综合天堂| 日韩成年人视频| 精品少妇一区二区三区| 国产乱色在线观看| 成人国产精品免费视频| 精品午夜久久| 无遮挡又爽又刺激的视频| 91亚洲国产成人精品一区二三 | 欧美性猛交xxxx免费看| 亚洲奶汁xxxx哺乳期| 欧美高清激情视频| 韩国一区二区三区视频| 好色先生视频污| 激情五月婷婷综合| 小早川怜子一区二区的演员表| 欧美视频在线播放| 日韩精品成人av| 国产日韩欧美在线观看| 99re66热这里只有精品8| 天天色综合社区| 中文字幕中文字幕一区二区| 亚洲国产无线乱码在线观看| 亚洲香蕉成视频在线观看| 欧美成a人片在线观看久| 台湾成人av| 秋霞国产午夜精品免费视频| 国产成人精品无码免费看夜聊软件| 日韩欧美精品网址| 青青青国产在线观看| 在线日韩视频| 国产精品无码永久免费不卡| 欧美丝袜一区二区三区| 蝌蚪视频在线播放| 国产精品自产拍高潮在线观看| 日韩中文在线电影| 国产在线观看中文字幕| 一区二区三区久久久| 手机看片一区二区| 国产91网红主播在线观看| 精品国产精品国产偷麻豆| 亚洲一级免费观看| 亚洲欧美激情一区二区| 性一交一乱一色一视频麻豆| 久久免费视频网站| 精品国产一区二区三区久久久蜜臀| 五月天婷婷激情视频| **欧美大码日韩| 亚洲国产中文字幕在线| 国产91av在线| 色综合狠狠操| 日韩成人av影院| 色88888久久久久久影院按摩| 777电影在线观看| 91视频免费进入| 午夜宅男久久久| 欧美色视频一区二区三区在线观看| 日韩欧美国产一区二区在线播放 | 国产精品久久久久久久久久99| 国产精品99久久| 日本少妇xxxx| 色悠久久久久综合欧美99| av在线导航| 免费不卡亚洲欧美| 紧缚捆绑精品一区二区| 成人精品在线看| 久久亚洲春色中文字幕| 婷婷国产精品| 免费黄频在线观看| 欧美日韩国产色| 国产精品扒开做爽爽爽的视频| 精品一区久久久| 国内精品免费在线观看| 欧美黄色一级大片| 美女国内精品自产拍在线播放|