精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從DeepSeek-V3到Kimi K2:八種現代 LLM 架構大比較

人工智能
自最初的 GPT 架構開發以來,已經過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會驚訝于這些模型在結構上仍然如此相似。

自最初的 GPT 架構開發以來,已經過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會驚訝于這些模型在結構上仍然如此相似。

當然,位置嵌入已經從絕對嵌入演進到旋轉嵌入(RoPE),多頭注意力機制已基本被分組查詢注意力機制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函數。但在這些細微的改進背后,我們是否真正看到了突破性的變化,還是僅僅在打磨相同的架構基礎?

LLM架構子集:DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3和Kimi 2

圖片圖片

一、DeepSeek V3/R1

DeepSeek V3 中引入的兩種關鍵架構技術,這些技術提高了其計算效率,并使其有別于許多其他 LLM:多頭潛在注意力(MLA)、混合專家(MoE):

1.1 多頭潛在注意力(MLA)

MLA旨在解決傳統多頭注意力(MHA)在大規模模型中內存占用過高的問題。與分組查詢注意力(GQA)相比,MLA通過壓縮鍵和值張量來進一步減少內存使用。

MHA 與 GQA 的比較。此處,組大小為 2,其中兩個查詢共享一個鍵值對。

圖片圖片

在MLA中,鍵和值張量在存儲到KV緩存之前會被壓縮到一個低維空間。在推理時,這些壓縮的張量會被重新投影回原始大小。這種設計雖然增加了額外的矩陣乘法操作,但顯著降低了內存占用。

MLA(用于 DeepSeek V3 和 R1)與常規 MHA 的比較。

圖片圖片

1.2 混合專家(MoE)

MoE將傳統的前饋模塊替換為多個專家層,每個專家層也是一個前饋模塊。在推理時,一個路由器會選擇一小部分專家進行激活。例如,DeepSeek V3有256個專家,但每次推理僅激活9個專家(1個共享專家和8個由路由器選擇的專家)。

V3/R1 中的混合專家 (MoE) 模塊(右)與具有標準前饋塊的 LLM(左)的比較圖。

圖片圖片

2. OLMo 2

2.1 歸一化層放置

OLMo 2采用后歸一化(Post-Norm)策略,與大多數LLM采用的前歸一化(Pre-Norm)不同。這種設計旨在提高訓練穩定性。

在OLMo 2中,歸一化層被放置在注意力模塊和前饋模塊之后,而不是之前。這種設計與原始Transformer架構中的Post-LN類似,但使用了RMSNorm而非LayerNorm。

Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對比圖。

圖片圖片

研究表明,后歸一化有助于訓練穩定性,尤其是在不使用精心設計的學習率預熱策略時。OLMo 2的訓練損失曲線表明,這種設計在訓練過程中表現更為穩定。

Pre-Norm(如GPT-2、Llama 3和許多其他模型中使用的)與OLMo 2的Post-Norm變體的訓練穩定性對比圖。

圖片圖片

2.2 QK-Norm

QK-Norm是在多頭注意力模塊中引入的額外RMSNorm層,應用于查詢(q)和鍵(k)之前。這種設計有助于在應用RoPE之前對輸入進行歸一化,從而減少訓練過程中的數值不穩定。

圖片圖片

OLMo 2 和 Llama 3;可以看出,除了 OLMo 2 仍然使用傳統的 MHA 而非 GQA 之外,它們的架構在其他方面相對相似。

Llama 3 和 OLMo 2 的架構比較。

圖片圖片

3. Gemma 3

3.1 滑動窗口注意力

滑動窗口注意力旨在減少KV緩存的內存需求,同時保持模型的性能。這種設計特別適用于需要處理長序列的任務。

通過滑動窗口注意力實現的KV緩存內存節省。

圖片圖片

滑動窗口注意力限制了每個查詢位置的上下文范圍,使其僅關注局部窗口內的內容。與傳統的全局注意力機制相比,這種設計顯著減少了KV緩存的內存占用。例如,Gemma 3將滑動窗口大小從Gemma 2的4096減少到1024,并調整了全局與局部注意力的比例。

常規注意力(左)和滑動窗口注意力(右)的對比圖。

圖片圖片

研究表明,滑動窗口注意力對模型的建模性能影響極小,但在內存使用上帶來了顯著的優化。這種設計使得Gemma 3在處理長序列時更加高效。

常規注意力(左)和滑動窗口注意力(右)的對比圖。

圖片圖片

3.2 歸一化層放置

Gemma 3在注意力模塊和前饋模塊前后都放置了RMSNorm層。這種設計結合了前歸一化和后歸一化的優點,既保持了訓練穩定性,又提高了推理效率。

OLMo 2和Gemma 3的架構對比圖;注意Gemma 3中額外的歸一化層。

圖片圖片

4. Mistral Small 3.1

Mistral Small 3.1通過自定義分詞器、縮小KV緩存和減少層數來優化模型。此外,它放棄了滑動窗口注意力,轉而使用更高效的FlashAttention技術。

這些優化使得Mistral Small 3.1在推理延遲上優于Gemma 3,同時保持了較高的性能。這種設計特別適合需要快速推理的應用場景。

OLMo 2和Gemma 3的架構對比圖;注意Gemma 3中額外的歸一化層。

圖片圖片

5. Llama 4

Llama 4采用了與DeepSeek V3類似的架構,但在某些細節上進行了優化,以提高模型的性能和效率。

深度求索V3(6710億參數)和Llama 4 Maverick(4000億參數)的架構對比圖。

圖片圖片

Llama 4使用了分組查詢注意力(GQA)而非多頭潛在注意力(MLA),并且在MoE模塊中使用了更少但更大的專家。此外,Llama 4在每個Transformer塊中交替使用MoE模塊和密集模塊。

6. Qwen3

6.1 密集模型

Qwen3 0.6B和Llama 3 1B的架構對比圖

圖片圖片

Qwen3的密集模型采用了較深的架構(更多Transformer塊),具有更多的層,而 Llama 3 是一種更寬的架構,具有更多的注意力頭。Qwen3 的內存占用較小,但生成速度較慢。

6.2 MoE模型

DeepSeek-V3 和 Qwen3 235B-A22B 的架構比較。

圖片圖片

Qwen3的MoE模型采用了與DeepSeek V3類似的架構,但在某些細節上有所不同,例如不使用共享專家。這種設計使得模型在訓練時能夠學習更多知識,而在推理時保持高效。

7. SmolLM3

SmolLM3 架構看起來相當標準。不過,最有趣的一點或許是它使用了 NoPE(無位置嵌入)。

Qwen3 4B 和 SmolLM3 3B 的架構比較。

圖片圖片

7.1 無位置嵌入(NoPE)

NoPE不使用任何位置嵌入(絕對位置嵌入或旋轉位置嵌入),而是依賴因果注意力掩碼來保持序列的自回歸順序。這種設計使得模型在訓練過程中能夠學習到隱式的位置信息。

絕對位置嵌入示例

圖片圖片

研究表明,NoPE在長度泛化方面表現更好,即在處理更長序列時性能下降較少。這種設計使得SmolLM3在處理長序列任務時表現優異。

圖片圖片

8. Kimi 2

Kimi 2采用了DeepSeek V3的架構,并進行了擴展。它使用了Muon優化器而非AdamW,這可能是其訓練損失曲線表現優異的原因之一。此外,Kimi 2在MoE模塊中使用了更多的專家,在MLA模塊中使用了更少的頭。

DeepSeek V3 和 Kimi K2 的架構比較。

圖片圖片

這些設計使得Kimi 2在訓練過程中表現優異,訓練損失曲線平滑且下降迅速。這可能有助于該模型躍居上述基準測試的榜首

圖片 圖片

責任編輯:武曉燕 來源: 數據STUDIO
相關推薦

2025-07-31 01:00:00

LLM架構模型

2025-08-08 09:23:00

2025-02-19 10:49:30

2025-07-17 08:14:22

2025-03-26 10:38:40

2025-02-12 08:30:18

2025-03-28 04:30:00

2025-07-16 09:29:39

2025-05-21 14:01:22

AIDeepSeek-V硬件

2025-01-03 19:38:33

2025-07-22 11:38:38

2025-04-02 02:17:00

2025-01-03 09:27:14

2025-02-10 09:42:14

2025-11-10 16:57:11

Kimi k2ClaudeGPT

2025-08-07 09:05:00

2025-05-28 01:20:00

DeepSeek-V大模型AI

2025-03-26 09:16:05

AI模型訓練

2020-09-11 19:41:06

KubernetesK8SK3S

2025-11-19 09:23:44

點贊
收藏

51CTO技術棧公眾號

国产乱子伦精品无码专区| 九九热99久久久国产盗摄| 丰满少妇被猛烈进入高清播放| 性一交一乱一乱一视频| 亚洲激情国产| 日韩精品免费在线视频观看| 男女午夜激情视频| 成a人v在线播放| 久久99久久99| 午夜精品一区二区三区在线视| 日韩av成人网| 成人免费短视频| 国产精品久久久久久久久免费樱桃| 91在线网站视频| 国产无遮无挡120秒| 免费成人av| 欧美一级日韩免费不卡| 免费成人午夜视频| 欧美扣逼视频| 经典三级在线一区| 午夜精品久久久久久久白皮肤 | 欧美午夜视频在线观看| 久久久久久久久久久一区| 波多野结衣黄色网址| 中文乱码免费一区二区三区下载| 亚洲国产高清自拍| 一本色道久久亚洲综合精品蜜桃| 爱情岛亚洲播放路线| 国产婷婷一区二区| 国产一区二区丝袜高跟鞋图片| 久久国产精品波多野结衣| 蜜桃视频欧美| 精品国产免费一区二区三区香蕉| 黄色三级视频在线| av电影院在线看| 中文字幕在线观看一区二区| 国语精品中文字幕| 国产浮力第一页| 免费观看日韩电影| 午夜精品美女自拍福到在线| 任你操精品视频| 九九热爱视频精品视频| 欧美一区二区三区人| 黄在线观看网站| 国产激情小视频在线| 久久久精品人体av艺术| 不卡一区二区三区四区五区| 日韩久久久久久久久久| 精品91视频| 久久天堂电影网| www.日本高清视频| 一呦二呦三呦国产精品| 精品国免费一区二区三区| 孩娇小videos精品| 午夜激情成人网| 欧美午夜片欧美片在线观看| 国产黄色片免费在线观看| 成码无人av片在线观看网站| 中文字幕国产一区二区| 精品欧美国产一区二区三区不卡| 性生交大片免费看女人按摩| 国产一区二区伦理片| 日韩av片免费在线观看| 亚洲欧美自拍视频| 一区二区国产在线观看| 91av视频在线播放| xxxxxx国产| 亚洲人人精品| 91av视频导航| 最近免费中文字幕大全免费版视频| 日韩亚洲国产欧美| 2020国产精品视频| 五月婷婷色丁香| 香蕉久久久久久久av网站| 午夜精品久久久久久久99热浪潮| 国产精品美女毛片真酒店| 精品二区久久| 午夜精品视频网站| 特级毛片www| 日韩精品成人一区二区在线| 国产精品九九九| 91 中文字幕| 国产精品一区免费在线观看| 亚洲最大的网站| 色综合免费视频| 不卡一区二区三区四区| 久久99精品久久久久久水蜜桃| 天堂中文资源在线观看| 26uuu亚洲婷婷狠狠天堂| 久久综合九色99| 国产福利电影在线| ...xxx性欧美| 黄色三级中文字幕| 欧美激情网站| 欧美视频一区二区三区四区| 手机版av在线| 国产精品一区二区精品| 亚洲电影免费观看高清完整版在线| 国产又粗又长又爽| 国产欧美日韩免费观看| 久久精品99久久久香蕉| 中文字幕在线2021| 亚洲精品少妇| 国产精品91久久| 国产夫妻在线观看| 久久精品夜色噜噜亚洲a∨| 亚洲 国产 日韩 综合一区| 麻豆网站在线| 亚洲欧美另类在线| 熟女性饥渴一区二区三区| 涩涩涩久久久成人精品| 精品粉嫩超白一线天av| 日本午夜精品视频| 亚洲国产精品第一区二区三区| 国产成人精品视频在线| 精品人妻久久久久一区二区三区 | 亚洲第一综合色| 国产裸体免费无遮挡| 国产一区二区三区免费视频| 亚洲欧美高清在线| 99久久夜色精品国产亚洲狼| 91精品国产自产91精品| av资源免费看| 亚洲欧洲精品一区二区精品久久久 | caoporn超碰97| 国产suv精品一区二区四区视频| 日韩在线观看网址| 久久中文字幕免费| 成人精品一区二区三区中文字幕| 制服诱惑一区| av一区在线播放| 亚洲精品视频免费| 日产电影一区二区三区| 国产精品一区二区在线观看不卡 | 亚洲少妇在线| 99国产在线| 国产三区在线观看| 欧美日韩国产天堂| 日韩一级av毛片| 裸体一区二区| 久久久久网址| 色戒汤唯在线观看| 亚洲第一级黄色片| 久久久久久福利| 丁香婷婷综合色啪| 男人天堂手机在线视频| 日韩视频一二区| 欧美日韩成人在线播放| www.精品视频| 亚洲激情一二三区| 亚洲欧美综合精品久久成人| 免费国产黄色网址| 粉嫩av一区二区| 国内精品久久久| 欧美性猛交 xxxx| 亚洲网友自拍偷拍| 完美搭档在线观看| 亚洲精品影视| 久久一区二区精品| 亚洲国产福利| 国产午夜精品视频免费不卡69堂| 无码一区二区三区在线观看| 国产亚洲精品aa| 亚洲欧美国产日韩综合| 欧美国产一级| 亚洲精品欧美极品| 伊人福利在线| 亚洲成人免费网站| 偷偷操不一样的久久| 久久综合999| 日本美女高潮视频| 国产大片一区| 97中文在线| 国产资源在线观看入口av| 亚洲精品综合精品自拍| 五月婷婷六月婷婷| 国产精品不卡在线观看| 国产黄色一区二区三区| 一区二区视频欧美| 欧美不卡福利| 欧美a视频在线| 欧美高清在线视频观看不卡| 日韩精品视频在线观看一区二区三区| 色爱区综合激月婷婷| 一本一本久久a久久| 国产黄色精品网站| www.浪潮av.com| 波多野结衣一区| 91手机在线视频| 最近高清中文在线字幕在线观看1| 在线播放日韩专区| 成人h动漫精品一区二区无码| 狠狠爱在线视频一区| 在线视频这里只有精品| 不卡的av在线播放| 免费看涩涩视频| 亚洲国产片色| 一区在线电影| 久久亚洲道色| 亚洲一区亚洲二区亚洲三区| 一根才成人网| 欧美大片网站在线观看| 国产中文在线观看| 亚洲精品在线观看网站| 一级二级三级视频| 日韩欧美综合在线视频| 91嫩草丨国产丨精品| 久久久美女艺术照精彩视频福利播放| 亚洲成人手机在线观看| 天堂影院一区二区| 国产91沈先生在线播放| 久久综合99| 欧美日韩在线观看一区| 一区二区三区自拍视频| 91精品久久久久久| 暖暖成人免费视频| 久久免费精品视频| 国产精品欧美一区二区三区不卡| 色999日韩国产欧美一区二区| 国产精品国产三级国产传播| 99国产欧美另类久久久精品| 女人高潮一级片| 亚洲欧美网站| 青春草国产视频| 夜间精品视频| 亚洲视频导航| 欧美少妇xxxx| 久久免费99精品久久久久久| 亚洲福利合集| 国产日产欧美a一级在线| 欧洲一区精品| 欧美成人在线网站| 免费a级在线播放| 亚洲女人天堂视频| 亚洲成熟女性毛茸茸| 91精品国产全国免费观看| 波多野结衣视频在线看| 姬川优奈aav一区二区| 国产一级在线视频| 最近中文字幕一区二区三区| 美女洗澡无遮挡| 激情无码人妻又粗又大| 久久国产婷婷国产香蕉| 男女激情无遮挡| 色婷婷久久久| 亚洲视频你懂的| 国产麻豆xxxvideo实拍| 日本成人在线一区| 日韩a在线播放| 尤物精品在线| 日韩中文在线字幕| 欧美jizzhd精品欧美巨大免费| 亚洲精品欧洲精品| 精品一区欧美| 久久久国产精品一区二区三区| 激情小说一区| 国产91精品一区二区绿帽| 一区在线不卡| 99热最新在线| 亚洲成人黄色| 国产不卡一区二区三区在线观看| 国产免费av国片精品草莓男男| 91香蕉嫩草影院入口| 祥仔av免费一区二区三区四区| 国产精品国内视频| 欧美97人人模人人爽人人喊视频| 国产精品三级久久久久久电影| free欧美| 国产精品av电影| 51妺嘿嘿午夜福利| 国产精品入口麻豆九色| 久久成人激情视频| 99久久久久久99| 丰满大乳奶做爰ⅹxx视频| av不卡免费电影| 自拍偷拍视频亚洲| 中文字幕第一页久久| 精品熟妇无码av免费久久| 国产午夜精品福利| 五月综合色婷婷| 亚洲综合男人的天堂| 久久精品国产亚洲av无码娇色| 欧美日韩久久久久| 色老头在线视频| 欧美精选午夜久久久乱码6080| 99热精品在线播放| 亚洲福利在线播放| 黄色毛片在线看| 综合国产在线观看| 麻豆视频在线| 午夜免费日韩视频| 日韩影院二区| 一区二区不卡在线观看| 欧美 日韩 国产一区二区在线视频 | 影音先锋在线一区| 国产 日韩 亚洲 欧美| 中文字幕制服诱惑| 在线观看一区二区视频| 亚洲天堂男人网| 国产精东传媒成人av电影| 久久午夜a级毛片| 神马午夜伦理不卡| 日本道色综合久久影院| 久久综合给合| 蜜桃麻豆www久久国产精品| 国产精品福利在线观看播放| 国产 日韩 亚洲 欧美| 日本成人超碰在线观看| 亚洲成av人片在线观看无| 国产不卡在线一区| 97人妻人人揉人人躁人人| 亚洲一区国产视频| 中文字幕手机在线视频| 亚洲国产精品久久精品怡红院| 欧美三级黄网| 欧美亚洲午夜视频在线观看| 久久精品官网| 免费观看国产视频在线| 狠狠色丁香久久综合频道| 一本久道综合色婷婷五月| 国产河南妇女毛片精品久久久 | 久久久久久久国产精品毛片| 欧美性极品xxxx做受| 国产精品羞羞答答在线| 国产亚洲欧美一区| 3344国产永久在线观看视频| 国产精品网站视频| 国产一区二区三区网| 国产无限制自拍| 国产美女久久久久| 日本成人精品视频| 欧美性xxxx在线播放| 亚洲成人久久精品| 欧美日本中文字幕| 亚洲日韩中文字幕一区| 欧美日韩成人一区二区三区| 一级成人国产| 日韩大尺度视频| 国产精品网站在线| 日本一区二区免费在线观看| 欧美日韩国产大片| 国产精品99999| 日本中文字幕不卡免费| 猛男gaygay欧美视频| 久无码久无码av无码| 国产在线视频一区二区三区| www色aa色aawww| 欧美男男青年gay1069videost| 你懂的在线观看视频网站| 欧洲成人性视频| 日韩中文av| 日韩精品视频久久| 99国产精品久久久久| 国产精品第108页| 亚洲国产精品人人爽夜夜爽| 精品精品导航| 国产高清精品一区二区| 亚洲乱码久久| 私密视频在线观看| 亚洲午夜在线电影| 熟妇人妻中文av无码| 久久久久国产一区二区三区| 国产欧美一区二区三区米奇| 日本a在线天堂| 丰满亚洲少妇av| 欧美另类一区二区| 精品偷拍一区二区三区在线看 | 婷婷另类小说| 亚洲色图欧美自拍| 亚洲第一成人在线| 人妻视频一区二区三区| 午夜免费日韩视频| 欧美三级情趣内衣| 自拍偷拍一区二区三区四区| 亚洲日本欧美天堂| av无码精品一区二区三区宅噜噜| 久久这里有精品| 日韩精品导航| www.超碰com| 国产精品视频看| 黄色片一区二区三区| 5252色成人免费视频| 欧美一二区在线观看| 污视频网址在线观看| 亚洲色图欧洲色图婷婷| 熟妇高潮一区二区三区| 日本午夜精品理论片a级appf发布| 日本久久成人网| 成人性生生活性生交12| 亚洲日本成人在线观看| 亚洲欧洲国产综合| 国产精品嫩草影院一区二区| 日韩欧美精品综合| 久久性爱视频网站| 色88888久久久久久影院按摩| 国产成人l区| 久久日韩精品| 久久99精品久久久久久动态图 | 后进极品白嫩翘臀在线视频| 97在线免费观看|