精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)

發(fā)布于 2025-2-13 13:00
瀏覽
0收藏

LLaMA是目前很多SOTA開源大模型的基礎(chǔ),包括DeepSeek、千問等在內(nèi)的很多大模型的模型機(jī)構(gòu)大體上都沿用了LLaMA。因此,LLaMA在模型結(jié)構(gòu)的設(shè)計(jì)上可以說是目前大模型的一種最佳實(shí)踐。這篇文章就給大家匯總一下LLaMA的核心模型結(jié)構(gòu)。

LLaMA的主體結(jié)構(gòu)仍然基于Transformer,本文主要介紹LLaMA各個(gè)版本相比于Transformer的改進(jìn)部分,包括Pre-Normalization、RMSNorm、SwiGLU激活函數(shù)、Rotray Embedding等部分。

1.Pre-Normalization

基礎(chǔ)的Transformer每一層的計(jì)算邏輯是attention->add->norm->ffn->add->norm。其中norm為LayerNormalization。這種在attention和add之后的norm稱為Post-Normalization。而LLaMA中采用了Pre-Normalization,主要源自于ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE(ICLR 2020)這篇文章。其核心是將LayerNormalization放在每層Transformer的輸入位置。兩者的差異如下圖和表所示。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

文中通過分析實(shí)驗(yàn)和分析發(fā)現(xiàn),Post-Normalization方法在訓(xùn)練開始階段模型的輸出層的梯度范數(shù)比較大,模型層數(shù)越靠后梯度越大,這給訓(xùn)練的初始階段帶來了不穩(wěn)定性。而使用Pre-Normalization,各層的梯度范數(shù)基本想同,因次使用Pre-Normalization可以提升訓(xùn)練的穩(wěn)定性。此外,通過warm-up等策略,讓初始的學(xué)習(xí)率小一些,可以緩解Post-Normalization的這種初始階段梯度范數(shù)較大的問題。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

2.RMSNorm

基礎(chǔ)的Transformer在norm部分采用的是LayerNormalization,在LLaMA中則使用了RMSNorm,是一種針對(duì)LayerNormalization的改進(jìn),出自論文Root Mean Square Layer Normalization(NeuIPS 2019)中。LayerNorm每一層需要計(jì)算輸入的每條樣本向量各個(gè)元素的均值和方差,然后對(duì)輸入進(jìn)行歸一化處理。這種方法雖然可以提升訓(xùn)練穩(wěn)定性,但是大幅增加了模型中的計(jì)算開銷。如下圖,相同步數(shù)下使用LayerNorm可以降低1.6的loss,而相同時(shí)間下只能降低1.1的loss,說明LayerNorm的計(jì)算開銷較大。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

為了解決這個(gè)問題,文中提出的RMSNorm將LayerNorm進(jìn)行了簡化,原來的LayerNorm是計(jì)算均值和方差,而RMSNorm改為計(jì)算元素的均方根,用均方根進(jìn)行歸一化。這樣做雖然犧牲了LayerNorm對(duì)輸入數(shù)據(jù)的re-centering能力,但是最終效果和LayerNorm差不多,說明LayerNorm的有效并不來源于re-centering。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

從實(shí)驗(yàn)效果看,使用RMSNorm模型收斂更快,也取得了更好的效果。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

3.SwiGLU

基礎(chǔ)的Transformer結(jié)構(gòu)中,激活函數(shù)使用的是ReLU。而LLaMA中將所有ReLU更換為SwiGLU激活函數(shù),以此來提升模型的表現(xiàn)。SwiGLU發(fā)表于文章GLU Variants Improve Transformer(2020)中,SwiGLU是Swish激活函數(shù)和GLU激活函數(shù)的結(jié)合,Swish、GLU、SwiGLU激活函數(shù)的形式分別如下:

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

這里面的核心是利用了門控的思路,原始的輸入過一個(gè)sigmoid,得到一個(gè)0~1的和輸入向量維度相同的gate,以此對(duì)原始輸入各個(gè)維度進(jìn)行縮放。論文中在基于Transformer Encoder-Decoder的語言模型中,分別進(jìn)行了預(yù)訓(xùn)練、finetune等不同激活函數(shù)的效果測試,都驗(yàn)證了SwiGLU相比ReLU等其他激活函數(shù)可以取得更好的效果。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

4.Rotary Position Embedding

基礎(chǔ)的Transformer中采用絕對(duì)位置編碼,即每個(gè)位置映射成一個(gè)embedding,或者用三角函數(shù)定義位置編碼。但是絕對(duì)位置編碼的核心問題在于,無法支持超出訓(xùn)練長度的建模,因?yàn)檫@些embedding在訓(xùn)練過程中沒見過。在文本生成中,需要靈活支持很長的文本生成場景,因此絕對(duì)位置編碼的弊端就顯露出來。

旋轉(zhuǎn)位置編碼發(fā)表于論文ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(2023)中,是一種相對(duì)位置編碼方法,能夠靈活支持不同長度的文本輸入和輸出。其核心出發(fā)點(diǎn)是將位置編碼信息放到attention的計(jì)算中,通過query和key的內(nèi)積引入相對(duì)編碼,目標(biāo)是尋找一個(gè)函數(shù)f,其內(nèi)積能夠?qū)崿F(xiàn)只和query和key的向量輸入,以及兩個(gè)元素的相對(duì)位置相關(guān):

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

對(duì)應(yīng)的函數(shù)在2維的情況下可以表示為如下形式,滿足上述需求:

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

這里利用了復(fù)數(shù)的計(jì)算實(shí)現(xiàn)相對(duì)位置編碼,整體的計(jì)算流程未,對(duì)于 token 序列中的每個(gè)詞嵌入向量,首先計(jì)算其對(duì)應(yīng)的 query 和 key 向量,然后對(duì)每個(gè) token 位置都計(jì)算對(duì)應(yīng)的旋轉(zhuǎn)位置編碼,接著對(duì)每個(gè) token 位置的 query 和 key 向量的元素按照 兩兩一組應(yīng)用旋轉(zhuǎn)變換,最后再計(jì)算 query 和 key 之間的內(nèi)積得到 self-attention 的計(jì)算結(jié)果。下圖是論文中的示意圖計(jì)算流程示意圖。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

5.Grouped-Query Attention

為了提升infer的運(yùn)算效率,LLaMA將基礎(chǔ)Transformer中的self-attention改成了GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints(2023)中提出的grouped-query attention。在多頭self-attention中,每和head內(nèi)都會(huì)進(jìn)行一次QKV的映射,再進(jìn)行attention計(jì)算。而Grouped-query會(huì)將多個(gè)head分成多個(gè)組,每個(gè)組內(nèi)的query使用相同的K和V,而不再每個(gè)head都進(jìn)行一次映射,以此節(jié)省計(jì)算開銷。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
4438x成人网最大色成网站| 性网爆门事件集合av| 波多野结衣在线网站| 亚洲天堂av资源在线观看| 日韩国产欧美视频| 亚洲精品在线观| 美女黄色片网站| 国产精品午夜一区二区| 国产精品sss在线观看av| 国产精品你懂的| 国产极品精品在线观看| v天堂中文在线| 国产网红在线观看| 国产精品亚洲专一区二区三区| 亚洲视频自拍偷拍| 国产xxxxx在线观看| 少妇精品高潮欲妇又嫩中文字幕 | 亚洲精品电影院| 自拍偷拍亚洲视频| 国产成人免费视| 欧美大尺度激情区在线播放| 99九九99九九九99九他书对| 伊人免费在线| 九一久久久久久| 不卡av电影在线观看| 奇米777在线视频| 麻豆视频网站在线观看| 精品一区二区久久| 久久色精品视频| 91精品视频国产| 黄色网在线免费观看| 激情综合五月婷婷| 日韩免费在线看| 欧美日韩国产黄色| 日韩电影精品| **欧美大码日韩| 亚洲r级在线观看| 久久久99精品| 加勒比中文字幕精品| 午夜久久久久久久久久一区二区| 国产伦精品一区二区三区四区免费 | 97人妻精品一区二区三区动漫 | 成人一区二区视频| 欧美精品www| 国产熟女高潮一区二区三区| 欧美在线极品| 久久久精品免费观看| 国产精品丝袜久久久久久高清 | 久久久久久久久久久9不雅视频| 欧美日韩高清一区| 日本xxxxx18| 五月香视频在线观看| 久久久99精品免费观看不卡| 久久久久天天天天| 亚洲怡红院av| 亚洲经典在线看| 亚洲人成伊人成综合网久久久| 成人免费看片载| 污污的网站在线看| 91麻豆蜜桃一区二区三区| 国产精品久久久久久久久久| 国产成人综合在线视频| 久久久久97| 精品日韩一区二区三区| 午夜免费一区二区| 亚洲羞羞网站| 亚洲综合一二区| 日韩av电影免费播放| 99久久久国产精品无码免费| 亚洲一区亚洲| 欧美超级乱淫片喷水| 男人与禽猛交狂配| 国产一区美女| 中文字幕久热精品视频在线| 久久av一区二区三| 国产香蕉久久| 日韩欧美aaa| 久久视频免费在线| 九一国产在线| 成人国产一区二区三区精品| 国产日韩欧美电影在线观看| 中文字幕第15页| 国产综合视频| 国产91|九色| 久久久精品国产sm调教| 一区久久精品| 欧美成人精品在线视频| 美女视频黄免费| 91嫩草亚洲精品| 日韩精品在线免费| 91视频免费入口| 成人亚洲免费| 91精品办公室少妇高潮对白| 欧妇女乱妇女乱视频| 美州a亚洲一视本频v色道| 成人一道本在线| 久久日韩精品| 国产婷婷视频在线| 精品久久久久久久久久久久久| 黄色一级视频播放| 97在线超碰| 亚洲影院在线观看| 亚洲国产日韩综合一区| 成年网站在线| 亚洲一区二区三区在线| 亚洲一二三区av| 国产精品17p| 按摩亚洲人久久| 日本伦理一区二区三区| 国模一区二区三区| 国产精品久久久久999| 精品国产99久久久久久宅男i| 久久大逼视频| 欧美在线国产精品| 日本一二三区视频| 欧美日韩亚洲一区三区| 精品少妇一区二区30p| 午夜剧场免费在线观看| 国产精品久久占久久| 中文字幕精品一区二区精品| 国产在线视频在线观看| 亚洲精品123区| 91丝袜美腿美女视频网站| a网站在线观看| 国产欧美日韩卡一| 夜夜爽www精品| 99热国产在线| 亚洲一区二区五区| caoporm在线视频| 欧美亚洲高清| 久久精品中文字幕| 波多野结衣黄色| 韩国成人福利片在线播放| 日本一区二区三区四区高清视频| chinese偷拍一区二区三区| 五月婷婷综合网| 女人扒开双腿让男人捅| 99热在线成人| 国产激情视频一区| 欧美精品久久久久久久久久丰满| 亚洲国产成人tv| 日韩一级在线免费观看| 成人黄色视屏网站| 日韩一区二区麻豆国产| 中文字幕乱码一区| 午夜精品免费| 日韩av免费在线| 深爱五月激情五月| 精品国产精品自拍| 亚洲天堂资源在线| 国产亚洲永久域名| 91精品美女在线| 三级网站免费观看| 午夜国产精品一区| 久久久老熟女一区二区三区91| 国产精品多人| 国产在线精品一区| 免费黄网在线观看| 欧美人成免费网站| 91视频青青草| 国产成人欧美日韩在线电影| 少妇久久久久久被弄到高潮| 亚洲承认视频| 日韩精品最新网址| 无码少妇一区二区| 欧美a级在线| julia一区二区中文久久94| 国产一级片在线播放| 色乱码一区二区三区88| 少妇视频在线播放| 国产一区二区电影| 欧美一区1区三区3区公司| 成人免费网站www网站高清| 欧美电影免费观看完整版| 久久久久亚洲av片无码下载蜜桃| 粉嫩在线一区二区三区视频| 亚洲精品一区二区毛豆| 国产精品18| 中日韩美女免费视频网站在线观看| 中文字幕在线视频第一页| 成人av在线一区二区三区| 乱妇乱女熟妇熟女网站| 精品国产一区二区三区性色av| 亚洲精品一区二三区不卡| 香蕉污视频在线观看| 亚洲天堂av老司机| 15—17女人毛片| 最新亚洲精品| 91av免费观看91av精品在线| 亚洲精品久久久久久无码色欲四季 | 毛片视频免费播放| 9久re热视频在线精品| 91久久久久久久久久久| 久久亚洲资源| 日韩一区二区三区免费观看| 99免费在线观看| 国产清纯美女被跳蛋高潮一区二区久久w | 精品国产1区二区| 日韩 国产 欧美| a美女胸又www黄视频久久| 日本xxxxx18| 色婷婷精品视频| 97国产精品免费视频| 超碰福利在线观看| 色94色欧美sute亚洲13| 久草视频手机在线观看| 久久精品在线免费观看| 99九九精品视频| 亚洲欧美日韩综合国产aⅴ| 三年中文高清在线观看第6集| 久久久精品一区二区毛片免费看| 欧美激情va永久在线播放| 精品人妻aV中文字幕乱码色欲| 午夜精品视频一区| 26uuu成人网| 欧美国产成人精品| 免费一区二区三区在线观看| 日韩av密桃| 成人久久一区二区| 日韩影片中文字幕| 国模极品一区二区三区| 涩涩视频免费看| 日韩一级完整毛片| 一级黄色大片免费观看| 国产精品嫩草99a| 熟妇高潮精品一区二区三区| 丝袜美腿亚洲一区二区图片| 色姑娘综合网| 成人自拍视频| 国产精品国产自产拍高清av水多 | 亚洲高清视频在线| 久久精品黄色片| 亚洲欧洲精品一区二区三区不卡| 韩国三级hd中文字幕| 91免费国产在线| 午夜视频在线观看国产| 国产成人精品免费在线| 99中文字幕在线| 国内精品自线一区二区三区视频| 中文字幕第88页| 蜜臀久久久99精品久久久久久| 一卡二卡3卡四卡高清精品视频| 日韩高清在线免费观看| 精品一区2区三区| 亚洲成av在线| 日本a级片电影一区二区| 麻豆mv在线看| 91sa在线看| 成人免费直播| 久久99亚洲精品| 性欧美高清come| 欧美激情一二三| zzzwww在线看片免费| 色偷偷亚洲男人天堂| 狠狠躁夜夜躁av无码中文幕| 日韩欧美精品在线观看| 天堂中文字幕在线观看| 国产免费久久精品| 成年人在线免费看片| 中文欧美字幕免费| 国产亚洲精品久久久久久豆腐| 国产精品盗摄一区二区三区| 狠狠人妻久久久久久综合蜜桃| 成人福利在线看| 亚洲av成人片色在线观看高潮| 97精品电影院| 中文字幕一区二区在线观看视频| 精品一区二区三区免费播放| 天美一区二区三区| eeuss影院一区二区三区| 成年人的黄色片| 国产日韩av一区| 免费成人蒂法网站| 国产午夜精品久久久久久免费视 | 成人a在线观看| 欧美一级大片在线视频| 欧美在线视频导航| 精品美女一区| 成人看片视频| 91嫩草国产线观看亚洲一区二区| 欧美有码在线视频| 激情久久一区二区| 5566中文字幕一区二区| 国产情侣一区二区三区| 91av免费看| 女同一区二区三区| 国产精品美女xx| 欧美电影免费网站| 亚洲免费不卡| 亚洲东热激情| 另类小说色综合| 福利电影一区二区| 精品成人av一区二区三区| 99久久久久久| 蜜桃视频最新网址| 精品动漫一区二区| 一级久久久久久久| 日韩va亚洲va欧洲va国产| 高清国产mv在线观看| 亚洲区免费影片| 最新av在线播放| 国产成人精品午夜| 一区二区三区四区高清视频| 日本欧美精品久久久| 欧美女人交a| 男女男精品视频站| 99re6这里只有精品视频在线观看| 18啪啪污污免费网站| 婷婷综合久久一区二区三区| 国产人妻精品一区二区三| 亚洲精品中文字幕女同| 色爱综合区网| 成人激情综合网| 精品国产中文字幕第一页 | 亚洲国产午夜精品| 久久婷婷色综合| 日本少妇高潮喷水xxxxxxx| 久久久久久久久久久电影| 亚洲国产美女视频| 1024成人网| 中文字幕一区二区三区四区欧美| 亚洲成avwww人| 日韩在线视频第一页| 欧美大片在线观看一区二区| 欧美激情视频在线播放| 日韩av免费在线播放| 日韩一级电影| 免费拍拍拍网站| 成人午夜电影小说| 亚洲av鲁丝一区二区三区| 欧美日韩黄色一区二区| av色图一区| 欧美成人免费在线观看| 亚洲热av色在线播放| 一区二区三区不卡在线| 日本在线不卡视频一二三区| 欧美视频亚洲图片| 中文字幕中文字幕一区二区| 一区二区视频在线免费观看| 国产亚洲精品91在线| 成人在线观看免费网站| 久久久伊人日本| 日韩精品视频在线看| 老司机午夜免费福利视频| 国产主播一区二区三区| 99热这里只有精品4| 偷偷要91色婷婷| 高h放荡受浪受bl| 亚州国产精品久久久| 欧美尿孔扩张虐视频| 人妻av中文系列| 精品中文字幕一区二区 | 一个色妞综合视频在线观看| 国产伦理一区二区| 久久国产精品偷| 亚洲视频一起| www黄色日本| 久久影院电视剧免费观看| 国产成人无码av| 日韩欧美一二三区| 污视频在线看网站| 精品一区二区视频| 一区两区小视频| 99久久亚洲精品蜜臀| 午夜激情影院在线观看| 一区二区三区精密机械公司| 日本免费不卡视频| 青青草成人在线| 欧美r级电影| 国产伦精品一区二区三区妓女下载| 亚洲国产日韩a在线播放 | 亚洲欧美日韩综合| av电影在线观看一区二区三区| 国产美女直播视频一区| 亚洲国产精品日韩专区av有中文| 久久6免费视频| 亚洲综合成人网| 欧美色视频免费| 成人福利视频在线观看| 国产精品红桃| 国产精品密蕾丝袜| 日韩欧美在线网站| 国产精品vvv| 亚洲人成人77777线观看| 国产成人精品www牛牛影视| 久久久国产精品成人免费| 在线色欧美三级视频| 日本综合字幕| 亚洲区成人777777精品| gogo大胆日本视频一区| 亚洲网站在线免费观看| 久久免费精品日本久久中文字幕| 激情综合网五月| 99久久久无码国产精品6| 国产精品久久久久婷婷二区次| 亚洲欧美另类综合| 国产精品久久久久久久9999| 国内自拍一区| 蜜桃av免费观看| 精品视频在线播放免|