精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

從 Llama 1 到 3.1：Llama 模型架構演進詳解原創(chuàng)

發(fā)布于 2024-11-25 10:31

瀏覽

0收藏

編者按： 面對 Llama 模型家族的持續(xù)更新，您是否想要了解它們之間的關鍵區(qū)別和實際性能表現(xiàn)？本文將探討 Llama 系列模型的架構演變，梳理了 Llama 模型從 1.0 到 3.1 的完整演進歷程，深入剖析了每個版本的技術創(chuàng)新，還通過實際實驗對比了 Llama 2 和 Llama 3 在推理速度、答案長度和相對答案質(zhì)量（RAQ）等關鍵指標上的表現(xiàn)差異。
根據(jù)本文， Llama 模型的架構演變主要經(jīng)歷了以下三個階段：
Llama 1：基于原始 Transformer 架構，引入了預歸一化、RMSNorm、SwiGLU 激活函數(shù)和旋轉(zhuǎn)式位置編碼等改進，提升了模型的訓練穩(wěn)定性和性能。
Llama 2：在 Llama 1 的基礎上，將上下文長度擴展至 4096，并引入了分組查詢注意力 (GQA) 機制，有效降低了推理過程中的內(nèi)存需求，提升了推理速度。
Llama 3：進一步將 GQA 應用于小型模型，并采用更高效的分詞器 TikToken，擴大了詞匯表的數(shù)量，同時將上下文長度翻倍，并大幅增加了訓練數(shù)據(jù)量。

作者 | Luís Roque

編譯 | 岳揚

01 Introduction

Meta 公司推出了其大語言模型 Llama 的三個主要版本。Llama 在 2023 年初的首度亮相，為開源自然語言處理（NLP）社區(qū)帶來了重大突破。Meta 一直通過分享最新的模型版本，為這一社區(qū)貢獻力量。

在這里，我們需要區(qū)分“開放型（open） LLM”與“開源（open-source） LLM”。 傳統(tǒng)上，開源軟件會在特定的公共許可證下公開源代碼，允許用戶使用和修改。在 LLM 領域，開放型 LLM 會公開模型權重和初始代碼，而開源 LLM 則會更進一步，在寬松的許可下共享整個訓練過程，包括訓練數(shù)據(jù)。目前，包括 Meta 的 Llama 在內(nèi)的多數(shù)模型，都屬于開放型 LLM，因為它們并未公開用于訓練的數(shù)據(jù)集。

Llama 經(jīng)歷了三次重要的架構更新。 版本 1 對原始的 Transformer 架構進行了多項改進。版本 2 在大模型中引入了分組查詢注意力（GQA）機制。版本 3 將這一機制擴展到了小模型，同時引入了更高效的分詞器，還擴大了詞匯量。版本 3.1 并未對核心架構做出調(diào)整，主要的變化在于訓練數(shù)據(jù)的清洗、上下文長度的增加以及對更多語言的支持。

本文探討了 Llama 的架構演變，著重介紹其主要進步及其對 LLM 未來發(fā)展的影響。文章最后通過一個實驗對 Llama 2 和 Llama 3 進行了比較，使用了推理速度、答案長度和相對答案質(zhì)量（RAQ，Relative Answer Quality）框架[1]等指標進行評估。RAQ 框架提供了一個客觀的評分系統(tǒng)，用于檢驗 LLM 的回答準確度，對于評估特定應用場景尤為有用。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

Figure 1: Llama family (image by author with DALL-E)

02 Llama: A Family of Open LLMs

2.1 Llama 1：該系列首個模型問世

Llama 系列的第一個模型，Llama 1 [2]，是建立在 Vaswani 等人在 2017 年提出的編碼器-解碼器 Transformer 架構之上的[3]。該架構曾是 NLP 領域的重大創(chuàng)新，并且至今仍是 LLM 模型的基礎架構。

Llama 1 在其核心設計中采納了這一架構，并在此基礎上進行了多項優(yōu)化，包括：

預歸一化技術

借鑒了 GPT3 [4]架構中提高訓練穩(wěn)定性的方法，Llama 1 也采用了對每個 Transformer 子層的輸入進行歸一化的策略，而不僅僅是對輸出進行歸一化處理，具體細節(jié)如圖 2 所示。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 2：原始 Transformer 架構與 Llama 1 架構的不同之處，特別是在 Transformer 子層中，對每個輸入都進行了歸一化處理（圖片由作者提供）

此外，Llama 1 還采用了 RMSNorm [5] 來替代傳統(tǒng)的 LayerNorm 函數(shù)，這一改變在保持訓練穩(wěn)定性和提升模型收斂速度的同時，大幅提高了計算效率。

RMSNorm 之所以能更高效，是因為其創(chuàng)造者發(fā)現(xiàn) LayerNorm 的優(yōu)勢在于 rescaling invariance（譯者注：指的是歸一化過程能夠適應輸入數(shù)據(jù)的縮放，使得網(wǎng)絡對這種縮放不敏感。），而非 recentering invariance（譯者注：如果輸入數(shù)據(jù)的均值發(fā)生了變化，但數(shù)據(jù)的分布形狀和范圍保持不變，那么具有 recentering invariance 的算法或函數(shù)的輸出應該不受影響。）?；谶@一發(fā)現(xiàn)，他們省略了歸一化過程中的均值計算，使得算法更加簡潔，而效果不減，且運算效率顯著提升。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 3：層歸一化（LayerNorm）與均方根歸一化（RMSNorm）之間的方程差異（圖片由作者提供）

SwiGLU 激活函數(shù)

在激活函數(shù)的選擇上，研究者們采用了 SwiGLU [6] 函數(shù)來替代傳統(tǒng)的 ReLU 函數(shù)，這一改變旨在提升模型的性能。兩者的核心差異在于：

ReLU 函數(shù)會將所有負數(shù)輸入直接歸零，而正數(shù)輸入則保持不變。
相比之下，SwiGLU 函數(shù)含有一個可學習的參數(shù) β，能夠調(diào)節(jié)函數(shù)的插值程度。隨著 β 值的增大，SwiGLU 的行為將逐漸接近 ReLU，這一點如圖 4 所示。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 4：ReLU 與 SwiGLU 在不同 β 值下的行為對比，可以看到當 β 達到 100 時，兩者的曲線趨于一致。

旋轉(zhuǎn)式位置編碼（Rotary Positional Embeddings）

在大語言模型（LLMs）中，位置編碼起到了至關重要的作用，這是因為 Transformer 架構本身不區(qū)分單詞的順序。也就是說，如果沒有位置編碼的輔助，Transformer 會將單詞順序不同但單詞相同的兩個句子視為相同的句子。 例如，如果沒有位置編碼，下面兩個句子的含義 Transformer 將無法區(qū)分：

Sentence 1: Llama 2 is better than Llama 1 Sentence 2: Llama 1 is better than Llama 2
句子1：Llama 2的性能優(yōu)于Llama 1。句子2：Llama 1的性能優(yōu)于Llama 2。

在論文[3]中，提出了一種通過正弦和余弦函數(shù)實現(xiàn)的絕對位置編碼（Absolute Positional Embeddings）。序列中的每個位置都有其獨特的編碼（positional embedding），它們與詞向量相加，從而確保即使單詞相同，不同順序的句子也能表達不同的意思。

簡單來說，我們可以假設句子中的單詞是用一維向量而不是多維向量來編碼的。如圖 5 所示，在詞向量中，“1”和“2”的表示值是相同的。但是，在加入了位置編碼之后，它們的表示值就變得不同了（分別從0.88變?yōu)?.04，以及從0.26變?yōu)?.1）。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 5：絕對位置編碼(Absolute Positional Embeddings)(圖片由作者提供）

盡管絕對位置編碼已經(jīng)解決了 Transformer 不區(qū)分順序的問題，但它生成的位置編碼是相互獨立的，沒有考慮到序列中單詞之間的相對位置關系。 這意味著在模型看來，位置 1 和位置 2 之間的相關性與位置 1 和位置 500 之間的相關性并無差異。然而，我們知道實際情況并非如此，因為在位置上更接近的單詞，其相關性理論上應該更高。

旋轉(zhuǎn)式位置編碼[7]（RoPE）能夠解決上述問題，它通過將序列中的每個位置轉(zhuǎn)換成詞嵌入的旋轉(zhuǎn)變量來模擬單詞間的相對位置關系。 以前文的 “Llama 2 is better than Llama 1” 為例，假設詞嵌入現(xiàn)在是二維的。那么，“better ”一詞將由基于其位置 m (4) 和常數(shù) θ 的原始二維向量的二維旋轉(zhuǎn)向量來表示。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 6：展示了如何通過旋轉(zhuǎn)式位置編碼（Rotary Positional Embedding）將原始向量轉(zhuǎn)換為新的向量。這一轉(zhuǎn)換是基于向量在序列中的位置（例如，m=4）和常數(shù)θ來進行的（圖片由作者提供）

采用這種方式，即便在原句中增加更多詞匯，單詞之間的相對距離也能得到保持。比如，在句子 “The LLM Llama 2 is better than Llama 1” 中添加兩個單詞，盡管“better”和“than”的位置從（4和5）變?yōu)椋?和7），但由于旋轉(zhuǎn)量保持一致，兩個向量之間的相似性（即左圖中向量的點積與右圖中的點積相同）依舊不變。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 7：旋轉(zhuǎn)式位置編碼維持 tokens 間相對距離的能力（圖片由作者提供）

2.2 Llama 2：Llama 1 的升級版

Llama 2 [8] 保留了 Llama 1 對原始 Transformer 架構所做的所有改動。在此基礎上，還將處理上下文的長度擴展至 4096，相較于之前的 2048，翻了一番。同時，對于 34B 和 70B 這樣的大型模型，Llama 2 使用 Grouped-Query Attention (GQA) [10] 取代了傳統(tǒng)的 Multi-Head Attention (MHA) [9]。

由于需要大量內(nèi)存來加載所有的注意力頭的 queries、keys 和 values ，MHA 成為了 Transformer 的性能瓶頸。針對這一問題，有兩種解決方案：

Multi-Query Attention [9]（MQA）通過在注意力層使用單一的鍵和值頭（key and value），配合多個查詢頭（query heads）來大幅降低內(nèi)存需求。但這種做法可能會降低模型的質(zhì)量，并導致訓練過程不穩(wěn)定，因此像 T5 這樣的其他開源大語言模型并未采用此方法。
GQA 則采用了一種折中方案，它將查詢值（query values）分為 G 組（GQA-G），每組共享一個鍵和值頭（key and value head）。如果 GQA 的組數(shù)為 1（GQA-1），則相當于 MQA，所有查詢（queries）都集中在一組；而如果組數(shù)等于頭數(shù)（GQA-H），則與 MHA 相當，每個查詢（query）自成一組。這種方法減少了每個查詢（query）組中的鍵和值頭（keys and values）數(shù)量，從而縮小了鍵值緩存的大小，減少了需要加載的數(shù)據(jù)量。與 MQA 相比，這種更為溫和的縮減方式在提升推理速度的同時，也降低了解碼過程中的內(nèi)存需求，且模型質(zhì)量更接近 MHA，速度幾乎與 MQA 持平。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 8：MHA、GQA 和 MQA 方法概覽（圖片由作者提供）

2.3 Llama 3: Size and Tokenization

Llama 3 [11] 將處理上下文的長度從 4096 擴展至 8192，并將 GQA 使用到了較小規(guī)模的模型（8B）。同時，研究者們還將分詞工具從 Sentence Piece [12] 更換為 OpenAI 模型所采用的 TikToken [13]。因為新的詞匯表容量增加到了 128k 個 tokens，較之前的 32k 有了大幅提升，這一變更顯著提升了模型的性能。

這兩種分詞工具的主要差異在于，在輸入的 tokens 已經(jīng)存在于詞匯表中時，TikToken 會跳過字節(jié)對編碼（BPE） [14] 的合并規(guī)則。 例如，如果“generating”這個詞已經(jīng)在詞匯表中了，那么它將作為一個完整的 token 返回，而不是將其拆分為“generating”和“ing”這兩個最小單元的 tokens 。

2.4 Llama 3.1

在 2024 年 7 月發(fā)布的 Llama 3.1，實現(xiàn)了上下文長度（128K tokens）的顯著提升，并新增了對 8 種語言的支持。此次發(fā)布版本的一個重要亮點是更大的 Llama 3.1 405B 模型。在此之前，開放式的 LLMs（大語言模型）通常模型規(guī)模都低于 100 B。

最后，我們可以從下表中總結一下 Llama 模型的演變情況：

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

表 1：比較 Llama 模型在上下文長度、詞匯表大小、訓練數(shù)據(jù)集大小以及支持語言數(shù)量方面的演變。

03 Llama 2 與 Llama 3：模型比較

在本節(jié)中，我們將 Llama2 和 Llama 3 模型在 SQuAD 數(shù)據(jù)集上進行測試。SQuAD 是一個采用 CC BY-SA 4.0 許可協(xié)議的問答數(shù)據(jù)集（??https://huggingface.co/datasets/rajpurkar/squad）。該閱讀理解數(shù)據(jù)集（reading?? comprehension dataset）由一系列維基百科文章的問題組成。模型需要根據(jù)上下文，檢索出問題的正確答案。對于本次模型比較，數(shù)據(jù)集中有三個較為重要的字段：

問題（question）——模型需要回答的問題。
上下文（context）——模型需要從中提取答案的背景信息。
答案（answers）——問題的文本答案。

評估過程將包括三個量化指標：第一個是評估推理速度，第二個是確定答案長度，第三個是評估準確性。 對于準確性的評估，我們使用 RAQ [1]。RAQ 通過一個獨立的 LLM 對 Llama 2 和 Llama 3 的答案進行排序，排序的依據(jù)是它們與真實答案的接近程度。

我們首先下載這兩個模型的 .gguf 格式文件，以便能夠在 CPU 上運行它們，并將它們放置在 model/ 文件夾下。

我們使用了每個模型的 instruct 版本，并進行了 4-bit 量化：

nous-hermes-Llama-2-7b.Q4_K_M.gguf，來自 ??https://huggingface.co/TheBloke/Nous-Hermes-Llama-2-7B-GGUF??
Meta-Llama-3-8B-Instruct-Q4_K_M.gguf，來自 ??https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct-GGUF??

在完成上述操作之后，接下來我們會導入所有需要的庫，以及我們自定義的一個生成器。這個生成器是一個函數(shù)或者類，它能夠接受我們想要使用的模型作為輸入?yún)?shù)。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

這個類的作用是從 config.yaml 配置文件中載入模型參數(shù)，這些參數(shù)的具體設置包括：設定上下文長度為 1024，調(diào)節(jié)模型運行的“temperature ”為 0.7，以及限制輸出的最大 tokens 數(shù)為2000。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

此外，系統(tǒng)還構建了一個基于 LangChain 的提示詞模板。這個模板的作用是在將問題和相關上下文提交給大語言模型之前，對它們進行格式化處理，以便獲得更準確的響應。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

函數(shù) get_llm_response 負責接收已加載的大語言模型、相關上下文以及問題，并輸出模型的回答以及一系列量化評估指標。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

評估結束后，我們將各項指標進行了可視化展示，并發(fā)現(xiàn) Llama 3 的速度比 Llama 2 快，其平均生成速度達到每秒 1.1 個單詞，而 Llama 2 的生成速度僅為每秒 0.25 個單詞。在答案長度方面，Llama 3 輸出的答案較長，平均為 70 個單詞，相比之下，Llama 2 7B 的答案平均長度只有 15 個單詞。根據(jù)相對答案質(zhì)量（RAQ，Relative Answer Quality）評估框架，Llama 3 在平均排名上拔得頭籌，約為 1.25，而 Llama 2 的表現(xiàn)則稍遜一籌，其平均排名大約為 1.8。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 9：Llama 2 7B vs Llama 3 8B（圖片由作者提供）

表 2 展示了不同語言模型性能的 Dunn 事后檢驗（Dunn post-hoc test）結果。每個單元格顯示了兩種模型之間的性能差異是否在 5 %的顯著性水平（significance level）上具有統(tǒng)計意義。"Significant" 意味著存在統(tǒng)計上的顯著差異（p值不超過0.05），而 "Not Significant" 則意味著模型之間的性能差異不具備統(tǒng)計顯著性（p值超過0.05）。根據(jù)檢驗結果，Llama 3 與 Llama 2 在性能上的差異是顯著的。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

表 2：不同 LLM 模型性能排名差異的顯著性分析

最后，從定性角度，我們分析了兩種模型對某一特定問題的回答：“What percentage of improvement over energy code requirements will be the goal of all new construction and renovations?”。這一問題基于以下上下文信息得出答案，兩者均正確地回答了問題。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

然后，如下所示，Llama 2 在回答過程中先是表示答案不在給定上下文中，但最終卻又引用了上下文中的內(nèi)容來給出答案，顯得前后矛盾。而 Llama 3 則能夠準確地從上下文中找到答案，并簡潔明了地作出了正確回應。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

04 Conclusions

Llama 模型在發(fā)展過程中不斷進行改進，使模型在處理語言任務時更加高效、表現(xiàn)更佳，并且能夠適應更廣泛的應用場景。從最初的 Llama 1 開始，引入了如 RMSNorm 輸入歸一化和更平滑的激活函數(shù)等基礎性改變，后續(xù)的每個模型版本都是在此基礎上進一步改進。

Llama 2 通過采用 GQA 提高推理效率，對這一方法進行了優(yōu)化，為 Llama 3 的進一步提升鋪平道路。Llama 3 在此基礎上，將 GQA 應用于更小型的模型，采用了詞匯表數(shù)量更大的高效分詞器，將上下文長度翻倍，并大幅增加了訓練數(shù)據(jù)量。

Llama 3.1 版本開啟了新的篇章。它將上下文長度進一步擴展至 128K 個 token，增加了對更多語言的支持，并推出了迄今為止最大的開放式模型 —— 405B 模型。

Llama 模型的連續(xù)升級，使得它們在各種應用場景中都具有卓越的適應性。至今，Llama 模型已累計下載超過 3 億次，而將其集成到利用私有 LLM 技術的數(shù)千種產(chǎn)品中，僅僅是一個開始。頗具諷刺意味的是，Llama 現(xiàn)在在推動開放式 AI 的發(fā)展道路上走在了前列，取代了曾經(jīng)更為開放的 OpenAI 所占據(jù)的位置。

References

[1] Luís Roque, Rafael Guedes. “Research to Production: Relative Answer Quality (RAQ) and NVIDIA NIM.” Towards Data Science. Medium, 2024.

[2] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. “Llama: Open and Efficient Foundation Language Models.” arXiv preprint arXiv:2302.13971, 2023.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. “Attention Is All You Need.” arXiv preprint arXiv:1706.03762, 2017.

[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165, 2020.

[5] Biao Zhang, Rico Sennrich. “Root Mean Square Layer Normalization.” arXiv preprint arXiv:1910.07467, 2019.

[6] Noam Shazeer. “GLU Variants Improve Transformer.” arXiv preprint arXiv:2002.05202, 2020.

[7] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” arXiv preprint arXiv:2104.09864, 2021.

[8] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom. “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv preprint arXiv:2307.09288, 2023.

[9] Noam Shazeer. “Fast Transformer Decoding: One Write-Head is All You Need.” arXiv preprint arXiv:1911.02150, 2019.

[10] Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” arXiv preprint arXiv:2305.13245, 2023.

[11] Meta AI. “Introducing Llama 3.” Meta AI Blog, 2024.

[12] Taku Kudo, John Richardson. “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.” arXiv preprint arXiv:1808.06226, 2018.

[13] OpenAI. “TikToken.” GitHub.

[14] Rico Sennrich, Barry Haddow, Alexandra Birch. “Neural Machine Translation of Rare Words with Subword Units.” arXiv preprint arXiv:1508.07909, 2015.

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Luís Roque

Serial entrepreneur and leader in the AI space. I develop AI products for businesses and invest in AI-focused startups.

??https://www.linkedin.com/in/luisbrasroque/??

END

本期互動內(nèi)容 ??

?文章提到 Llama 模型采用了多項技術優(yōu)化，如 GQA 和高效分詞器等。你認為在這些優(yōu)化中，哪一項對模型性能提升最關鍵？為什么？

原文鏈接：

??https://towardsdatascience.com/the-evolution-of-llama-from-llama-1-to-llama-3-1-13c4ebe96258??

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

最強模型Llama 3.1 405B正式發(fā)布，扎克伯格：開源引領新時代

輕薄滴假象 ? 3462瀏覽 ? 0回復
最強大模型 Llama 3.1-405B 架構設計剖析

玄姐聊AGI ? 4908瀏覽 ? 0回復
解析Llama 3.1 與Meta 的 AI 戰(zhàn)略，以及新的開放前沿模型生態(tài)系統(tǒng)

lintoms ? 3781瀏覽 ? 0回復
一大堆Llama3.1-Chinese正在襲來

NLP工作站 ? 4471瀏覽 ? 0回復
基于Llama 3.1和一臺MacBook搭建商用級知識庫

玄姐聊AGI ? 4462瀏覽 ? 0回復
AI界的新寵：揭秘Llama 3.1如何革新AI合成技術

ermulong ? 3625瀏覽 ? 0回復
微軟開源Phi-3.5：支持手機、平板電腦，性能超Llama 3.1

Aceryt ? 3661瀏覽 ? 0回復
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

魯班模錘1 ? 4073瀏覽 ? 0回復
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 3508瀏覽 ? 0回復
Meta發(fā)布Llama 3.2：AI大模型再升級，從云端到掌上

芝士AI吃魚 ? 4345瀏覽 ? 0回復
Llama 3.1 405B，教你白嫖使用最強開源大模型

小虎哦哦 ? 4607瀏覽 ? 0回復
Python語言openAI庫詳解：從入門到精通（從0到1手把手教程）

唐克 ? 7906瀏覽 ? 0回復
LLaMA-Factory 微調(diào)與部署詳細流程：從入門到實踐

AI悠閑區(qū) ? 2.7w瀏覽 ? 0回復
Dolphin 3.0 發(fā)布（Llama 3.1 + 3.2 + Qwen 2.5）：本地優(yōu)先、可操縱的 AI 模型

Halo咯咯 ? 4143瀏覽 ? 0回復
Good Fire AI 針對 Llama 3.1 8B 和 Llama 3.3 70B 的開源稀疏自動編碼器 (SAE)

Halo咯咯 ? 3568瀏覽 ? 0回復
MCP 架構設計演進：從 Local MCP Server 到 Remote MCP Server 開源架構設計實現(xiàn)

玄姐聊AGI ? 1.2w瀏覽 ? 0回復
從 MCP 到 A2A，AI Agent 應用架構設計演進之路

玄姐聊AGI ? 3323瀏覽 ? 0回復
NVIDIA開源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 3352瀏覽 ? 0回復
從 Local MCP Server 到 Remote MCP Server 架構設計演進

玄姐聊AGI ? 3759瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？ 3天前發(fā)布
分享一名海外獨立開發(fā)者的 AI 編程工作流 5天前發(fā)布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現(xiàn)當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

馬斯克新模型屠榜，包攬前二！馬斯克：已經(jīng)沒有真正能考AI的測試題了，終極測試是現(xiàn)實世界 0回復

上一篇： AI像人一樣操控電腦：多模態(tài)AI Agents和屏幕交互新范式

下一篇：長上下文語言模型評估體系探析

社區(qū)精華內(nèi)容

目錄

欧美国产一区二区三区| 日韩亚洲欧美在线| 新呦u视频一区二区| 97超视频在线观看| 欧美日韩亚洲一区三区| 日韩av中文字幕在线免费观看| 任你操这里只有精品| 美女隐私在线观看| aaa亚洲精品| 国产精品美乳一区二区免费| 五月婷婷一区二区| 国产一区二区欧美| 欧美tk丨vk视频| 999精品网站| 成人爽a毛片免费啪啪动漫| 久久精品亚洲国产奇米99| 97se亚洲综合在线| 中文在线资源天堂| 国产精品日韩| 欧美黑人国产人伦爽爽爽| 免费看91的网站| 清纯唯美亚洲经典中文字幕| 91精品国产品国语在线不卡| 国产成人综合一区| 18aaaa精品欧美大片h| 中文字幕一区二区在线观看| 免费影院在线观看一区| 成人av手机在线| 九色porny丨国产精品| 国产91成人video| 久久久久久久久久久久久久免费看 | 福利片一区二区| 欧美精品国产精品| 国产性xxxx18免费观看视频| 欧美性受ⅹ╳╳╳黑人a性爽| 中文在线一区二区| 欧美日韩一区二| 亚洲av片在线观看| av亚洲精华国产精华| 91久久夜色精品国产网站| 黄色大全在线观看| 视频在线观看一区| 日本高清视频一区| av图片在线观看| 性xx色xx综合久久久xx| 97精品一区二区三区| 婷婷在线精品视频| 欧美1区2区3区| 麻豆成人在线看| 尤物在线免费视频| 久久久久免费av| 久久成人精品视频| 欧美日韩中文字幕在线观看| 中文字幕一区二区三区欧美日韩| 日韩在线免费观看视频| a一级免费视频| 国产精品久久久久蜜臀| 久久精品国产2020观看福利| 国产黄色录像片| 午夜av一区| 欧美成人高清视频| 久草成人在线视频| 亚洲第一区色| 国产成+人+综合+亚洲欧美丁香花| 黄色一级片免费在线观看| 免费在线亚洲| 国产精品久久999| 亚洲无码久久久久| 韩国v欧美v亚洲v日本v| 97se在线视频| 青青草视频在线免费观看| 久久久久久久久99精品| 色999五月色| 黄色在线免费网站| 亚洲成人一二三| 国产又大又硬又粗| av日韩在线免费观看| 日韩一级欧美一级| 亚洲天堂资源在线| 精品国产91| 久久影视电视剧免费网站清宫辞电视| 欧美极品aaaaabbbbb| 亚洲综合二区| 国产免费亚洲高清| 刘玥91精选国产在线观看| 久久在线观看免费| 五月天色婷婷综合| 国产免费拔擦拔擦8x高清在线人 | 在线观看国产一区二区三区| 国内国产精品久久| 九九99玖玖| 在线看黄色av| 天天综合日日夜夜精品| 日本xxxx黄色| 福利片一区二区| 中文字幕亚洲欧美日韩2019| 国产精品第二十页| 蜜臀av国产精品久久久久| av一区二区三区免费| 国产二区在线播放| 亚洲一区二区三区四区五区黄| 欧美性大战久久久久xxx| 91精品福利观看| 亚洲精品成人久久电影| 国产精品夜夜夜爽阿娇| 99国产精品私拍| 91精品国产自产在线| 天堂av在线免费| 自拍视频在线观看一区二区| 日韩av综合在线观看| 国产高清亚洲| 亚洲日韩欧美视频| 国产第一页第二页| 精久久久久久久久久久| 欧美影视一区二区| 草莓视频丝瓜在线观看丝瓜18| 欧美影片第一页| 内射中出日韩无国产剧情| 一区二区中文| 国产精品日韩久久久久| 青青草视频免费在线观看| 一区二区成人在线| 中文字幕亚洲影院| 欧美色图国产精品| 秋霞成人午夜鲁丝一区二区三区| 国产成人精品亚洲精品色欲| 国产精品欧美极品| 国产免费视频传媒| 精品国产91| 国产aaa精品| 神马亚洲视频| 午夜亚洲福利老司机| www男人天堂| 欧美午夜不卡| 高清国产在线一区| 操你啦视频在线| 51精品久久久久久久蜜臀| 大胸美女被爆操| 久热re这里精品视频在线6| 精品在线一区| 午夜影院在线观看国产主播| 亚洲第一区在线| 国产午夜激情视频| kk眼镜猥琐国模调教系列一区二区| www.男人天堂网| 亚洲高清国产拍精品26u| 色噜噜国产精品视频一区二区| 草莓视频18免费观看| 国产色产综合色产在线视频| 女人另类性混交zo| 九九久久成人| 国产成人精品免费视频| 国产鲁鲁视频在线观看免费| 欧洲精品在线观看| 青青青视频在线播放| 免费欧美在线视频| 中文字幕中文字幕99| 国产亚洲亚洲国产一二区| 久久国产色av| 风流少妇一区二区三区91| 亚洲成av人片| 亚洲av无码一区二区三区观看| 国产农村妇女精品一二区| 欧美高清性xxxxhd| 草莓视频成人appios| 日韩在线视频国产| 国产成人精品免费看视频| 亚洲大尺度视频在线观看| 亚洲人人夜夜澡人人爽| 日韩不卡手机在线v区| 一区二区日本| 成午夜精品一区二区三区软件| 4p变态网欧美系列| 成人免费高清在线播放| 7777精品伊人久久久大香线蕉最新版| 三级av在线免费观看| 成人三级伦理片| 成人精品视频一区二区| 1024精品久久久久久久久| 国产乱码精品一区二区三区卡 | av在线免费一区| 91精品国产综合久久久久久久久久| 欧美日韩在线视频免费| 久久尤物电影视频在线观看| 亚洲精品第三页| 亚洲国产国产亚洲一二三| 欧美污视频久久久| 精品国产三区在线| 欧美一区二区大胆人体摄影专业网站| 色的视频在线免费看| 亚洲白虎美女被爆操| 日韩久久久久久久久久| 亚洲精品视频在线| 欧美多人猛交狂配| 国产在线麻豆精品观看| 九色在线视频观看| 中文字幕一区二区三区欧美日韩| 欧美二级三级| aaa国产精品视频| 国产精品久久中文| av资源中文在线| 久久久精品在线| 国产黄色免费在线观看| 欧美va日韩va| 国产美女www爽爽爽视频| 色域天天综合网| 久久精品免费av| 亚洲欧洲国产专区| 一级黄色片大全| 成人av电影免费观看| 亚洲网中文字幕| 天使萌一区二区三区免费观看| www.夜夜爱| 婷婷激情综合| 亚洲精品乱码视频| 亚洲理论电影| 国产一区免费在线| 精品视频在线观看免费观看| 国产精品久久久久免费a∨| 国产黄大片在线观看| 色综合久久悠悠| 精品国产99久久久久久| 一个色综合导航| 蜜桃视频在线播放| 日韩国产高清视频在线| 欧美熟妇交换久久久久久分类| 91精品国产欧美一区二区18| 天堂av免费在线观看| 欧美午夜电影在线| 日韩av大片在线观看| 亚洲国产精品久久人人爱| 婷婷在线精品视频| 亚洲精品视频一区| 可以直接看的黄色网址| 中文字幕一区在线观看视频| 快灬快灬一下爽蜜桃在线观看| 久久女同性恋中文字幕| 一卡二卡三卡四卡| 91玉足脚交白嫩脚丫在线播放| 怡红院一区二区| 99久久伊人久久99| av网页在线观看| 99r国产精品| 97超碰在线免费观看| 91免费小视频| 中国毛片在线观看| 国产精品色婷婷| sm捆绑调教视频| 最新热久久免费视频| 国产精品国产三级国产传播| 最新久久zyz资源站| 人妻久久一区二区| 亚洲尤物视频在线| 日韩一区二区视频在线| 色又黄又爽网站www久久| 51国产偷自视频区视频| 色综合久久九月婷婷色综合| 欧美成人一区二区三区四区| 欧美伊人精品成人久久综合97| 一级黄色大片免费| 91麻豆精品国产无毒不卡在线观看| 国产福利小视频| 亚洲成人激情在线观看| 欧美拍拍视频| 精品国产一区久久久| 污污视频在线| 浅井舞香一区二区| 国产第一精品| 97超碰人人看人人| 综合亚洲色图| 天天综合中文字幕| 一区精品久久| 午夜dv内射一区二区| 国精品**一区二区三区在线蜜桃| 韩国三级与黑人| 91亚洲精华国产精华精华液| 女人黄色一级片| 亚洲精品日韩专区silk| 国产成人在线观看网站| 欧美在线你懂的| 亚洲xxx在线| 国产午夜精品免费一区二区三区| a级毛片免费观看在线| 欧美在线激情网| 国产一区二区三区免费在线| 狠狠色综合色区| 99久久综合| 成人免费毛片网| 寂寞少妇一区二区三区| 波多野结衣影院| 最近中文字幕一区二区三区| 亚洲黄色激情视频| 欧美一区二区高清| 精品美女视频在线观看免费软件 | 中文字幕一区二区三区四区五区| 黄色亚洲在线| 污污网站在线观看视频| 久久综合狠狠综合久久综合88| 亚洲一级生活片| 91官网在线观看| 狠狠躁夜夜躁av无码中文幕| 中文字幕精品在线| 免费看男女www网站入口在线| 91精品久久久久久久久久久久久| 日韩欧美影院| 香港三级日本三级a视频| 日韩va欧美va亚洲va久久| 亚洲少妇一区二区三区| 最新日韩在线视频| 真实新婚偷拍xxxxx| 国产婷婷成人久久av免费高清| 成人直播在线| 国产精品影片在线观看| 国产成人调教视频在线观看| 一二三四视频社区在线| 国产东北露脸精品视频| 亚洲综合视频网站| 欧美色图天堂网| 久热av在线| 欧美性视频精品| 国内视频在线精品| 激情六月天婷婷| 国产一区啦啦啦在线观看| www亚洲色图| 色8久久精品久久久久久蜜| 日本免费一区视频| 欧美激情免费在线| 日韩高清在线观看一区二区| 日韩视频在线免费播放| 久久国产麻豆精品| 人妻aⅴ无码一区二区三区| 欧美日韩亚洲成人| 四虎在线免费观看| 7m第一福利500精品视频| 国产精品久久久久久久久久白浆| 亚洲色婷婷久久精品av蜜桃| 国产精品综合一区二区| 国产极品美女在线| 欧美一区二区在线看| 黄网站在线播放| 91麻豆精品秘密入口| 欧美a级片网站| 杨幂一区二区国产精品| 亚洲精品精品亚洲| 亚洲黄色片视频| 久久久噜噜噜久久中文字免| av不卡一区二区| 色欲色香天天天综合网www| zzijzzij亚洲日本少妇熟睡| 久久久久成人精品无码| 亚洲а∨天堂久久精品9966| 国内在线视频| 精品在线一区| 日韩高清不卡一区| 国精产品视频一二二区| 91精品国产综合久久小美女| 国产在线观看免费麻豆| 99一区二区三区| 亚洲少妇一区| 91资源在线播放| 91精品国产综合久久婷婷香蕉 | 性生活在线视频| 亚洲一二三区在线观看| 四虎电影院在线观看| 国产成人精品亚洲精品| 欧美jizz| wwwxx日本| 91福利在线观看| 毛片av在线| 激情小说综合区| 男人的天堂久久精品| www青青草原| 亚洲精品一区二区网址| 欧美成人aaa| 国产日韩欧美精品在线观看| 久久久久久久久免费| 国产日韩一级片| 91精品国产99久久久久久| 欧美视频网址| 波多野结衣三级视频| 欧美午夜宅男影院在线观看| 天堂аⅴ在线地址8| 国产精品一区二区欧美| 日韩黄色小视频| 久久网免费视频| 正在播放欧美视频| 国产精品对白| 三上悠亚在线一区| 韩曰欧美视频免费观看| 久草免费在线观看| 欧美日韩亚洲综合一区二区三区激情在线 | 中文字幕亚洲成人| 头脑特工队2免费完整版在线观看| 国产欧美精品日韩精品| 一本久道久久综合狠狠爱| 国产3级在线观看| 亚洲精品一区中文字幕乱码| 北岛玲精品视频在线观看| 成人观看免费完整观看| 一区二区三区高清|