精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為什么大語言模型難以處理長上下文?從 Transformer 到 Mamba 原創(chuàng) 精華

發(fā)布于 2025-2-8 10:38
瀏覽
0收藏

編者按: 大語言模型真的能像人類一樣高效處理海量信息嗎?我們今天為大家?guī)淼倪@篇文章,作者揭示了大語言模型在長上下文處理中的技術(shù)挑戰(zhàn)與未來發(fā)展路徑。

文章重點(diǎn)聚焦于三個(gè)關(guān)鍵層面:首先,解析了 Transformer 模型注意力機(jī)制的計(jì)算成本問題,指出隨著上下文長度增加,計(jì)算復(fù)雜度呈指數(shù)級(jí)增長;其次,探討了 Mamba 等新興架構(gòu)在突破傳統(tǒng)模型局限性方面的潛力;最后,強(qiáng)調(diào)需要跳出現(xiàn)有思維模式,尋找處理海量信息的創(chuàng)新方法。

作者 | Timothy B. Lee

編譯 | 岳揚(yáng)

OpenAI 在兩年前推出 ChatGPT 時(shí),其能夠處理的上下文信息僅有 8,192 個(gè) tokens1。換言之,如果輸入的文本超過大約 15 頁,它就會(huì)“遺忘”最初的上下文內(nèi)容。這一限制使得 ChatGPT 在處理任務(wù)時(shí)的規(guī)模和復(fù)雜度都受到了影響。

而現(xiàn)今的 LLMs 能力有了顯著提升:

  • OpenAI 的 GPT-4o[1] 現(xiàn)在能夠處理多達(dá) 128,000 個(gè) tokens 的上下文。
  • Anthropic 的 Claude 3.5 Sonnet[2] 可以處理 200,000 個(gè) tokens 的上下文。
  • Google 的 Gemini 1.5 Pro[3] 更是擁有 2 百萬個(gè) tokens 的上下文處理能力。

盡管如此,要想讓 AI 系統(tǒng)達(dá)到人類水平的認(rèn)知能力,我們還需要取得更多的進(jìn)步。

許多人展望未來,認(rèn)為 AI 將能夠承擔(dān)大部分甚至全部的人類工作。然而,人類在工作生涯會(huì)閱讀和聽到數(shù)以億計(jì)的文字,并且還能通過視覺、聽覺和嗅覺從周圍環(huán)境中獲取更多信息。要使 AI 達(dá)到人類智能水平,它們也需要具備處理如此大量信息的能力。

目前,處理大量信息的最流行 LLM 系統(tǒng)構(gòu)建方法是“檢索增強(qiáng)生成”(RAG)。這類系統(tǒng)會(huì)尋找與用戶查詢相關(guān)的文檔,并將最相關(guān)的部分嵌入到 LLM 的上下文中。

盡管 RAG 系統(tǒng)在某些情況下能夠有超越傳統(tǒng)搜索引擎的表現(xiàn),但目前這類系統(tǒng)仍存在諸多不足。它們只有在成功將最關(guān)鍵的文檔嵌入 LLM 的上下文時(shí),才能產(chǎn)出滿意的結(jié)果。然而,用于檢索這些文檔的技術(shù),通常是在向量數(shù)據(jù)庫[4]中進(jìn)行搜索 —— 并不夠精細(xì)。如果用戶提出的問題復(fù)雜或含糊不清,RAG 系統(tǒng)很可能會(huì)錯(cuò)誤地檢索文檔,導(dǎo)致聊天機(jī)器人給出錯(cuò)誤的回答。

此外,RAG 系統(tǒng)并未讓 LLM 在處理大量文檔時(shí)展現(xiàn)出更高級(jí)的推理能力:

  • 例如,律師可能需要 AI 幫助審閱和總結(jié)數(shù)十萬封電子郵件。
  • 工程師可能需要 AI 分析數(shù)千小時(shí)的工廠監(jiān)控視頻。
  • 醫(yī)學(xué)研究者可能需要 AI 在數(shù)以萬計(jì)的患者病歷中識(shí)別趨勢(shì)。

這些任務(wù)任何一個(gè)都可能需要超過 200 萬個(gè) tokens 的上下文處理能力。而且,我們希望 AI 系統(tǒng)在完成這些任務(wù)后,不是一切從頭開始,而是能夠像人類工作者一樣,通過經(jīng)驗(yàn)積累不斷提升。計(jì)算機(jī)的超強(qiáng)記憶力和耐力一直是其重要優(yōu)勢(shì),在 AI 時(shí)代,我們并不想放棄這些特性。但目前 LLMs 在吸收和解讀大量信息的能力上,還遠(yuǎn)未能達(dá)到人類水平。

確實(shí),LLMs 在訓(xùn)練過程中吸收的信息量遠(yuǎn)遠(yuǎn)超過了人類。最新的人工智能模型已經(jīng)在數(shù)萬億個(gè) tokens 上進(jìn)行了訓(xùn)練,這遠(yuǎn)遠(yuǎn)超過了一個(gè)人一生中所能閱讀或聽到的信息量。然而,許多有價(jià)值的資料是保密的、具有時(shí)效性的,或者因?yàn)槠渌驘o法用于訓(xùn)練。

因此,我們希望 AI 模型在推理階段能夠閱讀并記住遠(yuǎn)超 200 萬個(gè) tokens 的信息。但這并非易事。

基于 transformer 的 LLMs 的核心創(chuàng)新在于“注意力”機(jī)制,這是一種數(shù)學(xué)運(yùn)算,使得模型能夠“回顧”之前的 tokens。在 LLM 生成新 token 之前,它會(huì)執(zhí)行一次注意力操作,將當(dāng)前 token 與之前的所有 tokens 進(jìn)行比較。這導(dǎo)致傳統(tǒng)的 LLMs 在上下文增長時(shí)效率逐漸降低。

目前,許多人正在研究解決這一問題的方法,我將在本文后續(xù)部分討論其中的一些方案。但在此之前,我需要解釋一下我們是如何從一開始就形成了這樣一個(gè)復(fù)雜的架構(gòu)。

01 GPUs 讓深度學(xué)習(xí)成為現(xiàn)實(shí)

個(gè)人電腦的核心 —— 中央處理單元(CPUs) ,曾是通過提高時(shí)鐘頻率來提升性能的。但進(jìn)入 21 世紀(jì)初期,由于過熱問題,芯片制造商大多放棄了這種提速方法。

芯片制造商轉(zhuǎn)而開始研發(fā)能夠同時(shí)處理多個(gè)指令的 CPU[5]。然而,它們的進(jìn)步受到了需要指令按順序執(zhí)行的傳統(tǒng)編程模式的限制。

為了充分發(fā)揮摩爾定律[6]的潛力,一種全新的架構(gòu)應(yīng)運(yùn)而生,那就是 Nvidia 推出的 GPUs。

1999 年,Nvidia 開始銷售 GPU,旨在加快 3D 游戲如《Quake III Arena》的渲染速度。這些作為 PC 擴(kuò)展卡的 GPU,任務(wù)是迅速繪制構(gòu)成游戲中墻壁、武器、怪物等物體的成千上萬的三角形。

這種任務(wù)不需要順序編程:屏幕上不同區(qū)域的三角形可以任意順序繪制。因此,Nvidia 的首款 GPU[7] 并不是采用單個(gè)處理器逐個(gè)執(zhí)行指令,而是擁有十幾個(gè)專用核心 —— 類似于微型的CPU —— 它們并行作業(yè),共同繪制場(chǎng)景。

隨著摩爾定律的發(fā)展,Nvidia 制造的 GPU 計(jì)算核心數(shù)量從數(shù)十個(gè)增加到數(shù)百個(gè),最終甚至達(dá)到數(shù)千個(gè)。人們逐漸意識(shí)到,GPU 強(qiáng)大的并行計(jì)算能力不僅可以用于視頻游戲,還能應(yīng)用于其他領(lǐng)域。

2012 年,多倫多大學(xué)的計(jì)算機(jī)科學(xué)家 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 利用兩塊 Nvidia GTX 580 GPUs[8] 訓(xùn)練了一個(gè)用于圖像識(shí)別的神經(jīng)網(wǎng)絡(luò)。這兩塊 GPU 各自擁有 512 個(gè)核心,提供了巨大的計(jì)算能力,使他們能夠訓(xùn)練出一個(gè)擁有 6000 萬個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)。他們?cè)?ImageNet 圖像分類競(jìng)賽[9]中取得了新的準(zhǔn)確率紀(jì)錄[10](該競(jìng)賽的目標(biāo)是將圖像歸類到 1000 個(gè)不同類別之一)。

不久之后,研究人員開始將這些技術(shù)應(yīng)用于更多領(lǐng)域,自然語言處理便是其中之一。

02 Transformers 打破了自然語言理解的瓶頸

在 2010 年代初,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)是處理自然語言的主流架構(gòu)。RNNs 采用逐詞處理的方式。神經(jīng)網(wǎng)絡(luò)在處理完每個(gè)單詞后,會(huì)更新其隱藏狀態(tài)(hidden state),這是一組數(shù)字,代表了神經(jīng)網(wǎng)絡(luò)對(duì)句子當(dāng)前理解的程度。

RNNs 在處理短句時(shí)表現(xiàn)尚可,但面對(duì)長句時(shí)就顯得力不從心,更別提段落或更長的文本了。在分析長句時(shí),RNN 有時(shí)會(huì)“遺忘”句子開頭的關(guān)鍵詞。 2014 年,計(jì)算機(jī)科學(xué)家 Dzmitry Bahdanau、KyungHyun Cho 和 Yoshua Bengio 發(fā)現(xiàn)[11],通過引入一個(gè)注意力機(jī)制,允許網(wǎng)絡(luò)“回顧”句子中的早期單詞,可以提升循環(huán)神經(jīng)網(wǎng)絡(luò)的性能。

2017 年,谷歌發(fā)布了《Attention Is All You Need》[12]這篇論文,它被譽(yù)為機(jī)器學(xué)習(xí)史上最重要的論文之一。在 Bahdanau 及其團(tuán)隊(duì)的研究基礎(chǔ)上,谷歌的研究人員摒棄了 RNN 及其隱藏狀態(tài)的概念。他們采用的模型利用注意力機(jī)制來掃描先前的單詞,以獲取相關(guān)的上下文信息。

這種被谷歌命名為 transformer 的新架構(gòu),其重要性不言而喻,因?yàn)樗藬U(kuò)展語言模型的一個(gè)關(guān)鍵障礙。

以下動(dòng)畫展示了 RNNs 為何難以擴(kuò)展:

為什么大語言模型難以處理長上下文?從 Transformer 到 Mamba-AI.x社區(qū)

在這個(gè)假想的 RNN2 中,神經(jīng)網(wǎng)絡(luò)試圖預(yù)測(cè)句子中的下一個(gè)單詞,預(yù)測(cè)結(jié)果展示在圖表的頂部。這個(gè)神經(jīng)網(wǎng)絡(luò)由三層組成,每層用一個(gè)矩形表示。它的處理方式是線性的:必須先完成對(duì)第一個(gè)單詞“How”的分析,然后將隱藏狀態(tài)傳遞回底層,網(wǎng)絡(luò)才能開始分析第二個(gè)單詞“are”。

這種限制在機(jī)器學(xué)習(xí)算法在 CPU 上運(yùn)行時(shí)還不是大問題。但當(dāng)人們開始利用 GPU 的并行計(jì)算能力時(shí),RNN 的線性架構(gòu)就成為了瓶頸。

transformer 通過讓神經(jīng)網(wǎng)絡(luò)能夠同時(shí)“思考”輸入中的所有單詞,從而突破了這一限制:

為什么大語言模型難以處理長上下文?從 Transformer 到 Mamba-AI.x社區(qū)

如圖所示,基于 transformer 的模型進(jìn)行的計(jì)算量與前面圖中的 RNN 模型相當(dāng)。因此,在(單核)CPU 上,它的運(yùn)行速度可能不會(huì)更快。但由于模型不需要在處理“are”、“you”或“doing”之前完成對(duì)“How”的分析,它可以同時(shí)處理這些單詞。這意味著在擁有多個(gè)并行執(zhí)行單元的 GPU 上,它的運(yùn)行速度可以大幅提升。

速度提升有多大?速度的潛在提升與輸入單詞的數(shù)量成正比。以我的動(dòng)畫為例,transformer 模型處理四詞輸入的速度大約是 RNN 的四倍。而對(duì)于 LLMs,其輸入可能包含數(shù)千個(gè)單詞。因此,在強(qiáng)大的 GPU 支持下,基于 transformer 的模型速度可以比類似的 RNN 快出幾個(gè)數(shù)量級(jí)。

你可能會(huì)問,為何不能同時(shí)用多個(gè)文檔來訓(xùn)練RNN—— 即在文檔層面而非單個(gè)單詞層面利用 GPU 的并行處理能力。

這是因?yàn)橛?xùn)練過程的第二階段——反向傳播的限制。在這個(gè)過程中,訓(xùn)練軟件會(huì)“逆向”工作,通過微積分調(diào)整模型的參數(shù),以提高得出正確答案的概率。對(duì)于 RNN 來說,反向傳播需要從輸入的最后一個(gè)單詞反向追溯到第一個(gè)單詞。如下圖中紅色箭頭所示:

為什么大語言模型難以處理長上下文?從 Transformer 到 Mamba-AI.x社區(qū)

反向傳播需要保存前向傳遞中每一步的中間結(jié)果——也就是說,訓(xùn)練軟件需要存儲(chǔ)圖表中每個(gè)矩形的輸出。對(duì)于大模型,這些數(shù)據(jù)占用的空間極大,以至于無法同時(shí)并行訓(xùn)練大量實(shí)例。 3

簡(jiǎn)而言之,transformer 釋放了 GPU 的全部處理能力,推動(dòng)了語言模型規(guī)模的飛速增長。領(lǐng)先 LLMs 的參數(shù)量從 2018 年的數(shù)億[13]增長到了 2020 年的數(shù)千億[14]。由于傳統(tǒng)的基于 RNN 的模型受到線性架構(gòu)的限制,它們無法在 GPU 上高效訓(xùn)練,因此無法達(dá)到如此龐大的規(guī)模。

03 Transformers 模型存在擴(kuò)展問題

我曾提到,在本文動(dòng)畫中,循環(huán)神經(jīng)網(wǎng)絡(luò)與 transformer 模型“大致完成了相等的工作量”。然而,兩者的工作量并非完全一致。我們?cè)賮砜纯?transformer 模型的工作圖:

為什么大語言模型難以處理長上下文?從 Transformer 到 Mamba-AI.x社區(qū)

注意到各層間那些交錯(cuò)的對(duì)角線箭頭了嗎?它們代表了注意力機(jī)制的運(yùn)轉(zhuǎn)。基于 transformer 的語言模型在創(chuàng)造新 token 前,會(huì)“審視”之前每一個(gè)已有的標(biāo)記,以確定哪些最為相關(guān)。

在較小規(guī)模的上下文中,這些比較的成本微不足道。例如,對(duì)于僅有 10 個(gè)、100 個(gè)甚至 1000 個(gè) tokens 的上下文,這些成本并不構(gòu)成負(fù)擔(dān)。但隨著上下文長度的增加,注意力機(jī)制的計(jì)算成本也隨之攀升。上下文越長,為了生成下一個(gè) token,所需的注意力操作(以及相應(yīng)的計(jì)算資源)就越多。

這導(dǎo)致了一個(gè)問題:注意力機(jī)制總的計(jì)算能力需求與 tokens 總數(shù)成二次方關(guān)系增長。舉例來說,如果一個(gè) 10 個(gè) tokens 的提示詞需要 414,720 次注意力操作4,那么:

  • 處理一個(gè) 100 個(gè) tokens 的提示詞,將需要 4560 萬次注意力操作。
  • 處理一個(gè) 1000 個(gè) tokens 的提示詞,將需要 46 億次注意力操作。
  • 處理一個(gè) 10000 個(gè) tokens 的提示詞,將需要 4600 億次注意力操作。

這或許也解釋了為何當(dāng)上下文超過 128,000 個(gè) tokens 時(shí),谷歌會(huì)對(duì) Gemini 1.5 Pro 的收費(fèi)翻倍。因?yàn)樯傻?128,001 個(gè) token 時(shí),需要與前面 128,000 個(gè) tokens 進(jìn)行比較,其成本遠(yuǎn)高于生成第一個(gè)、第十個(gè)或第一百個(gè) token。

04 提升注意力的效率和可擴(kuò)展性

研究者們投入了大量精力優(yōu)化注意力機(jī)制。其中一條研究路徑旨在最大化單個(gè) GPU 的運(yùn)算效率。

我們?cè)谇拔牧私獾剑F(xiàn)代 GPU 包含了成千上萬的執(zhí)行單元。但在 GPU 開始進(jìn)行數(shù)學(xué)運(yùn)算之前,它需要將數(shù)據(jù)從較慢的共享內(nèi)存(即高帶寬內(nèi)存)轉(zhuǎn)移到特定執(zhí)行單元內(nèi)更快的內(nèi)存(即SRAM)。有時(shí),GPU 在移動(dòng)數(shù)據(jù)上耗費(fèi)的時(shí)間甚至超過了執(zhí)行計(jì)算的時(shí)間。

在一系列論文中[15][16][17],普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家 Tri Dao 及其合作者開發(fā)了 FlashAttention,這種計(jì)算注意力的方式能夠最大限度地減少慢速內(nèi)存操作的需求。Dao 等人的工作顯著提升了現(xiàn)代 GPU 上 transformers 的表現(xiàn)。

另一條研究路徑則著眼于如何在多個(gè) GPU 上高效擴(kuò)展注意力。其中一篇被廣泛引用的論文介紹了環(huán)形注意力機(jī)制(ring attention)[18],它通過將 input tokens 分成塊,并將每個(gè)塊分配給不同的 GPU 來工作。之所以稱為環(huán)形注意力,是因?yàn)?GPU 被構(gòu)想為一個(gè)環(huán)形結(jié)構(gòu),每個(gè) GPU 將其數(shù)據(jù)傳遞給相鄰的 GPU。

這讓我想起了曾參加過的一堂交誼舞課,舞伴們圍成一圈,女性保持不動(dòng),而男性則輪換舞伴。最終,每個(gè)男性都能與每位女性共舞。環(huán)形注意力的原理與之類似。"女性"代表查詢(query)向量(描述每個(gè) token 所“尋找”的內(nèi)容),"男性"代表鍵(key)向量(描述每個(gè) token 的特征)。鍵向量在一連串 GPU 中傳遞,依次與所有查詢向量相乘。

總的來說,環(huán)形注意力機(jī)制通過在多個(gè) GPU 間分配計(jì)算任務(wù),使得大語言模型(LLM)能夠處理更大的上下文窗口。然而,它并未降低單個(gè)注意力計(jì)算的成本。

05 RNN 能否卷土重來?

由于 RNN 擁有固定大小的隱藏狀態(tài)(hidden state),因此它不會(huì)存在與 transformer 相同的擴(kuò)展難題。無論是生成第一個(gè)、第一百個(gè)還是第一百萬個(gè) token,RNN 所需的計(jì)算資源都相差無幾。這一點(diǎn),相較于基于注意力機(jī)制的模型,RNN 具有顯著優(yōu)勢(shì)。

盡管在 transformer 問世后,RNN 的地位有所下滑,但研究者們并未放棄,他們繼續(xù)探索適合在現(xiàn)代 GPU 上訓(xùn)練的 RNN 新版本。

今年 4 月,谷歌推出了一款名為 Infini-attention[19] 的新模型。這個(gè)模型可謂是 transformer 與 RNN 的“混血兒”。Infini-attention 像傳統(tǒng) transformer 那樣處理最近的 tokens,利用注意力機(jī)制記住它們并召回它們。

不過,Infini-attention 并未試圖記住所有上下文中的 tokens。相反,它采用一種“壓縮記憶(compressive memory)”來存儲(chǔ)較舊的 tokens,這種方式與 RNN 的隱藏狀態(tài)有幾分相似。這種數(shù)據(jù)結(jié)構(gòu)能夠完美地存儲(chǔ)和召回少量 tokens,但隨著 tokens 數(shù)量的增加,召回率也會(huì)越來越低。

然而,機(jī)器學(xué)習(xí)領(lǐng)域的 YouTube 紅人 Yannic Kilcher 對(duì)谷歌的這種做法并不感冒[20]。

“我非常愿意相信這個(gè)方法確實(shí)有效,也認(rèn)同這是實(shí)現(xiàn)無限注意力的一種途徑,但我還是持懷疑態(tài)度,”Kilcher表示。“它使用的是一種邊走邊存的壓縮記憶方法,并沒有真正學(xué)會(huì)如何存儲(chǔ),只是按照一種確定性的方式在存儲(chǔ),這意味著我們對(duì)存儲(chǔ)的內(nèi)容和方式幾乎沒有控制權(quán)。”

06 Mamba 會(huì)是未來嗎?

在復(fù)興循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的眾多嘗試中,Mamba 架構(gòu)無疑是最引人注目的。它是 2023 年 12 月發(fā)表的一篇論文[21]中公布的一種架構(gòu),其開發(fā)者是計(jì)算機(jī)科學(xué)家 Tri Dao(他也是我之前提到的 FlashAttention 的負(fù)責(zé)人)和 Albert Gu。

與傳統(tǒng)的 RNN 一樣,Mamba 并不依賴于注意力機(jī)制。它擁有一個(gè)充當(dāng)“記憶”角色的隱藏狀態(tài)。由于這個(gè)隱藏狀態(tài)的大小是固定的,因此即使輸入的提示詞更長,也不會(huì)增加 Mamba 處理每個(gè) token 的成本。

我在三月著手撰寫這篇文章時(shí),本打算深入剖析 Mamba 的架構(gòu)。然而,到了五月,研究團(tuán)隊(duì)推出了 Mamba-2[22],其架構(gòu)較之初代 Mamba 有了顯著的改變。坦白說,我一直在努力理解初代 Mamba 的原理,而對(duì)于 Mamba-2 的工作機(jī)制更是尚未完全弄清。

然而,我們需要明白的是,Mamba 有潛力將 transformer 模型的性能和傳統(tǒng) RNN 的效率結(jié)合起來。

在六月,Dao 和 Gu 與 Nvidia 的研究人員合作發(fā)表了一篇論文[23],對(duì)擁有 80 億參數(shù)的 Mamba 模型進(jìn)行了評(píng)估。研究發(fā)現(xiàn),Mamba 模型在多項(xiàng)任務(wù)中與同等規(guī)模的模型不相上下,但在“上下文學(xué)習(xí)”和“從上下文中提取信息”的能力上,Mamba 模型仍略遜一籌。

transformer 模型之所以擅長信息提取,是因?yàn)樗鼈兡軌颉坝涀 鄙舷挛闹械拿恳粋€(gè) token —— 這也是為什么隨著上下文長度的增加,transformer 模型的效率會(huì)降低。而 Mamba 則試圖將整個(gè)上下文壓縮到一個(gè)固定大小的狀態(tài)中,這意味著在處理長上下文時(shí),它不得不舍棄一部分信息。

Nvidia 團(tuán)隊(duì)發(fā)現(xiàn),通過采用一種混合架構(gòu),該架構(gòu)將 24 個(gè) Mamba 層與 4 個(gè)注意力層交錯(cuò)排列,他們獲得了最佳性能。這種混合架構(gòu)的表現(xiàn)優(yōu)于單純的 transformer 模型或單純的 Mamba 模型。

模型需要一些注意力層來記住其早期上下文中的關(guān)鍵細(xì)節(jié)。但是,似乎只需要少量的注意力層就夠了;其余的注意力層可以由成本更低的 Mamba 層替換,而對(duì)模型的整體性能影響很小。

在八月,一家名為 AI21 的以色列初創(chuàng)公司發(fā)布了其 Jamba 1.5 系列模型[24]。其中最大版本的參數(shù)數(shù)量達(dá)到了 3980 億,使其在規(guī)模上與 Meta 的 Llama 405B 模型相當(dāng)。Jamba 1.5  Large 模型的 Mamba 層數(shù)量是注意力層的七倍。因此,Jamba 1.5  Large 所需的內(nèi)存遠(yuǎn)少于 Meta 和其他公司的同類模型。例如,AI21 估計(jì) Llama 3.1 70B 需要 80 GB 的內(nèi)存來跟蹤 256,000 個(gè)上下文 token ,而 Jamba 1.5  Large 只需要 9 GB,這使得模型能夠在性能較弱的硬件上運(yùn)行。

Jamba 1.5  Large 模型的 MMLU 得分為 80,顯著低于 Llama 3.1 70B 的 86 分。因此,按照這個(gè)標(biāo)準(zhǔn),Mamba 并沒有完全超越 transformer 模型。然而,這可能并不是一個(gè)完全公平的比較。像 Meta 這樣的前沿實(shí)驗(yàn)室在訓(xùn)練數(shù)據(jù)和后訓(xùn)練基礎(chǔ)設(shè)施上投入了大量資金,以在 MMLU 等基準(zhǔn)測(cè)試中提高幾個(gè)百分點(diǎn)的性能。同樣的高強(qiáng)度優(yōu)化可能會(huì)縮小 Jamba 與前沿模型之間的差距。

因此,雖然更長上下文窗口的好處顯而易見,但達(dá)到這一目標(biāo)的最優(yōu)策略尚不明確。短期內(nèi), AI 公司可能會(huì)繼續(xù)使用巧妙的效率和擴(kuò)展技巧(如 FlashAttention 和 Ring Attention)來擴(kuò)展標(biāo)準(zhǔn)的 LLMs。長期來看,我們可能會(huì)看到對(duì) Mamba 以及其他無注意力架構(gòu)的興趣日益增長。或者也許有人會(huì)提出一種全新的架構(gòu),使 transformers 過時(shí)。

但我確信,僅僅依靠擴(kuò)大基于 transformers 的前沿模型規(guī)模并不是一個(gè)完整的解決方案。如果我們想要能夠處理數(shù)十億個(gè) tokens 的模型——許多人都有這樣的需求,我們就需要跳出固有的思維模式,尋找新的方法。

1 有網(wǎng)絡(luò)消息指出,ChatGPT 起初設(shè)定的上下文窗口為 4,096 個(gè) tokens,但發(fā)布后不久的一次實(shí)驗(yàn)[25]顯示,它能夠記憶超過這個(gè)數(shù)量的信息。

2 在十年前,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)通常會(huì)包含編碼器和解碼器兩部分,而像 GPT-3 這樣的現(xiàn)代大語言模型(LLM)則只有解碼器。出于教學(xué)目的,我展示了一個(gè)與歷史不符的、僅包含解碼器的 RNN 模型,這樣可以更容易地與 GPT-3 等現(xiàn)代 LLM 進(jìn)行對(duì)比。同樣的分析方法也適用于 2010 年代初的真實(shí) RNN 模型,但那時(shí)的模型圖會(huì)更加復(fù)雜。

3 GPU 能夠?qū)⒅虚g計(jì)算結(jié)果傳輸?shù)剿拇笕萘扛邘拑?nèi)存中。但是,由于高帶寬內(nèi)存(HBM)[26]的速度限制,這一操作并不會(huì)提升訓(xùn)練速度。

4 這是我針對(duì)擁有 1750 億參數(shù)版本的 GPT-3 的一個(gè)初步估算,該模型包含 96 層,每層有 96 個(gè)注意力頭。因此,實(shí)際上每對(duì) tokens 之間需要進(jìn)行 9,216 次注意力計(jì)算。

5 Jamba 模型是一種混合專家模型,這意味著對(duì)于任何一個(gè) token,只有網(wǎng)絡(luò)中的一部分(980 億參數(shù)中的 3980 億)會(huì)被激活和使用。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Timothy B. Lee

I write the newsletter Understanding AI and cohost the AI Summer podcast. Previously I was a reporter at Ars Technica, Vox, and the Washington Post. ??twitter.com/binarybits??

END

本期互動(dòng)內(nèi)容 ??

?在您看來,長上下文處理能力對(duì) AI 發(fā)展意味著什么?人類和 AI 在信息處理能力上最大的差距是什么?

??文中鏈接??

[1]??https://platform.openai.com/docs/models/gp??

[2]??https://www.anthropic.com/news/claude-3-5-sonnet??

[3]??https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/??

[4]??https://en.wikipedia.org/wiki/Vector_database??

[5]??https://en.wikipedia.org/wiki/Multithreading_(computer_architecture)??

[6]??

[7]??https://en.wikipedia.org/wiki/GeForce_256??

[8]??https://www.techpowerup.com/gpu-specs/geforce-gtx-580.c270??

[9]??https://www.understandingai.org/p/why-the-deep-learning-boom-caught??

[10]??https://arstechnica.com/science/2018/12/how-computers-got-shockingly-good-at-recognizing-images/3/??

[11]??https://arxiv.org/pdf/1409.0473??

[12]??https://arxiv.org/abs/1706.03762??

[13]??https://en.wikipedia.org/wiki/GPT-1??

[14]??https://en.wikipedia.org/wiki/GPT-3??

[15]??https://arxiv.org/abs/2205.14135??

[16]??https://arxiv.org/abs/2307.08691??

[17]??https://arxiv.org/abs/2407.08608??

[18]??https://arxiv.org/abs/2310.01889??

[19]??https://arxiv.org/abs/2404.07143??

[20]??https://www.youtube.com/watch?v=r_UBBfTPcF0&t=2s??

[21]??https://arxiv.org/abs/2312.00752??

[22]??https://arxiv.org/abs/2405.21060??

[23]??https://arxiv.org/abs/2406.07887??

[24]??https://arxiv.org/abs/2408.12570??

[25]??https://x.com/goodside/status/1598874674204618753??

[26]??https://en.wikipedia.org/wiki/High_Bandwidth_Memory??

原文鏈接:

??https://www.understandingai.org/p/why-large-language-models-struggle??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
精品欧美一区二区三区在线观看 | 国外成人性视频| 性欧美在线视频| 四虎影院观看视频在线观看| 处破女av一区二区| 日韩av免费在线播放| 亚洲欧美卡通动漫| 老司机成人在线| 欧美视频三区在线播放| 视色,视色影院,视色影库,视色网| 亚洲黄色一级大片| 免费看精品久久片| 久久免费视频观看| 日韩一级av毛片| 一本色道69色精品综合久久| 色天天综合久久久久综合片| 影音先锋男人的网站| 天堂中文资源在线观看| 久久99精品久久久久久| 91精品国产色综合| 一区二区三区四区五区| 免费成人高清在线视频theav| 777xxx欧美| 亚洲精品乱码久久久久久自慰| 在线观看免费视频你懂的| 久久女同精品一区二区| 51国偷自产一区二区三区| 男人天堂视频在线| 一区二区日本视频| 欧美激情网站在线观看| 福利视频第一页| 久久不见久久见免费视频7| 日韩久久久久久| 日韩精品视频一二三| 蜜桃视频动漫在线播放| 一区二区三区久久| 日本一区二区免费高清视频| 国产一级二级三级在线观看| 成人国产精品免费观看视频| 亚洲一区久久久| 中文字幕有码无码人妻av蜜桃| 亚洲一区国产| 高清欧美一区二区三区| 中文字幕另类日韩欧美亚洲嫩草| 国内精品久久久久久久久电影网| 日韩国产高清视频在线| 无码国产精品久久一区免费| 综合欧美精品| 欧美人伦禁忌dvd放荡欲情| 蜜臀av午夜一区二区三区| 蜜桃视频www网站在线观看| 夜夜夜精品看看| 肉大捧一出免费观看网站在线播放| 在线观看麻豆蜜桃| 国产精品三级电影| 亚洲人体一区| 自拍视频在线网| 中文天堂在线一区| 色姑娘综合网| 在线观看免费高清完整| 国产精品成人免费| 老司机av福利| 在线播放蜜桃麻豆| 亚洲二区在线视频| av免费观看网| 精品国产第一福利网站| 91久久精品网| 91国产精品视频在线观看| 日韩三区免费| 精品婷婷伊人一区三区三| 激情视频免费网站| 999精品嫩草久久久久久99| 欧美精品xxxxbbbb| 中国男女全黄大片| 欧美aaaaa级| 日韩精品视频在线免费观看| 一二三不卡视频| 图片婷婷一区| 在线精品播放av| 三级黄色在线观看| 欧美 日韩 国产精品免费观看| 欧美日韩国产二区| 欧美 日韩 精品| 蜜臀久久99精品久久久久宅男| 国产精品中文字幕在线观看| 国产女18毛片多18精品| 不卡电影免费在线播放一区| 欧美成熟毛茸茸复古| 91网在线播放| 艳妇臀荡乳欲伦亚洲一区| 黄页网站大全在线观看| 日韩高清成人| 欧美一级高清片在线观看| 久久久高清视频| 超碰成人久久| 欧美激情视频播放| av片免费观看| 国产老妇另类xxxxx| 精品国产91亚洲一区二区三区www| 麻豆影视在线| 亚洲激情图片qvod| 国产精品第12页| 91国产精品| 日韩成人在线视频网站| 亚洲女人毛茸茸高潮| 亚洲福利电影| 91精品久久久久久久久久入口| 亚洲精品一区二区口爆| 欧美国产欧美亚州国产日韩mv天天看完整| 青青草免费在线视频观看| 一级毛片久久久| 日韩欧美在线网站| 国产三级av在线播放| 久久日免费视频| 伊人久久综合一区二区| 欧美日韩情趣电影| 中国极品少妇videossexhd| 日韩一区电影| 68精品国产免费久久久久久婷婷| 91久久国语露脸精品国产高跟| 99精品欧美一区二区蜜桃免费| 在线观看亚洲视频啊啊啊啊| 原纱央莉成人av片| 欧美大胆人体bbbb| 国产人与禽zoz0性伦| 性高湖久久久久久久久| 国产精品白丝jk白祙| 日本最黄一级片免费在线| 欧美日韩中文在线| 中国极品少妇xxxx| 欧美福利影院| 成人免费午夜电影| 成年人视频在线观看免费| 午夜视频在线观看一区二区| 国产资源中文字幕| 天天色天天射综合网| 国产精品狠色婷| 日韩av资源| 天天综合网 天天综合色| 美女日批在线观看| 亚洲综合色网| 91精品国产综合久久香蕉的用户体验| 国产资源在线观看| 日本乱人伦aⅴ精品| 在线观看日韩精品视频| 91久久午夜| 国产精品二区二区三区| 在线欧美三级| 精品国产自在久精品国产| 欧美丰满熟妇bbbbbb| 精品综合免费视频观看| 一区精品在线| 国产精品一区二区美女视频免费看 | 亚洲免费视频网站| 国产原创视频在线| 91老师片黄在线观看| 欧美日韩性生活片| 亚欧洲精品视频在线观看| 91wwwcom在线观看| 青青青免费视频在线2| 欧美视频不卡中文| 日本激情小视频| 青青草97国产精品免费观看| 亚洲在线观看一区| 国产剧情一区二区在线观看| 久久精品亚洲国产| 成人小说亚洲一区二区三区| 亚洲va中文字幕| www.自拍偷拍| 日本vs亚洲vs韩国一区三区二区| 亚洲欧洲精品一区二区| 国产精品久久免费视频| 欧美人与性动交| 神马午夜精品95| 在线精品视频一区二区三四| 欧美性生给视频| 国产精品一区二区男女羞羞无遮挡| 国产盗摄视频在线观看| japanese色系久久精品| 136fldh精品导航福利| 黄色电影免费在线看| 欧美日韩国产综合一区二区| 九九久久免费视频| 91理论电影在线观看| 91插插插插插插插插| 亚洲精品国产成人影院| 国产在线欧美日韩| 久久天天久久| 欧美激情精品久久久久久免费印度 | 免费在线观看成人av| 亚洲丰满在线| 成人线上播放| 国产精品爽黄69天堂a| 黄色美女视频在线观看| 亚洲人成网站免费播放| 国产伦精品一区二区三区四区| 亚洲一级电影视频| 人与嘼交av免费| 成人黄色在线网站| 性生活免费在线观看| 亚洲精选在线| 一区二区在线观| 一道在线中文一区二区三区| 成人免费淫片aa视频免费| 123区在线| 日韩中文字幕网| 少妇性bbb搡bbb爽爽爽欧美| 91麻豆精品国产91久久久资源速度 | 激情五月色综合国产精品| 亚洲在线一区二区| 精品欧美一区二区三区在线观看 | 日韩欧美国产一二三区| 中文字幕在线播| 亚洲一区二区三区四区的| 国产wwwwxxxx| 国产亚洲视频系列| 大尺度做爰床戏呻吟舒畅| 国产中文一区二区三区| 国产真人无码作爱视频免费| 红桃视频国产一区| 黄色一级片网址| 激情婷婷综合| 欧美一区亚洲二区| 久久久免费毛片| 99在线免费观看视频| 日日夜夜精品| 国产伊人精品在线| 成人黄色图片网站| 日韩av免费在线| 悠悠资源网亚洲青| 亚洲 日韩 国产第一| 日韩三级免费| 久久成人18免费网站| 免费大片黄在线观看视频网站| 亚洲四色影视在线观看| 五月激情六月婷婷| 亚洲高清一区二| 免费国产精品视频| 精品国产露脸精彩对白| 亚洲AV午夜精品| 欧美一区二区三区精品| 国产女人高潮的av毛片| 制服视频三区第一页精品| 在线观看黄色网| 欧美午夜不卡在线观看免费| 日韩中文字幕高清| 在线观看视频一区二区欧美日韩| 亚洲不卡视频在线观看| 一本一道久久a久久精品综合蜜臀| 日本三级中文字幕| 精品国产鲁一鲁一区二区张丽 | 亚洲午夜私人影院| 久久久久久久久久综合| 亚洲综合一区二区精品导航| 亚洲xxxx3d动漫| 尤物av一区二区| 国产一级一级片| 午夜精品久久久久久不卡8050| 国产黄色片视频| 五月婷婷激情综合网| 久久久久久久黄色片| 日韩欧美黄色动漫| 丰满人妻一区二区三区四区| 在线免费观看一区| 在线观看视频中文字幕| 91精品综合久久久久久| 精品人妻伦一区二区三区久久| 欧美一级免费观看| 肥臀熟女一区二区三区| 日韩精品中文字幕在线| 免费人成黄页在线观看忧物| 少妇高潮 亚洲精品| av文字幕在线观看| 久久全国免费视频| 日韩欧美精品一区二区综合视频| 国产精品嫩草视频| 在线观看亚洲精品福利片| 国产高清精品一区二区| 免费成人高清在线视频theav| 亚洲欧美精品在线观看| 欧美99久久| 国产成人无码一二三区视频| 日韩国产在线观看| 九九久久久久久| 成人av免费在线| 成人免费视频入口| 亚洲影院久久精品| 99re国产在线| 日韩午夜电影在线观看| 视频一区二区免费| 最近2019中文免费高清视频观看www99| 麻豆91在线| 91超碰中文字幕久久精品| 日韩色淫视频| 国产精品加勒比| 国产精品嫩模av在线| 欧美 日韩 国产 在线观看| 亚洲精品综合| 天天综合成人网| 久久久久久久性| 欧美日韩综合一区二区| 在线观看成人小视频| 狠狠躁日日躁夜夜躁av| 色狠狠av一区二区三区香蕉蜜桃| 2019中文字幕在线电影免费| 国产精品视频26uuu| 精品欧美午夜寂寞影院| 一级二级三级欧美| 羞羞答答国产精品www一本| 国产精品探花在线播放| 国产网红主播福利一区二区| 九九视频免费在线观看| 欧美视频一区二区三区四区| 东京干手机福利视频| 爽爽爽爽爽爽爽成人免费观看| 1234区中文字幕在线观看| 成人天堂噜噜噜| 欧美理论电影大全| 欧美国产亚洲一区| 国产电影一区在线| 亚洲天堂精品一区| 91福利资源站| 日韩a在线观看| 91国偷自产一区二区三区的观看方式| 国产精品麻豆| 一区二区三区偷拍| 日本亚洲最大的色成网站www| 偷偷色噜狠狠狠狠的777米奇| 亚洲视频一区二区免费在线观看| 日韩黄色片网站| 亚洲男人天堂网| 忘忧草在线日韩www影院| y111111国产精品久久婷婷| 91成人网在线观看| 九九热免费在线观看| 亚洲国产精品成人综合色在线婷婷 | 成人一二三区| 人妻丰满熟妇av无码区app| 91在线视频播放| 黄色片视频网站| 亚洲大胆人体视频| 黄色在线免费观看网站| 国产伦视频一区二区三区| 国产精品久久| 中文字幕一区二区三区人妻在线视频| 亚洲色图欧美偷拍| 91成人在线免费| 日韩中文视频免费在线观看| 亚洲wwww| 涩涩涩999| 捆绑调教美女网站视频一区| jizz日本在线播放| 欧美日韩精品免费观看视频| 日本在线观看www| 91久久国产综合久久91精品网站| 午夜精品视频一区二区三区在线看| 亚洲久久中文字幕| 综合av第一页| jlzzjlzz亚洲女人18| 欧美高清性猛交| 久久动漫网址| 92看片淫黄大片一级| 国产校园另类小说区| 国产情侣呻吟对白高潮| 久久精品成人一区二区三区| 精品国产亚洲一区二区三区| 欧美这里只有精品| 波多野结衣在线aⅴ中文字幕不卡| 国产又大又黑又粗免费视频| 亚洲精品午夜精品| 黄页免费欧美| www.在线观看av| 久久综合九色综合欧美98| 欧美性受xxx黑人xyx性爽| 久久精品国产视频| 红杏视频成人| 成人性做爰aaa片免费看不忠| 国产精品久久久久久久久免费相片 | 成人精品视频99在线观看免费 | 欧美日韩亚洲一| 国产婷婷色一区二区三区在线| 91亚洲欧美激情| 久久免费观看视频| 精品国产精品国产偷麻豆| 中文字幕亚洲乱码| 亚洲国产日韩a在线播放性色| 青青免费在线视频| 亚洲自拍偷拍第一页| 一区二区高清| tube国产麻豆| 国产视频在线一区二区| 宅男噜噜噜66国产精品免费| 亚洲人精品午夜射精日韩| 国产欧美日韩在线视频| 精品国产乱码一区二区三| 国产成人在线视频| 欧美国产三级| 中文字幕在线观看免费高清| 日韩天堂在线观看| 蜜桃精品在线|