精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Mamba作者新作:將Llama3蒸餾成混合線性 RNN

人工智能 新聞
最近,一篇題為《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的論文證明:通過重用注意力層的權(quán)重,大型 transformer 可以被蒸餾成大型混合線性 RNN,只需最少的額外計算,同時可保留其大部分生成質(zhì)量。

Transformer 在深度學(xué)習(xí)領(lǐng)域取得巨大成功的關(guān)鍵是注意力機制。注意力機制讓基于 Transformer 的模型關(guān)注與輸入序列相關(guān)的部分,實現(xiàn)了更好的上下文理解。然而,注意力機制的缺點是計算開銷大,會隨輸入規(guī)模而二次增長,Transformer 也因此難以處理非常長的文本。

前段時間,Mamba 的出現(xiàn)打破了這一局面,它可以隨上下文長度的增加實現(xiàn)線性擴展。隨著 Mamba 的發(fā)布,這些狀態(tài)空間模型 (SSM) 在中小型規(guī)模上已經(jīng)可以與 Transformer 匹敵,甚至超越 Transformer,同時還能維持隨序列長度的線性可擴展性,這讓 Mamba 具有有利的部署特性。

簡單來說,Mamba 首先引入了一個簡單卻有效的選擇機制,其可根據(jù)輸入對 SSM 進行重新參數(shù)化,從而可讓模型在濾除不相關(guān)信息的同時無限期地保留必要和相關(guān)的數(shù)據(jù)。

最近,一篇題為《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的論文證明:通過重用注意力層的權(quán)重,大型 transformer 可以被蒸餾成大型混合線性 RNN,只需最少的額外計算,同時可保留其大部分生成質(zhì)量。

由此產(chǎn)生的混合模型包含四分之一的注意力層,在聊天基準(zhǔn)測試中實現(xiàn)了與原始 Transformer 相當(dāng)?shù)男阅埽⑶以诹奶旎鶞?zhǔn)測試和一般基準(zhǔn)測試中優(yōu)于使用數(shù)萬億 token 從頭開始訓(xùn)練的開源混合 Mamba 模型。此外,該研究還提出了一種硬件感知推測解碼算法,可以加快 Mamba 和混合模型的推理速度。

圖片

論文地址:https://arxiv.org/pdf/2408.15237

該研究的性能最佳模型是從 Llama3-8B-Instruct 中蒸餾出來的,在 AlpacaEval 2 上相對于 GPT-4 實現(xiàn)了 29.61 的長度控制(length-controlled)勝率,在 MT-Bench 上實現(xiàn)了 7.35 的勝率,超越了最好的指令調(diào)整線性 RNN 模型。

方法

知識蒸餾(KD)作為一種模型壓縮技術(shù),用于將大型模型(教師模型)的知識遷移到較小的模型(學(xué)生模型)中,旨在訓(xùn)練學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)的行為。該研究旨在對 Transformer 進行蒸餾,使其性能與原始語言模型相當(dāng)。

該研究提出了一種多級蒸餾方法,結(jié)合了漸進式蒸餾、監(jiān)督微調(diào)和定向偏好優(yōu)化。與普通蒸餾相比,這種方法可以獲得更好的困惑度和下游評估結(jié)果。

該研究假設(shè)來自 Transformer 的大部分知識都保留在從原始模型遷移而來的 MLP 層中,并專注于蒸餾 LLM 的微調(diào)和對齊步驟。在此階段,MLP 層保持凍結(jié)狀態(tài),Mamba 層進行訓(xùn)練。

圖片

該研究認(rèn)為線性 RNN 和注意力機制之間天然存在一些聯(lián)系。通過刪除 softmax 可以線性化注意力公式:

圖片

但線性化注意力會導(dǎo)致模型能力退化。為了設(shè)計一個有效的蒸餾線性 RNN,該研究盡可能接近原始 Transformer 參數(shù)化,同時以有效的方式擴展線性 RNN 的容量。該研究沒有嘗試讓新模型捕獲精確的原始注意力函數(shù),而是使用線性化形式作為蒸餾的起點。

如算法 1 所示,該研究將來自注意力機制的標(biāo)準(zhǔn) Q、K、V 頭直接饋入到 Mamba 離散化中,然后應(yīng)用得到的線性 RNN。這可以看作是使用線性注意力進行粗略初始化,并允許模型通過擴展的隱藏狀態(tài)學(xué)習(xí)更豐富的交互。

圖片

該研究用微調(diào)線性 RNN 層直接替換 Transformer 注意力頭,保持 Transformer MLP 層不變,不訓(xùn)練它們。這種方法還需要處理其他組件,例如跨頭共享鍵和值的分組查詢注意力。研究團隊注意到,這種架構(gòu)與許多 Mamba 系統(tǒng)中使用的架構(gòu)不同,這種初始化允許用線性 RNN 塊替換任何注意力塊。

圖片

該研究還提出了一種使用硬件感知多步生成的線性 RNN 推測解碼新算法。

算法 2 和圖 2 顯示了完整的算法。該方法僅在緩存中保留一個 RNN 隱藏狀態(tài)以進行驗證,并根據(jù)多步內(nèi)核的成功來延遲推進它。由于蒸餾模型包含 transformer 層,該研究還將推測解碼擴展到 Attention/RNN 混合架構(gòu)。在此設(shè)置中,RNN 層根據(jù)算法 2 執(zhí)行驗證,而 Transformer 層僅執(zhí)行并行驗證。

圖片

為了驗證這種方法的有效性,該研究使用 Mamba 7B 和 Mamba 2.8B 作為目標(biāo)模型進行推測。結(jié)果如表 1 所示。

圖片

圖 3 顯示了多步內(nèi)核本身的性能特征。

圖片

H100 GPU 上的加速。該研究提出的算法在 Ampere GPU 上表現(xiàn)出強大的性能,如上表 1 所示。但在 H100 GPU 上面臨巨大挑戰(zhàn)。這主要是因為 GEMM 操作速度太快,這使得緩存和重新計算操作產(chǎn)生的開銷更加明顯。實際上,該研究的算法的簡單實現(xiàn)(使用多個不同的內(nèi)核調(diào)用)在 3090 GPU 上實現(xiàn)了相當(dāng)大的加速,但在 H100 上根本沒有加速。

實驗及結(jié)果

該研究使用兩個 LLM 聊天模型進行實驗:Zephyr-7B 是在 Mistral 7B 模型的基礎(chǔ)上微調(diào)而來, 以及 Llama-3 Instruct 8B。對于線性 RNN 模型,該研究使用 Mamba 和 Mamba2 的混合版本,其中注意力層分別為 50%、25%、12.5% 和 0%,并將 0% 稱為純 Mamba 模型。Mamba2 是 Mamba 的一種變體架構(gòu),主要針對最近的 GPU 架構(gòu)而設(shè)計。

在聊天基準(zhǔn)上的評估

表 2 顯示了模型在聊天基準(zhǔn)上的性能,主要對比的模型是大型 Transformer 模型。結(jié)果顯示:

蒸餾后的混合 Mamba 模型 (50%) 在 MT 基準(zhǔn)測試中取得的分?jǐn)?shù)與教師模型相似,在 LC 勝率和總體勝率方面都略優(yōu)于 AlpacaEval 基準(zhǔn)測試中的教師模型。

蒸餾后的混合 Mamba (25% 和 12.5%) 的性能在 MT 基準(zhǔn)測試中略遜于教師模型,但即使在 AlpcaaEval 中具有更多參數(shù),它仍然超越了一些大型 Transformer。

蒸餾后的純 (0%) Mamba 模型的準(zhǔn)確性確實顯著下降。

值得注意的是,蒸餾后的混合模型的表現(xiàn)優(yōu)于 Falcon Mamba,后者是從頭開始訓(xùn)練的,使用了超過 5T 的 token。

圖片

一般基準(zhǔn)評估

零樣本評估。表 3 顯示了從不同教師模型中蒸餾出的 Mamba 和 Mamba2 在 LM Eval 基準(zhǔn)中的零樣本性能。從 Llama-3 Instruct 8B 中蒸餾出的混合 Mamba-Llama3 和 Mamba2-Llama3 模型與從頭開始訓(xùn)練的開源 TRI Mamba 和 Nvidia Mamba 模型相比表現(xiàn)更好。

圖片

基準(zhǔn)評估。表 4 顯示經(jīng)過蒸餾的混合模型的性能與 Open LLM Leaderboard 上最好的開源線性 RNN 模型相匹配,同時在 GSM8K 和 CRUX 中優(yōu)于相應(yīng)的開源指令模型。

圖片

混合推測性解碼

對于 50% 和 25% 的蒸餾模型,與非推測基線相比,該研究在 Zephyr-Hybrid 上實現(xiàn)了超過 1.8 倍的加速。

實驗還表明,該研究訓(xùn)練的 4 層 draft 模型實現(xiàn)了更高的接收率,不過由于 draft 模型規(guī)模的增加,額外開銷也變大了。在后續(xù)工作中,該研究將專注于縮小這些 draft 模型。

圖片

與其它蒸餾方法的比較:表 6(左)比較了不同模型變體的困惑度。該研究在一個 epoch 內(nèi)使用 Ultrachat 作為種子提示進行蒸餾,并比較困惑度。結(jié)果發(fā)現(xiàn)刪除更多層會使情況變得更糟。該研究還將蒸餾方法與之前的基線進行了比較,發(fā)現(xiàn)新方法顯示出較小的退化,而 Distill Hyena 模型是在 WikiText 數(shù)據(jù)集中使用小得多的模型進行訓(xùn)練的,并且顯示出較大的困惑度退化。

表 6(右)展示了單獨使用 SFT 或 DPO 不會產(chǎn)生太大的改進,而使用 SFT + DPO 會產(chǎn)生最佳分?jǐn)?shù)。

圖片

表 7 比較了幾種不同模型的消融研究。表 7(左)展示了使用各種初始化的蒸餾結(jié)果,表 7(右)顯示漸進式蒸餾和將注意層與 Mamba 交錯帶來的收益較小。

圖片

表 8 比較了使用兩種不同初始化方法的混合模型的性能:結(jié)果證實注意力權(quán)重的初始化至關(guān)重要。

圖片

表 9 比較了有 Mamba 塊和沒有 Mamba 塊的模型的性能。有 Mamba 塊的模型性能明顯優(yōu)于沒有 Mamba 塊的模型。這證實了添加 Mamba 層至關(guān)重要,并且性能的提高不僅僅歸功于剩余的注意力機制。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-09-10 13:30:00

2024-05-27 09:00:00

2024-09-05 12:27:17

2025-06-03 08:43:00

2024-07-15 08:20:00

2024-07-16 09:41:01

2024-05-16 09:20:29

OllamaLlama3框架

2024-03-15 09:00:00

2024-05-16 10:44:10

2024-03-04 08:40:44

Llama3AI谷歌

2024-03-04 13:23:34

數(shù)據(jù)模型

2024-04-25 09:41:24

項目模型

2024-04-30 08:28:44

開源大模型Llama

2025-05-27 15:16:38

Llama運營模型

2024-04-02 09:03:43

TransformeMambaRNN

2025-04-24 08:20:00

C#Llama3人工智能

2024-04-26 07:48:45

DockerLLama3模型

2024-05-21 13:06:02

點贊
收藏

51CTO技術(shù)棧公眾號

久久久久久久国产精品毛片| 黄页网站在线看| 免费在线观看一级毛片| 免费观看一级特黄欧美大片| 久久久av一区| 亚洲av无码一区二区三区网址| 欧美日韩视频免费观看| 亚洲综合偷拍欧美一区色| 欧美色图亚洲自拍| 国产夫妻性生活视频| aa国产精品| 久久久精品国产一区二区| 网站免费在线观看| 国产精品亚洲欧美一级在线| 日本高清视频一区二区| 草草草视频在线观看| 丁香婷婷在线| 99麻豆久久久国产精品免费优播| 国产在线999| www毛片com| 激情久久久久久久| 久久精品视频免费播放| 五月天综合视频| 国产精品毛片视频| 日韩午夜在线观看视频| 国产福利影院在线观看| 午夜伦理福利在线| 亚洲一区日韩精品中文字幕| 一本一道久久a久久综合精品| 亚洲aaaaaaa| 成人精品在线视频观看| 成人免费在线视频网站| 怡红院男人的天堂| 久久激情婷婷| 68精品久久久久久欧美| 青草草在线视频| 91精品久久久久久久蜜月| 一本色道久久综合亚洲精品小说| 日韩精品视频一区二区| 欧美日本三级| 制服丝袜一区二区三区| 日本国产一级片| 韩国精品主播一区二区在线观看| 丁香五六月婷婷久久激情| www精品久久| 羞羞的视频在线观看| 亚洲另类色综合网站| 中文字幕一区二区三区乱码| 成年人免费在线视频| 久久女同互慰一区二区三区| 欧美日韩成人一区二区三区| 色视频免费在线观看| 97精品久久久久中文字幕| 99精品国产高清在线观看| 国产女人18毛片水18精| 国产成人在线免费观看| 国产精品免费区二区三区观看| 精品人妻aV中文字幕乱码色欲| 国产麻豆午夜三级精品| 99se婷婷在线视频观看| wwwav在线播放| 国产99久久久精品| 国产一区二区三区av在线| 蜜桃久久一区二区三区| 99re66热这里只有精品3直播 | a片在线免费观看| 日韩一区精品视频| 国产欧美日韩高清| 一区二区日韩视频| 国产激情精品久久久第一区二区| 成人黄动漫网站免费| 日本免费网站在线观看| 久久久久久久久97黄色工厂| 五月天亚洲综合情| 二区在线播放| 图片区小说区区亚洲影院| 精品一区二区中文字幕| 日韩av电影资源网| 91麻豆精品91久久久久久清纯| 久久免费精品国产| 亚洲成aⅴ人片久久青草影院| 一区二区三区视频免费在线观看| 亚洲熟女毛茸茸| 欧美性久久久| 日韩av日韩在线观看| 91亚洲视频在线观看| 国产福利一区二区三区视频 | 亚洲综合123| 国产一区丝袜| 中文字幕无线精品亚洲乱码一区 | h视频网站在线观看| 亚洲欧美日韩精品久久久久| h无码动漫在线观看| 小黄鸭精品aⅴ导航网站入口| 欧美精品三级日韩久久| 国产黑丝在线观看| 国产精品成人av| 欧美亚洲成人网| 99久久精品国产色欲| 91视频观看免费| 超碰在线免费观看97| 亚洲一区站长工具| 欧美一区二区视频观看视频| 在线观看日本中文字幕| 国内精品久久久久久久影视蜜臀| 国产成人精品视频| 丰满人妻一区二区三区免费| 国产欧美日韩激情| a在线视频观看| 亚洲最大的免费视频网站| 日韩成人xxxx| 国产白丝一区二区三区| 99热这里只有精品8| 亚洲一区二区三区777| 日韩专区一区二区| 亚洲成a人片在线观看中文| 鲁一鲁一鲁一鲁一av| 免费看日本一区二区| 欧美高清视频免费观看| 一卡二卡三卡在线观看| 久久婷婷国产综合国色天香| bt天堂新版中文在线地址| 日本免费在线一区| 亚洲欧洲一区二区三区在线观看 | 欧美猛男gaygay网站| 性高潮久久久久久久| 亚洲精品乱码| 产国精品偷在线| 在线heyzo| 在线播放91灌醉迷j高跟美女 | 欧美激情综合色综合啪啪| 国产精品美女久久久免费| 亚洲欧美丝袜中文综合| 亚洲夂夂婷婷色拍ww47| 两性午夜免费视频| 色无极亚洲影院| 国产精品视频内| 国产中文字幕在线视频| 一本色道a无线码一区v| 午夜一区二区三区免费| 99精品国产福利在线观看免费| 成人免费视频观看视频| 色呦呦在线看| 精品免费一区二区三区| 免费麻豆国产一区二区三区四区| 国产精品亚洲第一区在线暖暖韩国| 亚洲欧美日韩精品在线| 中韩乱幕日产无线码一区| 在线免费观看羞羞视频一区二区| 好吊色在线视频| 久久久久久久久久电影| www日韩在线观看| 精品一区二区三| 国产精品一区二区三区免费视频| 欧美高清视频| 日韩一区二区免费视频| 九九九久久久久| 成人的网站免费观看| 六月丁香激情网| 国产99久久久国产精品成人免费| 欧美一区二区视频97| lutube成人福利在线观看| 欧美日韩国产一二三| 日韩成人短视频| 国产suv一区二区三区88区| 国产精品久久久久久久乖乖| 日韩欧美四区| 国产精品99久久久久久www| av亚洲在线| 欧美福利视频一区| 国产午夜精品一区二区理论影院 | 五月天色婷婷丁香| 国产大陆精品国产| 熟女少妇在线视频播放| 国产99精品| 95av在线视频| 毛片电影在线| 色先锋资源久久综合5566| 国产aⅴ一区二区三区| 精品美女国产在线| 一级在线观看视频| 国产麻豆欧美日韩一区| 欧美色图色综合| 日韩美女一区二区三区在线观看| 97久草视频| 黑人精品一区| 久久成人在线视频| 日韩a在线看| 欧美一区二区三区精品| 特黄视频免费看| 亚洲国产高清aⅴ视频| 中文字幕人妻熟女人妻a片| 男人的天堂亚洲| 91麻豆天美传媒在线| 亚洲人成网亚洲欧洲无码| 91在线观看免费观看| 亚洲美女尤物影院| 欧美成年人视频网站| 免费在线性爱视频| 日韩午夜小视频| 成人黄色激情视频| 午夜日韩在线电影| 极品久久久久久| 日本一区二区三区四区| 日本一区二区在线免费观看| 久久国产综合精品| 国产日韩一区二区在线观看| 欧美一区国产在线| 一本久道久久综合| 免费看成人哺乳视频网站| 丁香五月网久久综合| 国产精品99| 日韩av免费在线观看| www.综合| 色综合视频网站| 日本在线观看| 亚洲视频欧美视频| 天天操天天操天天操| 日韩精品最新网址| 亚洲一区二区激情| 在线观看视频91| 日韩精品在线观看免费| 亚洲影院久久精品| 黄色a级片在线观看| 中文字幕乱码日本亚洲一区二区| 亚洲av无码一区二区三区网址| 处破女av一区二区| 91精品人妻一区二区三区四区| 久99久精品视频免费观看| 天天影视综合色| 久久人人超碰| 国产一区亚洲二区三区| 亚洲影院一区| 久激情内射婷内射蜜桃| 激情另类综合| 国产深夜男女无套内射| 日韩视频在线一区二区三区 | 91福利在线免费| 欧美激情二区三区| 天堂成人av| 欧美日韩国产成人在线| 18+激情视频在线| 九色精品美女在线| 国产99re66在线视频| 欧美激情视频一区二区三区不卡| 羞羞的视频在线观看| 久久久久久网址| 第一av在线| 91国产美女在线观看| 偷拍自拍在线看| 国产成人激情小视频| 国产综合色在线观看| 成人黄色免费在线观看| 国产一区二区av在线| 成人av播放| 久久国产精品免费精品3p| 麻豆精品视频| av一区二区高清| 在线观看成人av电影| 欧美精品一区二区三区久久久竹菊| 国产911在线观看| 亚洲精品麻豆| 国产精品99久久免费黑人人妻| 日韩精品欧美精品| 午夜一区二区视频| 成人免费精品视频| 国产成人无码一区二区在线观看| 国产亚洲欧美激情| www.5588.com毛片| 午夜精品福利视频网站| 国产主播第一页| 91精品在线麻豆| 天天干视频在线| 亚洲最新中文字幕| 伊人手机在线| 国产91精品久| 亚洲一区二区三区久久久| 国产一区二区黄色| 日本激情一区| 美女扒开大腿让男人桶| 日韩黄色免费电影| 色欲无码人妻久久精品| 91性感美女视频| 美国黄色片视频| 天天av天天翘天天综合网色鬼国产| 最近中文字幕在线观看视频| 日韩欧美中文字幕公布| 青青草视频在线免费观看| 久久久成人精品| 日韩大片免费观看| 91色琪琪电影亚洲精品久久| 欧美日韩导航| 咪咪色在线视频| 欧美亚洲网站| 在线免费黄色小视频| 91蜜桃视频在线| 日韩一级片av| 欧美日韩一区二区三区免费看| 成人免费观看在线视频| 色偷偷av一区二区三区乱| 美女露胸视频在线观看| 亚洲free性xxxx护士白浆| 中文字幕伦av一区二区邻居| 337p亚洲精品色噜噜狠狠p| 视频一区二区国产| 日本一级片在线播放| 亚洲啪啪综合av一区二区三区| 中文字幕xxxx| 日韩精品中文字幕在线播放| 97caopron在线视频| 国产精品免费电影| 亚洲资源网你懂的| 国内精品在线观看视频| 国产在线精品视频| 免费看的黄色录像| 欧美性xxxx18| 人妻无码中文字幕| 欧美床上激情在线观看| 91麻豆精品国产91久久久更新资源速度超快| 久久九九视频| 亚洲区欧美区| 中文字幕永久免费| 中文字幕一区二区三区不卡| 国产99免费视频| 日韩av在线资源| 狠狠操一区二区三区| 亚洲永久免费观看| 香蕉视频官网在线观看日本一区二区| 97成人在线观看视频| 久久综合九色综合97婷婷女人 | 欧美一级生活片| 黄色在线论坛| 成人xxxxx| 日韩在线视频精品| 日韩av一卡二卡三卡| 国产精品久线观看视频| 瑟瑟视频在线免费观看| 一区二区欧美亚洲| 黑人一区二区三区| 一区二区三区电影| 久久国内精品视频| 日韩a级片在线观看| 91精品国产91久久久久久一区二区 | 欧亚精品中文字幕| 国产成人手机高清在线观看网站| 国产精品免费入口| 久久亚洲一级片| 日本丰满少妇做爰爽爽| 中文字幕日韩在线视频| 亚洲久草在线| 粉嫩av一区二区三区天美传媒 | 久久国产精品99久久久久久丝袜| 亚洲经典在线| 中文字幕av网址| 欧美综合欧美视频| 免费在线毛片网站| 成人h视频在线观看| 日韩视频二区| 公肉吊粗大爽色翁浪妇视频| 欧美丝袜第三区| av软件在线观看| 国产在线一区二区三区欧美| 欧美亚洲一区二区三区| 亚洲无人区码一码二码三码的含义| 欧美色精品天天在线观看视频| 老司机免费在线视频| 91久久久一线二线三线品牌| 精品69视频一区二区三区Q| 久久无码人妻精品一区二区三区| 91福利小视频| av网站大全在线| 乱一区二区三区在线播放| 蜜臂av日日欢夜夜爽一区| 精品国产乱码久久久久久鸭王1| 亚洲精品国产精品国自产在线| 外国成人直播| 成人手机在线播放| 99久久国产综合精品女不卡| 一区二区视频免费| 高清欧美电影在线| 久久99性xxx老妇胖精品| 天堂在线一区二区三区| 偷拍一区二区三区四区| 日本电影在线观看网站| 国产精品三区在线| 免费观看成人鲁鲁鲁鲁鲁视频| 久草视频免费在线| 亚洲深夜福利在线| 一区二区在线免费播放| 国产理论在线播放| 亚洲综合成人在线视频| 9i精品一二三区| 国产精品三区在线| 精品一区二区影视| www.中文字幕在线观看| 久久天天躁狠狠躁夜夜躁2014| 免费毛片在线不卡| 69亚洲乱人伦| 欧美精品久久久久久久久老牛影院| 少妇视频一区|