精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM推理提速2.8倍,CMU清華姚班校友提出「投機式推理」引擎SpecInfer,小模型撬動大模型高效推理

人工智能 新聞
近日,來自卡耐基梅隆大學(CMU)的 Catalyst Group 團隊發布了一款「投機式推理」引擎 SpecInfer,可以借助輕量化的小模型來幫助大模型,在完全不影響生成內容準確度的情況下,實現兩到三倍的推理加速。

隨著 ChatGPT 的出現,大規模語言模型(LLM)研究及其應用得到學術界和工業界的廣泛關注。一方面,開源的 LLM 模型不斷涌現,比如 OPT、BLOOM、LLaMA 等,這些預訓練模型的推出極大地促進了 LLM 的相關研究,使得 LLM 可以被應用于解決愈發復雜的實際問題。利用這些開源模型,快速構建一套基于 LLM 的應用服務已經變得愈發容易,但 LLM 面臨著高昂的計算和存儲需求,其成本也令人望而卻步。

另一方面,以羊駝家族(如 Alpaca、Vicuna、Guanaco)為代表的,經過微調或蒸餾的小型化 LLM 也成為了當下的研究焦點之一,在多項測評中都展現出了優異的表現;此外,以 Quantization、LoRA、Offloading 為代表的多項系統優化技術使得以更低的資源需求部署這些 LLM 成為可能。但天下沒有免費的午餐,有關證據表明 [1],這些小型化的 LLM 以及面向低資源場景的系統優化技術往往都會帶來模型質量的下降,影響最終應用的效果。

因此,如何在保證模型輸出質量的前提下,讓 LLM 推理變得高效和廉價,已經成為了 MLSys 領域非常重要的研究問題。近日,來自卡耐基梅隆大學(CMU)的 Catalyst Group 團隊發布了一款「投機式推理」引擎 SpecInfer,可以借助輕量化的小模型來幫助大模型,在完全不影響生成內容準確度的情況下,實現兩到三倍的推理加速。

  • 論文鏈接:https://arxiv.org/abs/2305.09781
  • 項目地址:https://github.com/flexflow/FlexFlow/tree/inference

論文作者之一、CMU 助理教授 Zhihao Jia 表示:「生成式大規模語言模型不僅推理效率低下而且部署成本很高;它們小型化的版本具有速度和價格上的優勢,但是也會影響生成內容的質量;而 SpecInfer 可以實現這兩方面的雙贏。」

圖片

同樣來自 CMU Catalyst Group 的助理教授 Tianqi Chen 也表示:「SpecInfer 可以適用于云上的 LLM 部署等場景,讓 LLM 推理更加可擴展。」

圖片

研究現狀

目前 LLM 推理主要依賴于自回歸式(auto-regressive)的解碼(decoding)方式,每步解碼只能夠產生一個輸出 token,并且需要將歷史輸出內容拼接后重新作為 LLM 的輸入,才能進行下一步的解碼。考慮到這種數據依賴,現有 LLM 推理系統如 FasterTransformer 會采用一種增量式解碼(incremental decoding)技術,將已經解碼的 token 對應的 key/value 進行緩存,避免重新計算。但是,這類系統仍然面臨兩個關鍵的缺陷:1)由于逐 token 計算的解碼范式,算子并行度有限,GPU 硬件資源難以被充分利用;2)當序列過長時,KV-cache 空間消耗過大,有限的 GPU 顯存無法承載。因此,當面對超大規模的 LLM 推理時(如 GPT-4 32K tokens),現有系統往往面臨資源利用低效,推理延遲過高的問題。

圖片

Incremental Decoding 示意圖

為了解決上述問題,研究者提出了一種「投機式」推理引擎 SpecInfer,其核心思想是通過計算代價遠低于 LLM 的 “小模型” SSM(Small Speculative Model)替代 LLM 進行投機式地推理(Speculative Inference),每次會試探性地推理多步,將多個 SSM 的推理結果匯聚成一個 Speculated Token Tree,交由 LLM 進行驗證,通過高效的樹形解碼算子實現并行化推理,驗證通過的路徑將會作為模型的推理結果序列,進行輸出。

總體上來說,SpecInfer 利用了 SSM 的內在知識幫助 LLM 以更低廉的計算成本完成了主要的推理過程,而 LLM 則在一定程度上破除了逐 token 解碼的計算依賴,通過并行計算確保最終輸出的結果完全符合原始的推理語義。

圖片

SpecInfer 工作流程

系統設計

圖片

SpecInfer 系統架構

可學習推測器(Learning-based Speculator)

Speculator 的主要作用是利用 SSM 快速產生對 LLM 未來輸出的推測結果,SSM 可以是(微調后)小版本的 LLM(如 LLaMA 7B),也可以是量化或蒸餾的小規模 LLM,還可以是可供檢索的知識庫(如參考文本)亦或是用戶的自定義函數。總之,SSM 的輸出結果越接近 LLM,驗證時才會更容易通過,整體的推理效率才會更高。

為此,SpecInfer 引入集成學習的思想,將多個 SSM 的結果融合,提高輸出的差異化程度。為了盡可能提高匹配率,Speculator 提出了 Collective Boost-Tuning 方法,即在一個公開的通用數據集(如 OpenWebText)上,從一個較弱的 SSM 開始進行微調,將匹配程度較低的序列不斷從數據中過濾,交由新的 SSM 來學習,持續多次,提高整體的推測質量;此外,Speculator 還引入了一個可學習的調度器(scheduler)來決定選用哪些 SSM 以獲得更長的匹配序列長度。

Token 樹驗證器(Token Tree Verifier)

SSM 的推理速度優勢是 SpecInfer 能夠加速推理的前提,但另一個不可或缺的因素就是 LLM 對并行化推理的支持。在 SpecInfer 中,LLM 并不直接作為推理引擎產生輸出 token,但是它需要對 Speculator 中 SSM 產生的 token 進行驗證,確保輸出內容符合 LLM 的推理語義。

在 SpecInfer 中,SSM 產生的輸出序列會被組織成 token tree 的樹形結構,避免冗余的存儲開銷。為了能夠在 token tree 上進行并行化的驗證,SpecInfer 提出了一種樹形注意力(Tree Attention)計算方法,通過構造的 mask 矩陣和基于深度優先的 KV-cache 更新機制,Verifier 可以在不增加額外存儲的同時,盡可能并行化樹中每一條路徑的解碼過程。相比于樸素的逐序列或逐 Token 的解碼方式,樹形解碼可以同時在內存開銷和計算效率上達到最優。

圖片

Tree-based Decoding 示意圖

大規模 LLM 和小規模 SSM 協同工作

圖片

Speculative Inference 執行 Timeline 對比

大規模的 LLM 在參數量上通常可以達到小規模 SSM 的幾十倍甚至上百倍,而 SSM 相比于 LLM,在推理速度上,基于通常的系統實現,也有數倍到數十倍的性能優勢,SpecInfer 結合了 SSM 極低的推理延遲以及 LLM 的并行驗證能力,大幅降低了較為耗時的 LLM 推理次數,最終可以在保證推理結果質量的情況下顯著提升模型推理速度。

系統實現

SpecInfer 基于 FlexFlow 系統實現,支持用戶自定義模型結構,導入模型參數,兼容主流深度學習框架的 operator 或 layer 抽象,現已支持常規的 GPT、LLaMA 等多種主流基礎模型。值得注意的是,FlexFlow 是一款面向分布式場景的深度學習系統,由來自 CMU、Stanford、MIT、NVIDIA 等機構的研究人員共同維護,是機器學習系統領域最早提出 “自動并行” 的工作之一 (MLSys’19, ICML’18) [2,3],也是最早將計算圖優化以及自動并行優化集成進行聯合優化的工作 (Unity, OSDI’22) [4]。

借助于 FlexFlow 的自動并行能力,SpecInfer 可以自動完成大規模 LLM 的最優分布式部署。與此同時,SpecInfer 還可以支持 Offloading 操作,以較低的成本擴展模型的規模。SpecInfer 通過獨特的「投機式推理」機制,可以大幅降低 LLM 所需的推理步數,從而減小分布式場景的網絡通信開銷,緩解 Offloading 場景下的 PCIe 傳輸帶寬瓶頸。

實驗結果

圖片

端到端推理延遲

端到端實驗:使用 LLaMA-7B 作為 LLM,LLaMA-160M 作為 SSM,在五個對話數據集上進行了測試,相比于依賴于增量式解碼的 LLM,SpecInfer 可以使推理延遲降低 1.9-2.8 倍。

圖片

單次推理平均步長(LLM:OPT-13B + SSMs:OPT-125M)

圖片

單次推理平均步長(LLM:LLaMA-7B + SSMs:LLaMA-160M)

匹配長度測試:分別使用 OPT 和 LLaMA 系列模型,測試 SpecInfer 中 LLM 的平均驗證通過序列長度,可以看出,隨著 SSM 數量的提升,在各個對話數據集上,LLM 的驗證通過長度均會得到提升,以 5 個 SSM 為例,OPT 和 LLaMA 在 5 個數據集上平均可達 3.68 和 2.67,相比于僅使用單一 SSM,分別提升 26.4% 和 24.8%。

更多更詳細的實驗結果可以參考論文原文:https://arxiv.org/abs/2305.09781

總結

SpecInfer 是首個基于「推測式解碼」的分布式 LLM 推理引擎,通過集成多個小模型,以及基于 token tree 的原創系統實現優化,可以幫助現有的主流 LLM 減少內存訪問需求,實現兩到三倍的無損推理加速,大幅降低推理成本。

作者介紹


圖片

SpecInfer 項目的指導老師是 Zhihao Jia,他目前在卡耐基梅隆大學計算機學院擔任助理教授。他的研究興趣主要包括面向機器學習、量子計算以及大規模數據分析的系統研究。此前他曾畢業于清華大學的姚班,博士畢業于 Stanford 大學,師從 Alex Aiken 和 Matei Zaharia,曾獲 Stanford Arthur Samuel Best Doctoral Thesis Award,NSF CAREER Asward 以及來自 Amazon, Google, Meta, Oracle, 以及 Qualcomm 的多項研究獎項,個人主頁:https://www.cs.cmu.edu/~zhihaoj2/。

孵化 SpecInfer 項目的主要是 CMU 的 Catalyst Group 實驗室,該實驗室由 Zhihao Jia 與 Tianqi Chen(陳天奇)在 CMU 共同主持,致力于集成來自于機器學習算法、系統、硬件等多方面的優化技術,構造自動化的機器學習系統。此前,該實驗室還推出了 MLC-LLM [5] 等開源項目,推進 LLM 大模型相關系統的研究和應用。實驗室主頁:https://catalyst.cs.cmu.edu。

圖片

論文的共同一作分別是 Xupeng Miao(博士后研究員),Gabriele Oliaro(博一)以及 Zhihao Zhang(博一),均來自于 CMU Catalyst Group 團隊。其中,Xupeng Miao 博士畢業于北京大學,主要研究方向包括機器學習系統、數據管理和分布式計算,曾獲 VLDB2022 最佳可擴展數據科學論文獎、2022 年 ACM 中國優博獎、2022 年世界人工智能大會(WAIC)云帆獎等榮譽,個人主頁:https://hsword.github.io。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-11 15:40:32

PyTorch代碼大模型

2023-05-22 15:17:02

谷歌AI

2024-01-15 08:17:00

模型技術

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-09-09 08:31:15

2025-04-24 10:26:40

2025-11-03 08:15:00

2025-05-08 09:10:30

2023-06-20 13:44:49

清華推理

2025-10-17 17:50:01

大模型推理AI

2024-07-19 09:59:31

2025-07-08 03:11:00

2023-01-05 09:33:37

視覺模型訓練

2025-04-07 09:23:00

大模型LLM推理

2024-07-08 12:18:13

2024-10-21 12:30:52

2025-04-08 09:16:00

推理模型AI

2024-10-12 10:57:39

2024-06-12 11:48:55

2025-06-11 14:39:50

AILLMMistral
點贊
收藏

51CTO技術棧公眾號

欧美 日韩 国产一区二区在线视频| 中文字幕人成人乱码亚洲电影| 亚洲91在线| 中文字幕一区二区三区四区不卡| 2019国产精品视频| 欧美精品二区三区| 日韩.com| 亚洲国产天堂久久综合网| 久久午夜夜伦鲁鲁一区二区| shkd中文字幕久久在线观看| 国产精品99久久久久| 韩国精品美女www爽爽爽视频| 91久久免费视频| 欧美不卡在线观看| 色88888久久久久久影院野外| 宅男一区二区三区| 视频在线观看你懂的| 激情综合色播激情啊| 日本欧美国产在线| 久久久精品91| 99久久国产综合精品成人影院| 亚洲黄色www| 久久精品一二三四| 欧亚一区二区| 香蕉成人啪国产精品视频综合网| 视频一区亚洲 | 欧美三级电影在线观看| 国产精品久久久久7777| 久久综合之合合综合久久| 96av麻豆蜜桃一区二区| 99视频在线播放| 这里只有精品9| 久热综合在线亚洲精品| 国模gogo一区二区大胆私拍| 欧美做爰爽爽爽爽爽爽| 97国产成人高清在线观看| 精品视频偷偷看在线观看| 不许穿内裤随时挨c调教h苏绵| 成人国产一区| 在线视频欧美区| 干日本少妇首页| xxxx成人| 亚洲福利一区二区| 国产精品无码乱伦| 免费黄色在线看| 亚洲国产高清在线观看视频| 免费电影一区| 天堂成人在线| 91片黄在线观看| 久久久亚洲综合网站| 欧美特黄一级视频| www.久久久久久久久| 国产一区二区久久久| 日本波多野结衣在线| 不卡一区在线观看| 久久99久久精品国产| 天天躁日日躁狠狠躁喷水| av电影天堂一区二区在线观看| wwwxx欧美| 日韩中文字幕免费在线观看| 丁香另类激情小说| 国产一区二区三区高清| 天堂网www中文在线| 久久久久久久久久久久久女国产乱| 美日韩免费视频| 国产露出视频在线观看| 国产精品美女久久福利网站| 亚洲午夜精品国产| 最新国产在线拍揄自揄视频| 亚洲最大的成人av| 欧美黑人经典片免费观看| 色老头在线一区二区三区| 色婷婷精品久久二区二区蜜臀av| 国产三级日本三级在线播放| 色综合视频一区二区三区日韩 | 人妻中文字幕一区| 91在线小视频| 亚洲va韩国va欧美va精四季| 久cao在线| 亚洲第一久久影院| 欧美精品一区二区三区免费播放| 日韩大陆av| 91看片淫黄大片91| caoporn97在线视频| 亚洲精品视频在线观看网站| 免费看欧美黑人毛片| 手机在线观看av| 91成人网在线| 国内自拍第二页| 精品国产午夜肉伦伦影院| 亚洲色图15p| 中日韩一级黄色片| 亚洲精品国产日韩| 国产精品成久久久久三级| av中文字幕观看| 久久中文字幕电影| 中文字幕一区综合| 国产理论在线| 精品视频在线看| 国产精品亚洲一区二区无码| 国产精品亚洲二区| 欧美激情伊人电影| 亚洲图片在线播放| 26uuu国产日韩综合| 国产精品h视频| 自拍视频在线看| 日韩欧美国产不卡| 色综合99久久久无码国产精品| 欧美另类亚洲| 国产精品美女av| 手机福利在线| 夜夜嗨av一区二区三区四季av | 九色一区二区| 黄色动漫在线| 欧美怡红院视频| 亚洲av成人无码一二三在线观看| 亚洲乱码免费伦视频| 国产成人黄色av| 亚洲 国产 欧美 日韩| 日韩美女视频一区| 天天综合网日韩| 免费看成人哺乳视频网站| 欧美黑人视频一区| 国产福利资源在线| 亚洲欧美视频一区| 国产精品久久久毛片| 美女毛片一区二区三区四区| 欧美精品激情在线| 精品国产av 无码一区二区三区| 日本一二三四高清不卡| 精品中文字幕av| 国产乱人伦丫前精品视频| 成人444kkkk在线观看| 中国黄色一级视频| 国产日韩v精品一区二区| 免费在线观看日韩视频| 欧美成人基地| 性欧美办公室18xxxxhd| 蜜桃91麻豆精品一二三区| 亚洲三级电影网站| 久久久久久久久久久久久久久国产 | 国产精品实拍| 欧美日韩成人在线| 日本成人精品视频| 麻豆精品精品国产自在97香蕉| 日本一区二区三区视频免费看| 欧美电影免费看| 亚洲美女av黄| 成年人视频免费| 欧美激情一区不卡| wwwwwxxxx日本| 国产精品国产三级国产在线观看| 91精品久久久久久久久久久久久| 日韩在线资源| 91精品国产乱码久久蜜臀| 97在线观看免费高| 懂色av一区二区在线播放| 成人免费观看在线| 色狠狠久久av综合| 日韩免费精品视频| 97电影在线| 777a∨成人精品桃花网| 青娱乐免费在线视频| 成人污污视频在线观看| www.99热这里只有精品| 深爱激情久久| 成人看片人aa| 黄网站在线观| 亚洲欧美日韩网| 中文字幕在线观看精品| 一区二区三区四区五区视频在线观看| av不卡中文字幕| 久久国产高清| 青青草原国产免费| 国产精品一区二区三区美女| 国产v综合ⅴ日韩v欧美大片 | 国 产 黄 色 大 片| 婷婷成人综合网| 阿v天堂2014| 国产高清不卡一区二区| 女人天堂av手机在线| 日韩电影二区| 国产激情美女久久久久久吹潮| 亚洲精品福利电影| 久久亚洲成人精品| 欧美一区二区三区少妇| 69久久99精品久久久久婷婷| 国产精品suv一区二区69| 欧美国产欧美亚州国产日韩mv天天看完整 | 日本免费高清一区二区| 成人永久在线| 欧美在线视频观看| 制服丝袜在线播放| 国产亚洲综合久久| 天天干,夜夜爽| 在线电影院国产精品| 欧美一级特黄视频| 一区二区三区色| 91麻豆制片厂| av成人动漫在线观看| 亚洲天堂伊人网| 久久成人一区| 成人国产在线看| 成人激情开心网| 极品校花啪啪激情久久| 国产一区二区三区| 国产精品久久久久77777| 麻豆理论在线观看| 欧美高跟鞋交xxxxhd| 午夜免费福利在线观看| 日韩麻豆第一页| 亚洲精品成人区在线观看| 欧美卡1卡2卡| 久久人人爽人人爽人人片av免费| 午夜精品久久久久久久久| 国产午夜手机精彩视频| 国产精品入口麻豆原神| 国产男男chinese网站| 不卡视频免费播放| 国产xxx在线观看 | 黄色正能量网站| 丁香六月综合激情| 少妇性l交大片7724com| 开心九九激情九九欧美日韩精美视频电影 | 日韩激情第一页| 人妻一区二区三区四区| 精品美女一区二区| www.蜜桃av.com| 欧美一区二区福利视频| 一区二区日韩视频| 欧美日韩视频专区在线播放| 精人妻无码一区二区三区| 色综合天天做天天爱| 五月婷婷亚洲综合| 午夜a成v人精品| 国产精品 欧美 日韩| 一级做a爱片久久| 成人免费看片98| 亚洲无人区一区| 国产精品不卡av| 午夜视黄欧洲亚洲| 日本三级网站在线观看| 午夜亚洲福利老司机| 好吊妞视频一区二区三区| 亚洲成av人片在线| 日韩精品一区二区三| 婷婷夜色潮精品综合在线| 国产午夜性春猛交ⅹxxx| 狠狠做深爱婷婷久久综合一区| 日韩 欧美 亚洲| 欧美视频不卡中文| 无码一区二区三区在线观看| 欧洲激情一区二区| 一区二区国产欧美| 日韩欧美视频一区| 熟妇人妻av无码一区二区三区| 亚洲国产精品人人爽夜夜爽| 视频午夜在线| 在线观看精品自拍私拍| 日本视频在线免费观看| 久久99久久99精品中文字幕| 成人av影院在线观看| 欧美一级大片在线观看| a屁视频一区二区三区四区| 成人国产精品一区| 亚洲一二av| 日本高清不卡三区| 国产精品久久久久久| 日b视频免费观看| 国产日韩高清一区二区三区在线| 苍井空浴缸大战猛男120分钟| 久久国产精品区| www.四虎在线| 亚洲国产精品ⅴa在线观看| 杨钰莹一级淫片aaaaaa播放| 婷婷久久综合九色国产成人| 中文字幕日本人妻久久久免费| 欧美一级片在线| 日本v片在线免费观看| 深夜福利91大全| 国产美女一区视频| 国产精品久久久久久av下载红粉 | 麻豆久久久久久久久久| 欧洲一区二区av| 丰满熟女一区二区三区| 亚洲欧美中文另类| www久久日com| 欧美最猛性xxxxx亚洲精品| 国产一区二区三区| 欧美污视频久久久| 狠狠入ady亚洲精品| 欧美三级理论片| aaa亚洲精品| 免费看一级大片| 在线看一区二区| 亚洲精品一级片| 色狠狠av一区二区三区香蕉蜜桃| 2019中文字幕在线电影免费 | 国产精品成人在线观看| 欧美日韩精品区| 欧美一区二区在线看| 精品亚洲综合| 97国产精品人人爽人人做| 日韩欧国产精品一区综合无码| 久久亚洲一区二区| 欧美三区视频| 九九热免费在线观看| 久久亚洲捆绑美女| 日本免费在线播放| 日韩免费一区二区三区在线播放| jizz在线观看视频| 欧美又大又粗又长| 成人看片爽爽爽| 精品无码av无码免费专区| 蜜桃av噜噜一区二区三区小说| 国产精品嫩草av| 亚洲一区二区三区视频在线| 91久久久久国产一区二区| 亚洲人成网站免费播放| 国产精品论坛| 国外成人在线视频网站| 中文字幕日韩一区二区不卡 | 青青青青草视频| 国产成人久久精品77777最新版本| 性色国产成人久久久精品 | 亚洲女人18毛片水真多| 北条麻妃久久精品| 久久天堂影院| 亚洲 日韩 国产第一区| 日本大胆欧美人术艺术动态 | 亚洲综合久久av| 国产草草影院ccyycom| 萌白酱国产一区二区| 自拍偷拍亚洲| 韩国黄色一级大片| 国产精品一级在线| 欧美黑人精品一区二区不卡| 欧美一区二区播放| 中中文字幕av在线| 国产厕所精品在线观看| 亚洲国产二区| 欧美大喷水吹潮合集在线观看| 亚洲午夜在线观看视频在线| 丰满人妻一区二区三区免费| 国内成人精品一区| 久久综合社区| 不卡影院一区二区| 欧美经典三级视频一区二区三区| 人人妻人人爽人人澡人人精品| 国产一区二区三区在线视频 | 久久亚洲精选| 人与嘼交av免费| 欧美日免费三级在线| 麻豆系列在线观看| 99re在线| 国产欧美亚洲一区| 亚洲高潮女人毛茸茸| 欧美人伦禁忌dvd放荡欲情| 菠萝蜜视频国产在线播放| 99视频日韩| 久久久青草婷婷精品综合日韩| 人妻少妇无码精品视频区| 欧美日韩一区二区在线观看 | 日本在线电影一区二区三区| 久久久九九九热| 午夜影院久久久| 成人免费在线观看| 亚洲一区二区三区乱码aⅴ| 极品少妇一区二区三区| 精品无码一区二区三区| 在线不卡一区二区| www.综合网.com| 欧美裸体网站| 国产综合色产在线精品| 永久免费看片在线播放| 在线午夜精品自拍| 亚洲国产精品免费视频| 男女曰b免费视频| 亚洲图片激情小说| 天堂av资源网| 国产一区二区在线免费| 亚洲国产日本| 超碰人人人人人人人| 精品美女一区二区三区| 国产美女久久| 日本国产在线播放| **网站欧美大片在线观看| 免费a级片在线观看| 国产日韩av高清| 国产日韩欧美一区在线| 91精品国产闺蜜国产在线闺蜜| 亚洲精品视频播放| 欧美经典影片视频网站| 日韩免费高清在线| 亚洲午夜久久久久久久久久久| 98在线视频| 蜜桃av噜噜一区二区三区| 国产老肥熟一区二区三区| av一级在线观看| 国内免费久久久久久久久久久 |