精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何高效部署大模型?CMU最新萬字綜述縱覽LLM推理MLSys優化技術

人工智能 新聞
近日,CMU Catalyst 團隊推出了一篇關于高效 LLM 推理的綜述,覆蓋了 300 余篇相關論文,從 MLSys 的研究視角介紹了算法創新和系統優化兩個方面的相關進展。

在人工智能(AI)的快速發展背景下,大語言模型(LLMs)憑借其在語言相關任務上的杰出表現,已成為 AI 領域的重要推動力。然而,隨著這些模型在各種應用中的普及,它們的復雜性和規模也為其部署和服務帶來了前所未有的挑戰。LLM 部署和服務面臨著密集的計算強度和巨大的內存消耗,特別是在要求低延遲和高吞吐量的場景中,如何提高 LLM 服務效率,降低其部署成本,已經成為了當前 AI 和系統領域亟需解決的問題。

來自卡內基梅隆大學的 Catalyst 團隊在他們的最新綜述論文中,從機器學習系統(MLSys)的研究視角出發,詳細分析了從前沿的 LLM 推理算法系統的革命性變革,以應對這些挑戰。該綜述旨在提供對高效 LLM 服務的當前狀態和未來方向的全面理解,為研究者和實踐者提供了寶貴的洞見,幫助他們克服有效 LLM 部署的障礙,從而重塑 AI 的未來。

論文鏈接:https://arxiv.org/abs/2312.15234

該論文的第一作者是卡內基梅隆大學的 Xupeng Miao(苗旭鵬)博士后研究員,合作者還包括 Tianqi Chen 和 Zhihao Jia 助理教授。此外,其他學生作者也均來自于 CMU Catalyst Group 實驗室,該實驗室由 Zhihao Jia 與 Tianqi Chen(陳天奇)在 CMU 共同主持,致力于集成來自于機器學習算法、系統、硬件等多方面的優化技術,構造自動化的機器學習系統。此前,該實驗室還推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等開源項目,推進 LLM 大模型相關系統的研究和應用。實驗室主頁:https://catalyst.cs.cmu.edu。

綜述概覽

該綜述系統地審視了現有 LLM 推理技術,覆蓋了 300 余篇相關論文,從算法創新系統優化兩個方面展開介紹。論文以此為基礎,對現有工作設計了一套清晰且詳盡的分類法,突出了各種方法的優勢和局限性,逐類別搜集整理并介紹了每種方法的相關論文。除此之外,論文還對當前的主流 LLM 推理框架在系統設計與實現方面進行了深入的對比和分析。最后,作者對未來如何繼續提高 LLM 推理效率進行了展望,在技術層面提出了六大潛在發展方向

分類法

圖片

算法創新

這一節對提出的各種算法和技術進行了全面分析,旨在改進大規模 Transformer 模型推理的原生性能缺陷,包括解碼算法架構設計、和模型壓縮等等。

圖片

解碼算法:在這一部分中,我們回顧了在圖 2 中展示的幾種 LLMs 推理優化過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率,包括:

  • 非自回歸解碼:現有 LLMs 的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出 token。為解決這一問題,一種代表性的工作方向是非自回歸解碼 [97, 104, 108,271],即放棄自回歸生成范式,打破單詞依賴并假設一定程度的條件獨立性,并行解碼輸出 token。然而,盡管這類方法解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
  • 投機式推理:另一類工作是通過投機執行思想 [47] 實現并行解碼。自回歸 LLM 推理過程中的每個解碼步驟都可以被視為帶有條件分支的程序執行語句,即決定接下來生成哪個 token。投機式推理 [51, 155] 先使用較小的草稿模型進行多步解碼預測,然后讓 LLM 同時驗證這些預測以實現加速。然而,將投機解碼應用于 LLMs 時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何借助 LLMs 實現高效的并行驗證。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention,并提出了一個低延遲 LLM 服務系統實現,該機制也被后續多個工作 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用。
  • 提前退出:這類方法主要利用 LLMs 的深層多層結構,在中間層提前推出推理,中間層輸出可以通過分類器轉化成輸出的 token,從而降低推理開銷 [117, 147, 163, 167, 234, 272, 282, 291, 308],它們也被稱為自適應計算 [68, 219]。
  • 級聯推理:這類方法級聯了多個不同規模的 LLM 模型,用于分別處理不同復雜度的推理請求,代表性工作包括 CascadeBERT [157] 和 FrugalGPT [53]。

架構設計:

  • 配置縮小:直接縮小模型配置。
  • 注意力簡化:最近出現了很多研究工作,它們主要是將之前的長序列高效注意力機制 [240] 應用在 LLM 上,以縮短上下文,減少 KV 緩存,以及注意力復雜度,同時略微降低解碼質量(如滑動窗口 [129, 299]、哈希 [198]、dilated [74]、動態選擇等等)。表 1 中總結了一些近期的熱門方法和之前的工作之間的對應關系。

圖片


  • 激活共享:這類方法主要是通過共享 attention 計算的中間激活來降低推理內存開銷,代表性工作包括 MQA [220] 和 GQA [32]。
  • 條件計算:這類方法主要是指稀疏專家混合模型(Sparse MoE),比如最近大火的 Mistrial 7Bx8 模型就屬于此類。
  • 循環單元:盡管 Transformer 已經替代了 RNN 模型,但考慮到注意力機制的二次復雜性,人們始終未曾放棄將 recurrent unit 機制重新引入 LLM 的嘗試,比如 RWKV [200]、RetNet [235],以及狀態空間模型 [91, 102, 103, 176] 等等。

模型壓縮:

  • 知識蒸餾:這類方法以大型的教師模型為監督,訓練一個小型的學生模型。大多數之前的方法都在探索白盒蒸餾 [106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于 API 的 LLM 服務(如 ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注 [238,59, 273, 201, 313],這些模型通常具有更少的模型參數,與原始 LLMs(如 GPT-4 [195])相比,在各種下游任務上表現出了相當的性能。
  • 網絡剪枝:過去幾年中,網絡剪枝方法 [180, 215, 215] 已被廣泛研究,但并非所有方法都可以直接應用于 LLMs,需要考慮重新訓練可能帶來的過高計算成本,以及評估剪枝是否可以在底層系統實現上取得效率提升。大致上可以分為結構化剪枝 [80, 149, 174, 216, 172] 和半結構化稀疏化 [40, 87, 232, 251, 276] 等。

系統優化

本節研究 LLM 推理系統優化技術,以加速 LLM 推理,而不改變 LLM 計算語義。這一工作的目標是通過改進用于大型語言模型推理的底層系統和框架來提高系統效率,包括低比特量化、并行計算、內存管理、請求調度、和內核優化等等,詳細內容可以參見論文原文。

軟件框架

圖片

論文還對一些目前最先進的基于 GPU 的開源 LLM 推理系統進行了深入的分析,并從多個方面總結了它們在設計與實現傷的差異。

未來方向

  • 專用硬件加速器的發展:生成型 LLM 服務效率的顯著提升可能在很大程度上依賴于專用硬件加速器的發展和提升,尤其是軟硬協同設計方法。例如,讓內存單元更加接近處理單元,或是針對 LLM 算法數據流優化芯片架構,這些硬件優化可以在很大程度上為 LLM 推理在軟件層面帶來便利和機會。
  • 高效有效的解碼算法:開發更高效的解碼算法可以顯著提高服務效率。受對實時應用更快生成速度的需求驅動,一個有前途的方向是廣義的投機式推理(generalized speculative inference),不僅會帶來顯著加速,同時保持相同的生成質量。正如 SpecInfer 中所指出的,廣義的投機式推理中,用于生成草稿 token 的小模型可以被替換為任何快速的 token 生成方法,比如自定義函數、召回方法、甚至早停機制和非自回歸解碼等等。
  • 長上下文 / 序列場景優化:隨著應用場景變得更加復雜,處理更長的上下文或序列的需求不斷增長。服務長序列負載的 LLM 需要解決算法和系統兩方面的挑戰。在算法方面,它們依然面臨長度泛化失效問題,甚至可能出現 “loss in the middle” 的情況。目前的解法主要是通過召回增強、序列壓縮和緩存來盡可能縮短序列長度并保存相關信息。
  • 探索替代基礎架構:盡管 Transformer 模型和自注意力機制目前主導著 LLM 領域,但探索替代架構是未來研究的一個有前景的方向。例如,一些最新研究探索了無注意力方法,使用純 MLP(多層感知機)架構來替代注意力機制,可能會改變目前 LLM 推理優化的格局。
  • 在復雜環境中的部署探索:隨著 LLM 應用的擴展,探索并優化它們在各種復雜環境中的部署成為一個關鍵的未來方向。這一探索不僅限于傳統的基于云的部署,還包括邊緣計算、混合計算(cloud+edge)、去中心化計算以及廉價的可搶占資源等。
  • 特定需求的自動適應:應用特定需求的多樣性創造了一系列創新的 LLM 服務優化機會,例如模型微調(parameter-efficient fine-tuning)、向量數據庫檢索、多模態負載等等。這些獨特的挑戰也要求將 LLM 服務技術自動且順利地集成到現有 IT 基礎設施中,將優化空間擴展到整個 LLM 生命周期。

總結

總的來說,該綜述不僅是對當前 LLM 服務優化研究的全面概述,也為未來在這一領域的探索和發展指明了方向。通過深入了解這些先進的解決方案,研究者和實踐者可以更好地理解和應對在實際應用中部署大型語言模型時面臨的挑戰。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-30 14:17:00

模型推理

2025-05-08 09:10:30

2024-07-31 14:08:00

2024-04-07 14:28:48

邊緣計算LLM人工智能

2025-01-07 13:22:58

2025-04-22 07:00:00

2025-06-11 02:30:00

2024-03-07 12:31:29

AI技術

2024-09-09 08:31:15

2025-10-11 02:25:00

2025-04-07 09:23:00

大模型LLM推理

2024-04-28 15:04:08

自動駕駛視覺

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-06-05 11:49:21

AI模型數據

2025-07-08 03:11:00

2018-01-02 09:17:57

2025-11-17 08:00:00

LLMAWQGPTQ

2025-07-04 09:06:00

2025-08-08 09:02:00

AI架構模型

2022-06-02 15:31:26

深度學習AI
點贊
收藏

51CTO技術棧公眾號

97视频在线观看免费高清完整版在线观看| 91精品国产综合久久久久久漫画| 欧美日韩综合另类| 特级西西444www大胆免费看| 色琪琪久久se色| 日韩一区二区三区视频在线| 国产免费观看高清视频| 国产高清自拍视频在线观看| 国产一区美女在线| 欧日韩在线观看| 最新日韩免费视频| 精品人人人人| 欧美人牲a欧美精品| 福利视频免费在线观看| 成人高清网站| 懂色av噜噜一区二区三区av| 国产精品91免费在线| 麻豆亚洲av熟女国产一区二| 欧美另类69xxxxx| 精品精品欲导航| 久久国产激情视频| 正在播放日韩精品| 亚洲一区在线观看免费| 亚洲精品乱码视频| 天堂在线一二区| 国产成人aaaa| 91九色视频在线| 五月天婷婷导航| 亚洲国产高清一区| 久久伊人色综合| 国产成人一区二区在线观看| 成人性生交大片免费看96| 欧美日韩国产不卡| 人人干人人视频| 精精国产xxxx视频在线播放| 亚洲激情男女视频| 伊人久久大香线蕉午夜av| 免费在线黄色网址| 91一区一区三区| 国产精品久久久久久久免费大片| 无码人妻丰满熟妇奶水区码 | 一本色道久久88亚洲精品综合| 色视频免费在线观看| 成人午夜在线免费| 2014亚洲精品| 国产免费视频一区二区三区| 蜜桃视频免费观看一区| 国产999视频| 成人午夜淫片100集| 亚洲久色影视| 91精品国产九九九久久久亚洲| 精品一区免费观看| 精品99视频| 久久久久免费视频| 久久久久久国产精品视频| 欧美国产先锋| 欧美久久精品一级黑人c片| 亚洲不卡的av| 日韩国产欧美一区二区| 在线看福利67194| 久久午夜精品视频| 国产精品黑丝在线播放| 久久黄色av网站| 免费中文字幕在线| 在线国产日韩| 555www成人网| 波多野结衣电车| 麻豆成人av在线| 91精品视频网站| 午夜精品久久久久久久91蜜桃| 国产精品1区二区.| 国产另类第一区| 四虎精品成人免费网站| 国产欧美一区二区精品仙草咪| 涩涩日韩在线| 中文字幕伦理免费在线视频| 一区二区在线免费观看| 免费看国产曰批40分钟| 日韩福利一区| 欧美日韩国产首页| 中文字幕99页| 久久综合欧美| 久久久91精品国产一区不卡| 欧美精品入口蜜桃| 亚洲一区亚洲| 国产精品青草久久久久福利99| 91精东传媒理伦片在线观看| 国产美女精品在线| 国产一区二区在线网站| 国产youjizz在线| 亚洲色图制服诱惑| 亚洲午夜无码av毛片久久| 456成人影院在线观看| 欧美一区二区私人影院日本| 亚洲人在线观看| 国产精品对白刺激久久久| 人妻一区二区三区四区| 国产香蕉久久精品综合网| 亚洲最大免费| caoporn视频在线观看| 色婷婷激情综合| 亚洲精品国产久| 亚洲美女久久| 不卡伊人av在线播放| 国产 日韩 欧美 在线| 麻豆精品视频在线观看视频| av激情久久| lutube成人福利在线观看| 亚洲国产精品久久人人爱| 99免费视频观看| 99精品中文字幕在线不卡 | 亚洲午夜在线观看视频在线| 精品一卡二卡三卡| 99a精品视频在线观看| 色爱av美腿丝袜综合粉嫩av| 日韩xxx高潮hd| 精品一区二区在线视频| 欧美乱偷一区二区三区在线| av色综合久久天堂av色综合在| 一本大道久久a久久综合| 丰满人妻一区二区三区大胸| 欧美精品色图| 欧美亚洲伦理www| 黄色av小说在线观看| 国产精品久久久久久久久免费桃花| 丰满少妇久久久| 国产精品久久久久久久久久久久久久久 | 99精品视频一区二区三区| 亚洲自拍偷拍二区| 写真福利精品福利在线观看| 亚洲国产日韩欧美综合久久| 91精品一区二区三区蜜桃| 日韩精彩视频在线观看| 久久精品日韩| 美女扒开腿让男人桶爽久久软| 91麻豆精品久久久久蜜臀| 人妻少妇无码精品视频区| 在线亚洲伦理| 国产一区二区高清不卡| 免费电影视频在线看| 欧美一区二视频| 国产一区二区三区视频播放| av在线观看地址| 草草视频在线一区二区| 色综合男人天堂| 国产三级三级在线观看| 亚洲欧洲精品一区二区三区| 天堂网在线免费观看| 精品视频国产| 国产精品欧美亚洲777777| xxxxx日韩| 欧美日韩亚洲另类| 国产精品视频看看| 久久成人精品无人区| 亚洲在线不卡| 国产精品视频首页| 欧美精品在线看| 精品国产一级片| 亚洲制服丝袜一区| 午夜不卡久久精品无码免费| 影音先锋中文字幕一区| 国产乱码精品一区二区三区日韩精品| 日本色护士高潮视频在线观看| 日韩一区二区三区电影| 欧美极品aaaaabbbbb| 国产成人精品一区二区三区四区| a级黄色片免费| 国产精品久久久网站| 97精品在线视频| 青梅竹马是消防员在线| 欧美吻胸吃奶大尺度电影| 亚洲欧美综合7777色婷婷| 国产在线乱码一区二区三区| 男人的天堂avav| 青青草久久爱| 国产精品久久一| 在线不卡日本v二区707| 精品国产欧美一区二区| caoporn国产| 国产精品福利av| 香蕉久久久久久av成人| 一本色道久久综合一区| 日本视频一区二区不卡| 日日夜夜一区| 久久久久久美女| 欧美成熟毛茸茸| 在线综合视频播放| 国产成人无码精品久久久久| 国产偷v国产偷v亚洲高清| 日本高清一区二区视频| 日韩视频一区| 亚洲欧美日韩精品久久久| 亚洲第一二区| 欧美在线亚洲一区| 久久bbxx| 日韩精品视频在线观看免费| 一级片视频网站| 午夜欧美在线一二页| 影音先锋男人在线| 成人免费毛片aaaaa**| 黄色av免费在线播放| 亚洲情侣在线| 日本不卡二区| 国产成人福利av| 国产精品一区二区在线| 高清视频在线观看三级| 丝袜一区二区三区| 香蕉久久国产av一区二区| 欧美日韩久久久久久| 超碰中文字幕在线| 亚洲一区在线视频观看| jizzjizz日本少妇| 久久综合九色综合97婷婷| 中文字幕55页| 奇米四色…亚洲| 黑人糟蹋人妻hd中文字幕| 欧美69视频| 亚洲欧美精品在线观看| 欧美成人一区在线观看| 亚洲淫片在线视频| 99精品国自产在线| 欧美在线视频网| av影视在线| 欧美成在线观看| 欧美成人hd| 亚洲男人天堂2023| 天堂在线视频免费| 欧美第一区第二区| 国产精品伦理一区| 欧美三级韩国三级日本一级| 国产www在线| 午夜精品一区在线观看| 妺妺窝人体色www聚色窝仙踪| 中文字幕不卡在线| 国产jk精品白丝av在线观看| 97精品国产97久久久久久久久久久久 | 日韩不卡在线观看日韩不卡视频| 国产一区二区网| 激情久久五月| 欧美一级欧美一级| 亚洲第一网站| 日韩小视频网站| 国产一区二区中文| 免费一级淫片aaa片毛片a级| 小小影院久久| 成年丰满熟妇午夜免费视频| 久久久久国产精品| 91香蕉视频网址| 亚洲91视频| 亚洲av首页在线| 欧美一区不卡| 国产精品国产三级国产专区51| 中文字幕亚洲精品乱码| 国产人妻人伦精品| 伊人成人在线| 久久美女福利视频| 视频一区国产视频| 在线观看的毛片| 精品一区二区三区av| 91精品999| 国产精品一区二区果冻传媒| 免费人成视频在线播放| 成人中文字幕在线| 精品一区二区三区四区五区六区| 成人性生交大片| 欧美精品黑人猛交高潮| 国产午夜精品在线观看| 啪啪一区二区三区| 亚洲免费成人av| 日韩精品国产一区二区| 欧美午夜精品久久久久久人妖| 久久久精品毛片| 欧美精品国产精品| 粉嫩av一区二区夜夜嗨| 亚洲精品久久久久久下一站| 天堂网av在线播放| 深夜福利一区二区| 国内小视频在线看| 国产成人激情小视频| 日韩欧乱色一区二区三区在线| 91传媒视频在线观看| 麻豆视频一区| 亚洲午夜精品一区二区三区| 欧美激情日韩| 国产美女三级视频| 国产剧情一区二区三区| 蜜桃传媒一区二区亚洲av | 久久亚洲av午夜福利精品一区| 五月天精品一区二区三区| 免费一级a毛片| 日韩欧美成人激情| 免费在线国产| 欧美国产第一页| 成人看片网页| 成人av片网址| 日韩电影免费在线观看| 成人性免费视频| 久久99久久99小草精品免视看| 中文字幕乱视频| 国产精品久久久久精k8| 国产做受高潮漫动| 69p69国产精品| 国产三级视频在线看| 久久久天堂国产精品女人| 国产精品久久久久久妇女| 国产视频一区二区不卡| 91综合久久| 黄色片久久久久| 国产91综合网| 啪啪一区二区三区| 在线观看视频欧美| 婷婷五月综合激情| 欧美精品在线免费播放| 丁香久久综合| 久久综合色一本| 亚洲大胆在线| 99精品视频免费版的特色功能| 国产亚洲综合在线| 中日韩黄色大片| 日韩免费视频一区| 久操视频在线| 国产精品永久免费| 国产乱码精品一区二区亚洲| 国产一区二区视频播放| 国产一区二区影院| 午夜黄色福利视频| 91电影在线观看| 天堂а在线中文在线无限看推荐| 色综合久久久888| 精品国产鲁一鲁****| 中文字幕久久一区| 蜜桃久久av一区| 日本污视频网站| 欧美午夜在线一二页| 欧美精品a∨在线观看不卡 | 免费一二一二在线视频| av一本久道久久波多野结衣| 亚洲不卡av不卡一区二区| www.涩涩涩| 国产精品区一区二区三区| 亚洲中文字幕无码爆乳av| 亚洲免费小视频| 日韩电影av| 午夜精品区一区二区三| 久久综合图片| 制服 丝袜 综合 日韩 欧美| 欧美视频中文字幕在线| 青草久久伊人| 国产国语videosex另类| 精品国产一区二区三区av片| 麻豆av免费在线| 国产精品无圣光一区二区| 一区二区乱子伦在线播放| 尤物yw午夜国产精品视频明星| 一区在线影院| 一区在线电影| 国产成人午夜精品影院观看视频 | 9191国语精品高清在线| 久久久精品视频国产| 一区二区三区在线视频免费| 亚洲国产欧美另类| 97视频在线观看免费高清完整版在线观看| 久久草在线视频| chinese少妇国语对白| 中文字幕不卡一区| 精品国产999久久久免费| 久久露脸国产精品| 欧美日韩123| 一级黄色片国产| 亚洲福利一区二区| 三级视频在线| 国产精品免费福利| 欧美在线黄色| 黄色污在线观看| 欧美伊人精品成人久久综合97| 老司机午夜在线视频| 91日韩久久| 久久精品三级| 国产67194| 国产视频久久久| 日本电影久久久| 无码人妻少妇伦在线电影| 91女神在线视频| 国产精品日韩无码| 91国偷自产一区二区三区的观看方式| 亚洲欧美成人vr| 亚洲一二三不卡| 欧美日韩在线免费观看| 色老头视频在线观看| 成人在线观看av| 日韩av中文在线观看| 青草影院在线观看| 亚洲国产精品福利| 亚洲成人高清| 99精品人妻少妇一区二区| 亚洲视频精选在线| 国产在线91| 国产免费一区二区| 精品亚洲国内自在自线福利| 日本午夜精品理论片a级app发布|