精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型服務(wù)的推理優(yōu)化探索

原創(chuàng) 精選
人工智能
大模型的能力令人驚嘆,但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段:預(yù)填充和解碼。

開發(fā)并部署大模型應(yīng)用肯定要考慮它們的服務(wù)成本。然而,錢并不是唯一的考慮因素,如果不能解決模型性能方面的問題,即使有很大的預(yù)算,大模型服務(wù)仍會受到影響。本文嘗試討論將 LLM 推理服務(wù)更改為高吞吐量引擎的挑戰(zhàn)與應(yīng)對方法。

1. 大模型服務(wù)面臨的挑戰(zhàn)

大模型的能力令人驚嘆,但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段:預(yù)填充和解碼。在預(yù)填充階段,當(dāng)你輸入提示詞(包含上下文、對話歷史、問題等信息)時(shí),模型需要一次性處理所有輸入的 token。隨后進(jìn)入解碼階段,模型開始逐個(gè)生成輸出 token,且每個(gè)新 token 的生成都嚴(yán)格依賴于之前生成的 token。可以這樣類比:預(yù)填充就像為一盤象棋游戲精心布局(耗時(shí)較長),而解碼則類似于后續(xù)一步接一步的落子(單步較快)。然而,現(xiàn)實(shí)并非如此輕松——部署大型模型遠(yuǎn)非易事,必須仔細(xì)考量其帶來的延遲問題。

1.1 數(shù)據(jù)稀疏性問題

在神經(jīng)網(wǎng)絡(luò)中,尤其是前饋網(wǎng)絡(luò)(FFN),許多神經(jīng)元的激活值為零。這種稀疏性導(dǎo)致矩陣乘法中存在大量零元素,從而浪費(fèi)了計(jì)算資源。如果我們能夠跳過這些零值,僅對非零元素進(jìn)行計(jì)算,將顯著提升推理效率。

更重要的是,在深度學(xué)習(xí)系統(tǒng)中,數(shù)據(jù)在 CPU 和 GPU 之間傳輸所消耗的時(shí)間往往遠(yuǎn)高于實(shí)際計(jì)算時(shí)間。此外,隨著模型規(guī)模的增長,一些包含數(shù)萬億參數(shù)的超大規(guī)模模型根本無法容納在單個(gè) GPU 中,使得稀疏性優(yōu)化變得尤為關(guān)鍵。

1.2 請求調(diào)度問題

大模型通常需要同時(shí)處理多個(gè)用戶請求。在這種多任務(wù)場景下,短小快速的請求(例如查詢天氣、時(shí)間或簡短答案)可能不得不排隊(duì)等待長時(shí)間請求完成。這導(dǎo)致整體平均響應(yīng)時(shí)間主要受制于等待時(shí)間,而非實(shí)際計(jì)算耗時(shí)。

即使你的模型計(jì)算速度非常快,也必須等待前面的請求執(zhí)行完畢才能開始處理下一個(gè)。因此,如何高效地調(diào)度和優(yōu)先處理不同類型請求,是提升服務(wù)吞吐量與用戶體驗(yàn)的關(guān)鍵挑戰(zhàn)。

1.3 順序解碼問題

當(dāng)前的語言模型生成機(jī)制限制了token之間的并行化能力。每個(gè)前向傳播只能生成一個(gè)新 token(或少量 token),這意味著長文本回復(fù)必須逐字逐句地生成。這也是為什么像 ChatGPT 這類模型在生成長文時(shí),通常采用“流式輸出”的方式呈現(xiàn)結(jié)果。

有趣的是,盡管流式輸出能帶來更即時(shí)的反饋體驗(yàn),但其本質(zhì)仍然是串行生成過程。因此,“先看到一部分”并不意味著更快完成整個(gè)生成任務(wù),反而揭示了當(dāng)前解碼機(jī)制在并行性上的瓶頸。

1.4 KV 緩存增長問題

注意力機(jī)制是 LLM 推理的核心環(huán)節(jié),尤其是在長序列中,計(jì)算所有 token 之間的相關(guān)性會帶來巨大的計(jì)算負(fù)擔(dān)。每當(dāng)模型生成一個(gè)新的 token,都需要重復(fù)計(jì)算之前所有 token 的注意力權(quán)重,造成大量冗余操作。

KV 緩存(Key-Value Cache)是一種有效的優(yōu)化策略,它通過緩存已生成 token 的中間狀態(tài),避免重復(fù)計(jì)算,從而加速推理過程。然而,隨著生成序列變長,KV 緩存占用的內(nèi)存也會持續(xù)增長,成為影響推理效率和部署成本的重要因素。

2. 推理優(yōu)化之KV Cache 管理

KV 緩存是 LLM 推理過程中占用內(nèi)存最多的部分之一。隨著上下文長度的增加,KV 緩存所需的存儲空間也隨之增長。例如,一個(gè)支持最大輸入長度為 2048 個(gè) token 的模型,需要預(yù)留 2048 個(gè)緩存插槽。如果用戶僅輸入了一個(gè)包含 7 個(gè) token 的提示詞,那么其余 2000 多個(gè)插槽雖然未被使用,卻依然被系統(tǒng)預(yù)留,造成內(nèi)部內(nèi)存碎片。

在每一步推理中,模型都會生成新的 KV 對,并在后續(xù) attention 計(jì)算中使用,因此必須將它們緩存起來。KV 緩存通常以連續(xù)的內(nèi)存塊或“頁”形式進(jìn)行分配。然而,當(dāng)某個(gè)序列生成完成后,其占用的內(nèi)存頁被釋放,但這些頁可能并不連續(xù)。這就導(dǎo)致了外部內(nèi)存碎片:大量小塊空閑內(nèi)存分散在內(nèi)存中,無法滿足后續(xù)請求所需的連續(xù)內(nèi)存空間。

為了解決這一問題,研究者借鑒操作系統(tǒng)的內(nèi)存管理機(jī)制,提出了頁面注意力機(jī)制(PagedAttention)。該機(jī)制將 KV 緩存組織成邏輯內(nèi)存塊,并通過頁表進(jìn)行管理,從而實(shí)現(xiàn)靈活的內(nèi)存映射和高效利用。其核心思想包括以下幾個(gè)關(guān)鍵方式:

  • 固定大小的內(nèi)存塊:頁面注意力機(jī)制采用固定大小的小型內(nèi)存單元(稱為“頁”)來存儲 KV 緩存,類似于操作系統(tǒng)中的分頁機(jī)制。
  • 共享內(nèi)存塊:這些內(nèi)存頁可以在多個(gè)請求之間共享,提高資源利用率。
  • 按需動態(tài)分配:內(nèi)存塊根據(jù)生成過程動態(tài)分配,無需預(yù)先估計(jì)最大序列長度,避免了不必要的內(nèi)存浪費(fèi)。

通過引入這種高效的內(nèi)存管理策略,頁面注意力機(jī)制顯著提升了推理時(shí)的內(nèi)存利用率和并發(fā)處理能力,是當(dāng)前大模型部署優(yōu)化的重要方向之一。

2.1 基于 Radix Tree 的 KV 緩存優(yōu)化

在計(jì)算機(jī)科學(xué)中,Radix Tree(也稱為緊湊前綴樹或壓縮 Trie 樹)是一種空間優(yōu)化的樹形數(shù)據(jù)結(jié)構(gòu)。它通過對具有相同前綴的節(jié)點(diǎn)進(jìn)行合并,減少了存儲開銷,從而提升了查找效率。

在大語言模型(LLM)推理中,基于 Radix Tree 的 KV 緩存技術(shù)被用于高效地重用多個(gè)推理請求之間的緩存數(shù)據(jù),尤其適用于多個(gè)請求共享相同輸入前綴的場景。通過將 KV 緩存組織為 Radix Tree 結(jié)構(gòu),系統(tǒng)可以快速檢索和復(fù)用已有的緩存內(nèi)容,并在不同請求之間實(shí)現(xiàn)靈活共享。

相比傳統(tǒng)的線性緩存管理方式,Radix Tree 在內(nèi)存利用和訪問效率上更具優(yōu)勢。其構(gòu)建成本約為 O(n log n),而在注意力計(jì)算中的額外開銷相對較小,約為 O(n2) 量級,這對于提升多請求并發(fā)處理能力具有重要意義。

2.2 多種注意力機(jī)制下的 KV 管理策略

多頭注意力機(jī)制(Multi-Head Attention)是 Transformer 模型的核心組成部分,也是當(dāng)前大多數(shù) LLM 的核心架構(gòu)。每個(gè)注意力頭從不同的角度理解文本內(nèi)容:有的關(guān)注主語與動詞的關(guān)系,有的聚焦詞匯本身,還有的分析句子結(jié)構(gòu)。這種多頭設(shè)計(jì)顯著增強(qiáng)了模型的理解能力。

然而,每個(gè)注意力頭都需要獨(dú)立維護(hù)一組 Key 和 Value 向量,導(dǎo)致 KV 緩存的內(nèi)存占用急劇上升。特別是在處理長文本或多任務(wù)并發(fā)時(shí),這些向量會占用大量顯存資源,成為性能瓶頸。

為了緩解這一問題,研究者提出了多種優(yōu)化方案:

  • 組查詢注意力(Grouped Query Attention, GQA):允許部分注意力頭共享相同的 Key 和 Value 向量,從而減少整體緩存需求。
  • 多查詢注意力(Multi-Query Attention, MQA):僅使用一組 Key 和 Value 向量供所有查詢頭共享,是目前最節(jié)省內(nèi)存和計(jì)算時(shí)間的方法之一。

此外,像 DeepSeek 這類開源模型進(jìn)一步引入了 Flash Multi-Latent Attention(Flash MLA) 技術(shù),在訓(xùn)練和推理階段實(shí)現(xiàn)了更高效的注意力計(jì)算。該方法通過低秩壓縮技術(shù),將 Key 和 Value 向量向下投影到一個(gè)維度更低的潛在空間,從而大幅減小緩存體積。在實(shí)際計(jì)算注意力時(shí)再進(jìn)行向上投影。

圖片圖片

更巧妙的是,該方法還將向上投影的權(quán)重矩陣與查詢矩陣進(jìn)行融合,從而加快注意力的計(jì)算速度,進(jìn)一步提升推理效率。

3. 推理優(yōu)化之 Query-sparsity attention

在 MIT 發(fā)表的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》中,研究者指出:Transformer 層中普遍存在高度稀疏性。這意味著,在實(shí)際推理過程中,并非網(wǎng)絡(luò)中的所有神經(jīng)元都會被激活。

基于這一觀察,研究人員提出了一種高效的模型推理方法——利用這種稀疏性進(jìn)行剪枝,從而顯著減少計(jì)算開銷。其背后的邏輯非常直觀:并不是每個(gè) token 都對上下文理解有貢獻(xiàn)

舉個(gè)簡單的例子:

我們輸入提示詞:“A is B, C is D. A is”,期望模型輸出下一個(gè)詞:“B”。在這個(gè)任務(wù)中,模型只需要關(guān)注最相關(guān)的幾個(gè) token 即可完成預(yù)測,而其余部分則可以忽略。這表明,模型的注意力機(jī)制具有明顯的查詢依賴性,即“查詢感知稀疏性(Query-Aware Sparsity)”。

基于這一洞察,QUEST 提出了一種高效策略:在注意力計(jì)算中,只選擇與當(dāng)前查詢最相關(guān)的 KV 緩存塊進(jìn)行處理。具體來說,該方法會在所有數(shù)據(jù)塊中找出前 k 個(gè)最關(guān)鍵的數(shù)據(jù)塊來進(jìn)行后續(xù)計(jì)算。

圖片圖片

以下是 QUEST 的核心流程:

  • 塊級特征提取對于每一個(gè) KV 數(shù)據(jù)塊,QUEST 首先提取其最小和最大 Key 值以及通道極值。
  • 查詢特征生成接著,根據(jù)當(dāng)前查詢向量,逐元素生成對應(yīng)的 max 和 min Key 值。
  • 快速篩選機(jī)制通過上述技巧,系統(tǒng)能夠快速評估哪些 KV 塊與當(dāng)前查詢最為相關(guān),從而避免大量無效計(jì)算。
  • Top-k 選擇最終,僅保留與查詢最相關(guān)的前 k 個(gè) KV 塊,用于后續(xù)注意力計(jì)算。

通過這一系列優(yōu)化,QUEST 顯著減少了注意力機(jī)制中的冗余計(jì)算,從而提升了長上下文場景下的推理效率。

當(dāng)然,一個(gè)關(guān)鍵問題是:如何選擇合適的 k 值?

k 是一個(gè)需要通過實(shí)驗(yàn)調(diào)優(yōu)的超參數(shù)。研究表明,當(dāng)設(shè)置 k = 4096 時(shí),模型性能幾乎接近完整計(jì)算的水平(約 100%),同時(shí)又能帶來顯著的效率提升。因此,這是一個(gè)兼顧準(zhǔn)確率與效率的推薦值。

4. 推理優(yōu)化之推測性解碼

推測性解碼(Speculative Decoding) 是加速大語言模型推理的重要技術(shù)之一。這一方法的重要性也得到了 Andrej Karpathy 的認(rèn)可,并在 2022 年由 Google 首次提出并應(yīng)用于實(shí)際系統(tǒng)中。

其核心思想非常直觀且巧妙:與其僅依賴一個(gè)龐大、準(zhǔn)確但緩慢的目標(biāo)模型逐 token 地生成結(jié)果,不如先使用一個(gè)輕量級、快速但相對不夠精準(zhǔn)的小模型(稱為“草稿模型”)來預(yù)測多個(gè)后續(xù) token。然后,再由大模型(即目標(biāo)模型)對這些預(yù)測進(jìn)行驗(yàn)證。

如果目標(biāo)模型認(rèn)同草稿模型的預(yù)測,則可以直接接受這些 token,從而大幅提升生成效率;如果不一致,則從分歧點(diǎn)開始重新生成。雖然這種機(jī)制存在一定的回退成本,但在多數(shù)情況下,草稿模型的預(yù)測是準(zhǔn)確的,因此整體上節(jié)省了大量計(jì)算資源。

草稿模型可以是一個(gè)小型神經(jīng)網(wǎng)絡(luò)模型,例如參數(shù)規(guī)模在 1B~3B 的模型,甚至也可以是基于統(tǒng)計(jì)的 N-gram 模型。而目標(biāo)模型則通常是擁有數(shù)十億甚至上萬億參數(shù)的大模型。

盡管使用兩個(gè)模型看似會增加內(nèi)存和計(jì)算開銷,但在實(shí)際應(yīng)用中,由于草稿模型的預(yù)測準(zhǔn)確率較高,尤其是對于常見詞匯(如“是的”、“這個(gè)”、“是”、“等等”)幾乎不會出錯,因此能顯著提升推理速度。

更重要的是,所有由草稿模型生成的 token 可以被目標(biāo)模型一次性并行驗(yàn)證,而不是傳統(tǒng)的逐 token 自回歸生成方式。這種方式大幅減少了生成延遲,為長文本輸出帶來了實(shí)質(zhì)性的性能提升。

5. 推理優(yōu)化之資源調(diào)度

在大模型推理中,調(diào)度(scheduling) 是一項(xiàng)關(guān)鍵挑戰(zhàn),其核心在于如何在有限的硬件資源(如 GPU、CPU 和硬盤)之間實(shí)現(xiàn)高效的負(fù)載平衡。一個(gè)優(yōu)秀的調(diào)度策略不僅能通過并行計(jì)算加速推理過程,還能讓擁有上百億參數(shù)的大模型(例如 100B 參數(shù)模型)在低配置設(shè)備(如搭載 T4 GPU 的 PC)上順利運(yùn)行。

要實(shí)現(xiàn)這一目標(biāo),通常依賴于兩個(gè)關(guān)鍵技術(shù)要素:

  • 智能地在 GPU、CPU 和硬盤之間加載和卸載模型權(quán)重
  • 高效管理計(jì)算單元之間的數(shù)據(jù) I/O 傳輸

為了解決這兩個(gè)問題,來自斯坦福大學(xué)、加州大學(xué)伯克利分校和卡內(nèi)基梅隆大學(xué)的研究者提出了 FlexGen,這是一套具有代表性的系統(tǒng)級優(yōu)化方案,旨在提升大規(guī)模語言模型在受限硬件上的推理效率。

5.1 FlexGen 的核心機(jī)制

FlexGen 將每個(gè)需要處理的數(shù)據(jù)塊定義為“一批數(shù)據(jù)”,這些數(shù)據(jù)被依次加載到模型的不同層進(jìn)行計(jì)算。其中,列方向表示批處理維度,而行方向則對應(yīng)模型層數(shù)的順序處理

為了保證執(zhí)行效率和資源約束,F(xiàn)lexGen 定義了一條“有效路徑”——即遍歷所有數(shù)據(jù)塊的最優(yōu)執(zhí)行路徑,必須滿足以下條件:

  • 數(shù)據(jù)必須從左到右按順序執(zhí)行
  • 同一批次的所有數(shù)據(jù)必須位于同一設(shè)備上
  • 激活值必須按照正確的滑動窗口進(jìn)行處理
  • KV 緩存需保留至當(dāng)前批次完成
  • 在任意時(shí)刻,設(shè)備上存儲的張量總大小不能超過其內(nèi)存容量

假設(shè)我們有 N 個(gè) token,每個(gè) token 的數(shù)據(jù)將按照順序依次加載并計(jì)算。每層的權(quán)重僅在需要時(shí)加載,在計(jì)算完成后立即卸載。然而,這種頻繁的加載/卸載操作會帶來顯著的時(shí)間開銷——因?yàn)殡m然 GPU 的計(jì)算速度極快,但內(nèi)存?zhèn)鬏攨s相對緩慢。

5.2 FlexGen 的優(yōu)化策略

為了解決上述瓶頸,F(xiàn)lexGen 引入了靈活的執(zhí)行調(diào)度方式,例如通過調(diào)整掃描順序(從行到列、之字形塊調(diào)度等),從而避免不必要的 I/O 操作。它不僅能夠節(jié)省下一層模型權(quán)重的加載時(shí)間,還能提前保存下一批激活值。

在每個(gè)塊的執(zhí)行過程中,F(xiàn)lexGen 會重疊執(zhí)行以下三個(gè)步驟:

  1. 加載下一層的權(quán)重
  2. 存儲前一批的激活值 / KV 緩存
  3. 計(jì)算當(dāng)前批次的數(shù)據(jù)

這種流水線式處理大大緩解了內(nèi)存?zhèn)鬏攷淼男阅芟拗疲嵘苏w推理吞吐能力。

除了執(zhí)行調(diào)度之外,另一個(gè)關(guān)鍵問題是:如何在不同的硬件設(shè)備上合理分配模型權(quán)重?

FlexGen 采用一種基于線性規(guī)劃的搜索策略,來尋找最優(yōu)的權(quán)重分布方案,目標(biāo)是最小化整個(gè)模型推理所需的時(shí)間

圖片圖片

這里:

  • N: 每個(gè)序列的輸出token數(shù)
  • ??: transformer層數(shù)
  • block size: 在一個(gè)塊中處理多少個(gè)示例 (批次大小 × 批次數(shù))

實(shí)驗(yàn)數(shù)據(jù)顯示,F(xiàn)lexGen 在推理效率方面表現(xiàn)優(yōu)異推理速度可達(dá)到主流框架的數(shù)倍以上,成為當(dāng)前大模型部署中極具潛力的優(yōu)化方案。

6. 系統(tǒng)級優(yōu)化

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)(如 vLLM、LLMDeploy 等)通常采用先來先服務(wù)(FCFS)的調(diào)度策略,并以“運(yùn)行至完成”的方式執(zhí)行任務(wù)。這種機(jī)制雖然實(shí)現(xiàn)簡單,但在實(shí)際應(yīng)用中存在一個(gè)嚴(yán)重問題:線頭阻塞(Head-of-line Blocking)

6.1 長作業(yè)阻塞問題與 LLM 推理服務(wù)的調(diào)度挑戰(zhàn)

當(dāng)一個(gè)長請求排在隊(duì)列前面時(shí),它會阻塞后續(xù)的短請求,即使后者所需的計(jì)算資源和響應(yīng)時(shí)間遠(yuǎn)小于前者。結(jié)果是,短請求不得不等待長請求完成后才能開始處理,從而顯著增加了整體排隊(duì)延遲。研究表明,在真實(shí)工作負(fù)載中,排隊(duì)延遲可能占總延遲的高達(dá) 90%。

需要強(qiáng)調(diào)的是,這里所說的“短請求”和“長請求”,并不單純指輸入提示詞的長度,而是生成第一個(gè) token 所需的時(shí)間——即所謂的 First Token Latency(首 token 延遲)

6.2 解決方案:搶占式調(diào)度與多優(yōu)先級隊(duì)列

為了解決這一問題,一種可行的方法是引入搶占式調(diào)度機(jī)制:當(dāng)中間出現(xiàn)一個(gè)高優(yōu)先級的短請求時(shí),系統(tǒng)可以中斷當(dāng)前正在執(zhí)行的長請求,將已完成的部分結(jié)果緩存起來,保留未完成部分以便稍后繼續(xù)處理,然后切換去執(zhí)行短請求。

一旦短請求處理完畢,系統(tǒng)再回到之前被中斷的長請求,繼續(xù)執(zhí)行其剩余部分。要實(shí)現(xiàn)這樣的調(diào)度機(jī)制,系統(tǒng)必須支持多優(yōu)先級隊(duì)列的設(shè)計(jì)。

然而,這種方法本身也存在潛在缺陷:如果高級別隊(duì)列中堆積了大量長請求,它們可能會被頻繁中斷并反復(fù)進(jìn)入緩存狀態(tài),導(dǎo)致:

  • 緩存壓力增大
  • 長請求的整體完成時(shí)間變長
  • 系統(tǒng)調(diào)度開銷上升

6.3 FastServe 的優(yōu)化方案:多級反饋隊(duì)列 + 智能 KV 緩存管理

為了解決上述問題,FastServe 提出了一個(gè)多級反饋隊(duì)列(Multi-level Feedback Queue)機(jī)制。該機(jī)制的核心思想是:

在請求到達(dá)系統(tǒng)時(shí),首先預(yù)估其生成第一個(gè) token 所需的時(shí)間,并根據(jù)這一估計(jì)值將請求路由到合適的優(yōu)先級隊(duì)列中。

這種方式確保了短請求不會被長請求長時(shí)間阻塞,從而提升了整體服務(wù)質(zhì)量與用戶體驗(yàn)。

此外,F(xiàn)astServe 還結(jié)合了高效的 KV 緩存管理機(jī)制,允許在 GPU 切換隊(duì)列之間進(jìn)行主動的數(shù)據(jù)遷移和緩存預(yù)加載,進(jìn)一步降低了上下文切換帶來的延遲。

通過引入多級反饋隊(duì)列與智能調(diào)度策略,F(xiàn)astServe 成功緩解了傳統(tǒng) LLM 服務(wù)系統(tǒng)中的線頭阻塞問題,提升了短請求的響應(yīng)速度,同時(shí)又避免了長請求因頻繁中斷而導(dǎo)致的性能下降。這一方法為構(gòu)建高性能、低延遲的大模型推理服務(wù)平臺提供了重要參考。

7. 推理優(yōu)化的其他方法

在大語言模推理優(yōu)化領(lǐng)域,有一些方法已經(jīng)相對成熟,并被廣大工程師廣泛使用。這些技術(shù)涵蓋了從模型壓縮到推理加速的多個(gè)層面。

首先是量化技術(shù),它通過降低模型權(quán)重和激活值的精度(例如從 FP16 降至 INT4 或 FP8),在幾乎不影響模型性能的前提下顯著縮小模型體積并提升推理速度。多種先進(jìn)的量化方案已陸續(xù)被提出:AWQ 利用激活驅(qū)動的重要性評分實(shí)現(xiàn)激活感知量化,支持低位推理(如 INT3),無需再訓(xùn)練;LLM.int8() 引入帶校準(zhǔn)機(jī)制的 INT8 矩陣乘法,可在不損失準(zhǔn)確率的前提下運(yùn)行 Transformer 模型;SmoothQuant 則通過跨層對齊激活與權(quán)重范圍,提升后訓(xùn)練量化效果;ZeroQuant 及其后續(xù)版本 V2/FP 結(jié)合了低比特量化與低秩補(bǔ)償技術(shù),支持 INT4 和 FP4 的高效推理;LLM-FP4 展示了 FP4 表示方式在保持模型質(zhì)量的同時(shí)大幅提升推理效率的能力;WINT8 是專為 MoE 架構(gòu)模型設(shè)計(jì)的 INT8 量化方案,已在生產(chǎn)環(huán)境中落地應(yīng)用;SpQR 將量化與稀疏性結(jié)合,實(shí)現(xiàn)了近似無損的 LLM 壓縮,適用于邊緣部署場景;FP8-LM 探索了 FP8 格式在 Transformer 模型中的訓(xùn)練與推理優(yōu)化,有效減少了內(nèi)存占用與計(jì)算開銷;而 NVIDIA 定義的 FP8 格式,也正在成為深度學(xué)習(xí)系統(tǒng)的重要標(biāo)準(zhǔn)之一。

另一個(gè)值得關(guān)注的方向是早期退出機(jī)制。以 LITE 為例,該方法讓模型中間層學(xué)會做出預(yù)測,并在置信度足夠高時(shí)提前終止生成流程,從而節(jié)省高達(dá) 38% 的推理失敗成本,尤其適用于實(shí)時(shí)性要求高的場景。

在注意力機(jī)制方面,Flash Attention 是一個(gè)里程碑式的優(yōu)化技術(shù),它通過內(nèi)存分塊策略,在速度和內(nèi)存使用上都優(yōu)于傳統(tǒng)注意力實(shí)現(xiàn);ROFormer 引入旋轉(zhuǎn)位置嵌入,增強(qiáng)了模型在長距離依賴建模上的能力;StreamLLM 則支持在流式輸入過程中動態(tài)調(diào)整注意力窗口,提升了處理連續(xù)輸入的能力。

此外,非自回歸語言模型也在探索新的生成范式。例如 Diffusion-LM 首次將擴(kuò)散模型的思想引入文本生成任務(wù),為可控文本生成提供了新思路。

當(dāng)然,所有這些技術(shù)最終都需要高效的工具鏈來落地。其中,vLLM 是目前最受歡迎的開源 LLM 推理庫之一,由加州大學(xué)伯克利分校團(tuán)隊(duì)開發(fā),專注于提供高吞吐、低延遲的語言模型服務(wù)。它起源于 Page Attention 的思想,目前已集成上述提到的幾乎所有主流推理優(yōu)化技術(shù),形成了完整的推理加速解決方案。vLLM 社區(qū)活躍、生態(tài)完善,已成為當(dāng)前 LLM 推理優(yōu)化領(lǐng)域最具影響力的技術(shù)平臺之一。

參考資料

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2024-10-21 16:41:17

2025-06-11 02:30:00

2025-08-08 09:02:00

AI架構(gòu)模型

2024-12-23 16:02:39

2023-01-05 09:33:37

視覺模型訓(xùn)練

2022-12-09 09:52:47

AI深度學(xué)習(xí)

2025-04-30 16:48:07

2024-09-10 08:42:37

2024-01-02 07:15:59

大模型數(shù)據(jù)庫企業(yè)知識管家

2023-03-08 18:43:50

GPU模型隔離

2024-05-06 07:58:25

大模型AI智慧芽

2024-02-26 08:15:43

語言模型低代碼

2023-10-11 12:32:53

AI模型

2025-08-11 08:00:00

2023-05-05 13:29:04

模型推理

2024-07-08 12:18:13

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2025-07-31 01:47:00

2025-11-03 08:41:00

AI模型推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

久久精品午夜福利| 成人免费网站在线| 日本丰满少妇裸体自慰| 毛片无码国产| 国产精品夫妻自拍| 999在线观看免费大全电视剧| 日韩免费一二三区| 国产一区二区电影在线观看| 欧美日韩高清不卡| 97超碰国产精品| 国产成人天天5g影院在线观看| 精品在线免费观看| 97av在线视频免费播放| 99热99这里只有精品| 国内精品国产成人国产三级粉色 | 日本三级2019| 成人在线免费观看视频| 欧美成人一区二区三区片免费 | 亚洲精品成a人在线观看| 欧美国产日韩在线播放| 国产桃色电影在线播放| 亚洲国产激情av| 国产亚洲情侣一区二区无| 少妇无套内谢久久久久| 国产精品草草| 久久久国产一区| 人妻aⅴ无码一区二区三区| 久久99九九99精品| 一区二区三区四区在线观看视频| 久久免费精品日本久久中文字幕| 97精品人妻一区二区三区蜜桃| 国产精品久久久久久妇女| 亚瑟在线精品视频| 视频一区二区视频| 成人福利在线| 91免费看`日韩一区二区| 成人一区二区电影| 国产精品成人久久久| 在线综合欧美| 欧美激情视频在线观看| 任你操精品视频| av中字幕久久| 亚洲欧洲在线看| 亚洲国产欧美视频| 国产一区调教| 亚洲成人中文字幕| 逼特逼视频在线观看| 国产亚洲久久| 欧美一区二区视频免费观看| 日韩高清第一页| 四虎精品永久免费| 欧美精品日韩精品| 亚洲一区精品视频在线观看| 成人国产精品| 欧美色综合天天久久综合精品| 国产精品-区区久久久狼| www.51av欧美视频| 欧美日韩国内自拍| 成熟丰满熟妇高潮xxxxx视频| 五月天激情在线| 亚洲精品国产a| 欧美久久久久久久久久久久久久| 99视频免费在线观看| 亚洲日韩欧美一区二区在线| 四虎4hu永久免费入口| 色呦呦久久久| 五月激情六月综合| 啊啊啊一区二区| 蜜桃视频成人m3u8| 欧美精品丝袜中出| 性xxxxxxxxx| 久久久久久久久久久久久久久久久久久久| 亚洲成人三级在线| 白丝女仆被免费网站| 国产成人影院| 中文字幕久热精品视频在线| 无码人妻精品中文字幕 | 宅男在线精品国产免费观看| 精精国产xxxx视频在线| 亚洲主播在线观看| 成人免费观看视频在线观看| 精品国产欧美日韩一区二区三区| 欧美日韩一区精品| 韩国三级在线播放| 性人久久久久| 日韩小视频网址| 少妇被躁爽到高潮无码文| 国语精品一区| 国产成人久久久| 午夜精品久久久久久久第一页按摩 | 国产精品二区视频| 亚洲最好看的视频| 日韩中文视频免费在线观看| 玖玖爱免费视频| 玖玖视频精品| 91福利视频导航| 户外极限露出调教在线视频| ...av二区三区久久精品| 国产日本在线播放| 国内欧美日韩| 日韩精品欧美国产精品忘忧草 | 日本泡妞xxxx免费视频软件| 精品中文一区| 欧美日韩国产成人在线观看| 樱花视频在线免费观看| 粉嫩一区二区三区在线看| 欧美一区二区三区电影在线观看 | 国产精品色视频| 刘亦菲久久免费一区二区| 国产色一区二区| 欧美一二三不卡| 99精品在免费线偷拍| 欧美v日韩v国产v| 91狠狠综合久久久久久| 99热在线精品观看| 99高清视频有精品视频| 国产区在线视频| 污片在线观看一区二区| 天美一区二区三区| 成人在线免费观看91| 啪一啪鲁一鲁2019在线视频| 亚洲第一精品网站| 亚洲私人影院在线观看| 亚洲少妇第一页| 亚洲人成网www| 午夜精品久久久久久99热| 国产精品久久欧美久久一区| 国产片一区二区| 国产麻花豆剧传媒精品mv在线| 日韩中文在线| 欧美精品免费在线| 91亚洲精品国偷拍自产在线观看 | 国内精品国产三级国产99| 日本精品在线中文字幕| 亚洲精品一区二区在线| 国产污污视频在线观看| 成人精品鲁一区一区二区| 黄色小视频大全| 国产精品亚洲一区二区在线观看 | 亚洲一区电影在线观看| 热久久久久久久| 日本一区高清在线视频| 性孕妇free特大另类| 亚洲国内高清视频| 国产午夜激情视频| 成人毛片在线观看| r级无码视频在线观看| 91精品啪在线观看国产手机| 欧美大片网站在线观看 | 高清久久久久久| 公共露出暴露狂另类av| 在线观看欧美| 久久成人18免费网站| 国产精选久久久| 亚洲天堂av老司机| 国产老头和老头xxxx×| 午夜性色一区二区三区免费视频 | 亚洲AV无码一区二区三区性 | 永久免费看mv网站入口亚洲| 免费黄色片视频| 中日韩免费视频中文字幕| 一道本在线免费视频| 香蕉综合视频| 不卡视频一区二区| 国产v日韩v欧美v| 亚洲欧美999| 中文字幕一二区| 中文字幕一区二区三中文字幕| www.51色.com| 在线电影一区| 欧美午夜免费| 四虎地址8848精品| 欧美高清视频在线| 天堂资源最新在线| 在线免费观看一区| 亚洲波多野结衣| 粉嫩aⅴ一区二区三区四区| 欧美三级在线观看视频| 国产亚洲一卡2卡3卡4卡新区 | 国内av一区二区三区| 欧美日韩一区成人| 九九热只有精品| 久久久亚洲高清| 亚洲a级黄色片| 日韩一级欧洲| 中国成人亚色综合网站| 爱爱精品视频| 国产精品一区二区三区免费视频 | 香蕉成人伊视频在线观看| wwwwxxxx国产| 国产精品中文字幕日韩精品| 亚洲不卡中文字幕无码| 久久中文字幕二区| 国产伦精品一区二区三区照片| 欧美黑人粗大| 色综合久综合久久综合久鬼88| 女人天堂在线| 欧美一级黄色录像| 狠狠狠狠狠狠狠| 亚洲自拍另类综合| 女同久久另类69精品国产| 成人免费观看男女羞羞视频| 色免费在线视频| 亚洲欧洲一区二区天堂久久| 正在播放一区| 精品日产免费二区日产免费二区| 91免费精品视频| 欧美xx视频| 久久久久久美女| 美女羞羞视频在线观看| 亚洲男女性事视频| 欧美日韩国产综合新一区 | 亚洲欧洲精品成人久久奇米网| 日本女人性视频| 天堂在线一区二区| 国产免费一区二区视频| 98精品久久久久久久| 欧美日韩一区在线观看视频| 亚洲视频三区| 成人在线中文字幕| 免费污视频在线一区| 91精品国产高清自在线| 男女在线观看视频| 久久亚洲国产精品| www免费网站在线观看| 亚洲精品mp4| 亚洲精品久久久久久无码色欲四季 | 欧美国产97人人爽人人喊| 国产精品久久久久久亚洲色| 国产一区二区三区免费看| 亚洲欧美国产日韩综合| 久久久久久婷| 青青草原av在线播放| 亚洲成人资源| 国产精品国产三级国产专区51| 91欧美日韩| 亚洲国产婷婷香蕉久久久久久99| 亚洲人成亚洲精品| 玛丽玛丽电影原版免费观看1977 | 亚洲欧洲在线视频| 三级视频在线看| 欧美成人bangbros| 精品人妻一区二区三区蜜桃| 欧美一区二区三区白人 | 日韩精品黄色网| 日本毛片在线观看| 精品国产凹凸成av人网站| 国产黄色片网站| 精品欧美乱码久久久久久1区2区 | 国产精品一二一区| 51自拍视频在线观看| 国产一区日韩二区欧美三区| 91精产国品一二三产区别沈先生| 国内精品伊人久久久久影院对白| 国产欧美精品一二三| 国产一区二区三区在线观看免费| 国产在线观看中文字幕| 韩国一区二区视频| 久久久久无码精品| 高清不卡一区二区在线| 亚洲视频在线播放免费| 91色婷婷久久久久合中文| 欧美多人猛交狂配| 国产精品日韩精品欧美在线| www.5588.com毛片| 亚洲国产日韩综合久久精品| 97超碰人人干| 欧美伊人久久久久久久久影院 | 国产精品变态另类虐交| 欧美日韩亚洲一区二区| 久久久久久久久久一级| 欧美日韩在线播放一区| 精品国产av 无码一区二区三区| 精品88久久久久88久久久| 午夜影院免费视频| 在线看日韩欧美| av网站在线免费看推荐| 亚洲3p在线观看| 欧美日韩在线精品一区二区三区激情综合 | 国产一级做a爱片久久毛片a| 色噜噜狠狠成人中文综合| 亚洲一级片免费看| 亚洲精品在线免费观看视频| 久久久久久久影视| 操日韩av在线电影| 天堂√中文最新版在线| 国产精品一区二区三区久久| 成人av综合网| 亚洲精品成人自拍| 亚洲经典在线| 不卡的在线视频| 99国产精品久久久久久久久久| 欧美午夜激情影院| 亚洲国产三级在线| 91精品国产乱码久久久| 日韩电影视频免费| 国产精品刘玥久久一区| 亲子乱一区二区三区电影| 精品一区91| 亚洲国产一区二区精品视频| 激情久久久久久久| 污污的视频免费| 久久综合色婷婷| 国产亚洲精品av| 欧美欧美午夜aⅴ在线观看| 农村少妇久久久久久久| 日韩在线观看免费全| 欧美日韩大片| 国产伦精品一区二区三区照片91| 999精品色在线播放| 中国丰满人妻videoshd| 国产成人午夜精品影院观看视频 | 精品福利视频导航大全| 欧美高清视频免费观看| 99综合久久| 亚洲一区综合| 日韩国产欧美在线视频| 成人午夜精品无码区| 一区二区在线观看不卡| 一本一道人人妻人人妻αv| 亚洲女人被黑人巨大进入al| 超碰在线最新网址| 91久久久久久久久久久| 凹凸成人精品亚洲精品密奴| 逼特逼视频在线| 99在线精品一区二区三区| 日韩精品中文字幕在线播放| 日韩精品视频在线观看一区二区三区| 欧美成人午夜影院| 国产精品视频一区视频二区| 一区二区视频在线观看| 日本成人中文字幕| 最新中文字幕av| 色天使色偷偷av一区二区| 香蕉视频911| 午夜欧美大片免费观看| 136福利精品导航| 懂色av一区二区三区| 国产免费一区二区三区四区五区| 欧美精品一区二区久久久| 羞羞视频在线免费国产| 91在线精品视频| 欧美福利在线| 人妻 丝袜美腿 中文字幕| 一区二区三区.www| 亚洲国产av一区二区| 九九精品在线观看| 在线日韩成人| 91免费黄视频| 91欧美一区二区| 国产污视频网站| 色琪琪综合男人的天堂aⅴ视频| 国产欧美自拍| 欧美少妇一级片| 国产成人av福利| 日本少妇激情舌吻| 日韩电影在线观看中文字幕 | 日韩免费观看在线观看| 欧美激情在线免费| 色一情一区二区| 一级日本不卡的影视| 天堂成人在线观看| 日韩av电影在线播放| av一区二区高清| 久久久精品视频国产| 午夜精品久久久久久| 你懂的在线网址| 91久久久在线| 亚洲乱码视频| 天天操天天干天天操天天干| 91精品一区二区三区在线观看| 中文字幕在线三区| 久久99精品久久久久久久青青日本| 丝袜脚交一区二区| 午夜激情福利网| 亚洲精品美女网站| 成人在线视频免费| 青青视频免费在线观看| 99热精品国产| 中文字幕在线观看你懂的| 欧美福利在线观看| 国产欧美日韩视频在线| 99国产精品久久久久久| 性做久久久久久久久| 午夜视频在线观看网站| 超碰97人人人人人蜜桃| 久久久蜜桃一区二区人| 成年人二级毛片| 日韩精品在线观| 国产精品3区| 可以免费观看av毛片| 伊人夜夜躁av伊人久久| 久久精品色图| 成人永久免费| 美女在线一区二区| 中文字幕亚洲精品在线| 久久精品美女视频网站| 西野翔中文久久精品字幕| 99九九精品视频| 欧美亚洲精品一区|