精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<noscript id="4yoqg"><optgroup id="4yoqg"></optgroup></noscript>

<kbd id="4yoqg"><pre id="4yoqg"></pre></kbd>

<tr id="4yoqg"></tr>

<kbd id="4yoqg"><pre id="4yoqg"></pre></kbd>

<strike id="4yoqg"></strike>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）原創(chuàng)

發(fā)布于 2025-5-28 11:25

瀏覽

0收藏

編者按： 如何將 LLM 的推理過程從“燒錢的無底洞”轉變?yōu)椤案咝阅艿纳a力引擎”？本文深入剖析了提升 LLM 推理效率的五大核心技術：巧妙的 KV 緩存管理、Query-sparsity attention（QUEST）、推測解碼（使用 draft model 加速生成過程）、權重調度（通過 Flexgen 實現跨設備資源分配）以及系統級優(yōu)化（FastServe 解決隊頭阻塞問題）。此外，作者還簡要介紹了多種常見優(yōu)化方向，包括量化技術（AWQ、INT8、FP8 等）、Early Exit Inference（LITE）、注意力機制優(yōu)化（FlashAttention、ROFormer）以及使用非自回歸 LLM 等。

作者 | Trung Thanh Tran

編譯 | 岳揚

如果您正在開發(fā) AI 解決方案，并托管基于大語言模型（LLMs）的基礎模型，那么您就應該關注模型服務的成本。然而，資金并非唯一的考量因素。請相信，如果無法解決模型性能的難題，即便預算充足，LLMs serving 的實際效果仍會大打折扣。本文將探討如何將 LLM 的推理過程從「燒錢的無底洞」轉變?yōu)椤父咝阅艿纳a力引擎」。

目錄

01 LLMs serving 面臨的一些挑戰(zhàn)

02 主題 1：巧妙的 KV 緩存管理

03 主題 2：Query-sparsity attention

04 主題 3：推測解碼

05 主題 4：權重調度

06 主題 5：系統級優(yōu)化

07 其他主題

08 如何應用這些技術

01 LLMs serving 面臨的一些挑戰(zhàn)

LLMs 非常強大，但它們的特性使其難以高效服務。LLM 的推理過程包含兩個階段：

1) 預填充階段：當你輸入提示詞（上下文、對話歷史、問題等）時，模型會一次性處理所有 token。

2) 解碼階段：在初始的提示詞后，模型逐 token 生成內容，每個新 token 依賴于之前生成的 token。

舉一個易懂的類比：預填充階段如同下棋時擺棋盤（耗時較長），而解碼階段則像擺好棋后逐步下棋（每一步都很快）。

然而，LLMs serving（譯者注：將訓練好的大語言模型部署到實際應用中，以低延遲、高吞吐、資源高效的方式處理用戶請求的技術過程。）并非輕而易舉，必須考慮以下問題：

Sparsity

在神經網絡（尤其是 FFN 模塊）中，大量神經元的激活值為零。跳過這些零激活值的神經元、僅計算非零元素可以大大節(jié)省運算時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

LLM 中大量神經元的激活值為零，導致矩陣運算中存在大量零值。圖片來源[1]

內存帶寬限制與內存瓶頸

在 GPU 上傳輸數據往往超過數據計算的耗時。此外，大型模型（例如傳聞參數量達萬億的 ChatGPT）無法單卡裝載。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

將當前最先進 LLM 的內存需求，與 GPU 的顯存容量進行對比。圖片來源：ChatGPT

低效調度——先到先得

LLM 通常需要同時處理多個請求。這會導致短請求（例如詢問天氣、時間或簡短的回答）被迫等待長請求完成。那么，平均響應時間幾乎完全由等待時間主導，而非實際計算時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

你更快，但必須等待之前的請求先處理完。圖片來源：ChatGPT

Sequential Decoding（按順序進行解碼）

生成 token 時無法輕松實現并行處理。每次前向傳播只能產生一個 token（或一個小 batch）。當我們向 ChatGPT 請求長回復時，輸出內容往往是逐詞生成的。這就是為什么“流式輸出”（streaming output）的用戶體驗并不比等待完整答案一次性輸出更差。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

逐步進行解碼。圖片來源：ChatGPT

KV Cache 增長

注意力機制需對整個序列的所有文本進行計算，這是 LLM 的推理過程中最核心且最耗時的操作。有趣的是，每當序列中生成新 token 時，系統會對過去的 token 重復大量相同的計算。鍵值緩存（KV Cache）技術通過存儲前幾步的關鍵信息來加速此過程（使用 KV Cache 可使 T4 GPU 上的 GPT2 推理速度提升 5 倍）。下圖展示了使用緩存與不使用的區(qū)別，但使用緩存也會額外占用內存。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

解碼序列 [token 1, token 2, token 3, token 4] 時的 KV Cache 操作步驟。圖片來源[2]

實驗表明，KV（Key-Value）緩存的使用率在 20.4% 到 38.2% 之間。我用 Qwen-VL 2.0 模型對約 1 萬張圖片生成簡短描述（要求回答少于20字），發(fā)現速度比未使用 KV 緩存的版本快 20%。

這些特性看似棘手，但通過巧妙的工程化手段，反而能轉化為優(yōu)勢。

02 主題 1：巧妙的 KV 緩存管理

Page attention

KV 緩存會占用大量內存。上下文越長，KV 緩存占用的內存越大。 例如，若某 LLM 的輸入長度為 2048 個 token，則需預留 2048 個詞槽（slots）。下圖說明了我提到的情況。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

在圖中，2048 個詞槽被一個包含 7 個單詞的提示詞（“four, score, and, seven, years, ago, our”）占用了，后續(xù)生成的 4 個單詞（“fathers, brought, forth, ”）占用了第 8-11 個詞槽。這意味著仍有 2038 個詞槽被保留，但從未被使用過，這就產生了內存的內部碎片（internal fragmentation）。

每個推理步驟都會生成鍵值對（KV pairs），在使用注意力機制時必須緩存這些數據。KV 緩存通常以連續(xù)的塊（chunks）或頁（pages）的形式分配在內存中。當序列生成完成并釋放內存頁后，已釋放的頁可能不再連續(xù)。后續(xù)序列所需的內存大小可能無法恰好匹配現有空閑塊，導致內存中散布小型的空閑塊——即外部碎片（external fragmentation）。

受操作系統的內存管理啟發(fā)，Page Attention 機制也將數據組織為邏輯內存塊（logical memory block），并通過頁表（page table）進行監(jiān)控，再將合適的頁（page）映射到物理內存中。具體實現如下：

1) Fixed-size Blocks（固定大小的內存塊） ：PagedAttention 分配固定大小且相對較小的內存塊（稱為“頁（pages）”）來存儲 KV 緩存。

2) Shared Blocks（共享內存塊） ：這些固定大小的內存塊可在不同請求間共享。

3) On-demand Allocation（按需進行分配） ：隨著生成過程逐步分配內存塊，無需根據最大序列長度的估算預先分配。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

LLM 中的分頁機制示意圖。Image by the author

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

支持多請求間共享內存塊的 LLM 分頁機制示意圖。Image by the author

Raddix tree KV cache

在計算機科學中，基數樹（radix tree，亦稱 radix trie、compact prefix tree 或 compressed trie）是一種優(yōu)化了空間效率的字典樹（前綴樹），其將每個唯一的子節(jié)點與其父節(jié)點合并。

Raddix tree KV cache 是一種支持跨不同推理請求高效復用鍵值（KV）緩存的技術，尤其適用于多個請求共享共同前綴的場景。 通過將 KV 緩存組織為 Raddix 樹結構，可高效檢索緩存數據并在請求間共享。在下面的例子中，三個請求共享相同的前綴 "ABC"（存儲于父節(jié)點中），每個請求中的最后一個單詞則分別存儲在三個葉子節(jié)點。需注意：樹結構的運行時間復雜度為 O(nlogn)，遠低于注意力計算的 O(n2)。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

Raddix tree KV cache 示例

Compressed attention

多頭注意力機制（Multi-head Attention）[3]是 Transformer 模型（LLMs 的基石）的核心機制。每個注意力頭從不同視角分析文本：其中一個注意力頭關注主謂關系，另一個注意力頭解析詞匯特征，第三個注意力頭分析句子結構。這種多頭機制雖增強了模型的理解能力，但也導致每個注意力頭需要獨立的 KV 對。在實時文本處理或長序列場景中，這些獨立的 Key 和 Value 會占用大量內存。

分組查詢注意力機制（Group Query Attention, GQA）允許多個查詢（queries）共享同一組 Key 和 Value，從而減少所需 KV 對數量。多查詢注意力機制（Multi Query Attention, MQA）則更為激進，僅用一組 KV 對服務所有查詢（queries）。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

多頭注意力、多查詢注意力、分組查詢注意力對比圖

中國 AI 初創(chuàng)公司深度求索（DeepSeek）今年初發(fā)布了其 chatbot。該產品以高效、開源著稱，人們傳言他們的成功源于對 ChatGPT 生成數據的分析工作。然而，閱讀了他們的技術報告后，我發(fā)現其技術突破不僅僅局限于數據提取操作。DeepSeek 提出的 Flash Multi Latent Attention（Flash MLA）通過低秩壓縮將 Key 和 Value 向下投影到更小維度的 latent vector 中，大幅減小了緩存體積。計算注意力時再將 latent vector 向上投影，且上投影矩陣權重與查詢矩陣權重"折疊"融合，進一步加速了注意力的計算。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

多頭潛在注意力機制（MLA）示意圖。Image by the author

03 主題 2：Query-sparsity attention

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference

從 MIT 研究人員撰寫的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》[4]中，我們得知 Transformer 模型在推理過程中（尤其是注意力計算環(huán)節(jié)）常存在高稀疏性「譯者注：high sparsity，大部分神經元或注意力權重在計算過程中未被激活（值為零或接近零）」。這意味著大模型中并非全部的神經節(jié)點被激活。通過將高稀疏性（high sparsity）的特性應用于剪枝機制（pruning mechanism），我們能夠發(fā)現一種高效運行大模型的方法。下圖展示了 Transformer 模型各層的稀疏性統計數據。遺憾的是，第 3 層之后的模型層通常非常稀疏。極端情況下，某些模型層（如第 10 層）甚至達到了 100% 稀疏，這種現象等同于在運行大語言模型時多次乘以 0，從而產生零值輸出。

出現這種現象的原因很簡單：并非每個單詞都對當前上下文有貢獻。

例如，給定提示詞："A is B. C is D. A is"，模型應生成 "B"。這意味著只需要最關鍵的 token，而這很大程度上取決于查詢（queries）。因此該技術被命名為查詢感知的稀疏性算法（query-aware sparsity）。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

Transformer 模型推理中的稀疏性估算。圖片來源[5]

了解這一特性后，QUEST 的核心策略就是定位對注意力計算最關鍵的數據塊。QUEST 將找出前 K 個數據塊。其算法流程直觀清晰（見下圖）：

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

QUEST 獲取 top K 個關鍵數據塊進行注意力計算的流程

首先，對于每個數據塊，QUEST 會找出最小和最大鍵值（minimum and maximum keys）及其通道尺度上的數值（channel-wise values）。接著，query 會逐個元素地生成最大和最小鍵值。這種方法能夠大大減少所需的計算量 —— 即使 query 的符號（sign）變化，后續(xù)的乘積運算通常仍能得到最大值：當 query 符號為負時，乘以最小值必然得到最大輸出值，反之亦然。在獲取每個數據塊的最大值后，QUEST 僅篩選出與 query 最相關的 K 個關鍵 KV 塊。通過這一流程，計算量得以大幅降低。

最后一個關鍵問題是選擇恰當的 K 值，以避免模型性能下降。K 是一個需要通過實驗才能確定的超參數（hyperparameter）。在論文中，作者建議選擇 K=4096，可使模型性能保持在接近 100% 的水平。

以下是 K=4096 時的數據：

PG19（一種教科書數據集）上的準確率 ≈ 完全達到了全局注意力（Full Attention）的基準準確率
passkey retrieval 數據集上準確率 ≈ 100%
LongBench 任務上的準確率 ≈ 在多數數據集上等效于全緩存（full cache）

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

04 主題 3：推測解碼

推測解碼（speculative decoding）對于大語言模型（LLM）推理的加速非常重要，該技術由 Andrej Karpathy[6] 提出，并由 Google 在 2022 年首次引入[7]。

該技術的核心思想非常簡單：

與其僅用龐大、緩慢但精確的模型（稱為 target model）逐詞生成，不如先用小型、快速但不太準確的模型（通常稱為 draft model）快速"推測"后續(xù)的多個 token。然后用大型模型驗證這些猜測的 token。若大型模型認同小型模型的預測，則一次性接受所有結果（減少計算量）。如若不一致，就從分歧點開始回退（重新執(zhí)行）。示意圖如下文所示。

draft model 可以是 Ngrams、1B 參數級別的模型，最高可達 3B 參數級別的模型。target model 則可以是數十億甚至數萬億參數規(guī)模的模型。

雖然使用兩個模型會消耗較多內存，且重復生成過程也比較耗時，但該技術的核心價值在于其卓越的實用性 —— 連 Gemini 這樣的頂級模型都已采用該技術（如下圖所示）。實際情況是，draft model 生成的 token 通常正確率很高，以至于 target model 無需修正結果。這是因為在現實語境中常見詞匯如"yes, this, is, and so on"出現頻率極高，即使小型語言模型也能輕松預測。通過并行驗證 draft model 生成的所有 token，而非逐詞進行自回歸解碼，這樣可以節(jié)省大量時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

05 主題 4：權重調度

調度（Scheduling）的核心在于將模型權重平衡分配到物理機器的資源（包括 GPU、CPU 和硬盤）中。這種策略不僅能通過并行計算加快推理速度，還能讓 100B 參數級別的超大型模型在僅配備有 T4 GPU 的低配置 PC 上運行。

實現這一目標的關鍵在于兩個核心要素：

在 GPU、CPU 和硬盤間智能地加載/卸載模型權重
高效處理計算單元間的 I/O 數據傳輸

Flexgen

由 Stanford、UC Berkeley 和 CMU 聯合提出的 Flexgen[8]，正是解決這兩個關鍵問題最具創(chuàng)新性的方案之一。

推理過程通常如下圖所示。需要處理的每個數據塊被定義為加載到模型層的一批數據，其中列方向按批次處理的，行方向則按照模型層維度處理。

我們定義有效路徑為滿足以下約束條件的遍歷（即計算）所有方格的路徑：

從左向右執(zhí)行
所有數據必須位于同一設備
當前方塊的激活值（Activation）需要等待其右側相鄰方塊完成計算后，才能被釋放或復用
KV Cache需存儲至最右側數據計算完成時釋放
任意時刻設備上存儲的張量總大小不得超過該設備內存容量

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

如果我們有 n 個 token，每個 token 的數據將按順序加載和計算。每一層的權重僅在需要計算時加載，并在計算結束后立即卸載。由于 GPU 的計算速度極快（如閃電），而內存?zhèn)鬏斔俣葮O慢（如蝸牛），頻繁的加載/卸載會帶來巨大時間開銷。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

圖中每個方塊表示 GPU 對一個模型層（layer）的批處理計算（batch computation），同色方塊共享同一層的權重參數

Flexgen 通過將行掃描改為列掃描或之字形塊調度（zig-zag block schedule）進行優(yōu)化：在無 I/O 開銷的情況下保留模型層權重，并為下一列保存激活值。在計算塊執(zhí)行期間，Flexgen 實現三大操作的并行執(zhí)行：加載下一層權重、存儲前一數據批次的激活值/KV 緩存、執(zhí)行當前數據批次的計算，從而有效解決內存?zhèn)鬏攩栴}。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

Flexgen 的另一個核心創(chuàng)新在于模型權重的硬件分布策略。

Flexgen 采用線性規(guī)劃策略搜索法（Linear Programming Policy Search）來尋找最優(yōu)加載配置，使模型整體推理時間最小化。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

其中：

n：每個序列輸出 token 的數量
??：transformer 層數
block size：每個計算塊處理的樣本量（數據批次大小 × 數據批次數量）

下圖展示了 Flexgen 在搭載了 T4 GPU 的機器上運行 OPT-30B 模型的配置示例。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

論文對比了 HuggingFace 的 DeepSpeed 庫和 Accelerate 庫的性能：Flexgen 聲稱能達到 7.32 tokens/秒，而 DeepSpeed 為 1.57 tokens/秒，Accelerate 僅 0.62 tokens/秒。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

06 主題 5：系統級優(yōu)化

現有 LLM serving 系統（如 vLLM、Orca）通常采用先到先服務（FCFS，First-Come-First-Serve）機制和執(zhí)行到完成為止（run-to-completion）的運行方式，這會導致隊頭出現阻塞（HOL） —— 簡單來說：長任務會延遲短任務的處理。這就造成了較高的排隊延遲，在實際工作負載中可達總延遲的 90%。 請看論文 FastServe[9] 中的統計數據：

注意：當我們提及長請求/短請求時，并非指提示詞（prompt）的長度，而是指生成首個 token 所需的時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

time by execuation vs queuing. Image source[9]

該問題的解決方案是：允許中斷長請求，將已完成的部分存入緩存，保留未完成的部分稍后處理，然后切換至短請求。待短請求完成后，繼續(xù)運行長請求的剩余部分。此方案需實現具有多個不同優(yōu)先級的隊列（multi-queue）。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

但這一想法仍然存在一個問題：若高優(yōu)先級隊列中存在多個長請求位于短請求之前，可能導致長請求被多次中斷才切換到短請求。這不僅增加長請求的處理時間，還會對緩存造成額外壓力。

FastServe 通過引入跳轉式多級反饋隊列（Skip-Join MLFQ）來解決這個問題：當系統收到請求時，會預估生成首個 token 所需的時間，據此將請求路由至合適優(yōu)先級的隊列，避免干擾更短請求。此外，通過 KV 緩存管理，可在 GPU 處理先前的隊列時主動在隊列間遷移數據，進一步降低延遲。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

07 其他主題

還有很多其他優(yōu)化 LLM 推理的技術方向，本文不再詳述（因為這些技術方向非常常見，許多工程師每天都在使用），僅列舉技術方向與參考文獻：

量化（Quantization）

通過降低權重和激活值的精度（如從 FP16 降至 INT4 或 FP8）壓縮模型體積并提升推理速度，同時將精度損失降到最小。

AWQ

通過激活值計算每個權重/通道的重要性分數進行基于激活值感知的權重量化。支持低比特推理（如 INT3）且無需重訓練。

LLM.int8()

提出通過校準過程（Calibration）實現 Post-training INT8 矩陣乘法，支持 Transformer 推理且不會降低精度。

SmoothQuant

通過跨層對齊激活值與權重的數值范圍，提升 post-training 量化效果。

ZeroQuant / V2 / FP

使用校準過程（Calibration）和低秩補償（Low-rank Compensation）的低比特量化技術（INT4, FP4）。

LLM-FP4

證明 FP4 表示法可在顯著提升推理速度的同時保持模型質量。

WINT8

針對生產環(huán)境中的 MoE 模型的 INT8 量化方案。

SpQR

將模型量化與 sparsity 相結合，實現近乎無損的 LLM 壓縮，適用于邊緣部署。

FP8-LM

使用 FP8 格式訓練 Transformer，降低訓練與推理過程的內存和算力消耗。

FP8 Formats

定義 NVIDIA 的 FP8 格式及其在深度學習推理/訓練中的應用。

Early Exit Inference

LITE

在神經網絡的中間層添加預測能力，當置信度較高時，token 會提前退出，最高可節(jié)省 38% FLOPS。

注意力機制優(yōu)化（Attention Optimization）

FlashAttention 1, 2, 3

通過內存分塊實現快速、精確的注意力計算，速度與內存效率優(yōu)于標準實現方式。

ROFormer

引入旋轉位置編碼（Rotary Position Embedding），提升模型對長程依賴關系的泛化能力。

StreamLLM

允許注意力在流式處理過程中動態(tài)適配新的輸入塊。

非自回歸的 LLM（Non-autoregressive LLMs）

Diffusion-LM: Improving Controllable Text Generation

將擴散模型應用于文本生成的首個重要工作。

08 如何應用這些技術

vLLM[10] 是一個開源庫，能夠大大提升大語言模型（LLM）推理（運行模型）的速度和效率。

它由 UC Berkeley 的研究者開發(fā)，專注于實現 LLM 的高吞吐、低延遲服務。該庫最初基于 PageAttention 的核心思想，但如今已整合了前文提及的絕大多數優(yōu)化技術。在我看來，vLLM 已成為大模型推理優(yōu)化領域生態(tài)最活躍的開源社區(qū)之一。

以下是我使用 vLLM 調用 QwenVL 2.5 7B instruct 模型對圖片進行描述的示例代碼：

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

感謝你閱讀本文！這是我以 Fatima Fellowship 身份開展的研究工作，我與 Colorado School of Mines[11] 的 PhD candidate Ismet Dagl 博士合作，專注于提升邊緣設備上大語言模型（LLM）、視覺語言模型（LVM）及基礎模型的性能與內存優(yōu)化。

About the author

Trung Thanh Tran

CTO of ClientScan | Co-founder of ??Takenote.ai?? | AI Researcher | | Data Scientist at Pixta Vietnam | IGI AI Book Writer

END

本期互動內容 ??

?在您的工作中，最希望出現哪種“開箱即用”的推理優(yōu)化工具？歡迎在評論區(qū)分享~

文中鏈接

[1]??https://developer.nvidia.com/blog/accelerating-inference-with-sparsity-using-ampere-and-tensorrt/??

[2]??https://media.licdn.com/dms/image/v2/D5622AQEd3w_266T-cg/feedshare-shrink_2048_1536/feedshare-shrink_2048_1536/0/1708872868565?e=1748476800&v=beta&t=-USDPQAiDwF6OGy-BC8y9mHf4nW_W3qr-QL3ZT08ynk??

[3]??https://d2l.ai/chapter_attention-mechanisms-and-transformers/multihead-attention.html??

[4]??https://arxiv.org/abs/2406.10774??

[5]??https://medium.com/r?url=https%3A%2F%2Farxiv.org%2Fabs%2F2406.10774??

[6]??https://x.com/karpathy/status/1697318534555336961?lang=en??

[7]??https://arxiv.org/pdf/2211.17192??

[8]??https://arxiv.org/pdf/2303.06865??

[9]??https://arxiv.org/pdf/2305.05920??

[10]??https://docs.vllm.ai/en/latest/index.html??

[11]??https://cs.mines.edu/??

本文經原作者授權，由 Baihai IDP 編譯。如需轉載譯文，請聯系獲取授權。

原文鏈接：

??https://blog.gopenai.com/the-art-of-llm-inference-fast-fit-and-free-c9faf1190d78??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

LLM 推理優(yōu)化

贊

收藏

回復

舉報

回復

相關推薦

騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 5323瀏覽 ? 0回復
綜述：大語言模型在信息抽取上的應用

xuxiangda ? 7349瀏覽 ? 0回復
【LLM】對大語言模型微調優(yōu)化的研究

sbf_2000 ? 5365瀏覽 ? 0回復
大模型思維鏈推理的綜述：進展、前沿和未來

AIRoobt ? 8929瀏覽 ? 0回復
大語言模型知識沖突的綜述

sbf_2000 ? 6275瀏覽 ? 0回復
AI技術新前沿本地LLM模型推理訓練加速

AIGC觀察者 ? 5180瀏覽 ? 0回復
幾何視角下的大語言模型推理

sbf_2000 ? 4101瀏覽 ? 0回復
大語言模型在不同自然語言處理任務中的提示工程方法綜述

sbf_2000 ? 5502瀏覽 ? 0回復
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 8977瀏覽 ? 0回復
一篇大模型NL2SQL全棧技術最新綜述

PaperAgent ? 9923瀏覽 ? 0回復
面向大語言模型的檢索增強生成(RAG)技術：綜述

angel ? 7114瀏覽 ? 0回復
多模態(tài)大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 1.3w瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 7967瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 4890瀏覽 ? 0回復
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內容精選 ? 4101瀏覽 ? 0回復
大語言模型時代的協作策略綜述

AIRoobt ? 5602瀏覽 ? 0回復
萬字綜述 LLM 訓練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案

amei2000go ? 4638瀏覽 ? 0回復
大語言模型增強的文本到 SQL 生成：綜述

AIGC前沿技術追蹤 ? 4325瀏覽 ? 0回復
一篇多模態(tài)大模型推理技術最新綜述

PaperAgent ? 5604瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？ 3天前發(fā)布
分享一名海外獨立開發(fā)者的 AI 編程工作流 5天前發(fā)布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現堪稱性價比之王！ 0回復

上一篇：「DeepSeek 技術解析」：LLM 訓練中的強化學習算法

下一篇：對 AI Agent 定義的一些探討

社區(qū)精華內容

目錄

亚洲一区二区三区四区av| 日韩尤物视频| 中文字幕第28页| 中文字幕亚洲影视| 717成人午夜免费福利电影| 日本国产中文字幕| 免费在线毛片| 国产精品白丝jk黑袜喷水| 亚洲91精品在线| 欧洲性xxxx| 国产欧美一区二区三区米奇| 色综合久久久网| 四虎精品欧美一区二区免费| 日本不卡免费播放| 国产黑丝在线一区二区三区| 国产va免费精品高清在线观看| 久久久久久视频| 亚洲国产最新| 日韩免费福利电影在线观看| 手机看片福利日韩| 1024在线看片你懂得| 国产精品福利一区二区| 欧美黑人3p| 日韩一级免费视频| 狠狠狠色丁香婷婷综合激情| 国产精品69精品一区二区三区| 538精品在线视频| heyzo久久| 日韩理论片久久| 一级黄色电影片| 粉嫩av国产一区二区三区| 色综合色综合色综合| 国产情侣第一页| 精品视频在线一区二区| 国产欧美日韩不卡免费| 精品免费视频123区| wwwxxxx国产| 久久99精品网久久| 国产精品青草久久久久福利99| 五月婷婷亚洲综合| 日韩视频一区| 亚州成人av在线| 精品小视频在线观看| 欧美一区影院| 欧美成人午夜激情在线| 日韩a级片在线观看| 久久久久久免费视频| 色久欧美在线视频观看| 国产99在线 | 亚洲| 欧美手机视频| 中文字幕欧美国内| 大胸美女被爆操| 日韩精品一卡| 日韩视频亚洲视频| 综合五月激情网| 伊人久久大香线蕉精品组织观看| 日韩在线免费高清视频| 久久国产高清视频| 亚洲一区二区三区无吗| 欧美成年人视频| 免费人成年激情视频在线观看| 一区二区三区中文| 久久久久久久91| 精品无码人妻一区二区三区品| 狠狠久久婷婷| 69**夜色精品国产69乱| 中文字幕黄色片| 日韩黄色在线观看| 国产综合香蕉五月婷在线| 国产精品久久影视| 国产福利视频一区二区三区| 99久久99久久精品国产片| 懂色av一区二区三区四区| 成人av网址在线| 欧美一区二区高清在线观看| 在线视频自拍| 伊人夜夜躁av伊人久久| 男人添女人下部高潮视频在观看| 天堂在线中文网官网| 在线精品亚洲一区二区不卡| 亚洲成人福利在线| 日韩在线亚洲| 亚洲精品视频在线播放| 亚洲aaa视频| 国产精品扒开腿做爽爽爽软件| 91av在线网站| 亚洲无码精品在线播放| 粉嫩高潮美女一区二区三区| 麻豆成人av| 黄色免费在线看| 婷婷久久综合九色综合绿巨人| 人妻无码视频一区二区三区| 四虎在线精品| 亚洲精品美女网站| 可以免费看av的网址| 黄色成人在线网站| 国产成人综合精品| 亚洲国产福利视频| 国产目拍亚洲精品99久久精品| 青春草在线视频免费观看| 91超碰国产在线| 欧美日韩精品二区第二页| 无码人妻精品一区二区三| 成人免费看片39| 久久免费观看视频| 国产成人av免费| 成人精品视频一区二区三区尤物| 日韩欧美精品在线不卡| 免费在线观看av电影| 欧美私模裸体表演在线观看| 日韩成人av一区二区| 我不卡影院28| 日韩av观看网址| 丰满人妻一区二区三区免费视频| 国产精品欧美一区喷水| 日本久久久精品视频| 日韩av综合| 最新国产成人av网站网址麻豆| 日本一区二区欧美| 国精产品一区一区三区mba视频| 久久国产精品免费一区| 性欧美高清come| 欧美日韩综合在线| 国产传媒第一页| 亚洲午夜av| 91超碰在线免费观看| 在线看av的网址| 在线视频一区二区三区| 91精品国产自产| 影音先锋一区| 丁香五月网久久综合| 久久精品视频免费看| 欧美在线不卡视频| 久久久久久久久久久久久久久| 黄色成人在线网址| 高清不卡日本v二区在线| dy888亚洲精品一区二区三区| 欧美日韩在线播放三区| 无码少妇精品一区二区免费动态| 亚洲欧美日韩专区| 欧美久久久久久久| 大胆人体一区二区| 亚洲欧美一区二区三区四区 | 国产日韩欧美在线一区| 亚洲欧洲日产国码无码久久99| 国产在线播放精品| 97视频色精品| 亚洲av成人无码久久精品老人 | 久久久久九九视频| 欧美韩国日本在线| 欧美伦理在线视频| 国产精品久久久久久超碰| 国产黄色片在线播放| 欧美日韩一区在线| 久草福利资源在线| 国产精品一区二区免费不卡| 日韩视频一二三| 操欧美女人视频| 国内精品400部情侣激情| 天堂v在线观看| 一本大道久久精品懂色aⅴ| 成人午夜福利一区二区| 日本欧美一区二区| 国产精品夜夜夜爽张柏芝| 91成人app| 欧美精品videofree1080p| 日韩一级片免费| 在线观看一区日韩| 四虎免费在线视频| 99久久免费精品高清特色大片| 国产男女无遮挡| 热久久天天拍国产| av一区二区三区免费| 国产99在线| 一本一本久久a久久精品牛牛影视| 中文字幕理论片| 亚洲六月丁香色婷婷综合久久| 三级黄色片免费观看| 日韩视频久久| 亚洲在线视频一区二区| 97色成人综合网站| 国产不卡视频在线| 性欧美video高清bbw| 亚洲男女性事视频| 国产区精品在线| 欧美日韩黄色大片| jizzjizz日本少妇| 99久久精品免费看国产免费软件| 欧美伦理视频在线观看| 亚洲精品国产首次亮相| 蜜桃麻豆91| 国产一区二区三区免费在线| 国内精品久久久久久影视8| 高清美女视频一区| 精品嫩草影院久久| 亚洲一级在线播放| 黑人精品xxx一区一二区| 免费在线观看a级片| 91免费视频网址| www.污网站| 日韩精品一级二级| 国产主播自拍av| 国产精品麻豆久久| 日产精品一线二线三线芒果| av日韩在线播放| 国产成人综合精品| 午夜影院在线播放| 欧美肥臀大乳一区二区免费视频| 国产女主播在线直播| 精品电影一区二区三区| 国产精品视频一二区| 色八戒一区二区三区| 国产成年人免费视频| 亚洲精品乱码久久久久久日本蜜臀| 国产全是老熟女太爽了| 成人动漫一区二区在线| 国产5g成人5g天天爽| 日本在线播放一区二区三区| 成熟丰满熟妇高潮xxxxx视频| 亚洲欧美综合久久久| 亚洲啪啪av| 女人av一区| 久久99精品久久久久久水蜜桃| 高清在线一区二区| 国产一区视频在线| 成人性片免费| 国产精品极品在线| 日韩av大片站长工具| 8090成年在线看片午夜| 美女91在线| 九九九久久国产免费| av色综合久久天堂av色综合在| 这里只有精品视频在线| 欧美日韩国产亚洲沙发| 日韩精品视频在线播放| 天天干天天舔天天射| 亚洲电影成人av99爱色| 囯产精品一品二区三区| 日韩欧美一级二级三级| 国产视频在线观看免费| 91精品国产免费| 99国产精品久久久久久久成人| 欧美日韩高清不卡| 国产精品老熟女视频一区二区| 欧美年轻男男videosbes| 亚洲视频一区二区三区四区| 欧美日韩一二三区| 一级全黄裸体免费视频| 制服视频三区第一页精品| 国产免费无遮挡| 日韩欧美中文字幕制服| 亚洲乱码在线观看| 亚洲成人免费在线视频| 五月激情婷婷网| 国产婷婷97碰碰久久人人蜜臀| 青草久久伊人| 在线播放精品一区二区三区| 2019中文字幕在线视频| 久久精品这里热有精品| caoporn97在线视频| 色综合导航网站| 成入视频在线观看| 日韩av手机在线看| 男女啪啪999亚洲精品| 91免费版网站入口| youjizz亚洲| 免费av一区二区三区| 欧美日韩伦理在线免费| 国产四区在线观看| 亚洲精品三级| 无需播放器的av| 国产福利一区在线| 91精品人妻一区二区三区蜜桃欧美| 久久久亚洲国产美女国产盗摄| 亚洲ⅴ国产v天堂a无码二区| 亚洲视频香蕉人妖| 国产午夜小视频| 91高清在线观看| 国产精品无码天天爽视频| 欧美不卡视频一区| 国产在线观看黄| 九九精品在线观看| 日韩一区二区三区免费| 91文字幕巨乱亚洲香蕉| 欧美禁忌电影网| 免费成人进口网站| 久久av在线| 美女日批在线观看| 久久麻豆一区二区| 黄色一级视频免费观看| 日本福利一区二区| 性色av蜜臀av| 在线视频欧美性高潮| 丁香花电影在线观看完整版| 国产精品流白浆视频| 亚洲日本视频在线| 日韩在线观看电影完整版高清免费| 欧美日韩一卡| 国产嫩草在线观看| 99国产精品久| 国产少妇在线观看| 欧美三级中文字幕| 五月婷婷伊人网| 欧美激情视频给我| 亚洲精品无播放器在线播放| 乱色588欧美| 亚洲天堂激情| 两性午夜免费视频| 国产精品激情偷乱一区二区∴| 日韩精品久久久久久久| 91精品国产入口在线| 成人精品一区二区| 欧美一级高清免费| 北条麻妃在线一区二区免费播放| av动漫免费观看| 日韩精品成人一区二区三区| 国产精品第七页| 亚洲一区二区三区激情| 国产乱码久久久久| 中文字幕亚洲一区二区三区五十路| 欧美男人天堂| 狠狠色狠狠色综合人人| 国内精品福利| 秋霞午夜鲁丝一区二区| 亚洲日本欧美天堂| 国产又爽又黄又嫩又猛又粗| 亚洲性xxxx| 日韩三区免费| 午夜精品短视频| 日韩经典中文字幕一区| 免费看黄色的视频| 欧美视频不卡中文| 天堂v视频永久在线播放 | 亚洲三级欧美| 国产精品区一区| 精品电影一区| 国产草草浮力影院| 亚洲成精国产精品女| 人人妻人人澡人人爽人人欧美一区| 欧美日韩成人在线观看| 日韩精品中文字幕吗一区二区| 男女激烈动态图| 国产伦理精品不卡| 久草视频中文在线| 欧美tickling网站挠脚心| 免费在线国产视频| 国产伦精品一区二区三区四区免费 | 日本综合视频| 亚洲精品乱码久久久久久蜜桃91 | 免费视频91蜜桃| 91成人在线免费观看| 成人一区二区不卡免费| 国产精品亚洲欧美导航| 97精品国产福利一区二区三区| 在线观看日本一区二区| 亚洲日本丝袜连裤袜办公室| 国产激情久久久久久熟女老人av| 久久97精品久久久久久久不卡| 亚洲一区二区三区中文字幕在线观看 | 色一情一伦一子一伦一区| 六十路在线观看| 成人精品一区二区三区电影免费| 在线中文字幕第一区| 亚洲成年人在线观看| 欧美日韩精品在线| 成年人视频在线看| 成人写真视频福利网| 亚洲无线一线二线三线区别av| 国产毛片毛片毛片毛片毛片毛片| 日韩欧美在线视频日韩欧美在线视频 | 国产乱淫av片杨贵妃| 99免费精品视频| 五月婷婷丁香在线| 久久成人在线视频| 丝袜久久网站| 亚洲高清免费在线观看| 亚洲综合自拍偷拍| 男男电影完整版在线观看| 成人精品视频在线| 亚洲深夜av| 亚洲AV成人无码精电影在线| 精品乱人伦小说| 久久xxx视频| 欧美视频在线第一页| 久久久久青草大香线综合精品| 伊人亚洲综合网| 国模吧一区二区三区| 日韩av有码| 精品一区二区视频在线观看| 欧美丝袜自拍制服另类| tube8在线hd| 自拍另类欧美| 久久人人97超碰com| www.五月婷| 国产精品亚发布| 欧美中文日韩| 麻豆国产尤物av尤物在线观看| 一本色道久久88亚洲综合88| 白白在线精品| 91在线第一页|

<tr id="ck2mo"></tr>