LMCache：最快的開源 LLM 推理服務引擎

PyTorch研習社

發布于 2025-10-13 07:09

瀏覽

0收藏

如果你用過大型語言模型（LLMs）干點正經事，你肯定知道那種等待的煎熬。

你輸入一個問題，按下回車，然后……啥也沒有。

就一個轉圈的光標在那晃，直到第一個詞終于蹦出來。

這種延遲叫“首次令牌時間”（time-to-first-token，TTFT），真是讓人抓狂。

現在，有個叫LMCache的項目。它是開源的，簡單說就是給LLMs提速的神器。

LMCache是干啥的？

LLMs老干重復的活兒。

每次你給它一段文本，它都會構建一個叫KV cache（鍵值緩存）的東西。

你可以把它想象成模型在讀文本時做的筆記。

問題在于，它不會重復用這些筆記。所以如果你又給了同樣的文本，它得從頭再建一遍。

LMCache就解決了這個問題。

它會把KV cache存下來，不光存在GPU顯存里，還能存到CPU內存甚至磁盤上。當模型再次看到一模一樣的文本（不只是前綴，是任何重復的文本），它直接從緩存里取出來。不浪費GPU的計算周期，也不讓你多等。

結果呢？用vLLM的話，很多標準場景下，比如多輪對話或檢索增強生成（retrieval-augmented generation），響應速度能快3到10倍。

看看這個：

# 老辦法：慢得像爬
defget_answer(prompt):
    memory = build_memory_from_zero(prompt)  # GPU哭了
    return model.answer(memory)

# 用LMCache：快如閃電，聰明得很
import lmcache
defget_answer(prompt):
    if lmcache.knows_this(prompt):  # 以前見過？
        memory = lmcache.grab_memory(prompt)  # 直接拿來用
    else:
        memory = build_memory_from_zero(prompt)
        lmcache.save_memory(prompt, memory)  # 存起來下次用
    return model.answer(memory)

LMCache：最快的開源 LLM 推理服務引擎-AI.x社區圖片

為啥LMCache這么牛

我見過不少AI工具，但LMCache有些特別酷的功能：

快得飛起：內存獲取速度最快能提升7倍，處理量也更大。文本在哪它都不在乎，照樣能復用。
存哪兒都行：內存塊可以放CPU、磁盤，甚至是NIXL這種高級玩意兒。GPU可以偷個懶。
超愛vLLM：跟vLLM（版本1）配合得特別好，能跨設備共享工作，或者在系統間傳遞內存。
適合大活兒：專為真實應用設計，支持llm-d和KServe這些工具，不只是實驗室里的小打小鬧。如果你在做聊天機器人或者搜大堆數據的應用，LMCache能保持速度，還不用非得配個超級電腦。

怎么安裝

開始之前，LMCache在Linux上跑得最順。Windows用戶得用WSL或者社區補丁。另外，你需要：

Python 3.9或更高版本
NVIDIA GPU（比如V100或H100）
CUDA 12.8或更高
沒Wi-Fi？沒問題，裝好后離線也能跑。

簡單方法：從PyPI裝

想直接用？跑這個：

pip install lmcache

這會帶上最新的Torch。如果碰到怪錯，試試從源碼裝。

想玩點刺激的？試試TestPyPI

想要最新版？裝預發布版：

pip install --index-url https://pypi.org/simple --extra-index-url https://test.pypi.org/simple lmcache==0.3.4.dev61

檢查版本對不對：

import lmcache
from importlib.metadata import version
print(version("lmcache"))  # 應該是0.3.4.dev61或更高

版本號跟LMCache的GitHub上最新的對齊。

自己動手建

愛折騰？克隆代碼然后搞：

git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -r requirements/build.txt
# 選一個：
# A: 選你的Torch
pip install torch==2.7.1  # 適合vLLM 0.10.0
# B: 裝帶Torch的vLLM
pip install vllm==0.10.0
pip install -e . --no-build-isolation

確認沒問題：

python3 -c "import lmcache.c_ops"

沒崩？那就成了。

用uv快速搞定

喜歡快工具？試試uv：

git clone https://github.com/LMCache/LMCache.git
cd LMCache
uv venv --python 3.12
source .venv/bin/activate
uv pip install -r requirements/build.txt
# 一樣的Torch/vLLM選擇
uv pip install -e . --no-build-isolation

Docker

想省事？用Docker：

# 穩定版
docker pull lmcache/vllm-openai
# 夜間版
docker pull lmcache/vllm-openai:latest-nightly

對AMD GPU（比如MI300X），從vLLM鏡像開始，加這些：

PYTORCH_ROCM_ARCH="gfx942" \
TORCH_DONT_CHECK_COMPILER_ABI=1 \
CXX=hipcc \
BUILD_WITH_HIP=1 \
python3 -m pip install --no-build-isolation -e .

跟vLLM無縫對接

LMCache跟vLLM就像燒烤派對上的好哥們。對vLLM v1：

pip install vllm

測試一下：

python3 -c "import vllm.distributed.kv_transfer.kv_connector.v1.lmcache_connector"

用vLLM v0？去他們repo里看示例腳本。

本文轉載自??PyTorch研習社??，作者：AI研究生

標簽

LMCache

LLM

LLMs

已于2025-10-13 07:09:02修改

贊

回復

舉報

回復

相關推薦

加速擴散模型，最快1步生成SOTA級圖片，字節Hyper-SD開源了

輕薄滴假象 ? 3912瀏覽 ? 0回復
騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 5323瀏覽 ? 0回復
ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了

輕薄滴假象 ? 5172瀏覽 ? 0回復
MLC-LLM: 具有ML編譯的通用LLM部署引擎

AIGC最前線 ? 7500瀏覽 ? 0回復
大語言模型llama-2-7b推理服務實戰

zhcs333 ? 8226瀏覽 ? 1回復
如何采用最少的代碼啟動LLM?API服務器

51CTO內容精選 ? 5289瀏覽 ? 0回復
ChatGPT等模型瘋狂訓練，最快2026年消耗盡公開文本數據

Aceryt ? 5988瀏覽 ? 0回復
微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

amei2000go ? 4596瀏覽 ? 0回復
智能對話新紀元：大模型推理服務

AI論文解讀 ? 3484瀏覽 ? 0回復
最新綜述帶你解鎖AI的個性化服務 | 綜述！擴散模型：AI藝術創作背后的"魔法引擎"

arnoldzhw ? 6005瀏覽 ? 0回復
使用MCTS顯著提升LLM在復雜任務的推理能力

arnoldzhw ? 9755瀏覽 ? 0回復
如何進行高效的LLM分布式推理

zhcs333 ? 4313瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優化

amei2000go ? 7973瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優化

amei2000go ? 4890瀏覽 ? 0回復
MHA -> GQA：提升 LLM 推理效率

amei2000go ? 4709瀏覽 ? 0回復
NVIDIA、CMU 和華盛頓大學發布了“FlashInfer”：一個為 LLM 推理和服務提供最先進內核實現的內核庫

Halo咯咯 ? 8847瀏覽 ? 0回復
五個開源 MCP 服務器，讓你的AI代理勢如破竹

51CTO技術棧 ? 5509瀏覽 ? 0回復
給大模型裝上「記憶外掛」：LMCache讓推理速度提升10倍！

AI小新 ? 2232瀏覽 ? 0回復
LMCache+VLLM實戰指南，讓大模型的推理速度顯著提升！

AI小新 ? 2645瀏覽 ? 0回復