如何實現大模型的降本增效？淺析LLMs場景中緩存的作用

DataForAI

發布于 2025-9-22 07:01

瀏覽

0收藏

首先緩存這個詞大家應該都比較清楚了，無論是在應用服務、數據處理等技術中都會用到緩存技術，用于加速數據查詢效率，減少底層額外計算資源的消耗，是一個非常重要且強大的技術。

簡單來說：用于將頻繁訪問的數據或計算存儲在更快、更易于訪問的位置。

這使得信息檢索更加迅速，減少了重復執行相同操作或獲取相同數據的需要。

本質上，緩存充當一種短期記憶，有助于提高系統性能和效率。

通常意義上，緩存對服務帶來的好處有幾點：

響應時間提升：緩存數據比重新計算或從原始源獲取要快得多，尤其在 LLM 系統中。
服務器負載減少：通過從緩存中提供頻繁請求的數據，主服務器承受的壓力更小。
帶寬節省：緩存可以顯著減少網絡上傳輸的數據量。
提升用戶體驗：更快的響應時間帶來更流暢的交互和更高的用戶滿意度。
成本效益：通過減少計算和網絡資源，緩存可以降低運營成本。

而傳統緩存和LLMs的緩存其實也有實現方式上的區別和雷同，比如二者其實都是規避存儲頻繁的訪問，來提升訪問性能；都是通過空間來換取時間；同時，對于緩存策略上面也相似。

與此同時，又有些不同，LLMs緩存處理起來會更加復雜，它依賴于上下文的數據，同時有更加復雜的緩存策略。

例如：

關鍵詞緩存：這涉及根據輸入查詢的精確匹配來緩存響應。它更簡單，但靈活性較低。

語義緩存：這是一種更高級的方法，根據查詢的含義來緩存響應，即使措辭略有不同也能匹配。

關鍵詞緩存

考慮以下查詢：

法國的首都是哪里？

告訴我法國的首都！

為了實現關鍵詞緩存，我們將首先對兩個查詢進行分詞：

["what", "is", "the", "capital", "of", "france"], 和

2. ["tell", "me", "the", "capital", "of", "france"]

然后通過移除停用詞、詞干提取或詞形還原來規范化標記：

["capital", "france"]

現在我們可以使用標準化后的詞語來生成緩存鍵。

語義緩存

使用 Sentence Embedding（例如 S-BERT）等技術將兩個查詢表示為向量。

計算向量表示之間的相似度。

如果相似度高于閾值，則認為這兩個查詢相似，并使用相同的緩存鍵。

下面來重點介紹一些關于LLMs場景中緩存的作用

在LLMs場景中緩存的作用

大模型場景與傳統應用相比，緩存的價值被放大了數倍。這是因為大模型涉及的數據體量龐大、計算過程復雜、硬件資源昂貴。緩存的引入，往往能帶來質的變化。

2.1 推理場景中的緩存

(1) KV Cache（Key-Value Cache）

在 Transformer 推理過程中，每生成一個新 Token，都需要基于已有 Token 的 Attention 計算。如果不做緩存，每一步都要重新計算全部歷史序列，代價極其高昂。

如何實現大模型的降本增效？淺析LLMs場景中緩存的作用-AI.x社區

通過KV Cache 可以將歷史 Token 的 Key/Value 張量緩存下來，使得后續推理只需計算新 Token 與已有緩存的 Attention，而無需重復計算歷史部分。

這樣帶來的好處在于：

延遲顯著降低（O(n2) → O(n)）

GPU/TPU 資源消耗減少

在長文本推理和對話生成中尤為重要

(2) Prompt 緩存

在 ChatGPT、Claude 這類對話模型中，用戶的上下文提示（Prompt）可能包含幾千字甚至上萬字。若每次推理都重新計算整個 Prompt，會極大浪費算力。

如何實現大模型的降本增效？淺析LLMs場景中緩存的作用-AI.x社區

因此，平臺會緩存用戶 Session 的前置計算結果，僅在新輸入部分做增量計算。

效果：

顯著提升交互體驗

節省重復 Session 的 Token 處理

（3）Embedding Cache

緩存文本/圖像的向量化表示，避免重復 Embedding。

Embedding 緩存的核心作用是：

語義相似性：基于嵌入的鍵可以捕捉查詢的含義，使得語義相似的查詢能夠命中同一個緩存。
減少冗余：通過在嵌入級別進行緩存，我們避免了重新計算嵌入和執行冗余的數據庫查詢。
可擴展性：對于具有高查詢量的大規模系統，語義緩存確保資源得到有效利用，減少計算時間和成本。
而對于Embedding 緩存的應用場景包括：RAG、搜索、推薦、相似度計算。

優點：

節省向量計算成本（GPU/CPU）
與向量數據庫配合效果更佳
提升檢索響應速度

缺點：

占用存儲空間較大（向量維度高）
緩存一致性管理復雜（Embedding 更新時需同步）

（4）數據加載緩存（I/O Cache）

在訓練模型中，需要加載海量數據提供給模型使用，而數據基本都是在對象存儲等云端服務中，而對訓練/微調數據集做本地化緩存，可以有效減少遠端存儲訪問。

優點：

提升訓練速度
降低存儲系統壓力
提高分布式作業的穩定性

缺點：

本地存儲容量有限
需要緩存淘汰策略（LRU/FIFO）
需要和數據一致性策略結合

（5）檢索緩存（RAG Cache）

檢索緩存指： RAG 系統中的檢索結果或候選文檔，將這些內容提前緩存下來，這樣在RAG應用中可以優先從緩存中讀取。

優點：

顯著提升查詢響應時間
避免向量檢索系統高并發壓力

缺點：

緩存過時文檔可能導致答案失效
更新代價較高

如何實現大模型的降本增效？淺析LLMs場景中緩存的作用-AI.x社區

LLM 緩存面臨的挑戰

緩存一致性：確保緩存數據在底層 LLM 更新時保持一致。
上下文敏感性：LLM 輸出高度依賴于上下文，使得確定緩存響應何時適用變得具有挑戰性。
緩存大小管理：在緩存足夠有用和不過度占用系統資源之間進行平衡。
隱私問題：確保敏感或個人信息不會意外地存儲在緩存中。
自適應緩存：開發策略以根據查詢和響應不斷變化的模式動態調整緩存。?

本文轉載自??DataForAI??，作者：易程Date

標簽

LLM

緩存

RAG

已于2025-9-22 07:01:28修改

贊

回復

舉報

回復

相關推薦

探究代碼思維鏈對大模型推理能力的作用

mb5f8eba9bdb0af ? 6423瀏覽 ? 0回復
初創公司如何從零開始訓練出優秀的LLMs

lintoms ? 4136瀏覽 ? 0回復
從零實現大模型-GraphRAG，構建LLM中的關系數據庫

魚蟲子 ? 4612瀏覽 ? 0回復
人工智能在低代碼和無代碼開發中的積極作用

51CTO內容精選 ? 3590瀏覽 ? 0回復
清華大學揭露RAG的雙面性：全面分析揭示大模型中RAG噪聲的作用

AI論文解讀 ? 6449瀏覽 ? 0回復
微軟提出LLM-dCache:GTP驅動本地數據緩存優化的大模型

AI論文解讀 ? 4440瀏覽 ? 0回復
FineTuneBench：商業精細調整API能夠如何融入LLMs中的新知識？

AI論文解讀 ? 3509瀏覽 ? 0回復
AI存儲：存儲系統在優化AI訓練中的關鍵作用

chengganfei ? 8021瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 5387瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 6889瀏覽 ? 0回復
探討大模型預訓練與微調之間的相互作用

NLP工作站 ? 3604瀏覽 ? 0回復
大模型調參技巧—如何實現超參的跨模型尺度遷移

shizhi02 ? 4171瀏覽 ? 0回復
在企業場景中應該怎么部署大模型——大模型企業級部署框架介紹

AI探索時代 ? 4741瀏覽 ? 0回復
LLMs.txt：讓大模型更懂你的 Web 文檔

Baihai_IDP ? 6374瀏覽 ? 0回復
論MCP Server與工作流在智能體開發場景中的作用和區別

九歌AI大模型 ? 3114瀏覽 ? 0回復
降本增效新思路：七牛云“邊轉邊播”的企業級解決方案

七牛云行業應用 ? 1808瀏覽 ? 0回復
從單一場景到復雜場景，聊聊LLMs中Function calling到MCP的技術演進

DataForAI ? 1360瀏覽 ? 0回復
DeepSeek-OCR降本增效，10×暴力壓縮還能讀得清

CourseAI ? 795瀏覽 ? 0回復
企業級AI應用降本增效新思路：零代碼修改，平滑遷移OpenAI服務

七牛云行業應用 ? 219瀏覽 ? 0回復

DataForAI

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

如何實現大模型的降本增效？淺析LLMs場景中緩存的作用

關鍵詞緩存

語義緩存

在LLMs場景中緩存的作用

2.1 推理場景中的緩存

(1) KV Cache（Key-Value Cache）

(2) Prompt 緩存

（3）Embedding Cache

（4）數據加載緩存（I/O Cache）

（5）檢索緩存（RAG Cache）

LLM 緩存面臨的挑戰

目錄