如何實現大模型的降本增效?淺析LLMs場景中緩存的作用
首先緩存這個詞大家應該都比較清楚了,無論是在應用服務、數據處理等技術中都會用到緩存技術,用于加速數據查詢效率,減少底層額外計算資源的消耗,是一個非常重要且強大的技術。
簡單來說:用于將頻繁訪問的數據或計算存儲在更快、更易于訪問的位置。
這使得信息檢索更加迅速,減少了重復執行相同操作或獲取相同數據的需要。
本質上,緩存充當一種短期記憶,有助于提高系統性能和效率。
通常意義上,緩存對服務帶來的好處有幾點:
- 響應時間提升:緩存數據比重新計算或從原始源獲取要快得多,尤其在 LLM 系統中。
- 服務器負載減少:通過從緩存中提供頻繁請求的數據,主服務器承受的壓力更小。
- 帶寬節省:緩存可以顯著減少網絡上傳輸的數據量。
- 提升用戶體驗:更快的響應時間帶來更流暢的交互和更高的用戶滿意度。
- 成本效益:通過減少計算和網絡資源,緩存可以降低運營成本。
而傳統緩存和LLMs的緩存其實也有實現方式上的區別和雷同,比如二者其實都是規避存儲頻繁的訪問,來提升訪問性能;都是通過空間來換取時間;同時,對于緩存策略上面也相似。
與此同時,又有些不同,LLMs緩存處理起來會更加復雜,它依賴于上下文的數據,同時有更加復雜的緩存策略。
例如:
關鍵詞緩存 :這涉及根據輸入查詢的精確匹配來緩存響應。它更簡單,但靈活性較低。
語義緩存 :這是一種更高級的方法,根據查詢的含義來緩存響應,即使措辭略有不同也能匹配。
關鍵詞緩存
考慮以下查詢:
法國的首都是哪里?
告訴我法國的首都!
為了實現關鍵詞緩存,我們將首先對兩個查詢進行分詞:
["what", "is", "the", "capital", "of", "france"], 和
2. ["tell", "me", "the", "capital", "of", "france"]
然后通過移除停用詞、詞干提取或詞形還原來規范化標記:
["capital", "france"]
["capital", "france"]
現在我們可以使用標準化后的詞語來生成緩存鍵。
語義緩存
使用 Sentence Embedding(例如 S-BERT)等技術將兩個查詢表示為向量。
計算向量表示之間的相似度。
如果相似度高于閾值,則認為這兩個查詢相似,并使用相同的緩存鍵。
下面來重點介紹一些關于LLMs場景中緩存的作用
在LLMs場景中緩存的作用
大模型場景與傳統應用相比,緩存的價值被放大了數倍。這是因為大模型涉及的數據體量龐大、計算過程復雜、硬件資源昂貴。緩存的引入,往往能帶來質的變化。
2.1 推理場景中的緩存
(1) KV Cache(Key-Value Cache)
在 Transformer 推理過程中,每生成一個新 Token,都需要基于已有 Token 的 Attention 計算。如果不做緩存,每一步都要重新計算全部歷史序列,代價極其高昂。

通過KV Cache 可以將歷史 Token 的 Key/Value 張量緩存下來,使得后續推理只需計算新 Token 與已有緩存的 Attention,而無需重復計算歷史部分。
這樣帶來的好處在于:
延遲顯著降低(O(n2) → O(n))
GPU/TPU 資源消耗減少
在長文本推理和對話生成中尤為重要
(2) Prompt 緩存
在 ChatGPT、Claude 這類對話模型中,用戶的上下文提示(Prompt)可能包含幾千字甚至上萬字。若每次推理都重新計算整個 Prompt,會極大浪費算力。

因此,平臺會緩存用戶 Session 的前置計算結果,僅在新輸入部分做增量計算。
效果:
顯著提升交互體驗
節省重復 Session 的 Token 處理
(3)Embedding Cache
緩存文本/圖像的向量化表示,避免重復 Embedding。
Embedding 緩存的核心作用是:
- 語義相似性 :基于嵌入的鍵可以捕捉查詢的含義,使得語義相似的查詢能夠命中同一個緩存。
- 減少冗余 :通過在嵌入級別進行緩存,我們避免了重新計算嵌入和執行冗余的數據庫查詢。
- 可擴展性 :對于具有高查詢量的大規模系統,語義緩存確保資源得到有效利用,減少計算時間和成本。
- 而對于Embedding 緩存的應用場景包括:RAG、搜索、推薦、相似度計算。
優點:
- 節省向量計算成本(GPU/CPU)
- 與向量數據庫配合效果更佳
- 提升檢索響應速度
缺點:
- 占用存儲空間較大(向量維度高)
- 緩存一致性管理復雜(Embedding 更新時需同步)
(4)數據加載緩存(I/O Cache)
在訓練模型中,需要加載海量數據提供給模型使用,而數據基本都是在對象存儲等云端服務中,而對訓練/微調數據集做本地化緩存,可以有效減少遠端存儲訪問。
優點:
- 提升訓練速度
- 降低存儲系統壓力
- 提高分布式作業的穩定性
缺點:
- 本地存儲容量有限
- 需要緩存淘汰策略(LRU/FIFO)
- 需要和數據一致性策略結合
(5)檢索緩存(RAG Cache)
檢索緩存指: RAG 系統中的檢索結果或候選文檔,將這些內容提前緩存下來,這樣在RAG應用中可以優先從緩存中讀取。
優點:
- 顯著提升查詢響應時間
- 避免向量檢索系統高并發壓力
缺點:
- 緩存過時文檔可能導致答案失效
- 更新代價較高

LLM 緩存面臨的挑戰
- 緩存一致性:確保緩存數據在底層 LLM 更新時保持一致。
- 上下文敏感性:LLM 輸出高度依賴于上下文,使得確定緩存響應何時適用變得具有挑戰性。
- 緩存大小管理:在緩存足夠有用和不過度占用系統資源之間進行平衡。
- 隱私問題:確保敏感或個人信息不會意外地存儲在緩存中。
- 自適應緩存:開發策略以根據查詢和響應不斷變化的模式動態調整緩存。?
本文轉載自??DataForAI??,作者:易程Date

















