英偉達、DeepSeek集體跟進!18個月前被忽視,如今統治AI推理
如果說「摩爾定律」認為計算能力每18個月翻倍,如今大模型推理成本的下降速度,已遠超「摩爾定律」關于計算能力迭代速度的預測。
這并非只是芯片性能提升之功,更重要的是來自推理系統的自身進化。而加速這一進化的,源自一個在DistServe系統中首次提出并實踐的「解耦推理」理念。
該系統由加州大學圣地亞哥分校的「Hao AI Lab」于2024年3月推出,并提出了一個簡單而大膽的設想:
將大模型的推理過程拆分為「預填充」和「解碼」兩個階段,并讓它們分別在獨立的計算資源池中進行伸縮與調度。

如今,這種解耦推理架構已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用,并開始在大規模、真實推理場景中發揮強大力量。

推出DistServe系統的「Hao AI Lab」,由加州大學圣地亞哥分校助理教授Hao Zhang領導,他也是2025年谷歌機器學習與系統青年教師獎的獲得者。

加州大學圣地亞哥分校助理教授Hao Zhang
「Hao AI Lab」團隊,2025年還獲得了NVIDIA贈送的DGX B200系統,用于強化AI研究基礎設施。

「Hao AI Lab」團隊獲得NVIDIA贈送的DGX B200系統
Hao Zhang團隊以「解耦推理」的最初設計者身份,詳細回顧了「預填充-解碼」解耦架構(prefill-decode disaggregation)如何從研究概念走向生產系統,以及在大模型推理持續擴展的背景下,解耦推理又將如何演進。
從同址部署到解耦推理
在DistServe出現之前,大多數推理框架都采用「同址部署」方式:
即在同一塊GPU上同時執行「預填充」(prefill)和「解碼」(decode)階段。
在每一次推理迭代中,調度器會盡可能將多個用戶請求打包成一個批次,運行一輪計算,然后為這些請求各生成一個輸出token。
這種稱為「連續批處理」技術最早由Orca提出,后由vLLM推廣。
這種方法曾因其先進性而成為業界標準做法,但它同時也有兩個根本性的限制。
一是干擾。
「prefill」和「decode」共享同一塊GPU,它們的延遲(latency)會不可避免地相互干擾。
即使采用了「分塊預填充」等緩解措施,一個大型預填充請求仍可能讓TPOT(time-per-output-token)膨脹2到3倍,尤其在負載突發時更為明顯。

如上圖(上),當prefill(橙色)與decode(藍色)同址部署時,兩者互相干擾,導致decode階段停滯;上圖(下),當將prefill與decode分離到不同機器時,兩者即可無干擾地順暢運行。
二是耦合伸縮。
在實際生產環境中,企業級應用通常將TTFT(time-to-first-token)和TPOT視為關鍵的用戶體驗延遲指標。
當prefill和decode被部署在同一組GPU上時,資源分配器必須同時滿足兩種最壞情況的延遲需求。
這意味著系統需要過度預留資源,導致計算資源利用率低下,整體效率不佳。
隨著部署規模不斷擴大、延遲要求日益嚴格,以上兩個問題產生的成本也隨之劇增。
正是這些現實痛點推動了DistServe的出現。
DistServe通過將prefill與decode拆分為獨立的計算池,徹底打破二者的干擾,并首次實現了獨立伸縮,使其可以各自獨立地滿足TTFT和TPOT的延遲要求,同時保持高整體效率。
最初推出DistServe時,Hao Zhang團隊便認為這將是一個具有顛覆性的想法。
但出乎意料的是,它最初并未獲得廣泛采用。
在2024年的大部分時間里,開源社區都對這一思路持保留態度,因為對原有推理系統進行深度的架構重構,需要大量工程投入。
然而到了2025年,局面突然發生逆轉:幾乎所有主流的大模型推理棧都將「解耦」視為默認方案。
首先,主要是由于越來越多企業將大模型作為其核心業務組件,「延遲控制」成為決定業務增長乃至生死存亡的關鍵因素。
而DistServe正好擊中了這一痛點:它讓prefill和decode的延遲易于觀測和控制,且在真實生產環境中可持續優化。
其次,隨著模型體量急劇擴大、訪問流量激增,推理系統必須擴展到數百乃至上千張GPU才能支撐這些龐大且變化劇烈的負載。
在這種規模下,「解耦架構」的優勢完全顯現:它可以為不同階段獨立分配資源,并靈活配合多種并行策略,實現極高的資源利用率。
第三,「解耦」意味著系統架構的可組合性大大增強。
當下的解耦推理
如今,曾被視為激進的架構理念,已經成為大模型推理的主要設計原則之一。
幾乎所有與大模型推理相關的生產級框架——從編排層、推理引擎、存儲系統,甚至到新興的硬件架構,都以某種形式采用了這一解耦推理的思想。
在編排層,最有代表性的是NVIDIA Dynamo。

NVIDIA Dynamo架構示意圖
NVIDIA Dynamo是目前最先進、最成熟的開源數據中心級分布式推理框架之一,專為P/D解耦而設計。
此外,還有llm-d、Ray Serve等都是基于解耦推理架構。

在存儲層,由芝加哥大學團隊開發的LMCache通過加速從prefill實例到decode實例的KV緩存移動來優化P/D解耦過程。

LMCache架構示意圖
Kimi AI團隊開發的MoonCake,以「KVCache中心化」為核心思想,構建了一個面向P/D解耦的LLM推理平臺。
它將系統中未充分利用的存儲介質統一抽象為一個集中式KV緩存池,從而使prefill實例可以無縫將緩存傳輸給集群中decode實例。

MoonCake架構示意圖
如今,LMCache與MoonCake已成為大規模LLM推理系統的標準存儲后端。
在核心引擎層,幾乎所有開源的LLM推理引擎,如SGLang與vLLM,都已原生支持「解耦推理」。
解耦推理的未來
「預填充-解碼解耦」的推理理念,在2025年已逐漸成熟。
然而,這僅僅是一個起點。
從更長遠的角度看,解耦不僅是一種「架構技巧」,更是一種更深層次的系統哲學:
打破神經網絡推理中的「計算單體」結構,讓系統能夠在計算、存儲與通信之間實現自由重組。
而學術界和工業界也正在探索多種新方向,推動解耦架構邁向「通用分解式推理(Generalized Disaggregated Inference)」階段。
計算層面的解耦
1. Attention-FFN解耦(Attention-FFN Disaggregation)
以往的P/D解耦主要解決了「上下文輸入與自回歸輸出」的階段性分離問題,但模型內部結構仍然被視為不可拆解的整體。
如今,研究者開始嘗試在模型層級上細化解耦粒度。
2025年,MIT CSAIL與DeepSeek Research提出了「Attention–FFN Disaggregation」框架,將Transformer的注意力模塊(Attention)與前饋層(Feed Forward Network,FFN)分別放置于不同計算節點。
這種架構可以使不同節點利用異構硬件優勢。
這意味著未來的推理系統可能不再是「每個節點運行完整模型副本」,而是每個節點運行模型的一個功能子模塊。
2. 流水線解耦(Pipeline Disaggregation)
解耦架構的另一種自然延伸,是跨層級的流水線分解。目前已有多個研究團隊提出框架,如:
- Stanford DAWN的「DisPipe」系統;
- Meta AI的「HydraPipe」;
- Alibaba DAI-Lab的「PipeShard」。
這些系統都嘗試讓推理過程在不同節點之間以「階段流」的方式流動,從而實現全局流水線化推理。
這種方式能讓不同階段的計算使用不同類型的加速器,更適合未來多芯片異構系統。
跨模態與多模型的解耦
1. 模態分解
隨著多模態大模型的出現,推理系統正面臨更復雜的資源編排問題,將它們全部塞入同一推理流程會導致資源利用率顯著下降。
因此,未來的趨勢是將多模態推理解耦為多個模態子推理流,再在編排層通過調度器進行異步融合。
2. 多模型協同
在推理系統中同時運行多個LLM或專用子模型也變得常見,這些架構天然適合解耦化設計。
內存與緩存體系的解耦
當前的解耦體系仍依賴于「集中式KV緩存池」或「共享SSD集群」,未來的研究方向在于讓緩存體系本身也實現多層解耦與自治調度。
1. 層級化緩存架構
MIT與ETH Zürich的研究者提出HiKV(Hierarchical KV Cache)框架,將KV緩存劃分為三個層次:
- L1:GPU本地緩存;
- L2:節點共享緩存;
- L3:分布式持久緩存。
系統根據上下文熱度自動遷移KV片段,從而使解耦推理的內存管理更具彈性。
2.存算協同
一些硬件廠商已開始探索原生支持解耦架構的芯片,這意味著未來的「解耦推理」不僅是軟件架構問題,而將演化為軟硬件一體化體系。
邁向模塊化智能
如Google Brain Zürich與FAIR等一些研究團隊,提出更加大膽的設想:
既然推理可以解耦,那么訓練與持續學習是否也能被解耦?
他們將模型的學習過程被分為多個相互獨立的子任務,每個子任務在不同硬件上運行,并通過共享梯度緩存與語義路由器實現跨任務通信。
這種理念被稱作「解耦學習」,被視為解決大模型「災難性遺忘」與「持續適應」問題的潛在關鍵路徑:
目前,Google Zürich團隊的內部項目「Hope」模型就是在該思想指導下誕生的。
過去十年,深度學習系統的趨勢是「從分散到集中」,所有計算匯聚在單體模型中。
而如今的趨勢正在反轉:從集中到解耦。
這種演進并非倒退,而是一種成熟的標志,AI系統也正在走向模塊化智能,不同功能模塊可獨立演化、獨立擴展、獨立優化。
而「解耦推理」正是這一趨勢的起點。
未來,或許將看到「解耦學習」「解耦推理」「解耦認知」三者融合的智能架構體系。
































