英偉達、DeepSeek集體跟進！18個月前被忽視，如今統治AI推理

2025-11-10 09:03:00

人工智能新聞

2024年，加州大學圣地亞哥分校「Hao AI Lab」提出了DistServe的解耦推理理念，短短一年多時間，迅速從實驗室概念成長為行業標準，被NVIDIA、vLLM等主流大模型推理框架采用，預示著AI正邁向「模塊化智能」的新時代。

如果說「摩爾定律」認為計算能力每18個月翻倍，如今大模型推理成本的下降速度，已遠超「摩爾定律」關于計算能力迭代速度的預測。

這并非只是芯片性能提升之功，更重要的是來自推理系統的自身進化。而加速這一進化的，源自一個在DistServe系統中首次提出并實踐的「解耦推理」理念。

該系統由加州大學圣地亞哥分校的「Hao AI Lab」于2024年3月推出，并提出了一個簡單而大膽的設想：

將大模型的推理過程拆分為「預填充」和「解碼」兩個階段，并讓它們分別在獨立的計算資源池中進行伸縮與調度。

如今，這種解耦推理架構已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用，并開始在大規模、真實推理場景中發揮強大力量。

推出DistServe系統的「Hao AI Lab」，由加州大學圣地亞哥分校助理教授Hao Zhang領導，他也是2025年谷歌機器學習與系統青年教師獎的獲得者。

加州大學圣地亞哥分校助理教授Hao Zhang

「Hao AI Lab」團隊，2025年還獲得了NVIDIA贈送的DGX B200系統，用于強化AI研究基礎設施。

「Hao AI Lab」團隊獲得NVIDIA贈送的DGX B200系統

Hao Zhang團隊以「解耦推理」的最初設計者身份，詳細回顧了「預填充-解碼」解耦架構（prefill-decode disaggregation）如何從研究概念走向生產系統，以及在大模型推理持續擴展的背景下，解耦推理又將如何演進。

從同址部署到解耦推理

在DistServe出現之前，大多數推理框架都采用「同址部署」方式：

即在同一塊GPU上同時執行「預填充」（prefill）和「解碼」（decode）階段。

在每一次推理迭代中，調度器會盡可能將多個用戶請求打包成一個批次，運行一輪計算，然后為這些請求各生成一個輸出token。

這種稱為「連續批處理」技術最早由Orca提出，后由vLLM推廣。

這種方法曾因其先進性而成為業界標準做法，但它同時也有兩個根本性的限制。

一是干擾。

「prefill」和「decode」共享同一塊GPU，它們的延遲（latency）會不可避免地相互干擾。

即使采用了「分塊預填充」等緩解措施，一個大型預填充請求仍可能讓TPOT（time-per-output-token）膨脹2到3倍，尤其在負載突發時更為明顯。

如上圖（上），當prefill（橙色）與decode（藍色）同址部署時，兩者互相干擾，導致decode階段停滯；上圖（下），當將prefill與decode分離到不同機器時，兩者即可無干擾地順暢運行。

二是耦合伸縮。

在實際生產環境中，企業級應用通常將TTFT（time-to-first-token）和TPOT視為關鍵的用戶體驗延遲指標。

當prefill和decode被部署在同一組GPU上時，資源分配器必須同時滿足兩種最壞情況的延遲需求。

這意味著系統需要過度預留資源，導致計算資源利用率低下，整體效率不佳。

隨著部署規模不斷擴大、延遲要求日益嚴格，以上兩個問題產生的成本也隨之劇增。

正是這些現實痛點推動了DistServe的出現。

DistServe通過將prefill與decode拆分為獨立的計算池，徹底打破二者的干擾，并首次實現了獨立伸縮，使其可以各自獨立地滿足TTFT和TPOT的延遲要求，同時保持高整體效率。

最初推出DistServe時，Hao Zhang團隊便認為這將是一個具有顛覆性的想法。

但出乎意料的是，它最初并未獲得廣泛采用。

在2024年的大部分時間里，開源社區都對這一思路持保留態度，因為對原有推理系統進行深度的架構重構，需要大量工程投入。

然而到了2025年，局面突然發生逆轉：幾乎所有主流的大模型推理棧都將「解耦」視為默認方案。

首先，主要是由于越來越多企業將大模型作為其核心業務組件，「延遲控制」成為決定業務增長乃至生死存亡的關鍵因素。

而DistServe正好擊中了這一痛點：它讓prefill和decode的延遲易于觀測和控制，且在真實生產環境中可持續優化。

其次，隨著模型體量急劇擴大、訪問流量激增，推理系統必須擴展到數百乃至上千張GPU才能支撐這些龐大且變化劇烈的負載。

在這種規模下，「解耦架構」的優勢完全顯現：它可以為不同階段獨立分配資源，并靈活配合多種并行策略，實現極高的資源利用率。

第三，「解耦」意味著系統架構的可組合性大大增強。

當下的解耦推理

如今，曾被視為激進的架構理念，已經成為大模型推理的主要設計原則之一。

幾乎所有與大模型推理相關的生產級框架——從編排層、推理引擎、存儲系統，甚至到新興的硬件架構，都以某種形式采用了這一解耦推理的思想。

在編排層，最有代表性的是NVIDIA Dynamo。

NVIDIA Dynamo架構示意圖

NVIDIA Dynamo是目前最先進、最成熟的開源數據中心級分布式推理框架之一，專為P/D解耦而設計。

此外，還有llm-d、Ray Serve等都是基于解耦推理架構。

在存儲層，由芝加哥大學團隊開發的LMCache通過加速從prefill實例到decode實例的KV緩存移動來優化P/D解耦過程。

LMCache架構示意圖

Kimi AI團隊開發的MoonCake，以「KVCache中心化」為核心思想，構建了一個面向P/D解耦的LLM推理平臺。

它將系統中未充分利用的存儲介質統一抽象為一個集中式KV緩存池，從而使prefill實例可以無縫將緩存傳輸給集群中decode實例。

MoonCake架構示意圖

如今，LMCache與MoonCake已成為大規模LLM推理系統的標準存儲后端。

在核心引擎層，幾乎所有開源的LLM推理引擎，如SGLang與vLLM，都已原生支持「解耦推理」。

解耦推理的未來

「預填充-解碼解耦」的推理理念，在2025年已逐漸成熟。

然而，這僅僅是一個起點。

從更長遠的角度看，解耦不僅是一種「架構技巧」，更是一種更深層次的系統哲學：

打破神經網絡推理中的「計算單體」結構，讓系統能夠在計算、存儲與通信之間實現自由重組。

而學術界和工業界也正在探索多種新方向，推動解耦架構邁向「通用分解式推理（Generalized Disaggregated Inference）」階段。

計算層面的解耦

1. Attention-FFN解耦（Attention-FFN Disaggregation）

以往的P/D解耦主要解決了「上下文輸入與自回歸輸出」的階段性分離問題，但模型內部結構仍然被視為不可拆解的整體。

如今，研究者開始嘗試在模型層級上細化解耦粒度。

2025年，MIT CSAIL與DeepSeek Research提出了「Attention–FFN Disaggregation」框架，將Transformer的注意力模塊（Attention）與前饋層（Feed Forward Network,FFN）分別放置于不同計算節點。

這種架構可以使不同節點利用異構硬件優勢。

這意味著未來的推理系統可能不再是「每個節點運行完整模型副本」，而是每個節點運行模型的一個功能子模塊。

2. 流水線解耦（Pipeline Disaggregation）

解耦架構的另一種自然延伸，是跨層級的流水線分解。目前已有多個研究團隊提出框架，如：

Stanford DAWN的「DisPipe」系統；
Meta AI的「HydraPipe」；
Alibaba DAI-Lab的「PipeShard」。

這些系統都嘗試讓推理過程在不同節點之間以「階段流」的方式流動，從而實現全局流水線化推理。

這種方式能讓不同階段的計算使用不同類型的加速器，更適合未來多芯片異構系統。

跨模態與多模型的解耦

1. 模態分解

隨著多模態大模型的出現，推理系統正面臨更復雜的資源編排問題，將它們全部塞入同一推理流程會導致資源利用率顯著下降。

因此，未來的趨勢是將多模態推理解耦為多個模態子推理流，再在編排層通過調度器進行異步融合。

2. 多模型協同

在推理系統中同時運行多個LLM或專用子模型也變得常見，這些架構天然適合解耦化設計。

內存與緩存體系的解耦

當前的解耦體系仍依賴于「集中式KV緩存池」或「共享SSD集群」，未來的研究方向在于讓緩存體系本身也實現多層解耦與自治調度。

1. 層級化緩存架構

MIT與ETH Zürich的研究者提出HiKV（Hierarchical KV Cache）框架，將KV緩存劃分為三個層次：

L1：GPU本地緩存；
L2：節點共享緩存；
L3：分布式持久緩存。

系統根據上下文熱度自動遷移KV片段，從而使解耦推理的內存管理更具彈性。

2.存算協同

一些硬件廠商已開始探索原生支持解耦架構的芯片，這意味著未來的「解耦推理」不僅是軟件架構問題，而將演化為軟硬件一體化體系。

邁向模塊化智能

如Google Brain Zürich與FAIR等一些研究團隊，提出更加大膽的設想：

既然推理可以解耦，那么訓練與持續學習是否也能被解耦？

他們將模型的學習過程被分為多個相互獨立的子任務，每個子任務在不同硬件上運行，并通過共享梯度緩存與語義路由器實現跨任務通信。

這種理念被稱作「解耦學習」，被視為解決大模型「災難性遺忘」與「持續適應」問題的潛在關鍵路徑：

目前，Google Zürich團隊的內部項目「Hope」模型就是在該思想指導下誕生的。

過去十年，深度學習系統的趨勢是「從分散到集中」，所有計算匯聚在單體模型中。

而如今的趨勢正在反轉：從集中到解耦。

這種演進并非倒退，而是一種成熟的標志，AI系統也正在走向模塊化智能，不同功能模塊可獨立演化、獨立擴展、獨立優化。

而「解耦推理」正是這一趨勢的起點。

未來，或許將看到「解耦學習」「解耦推理」「解耦認知」三者融合的智能架構體系。

責任編輯：張燕妮來源：新智元

AI 大模型計算