精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達、DeepSeek集體跟進!18個月前被忽視,如今統治AI推理

人工智能 新聞
2024年,加州大學圣地亞哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多時間,迅速從實驗室概念成長為行業標準,被NVIDIA、vLLM等主流大模型推理框架采用,預示著AI正邁向「模塊化智能」的新時代。

如果說「摩爾定律」認為計算能力每18個月翻倍,如今大模型推理成本的下降速度,已遠超「摩爾定律」關于計算能力迭代速度的預測。

這并非只是芯片性能提升之功,更重要的是來自推理系統的自身進化。而加速這一進化的,源自一個在DistServe系統中首次提出并實踐的「解耦推理」理念。

該系統由加州大學圣地亞哥分校的「Hao AI Lab」于2024年3月推出,并提出了一個簡單而大膽的設想:

將大模型的推理過程拆分為「預填充」和「解碼」兩個階段,并讓它們分別在獨立的計算資源池中進行伸縮與調度。

如今,這種解耦推理架構已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用,并開始在大規模、真實推理場景中發揮強大力量。

推出DistServe系統的「Hao AI Lab」,由加州大學圣地亞哥分校助理教授Hao Zhang領導,他也是2025年谷歌機器學習與系統青年教師獎的獲得者。

加州大學圣地亞哥分校助理教授Hao Zhang

「Hao AI Lab」團隊,2025年還獲得了NVIDIA贈送的DGX B200系統,用于強化AI研究基礎設施。

「Hao AI Lab」團隊獲得NVIDIA贈送的DGX B200系統

Hao Zhang團隊以「解耦推理」的最初設計者身份,詳細回顧了「預填充-解碼」解耦架構(prefill-decode disaggregation)如何從研究概念走向生產系統,以及在大模型推理持續擴展的背景下,解耦推理又將如何演進。

從同址部署到解耦推理

在DistServe出現之前,大多數推理框架都采用「同址部署」方式:

即在同一塊GPU上同時執行「預填充」(prefill)和「解碼」(decode)階段。

在每一次推理迭代中,調度器會盡可能將多個用戶請求打包成一個批次,運行一輪計算,然后為這些請求各生成一個輸出token。

這種稱為「連續批處理」技術最早由Orca提出,后由vLLM推廣。

這種方法曾因其先進性而成為業界標準做法,但它同時也有兩個根本性的限制。

一是干擾。

「prefill」和「decode」共享同一塊GPU,它們的延遲(latency)會不可避免地相互干擾。

即使采用了「分塊預填充」等緩解措施,一個大型預填充請求仍可能讓TPOT(time-per-output-token)膨脹2到3倍,尤其在負載突發時更為明顯。

如上圖(上),當prefill(橙色)與decode(藍色)同址部署時,兩者互相干擾,導致decode階段停滯;上圖(下),當將prefill與decode分離到不同機器時,兩者即可無干擾地順暢運行。

二是耦合伸縮。

在實際生產環境中,企業級應用通常將TTFT(time-to-first-token)和TPOT視為關鍵的用戶體驗延遲指標。

當prefill和decode被部署在同一組GPU上時,資源分配器必須同時滿足兩種最壞情況的延遲需求。

這意味著系統需要過度預留資源,導致計算資源利用率低下,整體效率不佳。

隨著部署規模不斷擴大、延遲要求日益嚴格,以上兩個問題產生的成本也隨之劇增。

正是這些現實痛點推動了DistServe的出現。

DistServe通過將prefill與decode拆分為獨立的計算池,徹底打破二者的干擾,并首次實現了獨立伸縮,使其可以各自獨立地滿足TTFT和TPOT的延遲要求,同時保持高整體效率。

最初推出DistServe時,Hao Zhang團隊便認為這將是一個具有顛覆性的想法。

但出乎意料的是,它最初并未獲得廣泛采用。

在2024年的大部分時間里,開源社區都對這一思路持保留態度,因為對原有推理系統進行深度的架構重構,需要大量工程投入。

然而到了2025年,局面突然發生逆轉:幾乎所有主流的大模型推理棧都將「解耦」視為默認方案。

首先,主要是由于越來越多企業將大模型作為其核心業務組件,「延遲控制」成為決定業務增長乃至生死存亡的關鍵因素。

而DistServe正好擊中了這一痛點:它讓prefill和decode的延遲易于觀測和控制,且在真實生產環境中可持續優化。

其次,隨著模型體量急劇擴大、訪問流量激增,推理系統必須擴展到數百乃至上千張GPU才能支撐這些龐大且變化劇烈的負載。

在這種規模下,「解耦架構」的優勢完全顯現:它可以為不同階段獨立分配資源,并靈活配合多種并行策略,實現極高的資源利用率。

第三,「解耦」意味著系統架構的可組合性大大增強。

當下的解耦推理

如今,曾被視為激進的架構理念,已經成為大模型推理的主要設計原則之一。

幾乎所有與大模型推理相關的生產級框架——從編排層、推理引擎、存儲系統,甚至到新興的硬件架構,都以某種形式采用了這一解耦推理的思想。

在編排層,最有代表性的是NVIDIA Dynamo。

NVIDIA Dynamo架構示意圖

NVIDIA Dynamo是目前最先進、最成熟的開源數據中心級分布式推理框架之一,專為P/D解耦而設計。

此外,還有llm-d、Ray Serve等都是基于解耦推理架構。

在存儲層,由芝加哥大學團隊開發的LMCache通過加速從prefill實例到decode實例的KV緩存移動來優化P/D解耦過程。

LMCache架構示意圖

Kimi AI團隊開發的MoonCake,以「KVCache中心化」為核心思想,構建了一個面向P/D解耦的LLM推理平臺。

它將系統中未充分利用的存儲介質統一抽象為一個集中式KV緩存池,從而使prefill實例可以無縫將緩存傳輸給集群中decode實例。

MoonCake架構示意圖

如今,LMCache與MoonCake已成為大規模LLM推理系統的標準存儲后端。

在核心引擎層,幾乎所有開源的LLM推理引擎,如SGLang與vLLM,都已原生支持「解耦推理」。

解耦推理的未來

「預填充-解碼解耦」的推理理念,在2025年已逐漸成熟。

然而,這僅僅是一個起點。

從更長遠的角度看,解耦不僅是一種「架構技巧」,更是一種更深層次的系統哲學:

打破神經網絡推理中的「計算單體」結構,讓系統能夠在計算、存儲與通信之間實現自由重組。

而學術界和工業界也正在探索多種新方向,推動解耦架構邁向「通用分解式推理(Generalized Disaggregated Inference)」階段。

計算層面的解耦

1. Attention-FFN解耦(Attention-FFN Disaggregation)

以往的P/D解耦主要解決了「上下文輸入與自回歸輸出」的階段性分離問題,但模型內部結構仍然被視為不可拆解的整體。

如今,研究者開始嘗試在模型層級上細化解耦粒度。

2025年,MIT CSAIL與DeepSeek Research提出了「Attention–FFN Disaggregation」框架,將Transformer的注意力模塊(Attention)與前饋層(Feed Forward Network,FFN)分別放置于不同計算節點。

這種架構可以使不同節點利用異構硬件優勢。

這意味著未來的推理系統可能不再是「每個節點運行完整模型副本」,而是每個節點運行模型的一個功能子模塊。

2. 流水線解耦(Pipeline Disaggregation)

解耦架構的另一種自然延伸,是跨層級的流水線分解。目前已有多個研究團隊提出框架,如:

  • Stanford DAWN的「DisPipe」系統;
  • Meta AI的「HydraPipe」;
  • Alibaba DAI-Lab的「PipeShard」。

這些系統都嘗試讓推理過程在不同節點之間以「階段流」的方式流動,從而實現全局流水線化推理。

這種方式能讓不同階段的計算使用不同類型的加速器,更適合未來多芯片異構系統。

跨模態與多模型的解耦

1. 模態分解

隨著多模態大模型的出現,推理系統正面臨更復雜的資源編排問題,將它們全部塞入同一推理流程會導致資源利用率顯著下降。

因此,未來的趨勢是將多模態推理解耦為多個模態子推理流,再在編排層通過調度器進行異步融合。

2. 多模型協同

在推理系統中同時運行多個LLM或專用子模型也變得常見,這些架構天然適合解耦化設計。

內存與緩存體系的解耦

當前的解耦體系仍依賴于「集中式KV緩存池」或「共享SSD集群」,未來的研究方向在于讓緩存體系本身也實現多層解耦與自治調度。

1. 層級化緩存架構

MIT與ETH Zürich的研究者提出HiKV(Hierarchical KV Cache)框架,將KV緩存劃分為三個層次:

  • L1:GPU本地緩存;
  • L2:節點共享緩存;
  • L3:分布式持久緩存。

系統根據上下文熱度自動遷移KV片段,從而使解耦推理的內存管理更具彈性。

2.存算協同

一些硬件廠商已開始探索原生支持解耦架構的芯片,這意味著未來的「解耦推理」不僅是軟件架構問題,而將演化為軟硬件一體化體系。

邁向模塊化智能

如Google Brain Zürich與FAIR等一些研究團隊,提出更加大膽的設想:

既然推理可以解耦,那么訓練與持續學習是否也能被解耦?

他們將模型的學習過程被分為多個相互獨立的子任務,每個子任務在不同硬件上運行,并通過共享梯度緩存與語義路由器實現跨任務通信。

這種理念被稱作「解耦學習」,被視為解決大模型「災難性遺忘」與「持續適應」問題的潛在關鍵路徑:

目前,Google Zürich團隊的內部項目「Hope」模型就是在該思想指導下誕生的。

過去十年,深度學習系統的趨勢是「從分散到集中」,所有計算匯聚在單體模型中。

而如今的趨勢正在反轉:從集中到解耦。

這種演進并非倒退,而是一種成熟的標志,AI系統也正在走向模塊化智能,不同功能模塊可獨立演化、獨立擴展、獨立優化。

而「解耦推理」正是這一趨勢的起點。

未來,或許將看到「解耦學習」「解耦推理」「解耦認知」三者融合的智能架構體系。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-05-20 09:44:13

人工智能機器人

2025-05-20 14:37:33

AI工具GenAI安全風險

2011-08-17 10:04:13

vSphere 5虛擬化

2025-03-19 10:10:43

2010-01-28 10:11:18

IT金飯碗

2024-03-28 07:00:00

英偉達云計算

2025-04-18 09:43:38

2023-11-06 18:02:28

Linux實用命令

2022-06-01 16:47:53

AI模型開源

2019-11-04 09:32:50

云計算數據中心技術

2012-11-28 15:53:16

災難恢復

2019-08-30 12:01:48

2025-10-15 00:00:05

2025-07-28 08:42:00

2025-02-27 09:09:45

2017-02-08 09:51:27

JavaScript細節

2023-08-04 14:31:43

Python核心項目

2023-10-24 18:05:00

2025-08-07 09:13:00

2023-05-26 17:15:45

點贊
收藏

51CTO技術棧公眾號

精品一区二区成人精品| 国产在线日韩精品| 亚洲午夜在线观看视频在线| 国产一区二区三区av在线| 久久久成人免费视频| 不卡一区综合视频| 精品欧美乱码久久久久久| 久草热视频在线观看| 毛片在线能看| 国产精品一品视频| 欧美一级免费视频| 在线观看美女av| 女一区二区三区| 欧美日韩黄色影视| 久久久久久免费看| 黄色在线观看网站| 久久久久成人黄色影片| 91在线无精精品一区二区| 亚洲天堂一区在线| 亚洲精品a级片| 精品中文视频在线| 麻豆免费在线观看视频| 成人黄色视屏网站| 欧美日韩黄色大片| 四虎精品欧美一区二区免费| 国产在线网站| 99精品久久久久久| av成人综合网| 一区二区三区免费在线视频| 免费在线亚洲| 久久久久久综合网天天| 亚洲 欧美 变态 另类 综合| 九色精品国产蝌蚪| 亚洲第一黄色网| 免费黄色在线播放| 精品久久国产一区| 欧美日韩精品一区二区三区 | 中文字幕人妻一区二区| 日韩视频在线直播| 欧美精品aⅴ在线视频| 一级黄色香蕉视频| 国偷自产一区二区免费视频| 午夜视频在线观看一区| 成人小视频在线观看免费| 麻豆视频网站在线观看| 中日韩免费视频中文字幕| 日本日本精品二区免费| 天堂a中文在线| 久久综合九色综合欧美98| 极品尤物一区二区三区| 性感美女福利视频| 国产成人亚洲精品狼色在线| 91综合免费在线| 亚洲av无码乱码在线观看性色| 国精产品一区一区三区mba视频| 国产精品自拍偷拍| 国产又粗又黄视频| 久久99最新地址| 92国产精品视频| 亚洲欧美强伦一区二区| 成人h动漫精品| 久久国产精品一区二区三区| 三级毛片在线免费看| 久久久久久9999| 日韩aⅴ视频一区二区三区| 国产午夜在线视频| 国产精品久久久久影院色老大| 亚洲欧美日韩精品在线| 黄在线免费看| 亚洲福利一二三区| 国内性生活视频| 亚洲成人不卡| 欧美高清一级片在线| 四虎国产精品免费| 欧美重口另类| 在线观看中文字幕亚洲| 91制片厂在线| 国内精品久久久久久久97牛牛| 久久久伊人欧美| 国产区一区二区三| 日本中文字幕一区二区有限公司| 成人免费网站在线观看| 性一交一乱一色一视频麻豆| 97久久久精品综合88久久| 日本高清不卡一区二区三| 日本免费在线观看| 亚洲高清在线精品| 韩国中文字幕av| 日韩精品一区二区三区中文字幕 | 国产日韩av在线| 丰满少妇在线观看bd| 91片黄在线观看| 亚洲欧美日韩综合一区| 久草在线视频资源| 日本高清免费不卡视频| a级大片免费看| 蜜臀av免费一区二区三区| 久久久www成人免费精品| 久视频在线观看| 免费在线观看成人| 粉嫩高清一区二区三区精品视频| 国模精品一区二区| 一区二区三区国产精品| 中文字幕在线导航| 国内自拍欧美| 久久资源免费视频| 国产一卡二卡三卡| 丁香婷婷综合网| 91香蕉视频网址| av综合电影网站| 日韩精品一区二区三区视频| 51妺嘿嘿午夜福利| 亚洲国产mv| 亚洲精品欧美一区二区三区| 国产在线中文字幕| 欧美日韩美女在线观看| 一区二区三区人妻| 久久密一区二区三区| 2021久久精品国产99国产精品| 国产日韩精品suv| 欧美激情一区二区| 97视频在线免费播放| aaa国产精品视频| 久久天天躁狠狠躁老女人| 日本中文字幕在线观看视频| 99热这里都是精品| 日韩国产成人无码av毛片| 欧美男男gaygay1069| 亚洲天堂av在线播放| 日本一级片免费看| 成人一级片网址| 日韩美女爱爱视频| 99国产精品免费网站| 久久综合五月天| 一区二区三区午夜| 成人免费在线观看入口| 一区二区三区 欧美| 国产探花在线精品| 日韩av免费在线看| 久香视频在线观看| 一本大道久久a久久精品综合| 黄色免费视频网站| 1024精品一区二区三区| 国产精品欧美久久| free性m.freesex欧美| 亚洲第一精品夜夜躁人人躁| 久一区二区三区| eeuss国产一区二区三区| 99久久免费观看| 999久久久精品一区二区| 久久久久成人网| 香蕉视频成人在线| 色综合天天综合网天天狠天天| 亚洲av无码成人精品国产| 免费在线成人| 亚洲精品久久久久久一区二区| 日韩经典一区| 菠萝蜜影院一区二区免费| 99国产精品一区二区三区| 亚洲靠逼com| 国产精品熟妇一区二区三区四区 | 黄色片一级视频| 禁果av一区二区三区| 国产精品视频一区国模私拍 | 超碰日本道色综合久久综合 | 欧美日韩精品一二三区| 日韩一区二区三区四区视频| 久久国产综合精品| 日本xxx免费| 超碰成人在线观看| 欧美专区第一页| av中文字幕在线| 91精品国产综合久久精品| 久久久久久国产精品免费播放| 99久久精品免费看国产| 不卡av免费在线| 国产国产精品| 国产99视频精品免费视频36| 亚洲v.com| 色噜噜久久综合伊人一本| jlzzjlzz亚洲女人18| 五月婷婷色综合| 天天操天天干天天操天天干| 国产乱国产乱300精品| 欧美亚洲日本一区二区三区 | 国产又粗又长又爽视频| 精品亚洲免a| 欧美一区二区三区免费视| 午夜免费播放观看在线视频| 精品免费日韩av| 69视频免费看| 亚洲最快最全在线视频| 美女被到爽高潮视频| 国产精品系列在线观看| 国产免费成人在线| 欧美va天堂| 欧美一区二区三区四区五区六区 | 日本不卡在线观看| 国产精品成人3p一区二区三区| 91av视频在线播放| 国产二区三区在线| 亚洲欧美国产日韩天堂区| 国产国语亲子伦亲子| 色偷偷久久一区二区三区| 九九在线观看视频| 国产精品久久久久久久久动漫| yjizz视频| 国产在线播精品第三| 日韩欧美在线播放视频| 欧美va天堂在线| 亚洲激情一区二区| 欧美国产极品| av一区二区三区免费| 久久亚洲精品人成综合网| 欧美一区二区.| 好久没做在线观看| 久久久成人av| 日本视频在线观看| 亚洲第一福利视频| www.色呦呦| 欧美一区二区性放荡片| 又骚又黄的视频| 色婷婷久久久久swag精品| 日韩精品一区二区三| 一区二区三区日本| 日韩女优一区二区| 亚洲欧洲日韩在线| 精品人体无码一区二区三区| 久久久久久**毛片大全| 毛茸茸多毛bbb毛多视频| 成人a免费在线看| 欧美xxxxx少妇| 国产精品99久久久久| 亚洲欧美日本一区二区| 久久66热re国产| 在线观看岛国av| 麻豆精品一二三| 无限资源日本好片| 青青草97国产精品免费观看| 成人免费毛片播放| 日本亚洲三级在线| 三级在线免费看| 蜜桃av一区二区| 久久久久久久久久久久久久久国产| 男女男精品网站| 三级视频中文字幕| 精品一区二区三区免费| 热久久久久久久久| 国产一区二区三区免费看| 亚洲理论中文字幕| 国产精品99久久久| 中文字幕第3页| 97se亚洲国产综合自在线不卡| 好吊色视频一区二区三区| 不卡视频一二三| 9.1成人看片免费版| 国产亚洲一区二区三区| 九一在线免费观看| 亚洲视频中文字幕| 精品无码一区二区三区电影桃花| 亚洲精品伦理在线| 精品在线播放视频| 一本久久a久久免费精品不卡| 久久久久久亚洲av无码专区| 欧美另类z0zxhd电影| 亚洲精品国产精| 亚洲精品wwww| 成人在线播放视频| 久久久国产精品免费| ****av在线网毛片| 国产精品电影久久久久电影网| 狂野欧美性猛交xxxx| 亚洲综合日韩在线| 米奇精品关键词| 日韩欧美亚洲区| 欧美日韩国产在线一区| 日韩精品―中文字幕| 日韩电影免费在线| 成年人看片网站| 久久久久青草大香线综合精品| 久久精品色妇熟妇丰满人妻| 亚洲一区免费在线观看| 亚洲婷婷综合网| 91精品国产综合久久精品app | 毛片精品免费在线观看| 成人av影院在线观看| 国产精品jvid在线观看蜜臀| 24小时成人在线视频| 韩国成人一区| 99久久婷婷| 成人性免费视频| 麻豆国产欧美日韩综合精品二区| 欧洲成人午夜精品无码区久久| 久久综合色天天久久综合图片| 久草福利资源在线| 亚洲成av人片在线观看无码| 中文字幕+乱码+中文乱码www| 日韩欧美色综合网站| 户外极限露出调教在线视频| 久久久久久国产三级电影| 中文字幕日本一区二区| 成人区精品一区二区| 成人免费看片39| 无码中文字幕色专区| 精品一区二区三区在线观看国产| 国产伦精品一区三区精东| 亚洲欧洲精品天堂一级| 全部毛片永久免费看| 日韩欧美久久一区| 成人午夜电影在线观看| 午夜精品理论片| 日韩免费成人| 亚洲综合欧美日韩| 新67194成人永久网站| 亚洲熟妇一区二区| 国产精品久久久久7777按摩| 国产精品美女久久久久av爽| 欧美一级生活片| 欧美三级电影一区二区三区| 日本国产欧美一区二区三区| 国产精品极品| www.日本三级| 国产精品自拍av| 亚洲欧洲综合网| 欧美在线看片a免费观看| 天天操天天舔天天干| 欧美激情2020午夜免费观看| 国产一精品一av一免费爽爽| 在线成人性视频| 免费欧美在线视频| 国产真人做爰视频免费| 一本到三区不卡视频| 天天在线女人的天堂视频| 久久久人成影片一区二区三区| 国产精品xnxxcom| 在线无限看免费粉色视频| 琪琪一区二区三区| www.av天天| 欧美综合一区二区| 黄色片在线播放| 国产精品高清在线| 欧美日韩激情在线一区二区三区| 欧美二区在线视频| 久久综合久久综合久久| 五月天激情国产综合婷婷婷| 日韩hd视频在线观看| 热三久草你在线| 欧美日韩一区二区三| 首页综合国产亚洲丝袜| 我和岳m愉情xxxⅹ视频| 色88888久久久久久影院按摩| 青青草免费观看免费视频在线| 日韩av电影手机在线| 九一亚洲精品| 在线观看日本一区二区| 日韩一区中文字幕| 性猛交xxxx乱大交孕妇印度| 欧美猛男性生活免费| 国产成人一二| 91视频 -- 69xx| 欧美高清在线精品一区| 亚洲熟妇无码久久精品| 久久亚洲精品毛片| 波多野结衣欧美| 青青草原av在线播放| 国产免费观看久久| 99久久国产热无码精品免费| 久久久久久久999精品视频| 久久久久观看| 538在线视频观看| 亚洲免费av观看| 少妇人妻偷人精品一区二区| 国产mv免费观看入口亚洲| 日本电影一区二区| 超碰人人cao| 欧美性猛交xxxx偷拍洗澡| 思思99re6国产在线播放| 成人3d动漫一区二区三区91| 在线亚洲成人| 看黄色录像一级片| 精品国产乱码久久久久久免费| 一级毛片久久久| 在线视频不卡国产| 99久久久久免费精品国产| 中国女人真人一级毛片| 色综合天天狠天天透天天伊人| 婷婷成人综合| 色男人天堂av| 色综合色综合色综合 | 97成人精品区在线播放| 日韩av自拍| 无码人妻精品一区二区三| 欧美自拍偷拍午夜视频| 国产丝袜精品丝袜| 新呦u视频一区二区| 成人av在线影院| 亚洲一区二区视频在线播放| 97精品一区二区视频在线观看| 成人系列视频| 800av在线播放|