精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

聊聊大模型推理系統(tǒng)之 Arrow:自適應(yīng)調(diào)度實(shí)現(xiàn)請(qǐng)求吞吐提升7.78倍背后的三大創(chuàng)新

人工智能
Arrow?的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑,也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng),導(dǎo)致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點(diǎn)配置極易失衡。

在大模型(LLM)推理服務(wù)中,如何在輸入/輸出長度劇烈波動(dòng)的現(xiàn)實(shí)場景下,依然保持高吞吐與低延遲?傳統(tǒng)靜態(tài)資源分配策略往往導(dǎo)致計(jì)算資源嚴(yán)重浪費(fèi)。近期,來自中國科學(xué)技術(shù)大學(xué)、北航與京東的研究團(tuán)隊(duì)提出了一項(xiàng)名為 Arrow 的自適應(yīng)調(diào)度機(jī)制,通過無狀態(tài)實(shí)例與彈性實(shí)例池,實(shí)現(xiàn)了高達(dá) 7.78 倍 的請(qǐng)求服務(wù)速率提升。這項(xiàng)研究不僅解決了Prefill-Decode 拆分架構(gòu)(PD 拆分)的核心瓶頸,更為大模型服務(wù)系統(tǒng)的彈性化設(shè)計(jì)提供了新范式。

論文鏈接見文末論文鏈接見文末

核心看點(diǎn)

Arrow 的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑,也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng),導(dǎo)致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點(diǎn)配置極易失衡。為此,Arrow 創(chuàng)新性地將計(jì)算實(shí)例設(shè)計(jì)為無狀態(tài)(stateless),使其可隨時(shí)在 Prefill 和 Decode 任務(wù)間切換,徹底消除了傳統(tǒng)“實(shí)例翻轉(zhuǎn)”帶來的分鐘級(jí)延遲。通過實(shí)時(shí)監(jiān)控Time-to-First-Token(TTFT,首字延遲)和Time-per-Output-Token(TPOT,字間延遲)等關(guān)鍵指標(biāo),Arrow 實(shí)現(xiàn)了 SLO(服務(wù)等級(jí)目標(biāo))感知的調(diào)度決策,在多種真實(shí)工作負(fù)載下,請(qǐng)求吞吐率最高提升了 5.62 倍(對(duì)比 PD 共置系統(tǒng))和 7.78 倍(對(duì)比 PD 拆分系統(tǒng))。

研究背景

當(dāng)前,大模型推理服務(wù)普遍采用Transformer架構(gòu),其推理過程分為兩個(gè)階段:Prefill 階段負(fù)責(zé)處理用戶輸入并生成首個(gè)輸出 Token,計(jì)算復(fù)雜度與輸入長度的平方成正比;Decode 階段則以自回歸方式逐個(gè)生成后續(xù) Token,計(jì)算復(fù)雜度與批處理中的總 Token 數(shù)線性相關(guān)。為避免兩階段的相互干擾,學(xué)術(shù)界提出了Prefill-Decode 拆分架構(gòu),將兩種計(jì)算任務(wù)分配給專用的實(shí)例。然而,這種架構(gòu)引入了一個(gè)新問題:如何確定 Prefill 與 Decode 實(shí)例的最優(yōu)配比?

傳統(tǒng)方法依賴離線分析或仿真,但在輸入/輸出長度劇烈波動(dòng)的真實(shí)場景中,靜態(tài)配比無法適應(yīng)動(dòng)態(tài)負(fù)載,導(dǎo)致資源利用率低下。DistServe、Splitwise 等系統(tǒng)雖能動(dòng)態(tài)“翻轉(zhuǎn)”實(shí)例角色,但翻轉(zhuǎn)過程需重啟實(shí)例,耗時(shí)長達(dá)數(shù)分鐘,無法應(yīng)對(duì)突發(fā)流量。因此,如何實(shí)現(xiàn)低延遲、高靈活性的實(shí)例資源動(dòng)態(tài)調(diào)度,成為提升 LLM 服務(wù)系統(tǒng)整體吞吐(goodput)的關(guān)鍵挑戰(zhàn)。

圖片圖片

核心貢獻(xiàn)

圖片圖片

方法創(chuàng)新:無狀態(tài)實(shí)例與彈性實(shí)例池

Arrow 的首要?jiǎng)?chuàng)新是提出了無狀態(tài)實(shí)例(stateless instance)設(shè)計(jì)。在傳統(tǒng)系統(tǒng)中,一個(gè)實(shí)例被固化為 Prefill 或 Decode 角色。而在 Arrow 中,每個(gè)實(shí)例均可處理任意類型的任務(wù)。當(dāng)一個(gè)請(qǐng)求的 Prefill 階段完成后,該請(qǐng)求及其KV Cache(鍵值緩存,存儲(chǔ)中間計(jì)算結(jié)果以避免重復(fù)計(jì)算)可被傳輸至任意其他實(shí)例進(jìn)行 Decode。這使得實(shí)例的角色切換不再是“物理重啟”,而是“邏輯重分配”,實(shí)現(xiàn)了零等待時(shí)間的資源重配。

為了高效管理這些無狀態(tài)實(shí)例,Arrow 設(shè)計(jì)了彈性實(shí)例池(elastic instance pool),包含四個(gè)邏輯池:Prefill 池、Decode 池、P→D 池(正從 Prefill 轉(zhuǎn)向 Decode)和 D→P 池(正從 Decode 轉(zhuǎn)向 Prefill)。全局調(diào)度器通過移動(dòng)實(shí)例在這些池間的歸屬,即可完成角色切換,整個(gè)過程無任何中斷。

理論突破:基于 SLO 的實(shí)時(shí)調(diào)度洞察

圖片圖片

Arrow 的調(diào)度決策并非基于間接的請(qǐng)求長度或利用率,而是直接與 SLO 掛鉤。研究團(tuán)隊(duì)通過分析,得出了幾項(xiàng)關(guān)鍵洞察:

  1. TTFT 具有強(qiáng)可預(yù)測(cè)性:由于 Prefill 時(shí)間與輸入長度的平方成正比,系統(tǒng)可以精確預(yù)測(cè)新請(qǐng)求的 TTFT。Arrow 利用此特性,在請(qǐng)求進(jìn)入隊(duì)列前就判斷其是否可能違反 SLO,從而提前觸發(fā)實(shí)例重配。
  2. TPOT 具有弱可預(yù)測(cè)性但非單調(diào):Decode 階段的延遲受多種因素影響,難以預(yù)測(cè)。但 TPOT 是所有字間延遲的平均值,具有“非單調(diào)性”,即短暫的延遲高峰不一定會(huì)導(dǎo)致 SLO 違規(guī)。因此,Arrow 采取“事后監(jiān)測(cè)”策略,當(dāng)觀察到 TPOT 持續(xù)超標(biāo)時(shí),再調(diào)度更多實(shí)例加入 Decode。

實(shí)證成果:性能顯著超越現(xiàn)有系統(tǒng)

圖片圖片

研究團(tuán)隊(duì)基于 vLLM 框架實(shí)現(xiàn)了 Arrow,并在 Llama-3.1-8B 模型上,使用 Azure Code、BurstGPT 等四種真實(shí)生產(chǎn)流量進(jìn)行測(cè)試。在 90% SLO 達(dá)標(biāo)率的約束下,Arrow 的性能表現(xiàn)如下:

圖片圖片

  • 在高度突發(fā)的 Azure Code 負(fù)載下,Arrow 的可持續(xù)請(qǐng)求速率達(dá)到50 req/s,是 vLLM(PD 共置)的5.62 倍,是 vLLM-disaggregated(PD 拆分)的7.78 倍
  • 在長上下文場景(Mooncake Conversation)下,Arrow 通過將空閑的 Prefill 實(shí)例快速調(diào)度至 Decode 任務(wù),釋放了寶貴的內(nèi)存資源,請(qǐng)求速率提升了3.73 倍(對(duì)比 vLLM)。
  • 消融實(shí)驗(yàn)表明,Arrow 的“SLO 感知”調(diào)度策略比僅采用“最小負(fù)載”策略的基線高出1.67 倍的請(qǐng)求速率,證明了其自適應(yīng)機(jī)制的有效性。
  • 在擴(kuò)展性測(cè)試中,隨著 GPU 數(shù)量從 2 個(gè)增加到 8 個(gè),Arrow 的 SLO 達(dá)標(biāo)率實(shí)現(xiàn)了近似線性增長,展現(xiàn)了強(qiáng)大的橫向擴(kuò)展能力。

行業(yè)意義

Arrow 的研究成果為大模型即服務(wù)(LMaaS)領(lǐng)域指明了一條高效、彈性的技術(shù)路線。它解決了 PD 拆分架構(gòu)從“理論優(yōu)勢(shì)”到“實(shí)踐落地”的最后一公里問題,即動(dòng)態(tài)資源調(diào)度的延遲與靈活性。其設(shè)計(jì)理念與云原生微服務(wù)的彈性思想高度契合,有望成為未來大模型推理平臺(tái)的標(biāo)準(zhǔn)組件。

該工作與我國推動(dòng)算力基礎(chǔ)設(shè)施高效利用的政策導(dǎo)向相符,通過提升單 GPU 的請(qǐng)求處理能力,可顯著降低大模型服務(wù)的運(yùn)營成本和能耗,助力實(shí)現(xiàn)“雙碳”目標(biāo)。未來,Arrow 的架構(gòu)有望推動(dòng)自動(dòng)駕駛智能客服等對(duì)延遲敏感的產(chǎn)業(yè)級(jí)應(yīng)用,實(shí)現(xiàn)更快速、更穩(wěn)定的 AI 交互體驗(yàn)。這一創(chuàng)新,正在悄然推動(dòng)大模型服務(wù)基礎(chǔ)設(shè)施的深層變革。

論文鏈接:Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture[1]

參考資料

[1] Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture: https://arxiv.org/abs/2505.11916

責(zé)任編輯:武曉燕 來源: 機(jī)智流
相關(guān)推薦

2025-09-26 07:49:10

2024-10-21 12:30:52

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-11-02 10:28:03

2025-05-28 02:40:00

AdaptThink推理模型AI

2023-10-23 08:48:04

CSS寬度標(biāo)題

2023-01-18 09:51:56

模型開源

2025-02-13 08:51:23

DeepSeek大模型

2024-11-01 20:25:28

2024-09-27 10:31:22

2025-02-25 09:49:12

2025-06-09 09:32:35

2025-07-08 03:11:00

2024-03-18 10:38:03

模型算法

2024-07-08 13:04:01

2023-12-07 06:51:18

AI模型

2023-12-11 15:40:32

PyTorch代碼大模型

2010-08-24 16:03:22

Div高度

2023-12-14 13:30:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

一区二区日韩电影| 国产在线精品免费av| 亚洲久久久久久久久久久| 国产视频在线视频| 久操免费在线| av电影在线观看一区| 国产成人精品久久亚洲高清不卡| 国产97免费视频| 尤物tv在线精品| 日韩午夜电影av| 久久国产乱子伦免费精品| 久久精品视频免费看| 91一区一区三区| 91网站免费观看| 亚洲天堂一区在线| 欧美女激情福利| 亚洲新中文字幕| 国产污在线观看| 亚洲图片小说区| 精品成人乱色一区二区| 青青视频免费在线观看| av在线播放网| 91在线视频免费观看| 91手机视频在线观看| 日韩av免费播放| 一区二区三区福利| 久久久久久成人精品| 青娱乐国产视频| 麻豆一区二区麻豆免费观看| 欧美一区二区三区视频在线| 久久久久国产一区| 欧美成人精品一区二区男人小说| 亚洲va欧美va人人爽| 激情五月五月婷婷| 性开放的欧美大片| 国产欧美中文在线| 欧美精品与人动性物交免费看| a天堂在线视频| 久久99国内精品| 国产精品久久久999| 日本中文字幕第一页| 999在线观看精品免费不卡网站| 久久精品电影网| 欧美特黄一级片| 999久久久亚洲| 国产午夜精品免费一区二区三区| 国产精品一区二区入口九绯色| av成人综合| 日韩精品一区二区三区中文不卡| gogogo高清免费观看在线视频| 日韩高清成人| 在线一区二区视频| 黄色a级片免费| 一个人看的www视频在线免费观看| 亚洲一区在线观看免费 | 97视频在线观看播放| 欧美被狂躁喷白浆精品| 欧美国产高清| 欧美国产日本高清在线| 国产大片中文字幕| 99精品国产在热久久下载| 69久久夜色精品国产69乱青草| 久久国产精品二区| 亚洲精品男同| 国产成人福利网站| 日韩国产亚洲欧美| 久久国产精品第一页| 成人欧美一区二区三区在线| 99草在线视频| 成人三级伦理片| 久99久在线| 精品电影在线| 国产精品福利av| 国产一级大片免费看| 国产乱妇乱子在线播视频播放网站| 亚洲成人av资源| 久久国产乱子伦免费精品| 精品裸体bbb| 日韩一区二区三区免费看| 年下总裁被打光屁股sp| 林ゆな中文字幕一区二区| 日韩精品极品毛片系列视频| 成人黄色a级片| 牛牛国产精品| 欧美一级大片在线观看| 欧美啪啪小视频| 久久国产精品一区二区| 国产精品国产精品国产专区蜜臀ah | 免费高清在线观看电视| 在线不卡欧美| 国产精品美女呻吟| 亚洲精品国产手机| 久久精品一区二区三区四区| 国产精品夜夜夜爽张柏芝| 欧美v亚洲v| 91福利视频网站| 自拍一级黄色片| 九一精品国产| 精品少妇v888av| 欧美一区二区三区不卡视频| 国产伦精品一区二区三区视频青涩| 国产一区二区自拍| 国产在线观看av| 日韩欧美主播在线| 中文字幕国产高清| 先锋影音国产精品| 久久91亚洲精品中文字幕| 日韩三级一区二区| 东方欧美亚洲色图在线| 午夜视频久久久| h片在线观看视频免费免费| 欧美日韩国产成人在线91| 国产精品一区二区无码对白| 日韩免费一区| 欧美在线视频a| 亚洲国产精品suv| 欧美国产日韩精品免费观看| aa在线观看视频| 亚洲不卡在线| 日韩在线播放av| 欧美性猛交xxxx乱大交hd| 成人黄色在线视频| 美女在线免费视频| 成人四虎影院| 亚洲人成电影网站色xx| www.youjizz.com亚洲| 激情欧美一区二区三区在线观看| 欧美连裤袜在线视频| 操喷在线视频| 精品美女被调教视频大全网站| 蜜桃av.com| 日本欧美一区二区三区乱码| 欧美精品免费观看二区| 97在线视频免费观看完整版| 欧美一区二区三区四区高清| 999精品视频在线观看播放| 青青草视频一区| 日韩av一区二区三区在线| 亚洲小少妇裸体bbw| 亚洲精品美女免费| 日韩精品――中文字幕| 成人av网站在线观看免费| 91传媒免费视频| 亚洲一级大片| 欧美精品激情blacked18| 亚洲国产福利视频| 亚洲图片欧美色图| 国产精品成人99一区无码| 国内在线观看一区二区三区| 成人av资源| 国内在线视频| 欧美一级久久久久久久大片| 日韩影院一区二区| 国产精品18久久久| 日韩一级特黄毛片| 爱高潮www亚洲精品| 91av福利视频| 九色在线播放| 欧美日韩大陆一区二区| 日韩精品一区二区三区在线视频| 九一九一国产精品| 国产又粗又硬又长| silk一区二区三区精品视频| 高清欧美性猛交| 四虎影院在线播放| 在线视频一区二区免费| 粉嫩精品久久99综合一区| 久久激五月天综合精品| 久久久成人精品一区二区三区| 秋霞影院一区| 国内精品国产三级国产在线专| 日韩在线免费看| 欧美在线|欧美| 久久人妻无码aⅴ毛片a片app | 色噜噜久久综合| 欧美巨胸大乳hitomi| 国产美女精品人人做人人爽 | 日本欧美久久久久免费播放网| 亚洲欧美精品| eeuss鲁片一区二区三区| 欧美综合第一页| 色综合久久影院| 精品人在线二区三区| 日韩在线视频不卡| 1024成人网| 强迫凌虐淫辱の牝奴在线观看| 视频一区视频二区中文字幕| 日韩 欧美 自拍| 日韩精品免费一区二区三区竹菊| 国产精品久久久久久久app| 91麻豆一二三四在线| 亚洲精品小视频| 国产伦一区二区| 精品久久在线播放| 国产传媒免费在线观看| 97久久超碰国产精品| 九一精品久久久| av不卡在线看| 日本三日本三级少妇三级66| 精品在线播放| 国产a一区二区| 黄色成人小视频| 992tv在线成人免费观看| 一区二区三区视频在线观看视频| 亚洲福利在线观看| 国产精品无码免费播放 | 国产欧美一区二区三区视频在线观看| 亚洲高清中文字幕| 91高清免费看| 中文字幕乱码一区二区免费| 星空大象在线观看免费播放| 国产最新精品免费| 欧美伦理视频在线观看| 精品999日本| 裸体大乳女做爰69| 精品理论电影在线| 久久久com| 成午夜精品一区二区三区软件| 国产精品视频自在线| 亚洲精品成人图区| 久久久免费观看| av网站在线免费| 最近中文字幕日韩精品| 国产露出视频在线观看| 精品呦交小u女在线| 韩国av免费在线| 欧美一区二区三级| 国产精品嫩草影院桃色| 91久久精品一区二区| 99久在线精品99re8热| 亚洲最大成人网4388xx| 疯狂试爱三2浴室激情视频| 国产精品麻豆一区二区| 懂色av蜜桃av| 久久久精品黄色| www.久久国产| 成人网男人的天堂| 91精品人妻一区二区三区蜜桃2| 韩国精品久久久| av免费一区二区| 老色鬼精品视频在线观看播放| 在线免费视频a| 日韩高清不卡一区二区| 成人性做爰aaa片免费看不忠| 久久精品官网| 美女网站免费观看视频| 久久亚洲二区| 妞干网在线免费视频| 另类亚洲自拍| 成年人观看网站| 爽爽淫人综合网网站| 久草综合在线观看| 日本不卡一区二区三区| 天天操,天天操| 老鸭窝一区二区久久精品| 天天干天天玩天天操| 久久成人18免费观看| 夜夜夜夜夜夜操| 国产精品1区2区3区| 制服丝袜av在线| 91免费视频大全| 91l九色lporny| 中文字幕在线视频一区| 91嫩草丨国产丨精品| 亚洲最色的网站| 日韩av大片在线观看| 色88888久久久久久影院野外 | 日本免费新一区视频| 国产天堂在线播放| 美美哒免费高清在线观看视频一区二区 | 超碰在线97国产| 欧美一区亚洲一区| 成人免费视频观看| 亚洲直播在线一区| 国产精品极品国产中出| 鲁丝一区二区三区免费| 日本久久黄色| 国产肉体ⅹxxx137大胆| 亚洲一卡久久| 色啦啦av综合| 成人av资源站| a级片在线观看| 一区二区三区在线免费| 欧美精品一二三四区 | 懂色av成人一区二区三区| 精品99久久久久久| 成人综合影院| 欧美极品第一页| 色综合天天色| 成人女人免费毛片| 国产成人手机高清在线观看网站| 五月天综合婷婷| 新狼窝色av性久久久久久| 欧美午夜aaaaaa免费视频| 高清不卡一区二区在线| 好吊视频在线观看| 一区二区三区精品| 黄色av一区二区| 亚洲国产精品字幕| 丝袜美腿美女被狂躁在线观看| 久久久综合免费视频| 电影亚洲一区| 精品国产一区二区三区麻豆免费观看完整版 | 日韩欧美你懂的| www.在线视频.com| 91国产在线精品| japansex久久高清精品| 久久福利电影| 在线观看一区| 第一区免费在线观看| 久久婷婷久久一区二区三区| 69av视频在线| 欧美日韩一区久久| 日本亚洲欧美| 久久久久久九九九| 国产精品一区二区精品| 日本成人三级| 一道本一区二区| 日韩女优在线视频| 一区二区三区四区在线| 亚洲中文字幕在线一区| 在线观看日韩www视频免费| 麻豆视频在线看| 粉嫩高清一区二区三区精品视频| 97精品97| 日韩av手机版| 国产网站一区二区| 国产农村妇女aaaaa视频| 精品少妇一区二区三区| 国精产品一区| 国产在线精品播放| 日韩伦理一区| 激情视频免费网站| 国产亚洲制服色| 天堂网一区二区三区| 亚洲精品久久久久久久久久久久久 | 18久久久久久| 日韩mv欧美mv国产网站| 黄色成人在线看| 9久草视频在线视频精品| 日本三级2019| 欧美精品一区男女天堂| 天堂av资源在线观看| 91精品国产一区二区三区动漫| 亚洲国产精品久久久天堂| 中文字幕第一页在线视频| 国产精品福利一区| 国产精品久久免费| 久久福利视频网| 中文久久电影小说| 国产91沈先生在线播放| av网站免费线看精品| 日韩av男人天堂| 日韩精品视频在线| 日韩一区二区三区在线免费观看 | 国产精品实拍| 亚洲在线观看视频网站| 国产综合精品一区| 蜜臀av粉嫩av懂色av| 欧美午夜视频一区二区| 青青草免费在线视频| 国产精品久久久久aaaa九色| 精品一区电影| 九色porny自拍| 亚洲乱码日产精品bd| 亚洲第一页在线观看| 韩剧1988免费观看全集| 网友自拍区视频精品| 亚洲成人av免费看| 亚洲色图欧美在线| 亚洲精品久久久久久久久久久久久久| 性日韩欧美在线视频| 中文字幕亚洲影视| 午夜免费福利视频在线观看| 亚洲人123区| 熟妇高潮一区二区三区| 国产成人精品在线| 亚洲一区二区| 亚洲一区二区观看| 欧美日韩美少妇| 国产天堂在线播放视频| 欧美三日本三级少妇三99| 久久66热偷产精品| 国产精品美女毛片真酒店| 亚洲色图综合久久| 精品亚洲二区| 国产肥臀一区二区福利视频| 久久久久99精品国产片| 国产精品无码AV| 青草热久免费精品视频| 99久久夜色精品国产亚洲1000部| 亚洲天堂2024| 欧美日本高清视频在线观看| 国产一线二线在线观看| 亚洲狠狠婷婷综合久久久| 成人涩涩免费视频| 国产精品视频久久久久久| 欧美有码在线视频| 午夜精品电影| 欧美激情久久久久久久|