精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構

發布于 2025-9-12 07:21
瀏覽
0收藏

博客文章(Inside vLLM: Anatomy of a High-Throughput LLM Inference System)深度解析了vLLM的內部架構,我簡單整理了一下

LLM引擎和引擎核心

LLM引擎是vLLM的基礎構建塊。單獨而言,它已經能夠實現高吞吐量推理——但僅限于離線設置。

使用以下離線推理代碼片段作為示例:

from vllm import LLM, SamplingParams


prompts = [
    "Hello, my name is",
    "The president of the United States is",
]


sampling_params = SamplingParams(temperature=0.8, top_p=0.95)


def main():
    llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
    outputs = llm.generate(prompts, sampling_params)


if __name__ == "__main__":
    main()


LLM引擎構造函數

引擎的主要組件包括:

?vLLM配置:包含所有用于配置模型、緩存、并行性等的參數

?處理器:通過驗證、分詞和處理將原始輸入轉換為EngineCoreRequests

?引擎核心客戶端:在我們的示例中使用InprocClient

?輸出處理器:將原始EngineCoreOutputs轉換為用戶看到的RequestOutput

引擎核心本身由幾個子組件組成:

?模型執行器:驅動模型的前向傳播

?結構化輸出管理器:用于引導解碼

?調度器:決定哪些請求進入下一個引擎步驟,包含:

     –策略設置(FCFS或優先級)

     –等待和運行隊列

     –KV緩存管理器——分頁注意力的核心


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

KV緩存管理器維護一個free_block_queue——可用KV緩存塊的池(通常有數十萬個,取決于VRAM大小和塊大小)。

標準transformer層的塊大小計算如下:

2 * block_size (默認=16) * num_kv_heads * head_size * dtype_num_bytes (bf16為2)


在模型執行器構建期間,創建Worker對象,并執行三個關鍵程序:

1.初始化設備:

–分配CUDA設備并檢查模型數據類型支持

–驗證是否有足夠的VRAM可用

–設置分布式設置

2.加載模型:

–實例化模型架構

–加載模型權重

–調用model.eval()

–可選:對模型調用torch.compile()

3.初始化KV緩存:

–獲取每層KV緩存規范

–運行虛擬/分析前向傳播并獲取GPU內存快照

–分配、重塑并綁定KV緩存張量到注意力層

–準備注意力元數據

–捕獲CUDA圖以提高延遲

Generate函數

第一步是驗證并向引擎提供請求。對于每個提示:

1.創建唯一的請求ID并記錄到達時間

2.調用輸入預處理器對提示進行分詞

3.將此信息打包到EngineCoreRequest中

4.將請求傳遞到引擎核心,設置狀態為WAITING

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

接下來,只要有請求需要處理,引擎就會重復調用其step()函數。每個步驟有三個階段:

1.調度:選擇在此步驟中運行哪些請求(解碼和/或預填充)

2.前向傳播:運行模型并采樣令牌

3.后處理:將采樣的令牌ID附加到每個請求,去分詞,并檢查停止條件

停止條件包括:

?請求超過其長度限制

?采樣的令牌是EOS ID

?采樣的令牌匹配任何stop_token_ids

?輸出中存在停止字符串

調度器

推理引擎處理兩種主要的工作負載類型:

?預填充請求——對所有提示令牌的前向傳播。這些通常是計算密集型的

?解碼請求——僅對最近令牌的前向傳播。所有較早的KV向量已經被緩存。這些是內存帶寬受限的

V1調度器可以在同一步驟中混合兩種類型的請求,這是更智能的設計選擇。

調度器優先處理解碼請求——即已經在運行隊列中的請求。對于每個這樣的請求:

1.計算要生成的新令牌數量

2.調用KV緩存管理器的allocate_slots函數

3.通過減去令牌數量來更新令牌預算

之后,它處理來自等待隊列的預填充請求。

allocate_slots的功能:

1.計算塊數量——確定必須分配多少個新的KV緩存塊

2.檢查可用性——如果管理器池中沒有足夠的塊,則提前退出

3.分配塊——通過KV緩存管理器的協調器從塊池中獲取前n個塊

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片


運行前向傳播

調用模型執行器的execute_model,主要步驟:

1.更新狀態——從input_batch中修剪已完成的請求

2.準備輸入——從CPU→GPU復制緩沖區;計算位置;構建slot_mapping

3.前向傳播——使用自定義分頁注意力內核運行模型。所有序列被扁平化并連接成一個長的"超級序列"

4.收集最后令牌狀態——提取每個序列最終位置的隱藏狀態并計算logits

5.采樣——根據采樣配置從計算的logits中采樣令牌

前向傳播步驟有兩種執行模式:

?急切模式——啟用急切執行時運行標準PyTorch前向傳播

?"捕獲"模式——當不強制急切時執行/重播預捕獲的CUDA圖

高級特性——擴展核心引擎邏輯

接下來我們深入了解:

分塊預填充

分塊預填充是通過將預填充步驟分成更小的塊來處理長提示的技術。如果沒有它,我們可能會遇到單個很長的請求獨占一個引擎步驟的情況,從而阻止其他預填充請求運行。

例如,讓每個塊包含n(=8)個令牌。執行P的完整預填充將需要≥3個引擎步驟,只有在最后的分塊預填充步驟中我們才會采樣一個新令牌。

在vLLM V1中,通過將long_prefill_token_threshold設置為正整數來啟用分塊預填充。

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

前綴緩存

前綴緩存避免重新計算多個提示在開頭共享的令牌。

關鍵在于long_prefix:定義為任何長于KV緩存塊(默認16個令牌)的前綴。

工作原理:

1.在第一次generate調用期間,引擎調用hash_request_tokens:

–將long_prefix + prompts[0]分成16令牌塊

–對于每個完整塊,計算哈希

–每個結果存儲為包含哈希和其令牌ID的BlockHash對象

2.引擎調用find_longest_cache_hit檢查這些哈希是否已存在于cached_block_hash_to_block中

3.在第二次具有相同前綴的generate調用中,find_longest_cache_hit找到所有n個塊的匹配。引擎可以直接重用這些KV塊

前綴緩存默認啟用。要禁用它:enable_prefix_caching = False。

引導解碼(FSM)

引導解碼是一種技術,在每個解碼步驟中,logits被基于語法的有限狀態機約束。這確保只能采樣語法允許的令牌。

示例代碼:

from vllm.sampling_params import GuidedDecodingParams


guided_decoding_params = GuidedDecodingParams(choice=["Positive", "Negative"])
sampling_params = SamplingParams(guided_decoding=guided_decoding_params)


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

vLLM中的工作原理:

1.在LLM引擎構建時,創建StructuredOutputManager

2.添加請求時,狀態設置為WAITING_FOR_FSM,語法異步編譯

3.在調度期間,如果異步編譯完成,狀態切換到WAITING

4.在前向傳播產生logits后,使用位掩碼將不允許的logits設置為-∞

5.采樣下一個令牌后,通過accept_tokens推進請求的FSM

推測解碼

在自回歸生成中,每個新令牌都需要大型LM的前向傳播。推測解碼通過引入較小的草稿LM來加速這一過程。

步驟:

1.草稿:在小模型上運行并便宜地提議k個令牌

2.驗證:在大模型上對上下文+k個草稿令牌運行一次

3.接受/拒絕

 :從左到右遍歷k個草稿令牌:

–如果大模型的概率≥草稿概率,接受它

–否則,以p_large(token)/p_draft(token)的概率接受它

–在第一次拒絕時停止,或接受所有k個草稿令牌

vLLM V1支持更快但不太準確的提議方案:n-gram、EAGLE和Medusa。

示例配置:

speculative_cnotallow={
    "method": "ngram",
    "prompt_lookup_max": 5,
    "prompt_lookup_min": 3,
    "num_speculative_tokens": 3,
}


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

分離式P/D(預填充/解碼)

預填充和解碼具有非常不同的性能配置文件(計算密集型vs內存帶寬受限),因此分離它們的執行是明智的設計。

在實踐中,我們運行N個vLLM預填充實例和M個vLLM解碼實例,根據實時請求混合自動縮放它們。預填充工作器將KV寫入專用KV緩存服務;解碼工作器從中讀取。


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片


從UniprocExecutor到MultiProcExecutor

當模型權重不再適合單個GPU的VRAM時,第一個選擇是使用張量并行性(例如TP=8)在同一節點的多個GPU上分片模型。如果模型仍然不適合,下一步是跨節點的流水線并行性。

MultiProcExecutor的工作原理:

1.初始化rpc_broadcast_mq消息隊列

2.構造函數循環遍歷world_size并為每個rank生成守護進程

3.每個工作器設置兩個隊列:

–rpc_broadcast_mq(與父進程共享)用于接收工作

–worker_response_mq用于發送響應

4.工作器進入忙循環,阻塞在rpc_broadcast_mq.dequeue上

5.運行時,MultiProcExecutor將請求入隊到所有子工作器的rpc_broadcast_mq中

分布式系統服務vLLM

假設我們有兩個H100節點,想要在它們上運行四個vLLM引擎。如果模型需要TP=4,我們可以這樣配置節點。

在無頭服務器節點上:

vllm serve <model-name>
  --tensor-parallel-size 4
  --data-parallel-size 4
  --data-parallel-size-local 2
  --data-parallel-start-rank 0
  --data-parallel-address <master-ip>
  --data-parallel-rpc-port 13345
  --headless


vLLM中的工作原理:

在無頭節點上,CoreEngineProcManager啟動2個進程,每個運行EngineCoreProc.run_engine_core。每個函數創建一個DPEngineCoreProc,然后進入其忙循環。

在API服務器節點上,我們實例化一個AsyncLLM對象。內部創建一個DPLBAsyncMPClient。

完整的請求生命周期:

1.請求命中API服務器上的create_completion路由

2.函數異步分詞提示,并準備元數據

3.調用AsyncLLM.generate,最終調用DPAsyncMPClient.add_request_async

4.根據DP協調器的狀態進行負載均衡

5.ADD請求發送到選擇的引擎的input_socket

6.在該引擎處:

–輸入線程解除阻塞,從輸入socket解碼數據

–主線程在input_queue上解除阻塞,將請求添加到引擎

–輸出線程在output_queue上解除阻塞并通過輸出socket發送結果

7.這些結果觸發AsyncLLM輸出異步任務,將令牌傳播回FastAPI的create_completion路由

基準測試和自動調優——延遲vs吞吐量

在最高級別上有兩個競爭的指標:

?延遲——從提交請求到返回令牌的時間

?吞吐量——系統每秒可以生成/處理的令牌/請求數量

延遲和吞吐量競爭的本質變得清晰:隨著批大小B↓趨近于1,ITL下降;隨著B↑趨近于無窮大,ITL上升,但吞吐量提高。

屋頂線模型有助于理解:在飽和批B_sat以下,步驟時間由HBM帶寬主導;超出B_sat,內核變為計算受限,步驟時間大致與B成正比。

如何在vLLM中進行基準測試

vLLM提供vllm bench {serve,latency,throughput} CLI:

?latency:使用短輸入(默認32令牌)和小批次(默認8)采樣128個輸出令牌

?throughput:一次性提交固定的提示集(默認:1000個ShareGPT樣本)

?serve:啟動vLLM服務器并通過從泊松分布采樣請求到達間隔時間來模擬真實世界工作負載

本文轉載自??AI帝國??,作者:無影寺

已于2025-9-12 07:21:41修改
收藏
回復
舉報
回復
相關推薦
清纯唯美亚洲激情| 欧美裸体一区二区三区| 蜜桃av久久久亚洲精品| 中文字幕av在线免费观看| 日韩欧美中文| 欧美大肚乱孕交hd孕妇| 久章草在线视频| 毛片在线看片| 久久综合久久综合九色| 成人久久一区二区| www.中文字幕在线观看| 99re66热这里只有精品8| 精品乱人伦小说| 欧美婷婷精品激情| av在线私库| 亚洲欧洲韩国日本视频| 久草精品电影| 99热这里只有精品在线观看| 亚洲一区成人| 欧美日本精品在线| 国产熟女一区二区| 国产精品任我爽爆在线播放| 6080国产精品一区二区| 久久无码高潮喷水| 国产盗摄在线视频网站| 国产精品国产自产拍高清av| 久久精品国产美女| h狠狠躁死你h高h| 日本不卡不码高清免费观看| 97精品一区二区三区| 三级影片在线观看| 成人aaaa| 亚洲网站视频福利| 丰满少妇在线观看资源站| av毛片精品| 日韩一区二区三区免费看| 超碰在线播放91| 日韩一区二区三区在线免费观看 | 蜜桃麻豆影像在线观看| 亚洲三级免费观看| 日日骚一区二区网站| 深夜影院在线观看| 99久久久国产精品| 国产一区二区三区色淫影院| 99在线小视频| 国产一级精品在线| 91视频国产一区| 国产又粗又猛又黄| 久久精品久久99精品久久| 国产精品极品美女在线观看免费| 91视频免费网址| 中文亚洲免费| 欧美中文在线字幕| 国产又粗又爽视频| 久久久水蜜桃av免费网站| 欧美性在线观看| 国产小视频在线免费观看| 99精品免费网| 日本中文字幕久久看| jizz国产在线观看| 丝袜脚交一区二区| 国产精品精品视频一区二区三区| 国产偷人爽久久久久久老妇app| 爽爽淫人综合网网站| 国产极品jizzhd欧美| 日韩精品在线一区二区三区| 美女网站一区二区| 成人黄色在线免费| 亚洲爱爱综合网| 成人精品小蝌蚪| 麻豆蜜桃91| av播放在线观看| 亚洲欧美日韩在线播放| 国产精品无码免费专区午夜| 久草在线资源福利站| 日本高清免费不卡视频| www.久久av.com| 99精品中文字幕在线不卡| 精品一区二区三区四区| 国产毛片欧美毛片久久久| 亚洲91视频| 久久免费观看视频| 中文字幕免费观看| 国产精品资源在线看| 黑人中文字幕一区二区三区| 国产日本在线观看| 怡红院成人在线| 国产精品日产欧美久久久久| 在线视频不卡一区二区| 国产精品69xx| 在线一区二区三区四区| 一级片黄色免费| 无码少妇一区二区三区| 日韩亚洲一区二区| 国产在线拍揄自揄拍| 日韩av中文字幕一区二区| 亚洲一区中文字幕在线观看| 天天插天天干天天操| 国产精品欧美一级免费| 精品少妇在线视频| 久久亚洲精品中文字幕| 精品精品欲导航| 欧美成人久久久免费播放| 黄色亚洲在线| 国产伊人精品在线| 香蕉视频黄在线观看| 日韩毛片视频在线看| 久久精品一区二| 综合中文字幕| yellow中文字幕久久| 一级黄色在线视频| 成人av在线播放网址| 永久久久久久| 欧美色片在线观看| 亚洲精品www| 欧美日韩国产精品综合| 麻豆精品国产传媒mv男同| 精品国产乱码久久久久久108| 欧美13一16娇小xxxx| 色八戒一区二区三区| 动漫av在线免费观看| 天天天综合网| 国产精品久久久久久婷婷天堂| 天天综合网在线观看| 亚洲精品乱码久久久久久黑人| 九九热免费精品视频| 日韩美女毛片| 97热精品视频官网| 性色av蜜臀av| 亚洲精品乱码久久久久久黑人| 日日噜噜夜夜狠狠| 精品成人影院| 国产97色在线| 国产在线一在线二| 欧美色道久久88综合亚洲精品| 亚洲最大视频网| 欧美fxxxxxx另类| 91在线观看欧美日韩| 日本在线观看www| 欧美日韩国产经典色站一区二区三区| 精品无码一区二区三区| 亚洲视频www| 精品视频免费观看| 欧美大胆a人体大胆做受| 精品国产乱码久久| 国产一级片视频| 成人免费av网站| 成人午夜精品久久久久久久蜜臀| 爱高潮www亚洲精品| 欧美成人免费va影院高清| 国产精品视频无码| 亚洲精品美腿丝袜| 亚洲欧美日韩色| 一区二区三区精品视频在线观看| 国产一区二区免费在线观看| 天堂8中文在线最新版在线| 亚洲精品第一国产综合精品| 国产精品国产三级国产专区52| 久久综合久色欧美综合狠狠| 午夜欧美福利视频| 日韩精品久久| 亚洲一区久久久| h片在线观看下载| 亚洲精品国产综合久久| 69亚洲精品久久久蜜桃小说| 国产精品视频麻豆| 蜜桃视频无码区在线观看| 亚洲激情不卡| 欧美日韩高清在线一区| 成人国产一区| 久久影院免费观看| 六月婷婷综合网| 日韩欧美在线免费| 国产精品suv一区二区88| 国产尤物一区二区| 日韩精品 欧美| 成人vr资源| 成人91视频| 国产精品一区二区av影院萌芽| 亚洲午夜国产成人av电影男同| 亚洲无码久久久久久久| 一区二区三区四区视频精品免费 | 成人写真视频| 91成人免费看| 小h片在线观看| 精品久久久av| 亚洲人午夜射精精品日韩| 欧美视频在线观看一区二区| 欧美日韩偷拍视频| 久久亚洲一区二区三区明星换脸| 色啦啦av综合| 亚洲精品影院在线观看| 伊人久久大香线蕉综合75| 国产乱论精品| 国产中文欧美精品| 一个人www视频在线免费观看| 一区二区三区成人精品| 婷婷国产精品| 亚洲国产精品一区| 国产精品一区久久久久| 亚洲日本中文字幕区| 在线免费亚洲电影| 精品在线小视频| 国产精品高清免费在线观看| www.成人av.com| 天天爽夜夜爽视频| 不卡中文字幕| 国产欧美欧洲| 91成人app| 日韩暖暖在线视频| 波多野结衣乳巨码无在线观看| 色噜噜国产精品视频一区二区 | 美国黄色小视频| 久久人人97超碰com| 日韩精品――色哟哟| 久久婷婷久久| 久久手机在线视频| 天天综合亚洲| 亚洲国产高清国产精品| 婷婷精品在线| 国产乱人伦精品一区二区| 96视频在线观看欧美| 国产精品黄页免费高清在线观看| 51漫画成人app入口| 精品中文字幕在线| 含羞草www国产在线视频| 一区二区三区 在线观看视| 天堂在线资源8| 亚洲第一视频网| 精品人妻aV中文字幕乱码色欲 | www.cao超碰| 视频一区中文字幕国产| av片中文字幕| 鲁大师成人一区二区三区| 人妻少妇精品无码专区二区| 欧美精品三级| av动漫在线免费观看| 亚洲先锋影音| 亚洲精品偷拍视频| 午夜精品毛片| 日韩video| 欧美片第1页综合| 欧美大片免费播放| 欧美+日本+国产+在线a∨观看| 在线免费观看成人网| 99久久影视| 在线免费一区| 欧美日韩一区二区三区四区在线观看| 国产资源第一页| 久久精品青草| 亚洲中文字幕无码一区二区三区| 欧美日韩亚洲一区三区| 大陆av在线播放| 一本久道久久综合狠狠爱| 日本韩国欧美在线观看| 校园激情久久| 午夜免费一区二区| 九九精品视频在线看| 深爱五月综合网| 国产精品99久久久久久久女警 | 欧美精品videosex性欧美| 韩国日本一区| 91成人在线视频| 欧美free嫩15| 91系列在线播放| 给我免费播放日韩视频| 欧美高清性xxxxhdvideosex| 欧美在线免费看视频| 欧美xxxx吸乳| 在线亚洲欧美| 日韩肉感妇bbwbbwbbw| 国产一区二区影院| 国产二级一片内射视频播放| 久久久久久97三级| 亚洲色图27p| 亚洲国产日韩精品| 中文字幕xxxx| 日韩一区二区三区四区| 视频一区二区在线播放| 中文字幕久热精品视频在线| 在线三级中文| 欧洲中文字幕国产精品 | 国产伦精品一区二区三区在线| 欧美亚洲tv| 在线观看欧美亚洲| 99亚洲一区二区| www.这里只有精品| 成人激情文学综合网| 91成人精品一区二区| 亚洲专区一二三| 中文字幕视频二区| 亚洲成人1234| 国产精品一区二区三区四区色| 麻豆一区二区在线观看| 345成人影院| 7777精品久久久大香线蕉小说 | 日韩中文在线字幕| 麻豆九一精品爱看视频在线观看免费| 天天干天天草天天| 97se亚洲国产综合自在线| 国产在线观看免费视频软件| 精品国产91久久久久久| 97在线播放免费观看| 亚洲美女激情视频| 污片视频在线免费观看| 国产精品都在这里| 久久综合五月婷婷| 91社在线播放| 日韩成人一区二区三区在线观看| 蜜臀aⅴ国产精品久久久国产老师| 国产精品毛片高清在线完整版| 日本少妇久久久| 欧美一级黄色片| 91在线视频| 日韩av第一页| 欧美调教网站| 国产资源在线视频| 国产成人av一区二区| www.com.av| 欧美色综合影院| 国产三级视频在线| 奇米四色中文综合久久| 精品国产影院| av片在线免费| 国产一区二三区| 91人妻一区二区三区蜜臀| 欧美综合一区二区| 全色精品综合影院| 91精品国产91久久久久久久久| 视频二区欧美| 国产精品啪啪啪视频| 国产伦精品一区二区三区免费迷 | 亚洲成人日韩| 亚洲人视频在线| 国产精品久久久久影院色老大 | 神马影院一区二区| 久久久国产精品一区二区中文| 国产美女视频免费观看下载软件| 亚洲一区二区av电影| 亚洲第一大网站| 久久97精品久久久久久久不卡| 在线播放成人| 黄色免费高清视频| 国产麻豆精品95视频| 欧美性x x x| 欧美一级日韩免费不卡| 99自拍视频在线观看| 91精品国产综合久久久久久丝袜| 一区二区中文| 第一页在线视频| 天涯成人国产亚洲精品一区av| 熟妇人妻一区二区三区四区| 韩国精品美女www爽爽爽视频| 国产精品videossex| 欧美久久久久久久久久久久久| 99视频精品在线| 九九精品免费视频| 一区二区三区四区在线观看视频| 成人精品动漫| 黄色一级片网址| 国产成人免费在线观看不卡| 国产精品日日夜夜| 日韩国产欧美区| 黄色精品视频| 免费成人深夜夜行网站视频| 国产成人免费视频一区| 国产精品999久久久| 日韩精品视频三区| 成人免费黄色| 国产美女作爱全过程免费视频| 91一区二区在线| 亚洲系列在线观看| 欧美日韩国产成人| 婷婷精品在线观看| 亚洲xxx在线观看| 亚洲成人自拍偷拍| 国产69精品久久app免费版| 亚洲一区二区自拍| 国产深夜精品| 开心激情五月网| 亚洲国产成人精品女人久久久 | 欧美私模裸体表演在线观看| 黄色免费在线观看| 九九九九精品| 久久精品国产一区二区三| 国产亚洲成人精品| 亚洲人成网站在线播| 国产中文欧美日韩在线| a在线视频观看| 亚洲特黄一级片| 欧美性孕妇孕交| 91久久国产综合久久蜜月精品 | 国产精品美女www| 黄色精品免费| 精品国产大片大片大片| 亚洲精品99久久久久中文字幕| 国产精品国产亚洲精品| 国产黄色一级网站| 一区二区三区蜜桃网| av在线电影播放|