精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

賈揚清點贊:3K star量的SGLang上新,加速Llama 405B推理秒殺vLLM、TensorRT-LLM

人工智能 新聞
LMSYS Org 團隊就出手了,推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務引擎。

最近,Meta 開源了最新的 405B 模型(Llama 3.1 405B),把開源模型的性能拉到了新高度。由于模型參數量很大,很多開發者都關心一個問題:怎么提高模型的推理速度?

時隔才兩天,LMSYS Org 團隊就出手了,推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務引擎。在運行 Llama 3.1 405B 時,它的吞吐量和延遲表現都優于 vLLM 和 TensorRT-LLM。

在某些情況下(運行 Llama 系列模型),它的吞吐量甚至能達到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。

圖片

LMSYS Org 團隊是一個由加州大學伯克利分校、加州大學圣地亞哥分校以及卡內基梅隆大學的學生與教職員工共同組建的公開性質的研究團體。他們開發的大模型評測平臺 ——Chatbot Arena 已經成為檢驗大模型能力的重要平臺,也被認為是一種相對公平的評測方式。

SGLang 是該團隊開發的一個用于大型語言模型和視覺語言模型的快速服務框架,于今年 1 月份正式推出,在 GitHub 上已經收獲了超過 3k 的 star 量。

圖片

這次的更新效果驚艷,知名 AI 研究者、Lepton AI 聯合創始人兼 CEO 賈揚清評價說「我一直被我的博士母校加州大學伯克利分校驚艷,因為它不斷交付最先進的人工智能和系統協同設計成果。去年我們看到了 SGLang 的使用,現在它變得更好了。迫不及待地想在產品中部署并嘗試新的 SGLang!」

圖片

為什么 LMSYS Org 要開發并迭代 SGLang 呢?他們在博客中提到,「我們已經運行 Chatbot Arena 平臺一年多,為數百萬用戶提供服務。我們深知高效服務對人工智能產品和研究的重要性。通過運營經驗和深入研究,我們不斷增強底層服務系統,從高級多模型服務框架 FastChat 到高效服務引擎 SGLang Runtime (SRT)。」

「這篇文章的重點是 SGLang Runtime,它是一個用于 LLM 和 VLM 的通用服務引擎。雖然 TensorRT-LLM、vLLM、MLC-LLM 和 Hugging Face TGI 等現有選項各有優點,但我們發現它們有時難以使用、難以定制或性能不佳。這促使我們開發了 SGLang v0.2,旨在創建一個不僅用戶友好、易于修改,而且性能一流的服務引擎。」

與 TensorRT-LLM 和 vLLM 相比,SGLang Runtime 在處理從 Llama-8B 到 Llama-405B 的模型時,以及在 A100 和 H100 GPU 上使用 FP8 和 FP16 時,在在線和離線場景下都能持續提供卓越或有競爭力的性能。SGLang 的性能始終優于 vLLM,在 Llama-70B 上的吞吐量最高是前者的 3.8 倍。它還經常與 TensorRT-LLM 不相上下,甚至超過 TensorRT-LLM,在 Llama-405B 上的吞吐量最高是前者的 2.1 倍。更重要的是,SGLang 是完全開源的,由純 Python 編寫,核心調度器只用了不到 4K 行代碼就實現了。

SGLang 是一個開源項目,采用 Apache 2.0 許可授權。它已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、幾家初創公司和研究機構,產生了數萬億 token,實現了更快的迭代。

以下是幾個框架的對比實驗設置和結果。

基準設置

研究者對離線和在線用例進行基準測試:

離線:他們一次發送 2K 到 3K 個請求,測量輸出吞吐量(token / 秒),即輸出 token 數除以總持續時間。他們測試的合成數據集來自 ShareGPT 數據集。例如,I-512-O-1024 表示平均輸入 512 個 token、平均輸出 1024 個 token 的數據集。五個測試數據集分別為:

  • 數據集 1:I-243-O-770;
  • 數據集 2:I-295-O-770;
  • 數據集 3:I-243-O-386;
  • 數據集 4:I-295-O-386;
  • 數據集 5:I-221-O-201。

在線:他們以每秒 1 到 16 個請求 (RPS) 的速率發送請求,測量端到端延遲的中位數。他們使用合成數據集 I-292-O-579。

他們使用 vLLM 0.5.2(帶默認參數)和 TensorRT-LLM(帶推薦參數和調整后的批大小)。所有引擎都關閉了前綴緩存。目的是在沒有任何附加功能(如推測解碼或緩存)的情況下,對基本性能進行基準測試。他們使用與 OpenAI 兼容的 API 對 SGLang 和 vLLM 進行基準測試,并使用 Triton 接口對 TensorRT-LLM 進行基準測試。

Llama-8B 在一個 A100 上運行(bf16)

研究者從小型模型 Llama-8B 開始測試。下圖顯示了每個引擎在五個不同數據集的離線設置下所能達到的最大輸出吞吐量。TensorRT-LLM 和 SGLang 都能達到每秒約 4000 個 token 的吞吐量,而 vLLM 則稍遜一籌。

下面的在線基準圖顯示了與離線情況類似的趨勢。TensorRT-LLM 和 SGLang 的性能相當,可以保持 RPS > 10,而 vLLM 的延遲在請求率較高時顯著增加。

圖片

Llama-70B 在 8 個 A100 上運行(bf16)

至于在 8 個 GPU 上進行張量并行的較大型 Llama-70B 模型,趨勢與 8B 相似。在下面的離線基準測試中,TensorRT-LLM 和 SGLang 都能達到很高的吞吐量。

圖片

在下圖的在線結果中,TensorRT-LLM 憑借高效的內核實現和運行時間,顯示出較低的延遲。

圖片

Llama-70B 在 8 個 H100 上運行(fp8)

現在來測試 FP8 性能。vLLM 和 SGLang 都使用了 CUTLASS 的 FP8 內核。在離線設置中,SGLang 的批處理調度器非常高效,可以隨著批處理規模的增大而繼續擴展吞吐量,在這種情況下實現了最高吞吐量。其他系統則由于 OOM、缺少大量手動調整或存在其他開銷而無法擴展吞吐量或批大小。在線情況下也是如此,SGLang 和 TensorRT 的中位延遲相似。

圖片

圖片

Llama-405B 在 8 個 H100 上運行(fp8)

最后,研究者在最大的 405B 模型上對各種方法的性能進行了基準測試。由于模型較大,大部分時間都花在了 GPU 內核上。不同框架之間的差距縮小了。TensorRT-LLM 性能不佳的原因可能是 405B 模型剛剛問世,而圖中使用的版本尚未集成一些最新優化。在在線和離線情況下,SGLang 的性能都是最好的。

圖片

圖片

SGLang 概覽

SGLang 是大型語言模型和視覺語言模型的服務框架。它基于并增強了多個開源 LLM 服務引擎(包括 LightLLM、vLLM 和 Guidance)的許多優秀設計。它利用了來自 FlashInfer 的高性能注意力 CUDA 內核,并集成了受 gpt-fast 啟發的 torch.compile。

此外,研究者還引入了一些創新技術,如用于自動 KV 緩存重用的 RadixAttention 和用于快速約束解碼的壓縮狀態機。SGLang 以其完全用 Python 實現的高效批處理調度器而聞名。為了進行公平比較,本博客測試了這些服務引擎在關閉特定場景或工作負載優化(如前綴緩存和推測解碼)后的基本性能。SGLang 的提速是通過適當的工程設計實現的。SGLang 基于 Python 的高效批處理調度器具有良好的擴展性,通常可與使用 C++ 構建的閉源實現相媲美,甚至更勝一籌。

表 1 比較了 SGLang、TensorRT-LLM 和 vLLM 的各個方面。在性能方面,SGLang 和 TensorRT-LLM 都非常出色。在可用性和可定制性方面,SGLang 的輕量級和模塊化內核使其易于定制,而 TensorRT-LLM 復雜的 C++ 技術棧和設置說明使其更難使用和修改。SGLang 的源代碼完全開源,而 TensorRT-LLM 僅部分開源。相比之下,vLLM 的 CPU 調度開銷較高。

研究者還表示,未來他們還將開發長上下文和 MoE 優化等新功能。

使用方法

你可以按照以下步驟輕松服務 Llama 模型:  

1、使用 pip、源代碼或 Docker 安裝 SGLang:https://github.com/sgl-project/sglang/tree/main?tab=readme-ov-file#install

2、啟動服務器:

# Llama 8B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct

# Llama 405B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 --tp 8

3、使用 OpenAI 兼容的 API 發送請求:

curl http://localhost:30000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "prompt": "Say this is a test",
    "max_tokens": 7,
    "temperature": 0
  }'

4、運行基準:  

python3 -m sglang.bench_serving --backend sglang --num-prompts 1000

附錄:詳細的基準設置

重現基準的說明位于 sglang/benchmark/blog_v0_2。

對于所有基準測試,研究者都設置了 ignore_eos 或 min_length/end_id 以確保每個引擎輸出相同數量的 token。他們曾嘗試使用 vLLM 0.5.3.post1,但它在高負載情況下經常崩潰,與部分基準測試中的 vLLM 0.5.2 相比,vLLM 0.5.3.post1 性能似乎差不多甚至更差。因此,他們報告的是 vLLM 0.5.2 的結果。雖然他們知道不同的服務器配置會對服務性能產生重大影響,但他們主要使用每個引擎的默認參數來模擬普通用戶的情況。

對于 8B 和 70B 模型,他們使用 meta-llama/Meta-Llama-3-8B-Instruct 和 meta-llama/Meta-Llama-3-70B-Instruct bf16 檢查點,以及 neuralmagic/Meta-Llama-3-70B-Instruct-FP8 fp8 檢查點。對于 405B 模型,他們在所有基準測試中都使用了虛擬權重。由于 TensorRT-LLM 最新圖像 r24.06 不支持官方 meta-llama/Meta-Llama-3.1-405B-FP8 檢查點中的 fbgemm_fp8 量化,他們在所有框架中都使用了每層 fp8 量化,并對除 lm_head 以外的所有層進行了量化。他們相信這樣可以對所有引擎進行公平的比較。A100 和 H100 GPU 為 80GB SXM 版本。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-02-04 00:00:00

Triton格式TensorRT

2024-10-22 09:17:07

2025-04-24 10:26:40

2024-09-06 13:00:29

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-07-19 09:59:31

2024-07-23 09:20:35

2023-09-11 09:37:58

開源軟件套AI模型

2023-09-10 12:37:38

模型英偉達

2024-01-24 13:11:00

AI模型

2024-11-13 15:00:42

2024-08-02 14:53:00

2024-08-26 10:00:00

模型數據

2025-02-24 12:22:13

DeepSeek開源模型

2023-03-22 13:58:59

離職阿里巴巴

2023-09-25 12:01:42

AI論文

2024-07-24 13:18:17

2025-04-29 07:47:27

2024-10-08 15:00:00

點贊
收藏

51CTO技術棧公眾號

亚洲永久精品ww.7491进入| 中文字幕色呦呦| 国语对白做受69按摩| 99久久婷婷| 日韩亚洲欧美在线| 久久精品国产sm调教网站演员| 青青草观看免费视频在线| 日日夜夜免费精品视频| 久久综合伊人77777尤物| 中国黄色片视频| 99精品在免费线偷拍| 亚洲综合一二三区| 日韩电影天堂视频一区二区| 91久久久久久久久久久久| 亚洲国产日本| 精品国产拍在线观看| 在线天堂www在线国语对白| 久久青草免费| 欧美视频在线观看免费| 艳母动漫在线免费观看| 天天色天天操天天射| 激情国产一区二区 | 中文文字幕文字幕高清| 成人看片毛片免费播放器| 亚洲国产精品一区二区www| 亚洲欧美日韩国产yyy| 无码精品人妻一区二区| 国内精品写真在线观看| 日韩av手机在线看| 久久精品免费在线| 五月精品视频| 一区二区三欧美| 国产十八熟妇av成人一区| 999精品嫩草久久久久久99| 黑人欧美xxxx| 一二三四视频社区在线| 成人免费高清| 中文成人综合网| 欧美日韩另类综合| 懂色av蜜臀av粉嫩av分享吧| 激情六月婷婷综合| 国产精品青青在线观看爽香蕉| 日韩av无码中文字幕| 91精品国产自产在线观看永久∴ | 亚洲av成人无码一二三在线观看| 日韩中文字幕在线一区| 欧美疯狂性受xxxxx喷水图片| av丝袜天堂网| 丝袜美腿诱惑一区二区三区| 精品久久在线播放| 国产欧美精品aaaaaa片| 亚洲性图自拍| 亚洲精品乱码久久久久久久久| 亚洲精品一区二区三区蜜桃久| 九九在线视频| 国产日韩精品一区二区浪潮av| 精品国产一区二区三区四区精华| 黄色av一区二区三区| 国产风韵犹存在线视精品| 91啪国产在线| www.色婷婷.com| 国产电影一区在线| 国产精品12| 日本美女一级片| jvid福利写真一区二区三区| 激情视频一区二区| 色视频在线看| 国产网红主播福利一区二区| 日本欧美精品久久久| 电影在线一区| 国产精品不卡在线观看| 一区不卡字幕| 先锋成人av| 午夜视频在线观看一区二区 | 欧美丰满熟妇bbbbbb| 最新精品国产| 久久久久久久久久久免费精品 | av在线资源网| 中文字幕一区二区三| 日本特级黄色大片| 懂色av一区| 日韩欧美亚洲成人| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 91网站在线播放| 日产精品高清视频免费| 亚洲精品承认| 夜夜嗨av一区二区三区网页| 国产二区视频在线| 欧美影视资讯| 日韩精品中午字幕| 中文字幕一区二区三区人妻电影| 精品国产99| 欧美www在线| 69视频免费在线观看| 美女高潮久久久| 国产另类第一区| 国产区高清在线| 一个色综合av| 污视频网站观看| 亚洲综合影院| 日韩亚洲精品视频| 丰满少妇乱子伦精品看片| 久热成人在线视频| 精品免费一区二区三区蜜桃| 男人天堂久久久| 午夜精品一区二区三区电影天堂 | 在线播放日韩精品| 久久久www成人免费毛片| 久久午夜电影| 99re视频在线播放| 成人精品福利| 精品久久久国产| 特黄视频免费观看| 伦理一区二区| 最好看的2019年中文视频| 成熟人妻av无码专区| 韩日视频一区| 国产精品视频免费观看www| www.国产麻豆| 国产精品网站在线播放| 国产曰肥老太婆无遮挡| 日本黄色一区| 亚洲女人被黑人巨大进入al| 国产suv一区二区三区| 国产亚洲午夜| 亚洲综合一区二区不卡| 青青久在线视频| 亚洲男人天堂一区| 黄色免费网址大全| 亚洲国产欧美日韩在线观看第一区 | 99久精品视频在线观看视频| 91精品国产高清久久久久久91 | 免费av不卡| 色久综合一二码| 精品人妻一区二区免费| 久久精品国产大片免费观看| 欧美激情影音先锋| 亚洲天堂一二三| 91香蕉视频污在线| 国产精品va在线观看无码| jizzyou欧美16| 亚洲成年人影院在线| www深夜成人a√在线| 国产日韩精品视频一区二区三区 | 欧美激情一区二区久久久| 色婷婷久久综合中文久久蜜桃av| 成人综合在线观看| 中文精品一区二区三区| 日本精品久久| 在线精品播放av| 男人天堂2024| av亚洲精华国产精华精| 老司机激情视频| 99精品国产九九国产精品| 亚洲一区二区久久| 在线免费观看国产精品| 91浏览器在线视频| 青青草精品视频在线| jazzjazz国产精品久久| 久热精品视频在线免费观看| 国产精品久久影视| 亚洲精品免费电影| 手机在线观看日韩av| 久久久久av| 91精品中文在线| 麻豆免费在线视频| 欧美日韩久久不卡| 婷婷丁香综合网| 麻豆精品在线播放| 亚洲欧美国产精品桃花| 国产成人午夜性a一级毛片| 在线午夜精品自拍| 91免费视频播放| 国产精品久久久久久久久快鸭| 国产无色aaa| 亚洲乱码在线| 99国产视频在线| 俺来俺也去www色在线观看| 亚洲精品一区二区在线观看| 天天干中文字幕| 91麻豆国产福利在线观看| 无码人妻丰满熟妇区毛片18 | 欧美成人综合一区| 香蕉久久免费电影| 亚洲片在线资源| 91精品国产乱码久久| 亚洲人吸女人奶水| 丰满少妇xbxb毛片日本| 中文亚洲欧美| 少妇免费毛片久久久久久久久| 欧美va在线| 欧美精品18videos性欧| 少妇人妻偷人精品一区二区| 午夜精品福利在线| 国产中年熟女高潮大集合| 秋霞午夜鲁丝一区二区老狼| 青少年xxxxx性开放hg| 久久精品福利| 国产精国产精品| 9i精品一二三区| 日韩欧美一区在线观看| 色网站在线播放| 中文字幕免费观看一区| xxx中文字幕| 免费在线成人| 亚洲午夜精品一区二区| 97久久超碰| 日本最新高清不卡中文字幕| 自拍视频在线网| 亚洲激情国产精品| 亚洲一卡二卡在线| 午夜精品久久久久久久久久| 东方伊人免费在线观看| 国产91丝袜在线观看| 大西瓜av在线| 希岛爱理一区二区三区| 精品乱码一区二区三区| 日本亚洲欧洲无免费码在线| 午夜精品福利视频| 午夜在线视频播放| 欧美一区二视频| 久久这里只有精品9| 亚洲一二三区视频在线观看| 手机看片福利视频| 成人性色生活片免费看爆迷你毛片| 久久久久久久激情| 欧美在线看片| 午夜精品短视频| 四虎5151久久欧美毛片| 亚洲专区国产精品| 向日葵视频成人app网址| 欧美大尺度激情区在线播放| 在线日本中文字幕| 国产午夜精品久久久| 亚洲精品国产手机| 777欧美精品| 精品乱码一区内射人妻无码| 日韩欧美国产骚| 粉嫩aⅴ一区二区三区| 亚洲欧美日韩一区| 日本欧美一区二区三区不卡视频| 成人97人人超碰人人99| 国产美女18xxxx免费视频| 日本欧美一区二区三区| 国产亚洲综合视频| 精品电影一区| 喜爱夜蒲2在线| 国产精品久久久久久麻豆一区软件| 五月天亚洲综合| 成人精品电影| 日韩美女一区| 欧美激情在线精品一区二区三区| 好吊色欧美一区二区三区视频| 高清精品久久| 成人羞羞国产免费| 国产精品久久久久久久久免费高清 | 亚洲精品一区二区三区不卡| 欧美一区二区久久| 国产精品久久免费| 91精品国产色综合久久不卡电影| av小说天堂网| 欧美一区二区精品| a天堂在线视频| 91精品国产丝袜白色高跟鞋| 国产精品一区二区av白丝下载| 日韩一区二区免费在线观看| 国产成人三级一区二区在线观看一| 欧美日韩你懂的| 中文字幕在线观看第二页| 精品视频资源站| av免费在线不卡| 欧美va亚洲va在线观看蝴蝶网| 成 人 免费 黄 色| 亚洲第一在线视频| 亚洲三级黄色片| 中文字幕在线观看亚洲| 色综合久久影院| 久久中文字幕一区| 日本三级在线观看网站| 欧美精品18videos性欧| 日韩天堂在线| 国产主播精品在线| 国产视频一区二区在线播放| 亚洲aaa激情| 成人爽a毛片| 91久久精品一区二区| 91成人免费看| jizzjizzjizz欧美| 好吊色欧美一区二区三区四区| 欧洲杯半决赛直播| 色乱码一区二区三区熟女| 亚洲午夜极品| 一本久道综合色婷婷五月| 国产美女一区| 国产高清av片| 91亚洲精品久久久蜜桃网站| xxxx日本黄色| 亚洲免费av高清| 亚洲毛片一区二区三区| 欧美妇女性影城| 六月丁香色婷婷| 亚洲人在线视频| 麻豆传媒视频在线观看免费| 欧美又大粗又爽又黄大片视频| 国产一区二区精品调教| 亚洲qvod图片区电影| 欧美理伦片在线播放| 先锋影音一区二区三区| 国产日韩欧美| 肉色超薄丝袜脚交| 久久综合狠狠综合久久综合88| 成年人网站在线观看视频| 亚洲自拍偷拍网站| 国产在线一级片| 精品少妇一区二区| av黄色在线观看| 美女国内精品自产拍在线播放| 日韩欧美精品电影| 波多野结衣成人在线| 欧美色图一区| 激情深爱综合网| 高清不卡在线观看| 黄色一级片一级片| 日韩欧美精品中文字幕| www精品国产| 中国人与牲禽动交精品| 国产精品蜜芽在线观看| 91精品在线影院| 日韩精品网站| 久久成人免费观看| 成人精品在线视频观看| 国产白丝一区二区三区| 福利一区视频在线观看| 国产熟女精品视频| 俺去啦;欧美日韩| 日本电影欧美片| 国产区欧美区日韩区| 牛牛国产精品| 天天久久综合网| 中文字幕巨乱亚洲| 亚洲国产成人无码av在线| 亚洲成人亚洲激情| heyzo在线播放| 3d动漫啪啪精品一区二区免费 | 久久综合婷婷| 国产肥白大熟妇bbbb视频| 婷婷六月综合网| 欧美综合视频在线| 欧美高清视频一区二区| 91成人福利| 在线观看污视频| 国产精品中文字幕一区二区三区| 国产传媒在线看| 911精品国产一区二区在线| 秋霞成人影院| 国产欧美va欧美va香蕉在线 | 亚洲一区二区三区免费观看| 日本欧美一区二区三区| 欧美三级视频网站| 91成人免费在线| 国产乱子伦三级在线播放| 国产精品免费久久久| 精品欧美久久| 欧美成人黄色网址| 国产精品乱人伦| 精品人妻一区二区三区换脸明星| 理论片在线不卡免费观看| 北岛玲精品视频在线观看| 午夜啪啪免费视频| 老司机午夜精品| 翔田千里88av中文字幕| 日韩欧美一区二区免费| 成年人国产在线观看| 99久久综合狠狠综合久久止| 精品福利av| 国产精品300页| 色噜噜久久综合| fc2ppv国产精品久久| 2014亚洲精品| 日韩视频二区| 日韩精品电影一区二区| 欧美男生操女生| 性爱视频在线播放| 精品国产一二| 国产农村妇女精品一区二区| 亚洲av毛片基地| 欧美一区二区三区播放老司机| 久草在线资源站资源站| 国产精品久久国产精品| 日韩在线观看一区二区| 国产精品1区2区3区4区| 欧美成人一区二区三区在线观看| heyzo中文字幕在线| 亚洲午夜久久久影院伊人| 国产一区二区在线视频| 国产一级一片免费播放| 精品久久久久久久久久久久久久久久久| 国产日韩电影| 亚洲高潮无码久久| 91蜜桃传媒精品久久久一区二区|