KTransformers入選計算機系統頂會、與主流框架合作,趨境&清華讓「異構」成為推理新范式
全球AI基礎設施快速演進的浪潮中,一個誕生自中國的開源項目,正在被世界看見。
它就是KTransformers,由趨境科技與清華大學KVCache.AI團隊聯合研發,聚焦大模型推理階段的系統創新。
這是一個高性能異構推理框架,專注于高效利用底層GPU、CPU、內存等多樣化算力,讓大模型在更低算力、更靈活的硬件架構上高效運行,項目論文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》入選了剛剛落幕的“計算機系統領域奧斯卡” SOSP 2025。

SOSP是計算機系統領域最具影響力的國際頂會之一。過去幾十年間,從虛擬化到分布式文件系統,無數里程碑式的技術成果都曾首次亮相于此。
如今,KTransformers也在這個舞臺上獲得了全球系統學術界的最高背書。
幾乎在同一時間,KTransformers宣布與主流推理框架SGLang合作,雙方架構合入同一分支。這次合作意味著全GPU推理與異構推理的融合,推動大模型推理架構變得更加完善,將邁向更廣泛的產業落地。
在更遠的未來,它即將成為更多AI產品背后能跑得起大模型的底層路徑。
加入核心創新“專家延遲機制”,異構架構實現MoE模型高效推理
大模型推理領域,算力瓶頸正在成為全球技術界的核心問題。
尤其是當MoE(Mixture of Experts,專家混合)架構成為主流后,這個瓶頸更顯突出。MoE模型以“稀疏激活”為特征,每次推理只會調用部分專家子網絡,從而在不犧牲模型能力的前提下降低計算負擔。
問題隨之而來,如何高效調度這些專家從而避免資源浪費與設備空轉,成了產學研三界共同的新挑戰。
《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》正是在這一背景下誕生的。它提出了一條不同以往的道路:一套面向CPU+GPU異構架構的MoE推理系統方案,讓原本只能依賴昂貴多卡GPU的大模型,能在CPU參與的硬件環境中實現接近同等性能的推理體驗。
KTransformers的初衷是通過創新的異構推理的架構,充分釋放底層所有的硬件算力資源,優化計算調度,擺脫對單一硬件的依賴,從而實現更普惠、更高效的大模型部署與應用。

技術層面上,它通過一系列系統級創新,讓GPU負責注意力和主干網絡的高并行計算,CPU則承擔稀疏專家模塊的推理任務,實現了高效的CPU+GPU協同執行。

KTransformers的核心創新首先體現在底層算子優化上。
通過針對Intel AMX指令集開發的高吞吐計算核,結合自定義的tile-aware內存布局,KTransformers在單路Xeon上實現了PyTorch實現近4倍的提速,極大釋放了CPU在專家計算中的性能。至此,CPU成為推動系統吞吐提升的關鍵一環。
此外,KTransformers在異構任務協調方面也進行了系統性重構,為減少CPU與GPU之間的協調成本,KTransformers引入了NUMA感知張量并行和基于CUDA Graph的調度,以確保兩個設備以最小的同步延遲運行。
值得一提的是,在論文中KTransformers還提出了另一個創新技術——Expert Deferral(專家延遲機制)。
傳統MoE推理嚴格遵循層級順序,GPU必須等待CPU完成專家計算后才能繼續下一步,這種串行依賴導致了大量性能浪費。KTransformers打破了這一限制。
KTransformers研究團隊發現,Transformer模型的殘差連接具有一定的延遲容忍性,部分中間結果的計算并不需要嚴格同步完成。于是團隊提出讓部分專家計算延遲執行——也就是在GPU執行注意力模塊時,CPU專家仍在計算上一層結果,兩者并行推進。

這樣就使得CPU與GPU的負載得以動態重疊,模型吞吐提升約1.45倍,單卡decode速度最高超過30+ tokens/s,而模型精度變化低于0.5%,幾乎無損。
Expert Deferral是MoE推理異構化落地的關鍵突破,真正讓CPU與GPU實現了平等協作。
得益于這些設計,KTransformers能夠在一臺RTX 4080+雙路Xeon的單機環境中成功運行DeepSeek-V3-671B模型,單路性能接近多卡GPU集群水準。
推動推理架構融合,助力全球開發者高效創新
到今天,論文的全部思想已被完整工程化,衍生為開源系統KTransformers。
這其實是推理生態流變分化的一個具象化體現:一邊是以SGLang為代表的高吞吐、高并發全GPU路線;另一邊,則是仍在探索中的讓CPU與GPU協同工作的異構路線,嘗試用更靈活、成本更低的方式支持大模型運行。
KTransformers正是后者的代表之一。
KTransformers與SGLang的合作,是雙方基于各自推理引擎能力展開深度對接,聯合推動大模型推理向更高性能、更低成本的方向演進。
SGLang,全稱Structured Generation Language,是一種專為大型語言模型(LLM)和視覺語言模型(VLM)設計的高效推理與服務框架,它通過聯合設計前端語言和后端運行時來提升模型推理的速度和靈活性。
由于在多輪對話、復雜任務規劃和結構化輸出方面表現突出,在當下的大模型推理框架生態中,SGLang成為了最主流、最具工程實用性的開源推理引擎之一。

SGLang的優勢在于通用性和工程落地能力,全GPU推理思路也更適用于高吞吐量高并發等需求,KTransformers作為算子庫合入SGLang之后,雙方互為補充,開發者用戶可以直接獲得全GPU推理與異構推理兩種能力,不再需要手動集成、單獨調用。尤其是在GPU資源受限但本地CPU富余的場合,許多原本無法落地的模型都有了新的可行路徑。
例如通過KTransformers與SGLang合作實現的Multi-GPU+CPU混合推理能力,將更多專家放置在GPU上,這減少了帶寬瓶頸下的CPU內存訪問,相對單GPU的場景極大提升吞吐量。
此次合作實現了異構推理方案與主流推理框架的深度融合。這推動了雙方底層架構的協同進化,使其邁向更成熟、更工程化的新階段;同時使開發者能夠更便捷地調用各類模型,在硬件選擇上也更具靈活性。
KTransformers,想做的不止是“在本地跑得動”
技術成果背后,是持續構建生態的決心。
如今的KTransformers已成為一個被開發者、廠商與開源社區廣泛復用的共建式底層框架。
目前,其GitHub Star數已突破15.2K,成為全球Star數排名前列的大模型推理框架。
全球頭部開源模型方,如Qwen、Kimi、智譜 AI等多個主流大模型,都在模型發布首日就推薦KTransformers作為推理引擎支持;其工程實踐與兼容性也被多家一體機產品線采納。

在這條異構路線逐漸成型的過程中,趨境科技始終是最核心的推動者之一。
在KTransformers的架構設計、核心實現、算子優化、框架適配以及社區維護等多個關鍵層面,趨境科技始終處于一線角色——
在與清華大學KVCache.AI團隊聯合研發的基礎上,趨境負責了項目中的大量底層開發、接口對接、系統調度和社區推廣工作。
這一次與SGLang的對接合作中,趨境科技也作為主要實現方與維護貢獻者,完成了從對接設計、功能聯調,到主分支合入的全部工程閉環。
對趨境來說,KTransformers輸出的是一種價值理念的承載,更是一個更長期的目標:
在大模型時代,需要有人站出來為推理基礎設施提供新的可能性。大模型落地不能只有精英算力路徑,也需要一條更廣譜的路線:以異構協同釋放本地硬件的潛力,以開源能力幫助更多團隊和組織用得起、調得動、融得進自己的業務中。
正因此,趨境已經與多個國產CPU、GPU硬件平臺合作,共同推進全國產高性價比方案;為數十家行業開發伙伴提供算力底座,逐步實現算力普惠,讓大模型真正能夠為業務所用。
今天的KTransformers,已經讓大模型推理不再專屬于高端算力;未來,趨境希望讓AI能力也不再專屬于少數企業。
Gossip time
KTransformers已經可以在一張消費級GPU上穩定運行千億參數大模型。那么,下一步呢?
給大家附上一個圈內人最近才剛知道的小道消息:
研究團隊好像已經有人在內部試水微調了。而且是在不擴卡、不改架構的前提下來做輕量調優。
從KTransformer的設計思路來看,確實是順理成章的一步:
既然推理已經解決了,那接下來的方向,不就是能跑也能調么。
大家期待的小手手可以隨時搓起來了哈!
論文鏈接:
https://madsys.cs.tsinghua.edu.cn/publication/ktransformers-unleashing-the-full-potential-of-cpu/gpu-hybrid-inference-for-moe-models/SOSP25-chen.pdf
技術細節詳見SGLang博客:
https://lmsys.org/blog/2025-10-22-KTransformers/





























