阿里云GPU用量削減82%的技術突破:Aegaeon計算池化方案深度解析
1192個GPU削減到213個,82%的用量削減——當我看到阿里云Aegaeon系統在三個月測試中的這個數據時,第一反應是這怎么可能?


要知道,這可是在服務數十個720億參數大模型的情況下實現的。按照現在H20 GPU的價格,這意味著硬件成本直接砍掉了80%以上。
更讓人意外的是,這套系統不僅沒有影響性能,反而在某些指標上還有提升。單GPU能同時服務7個不同模型,吞吐量比現有方案提升1.5-9倍。
GPU資源浪費到底有多嚴重?
我特意去了解了一下現在AI模型服務的現狀,發現問題確實挺嚴重的。
在阿里云模型市場的真實數據中,有17.7%的GPU算力只用來處理1.35%的用戶請求。這就像是一個大型停車場,80%的車位都被長期閑置的車輛占著,而真正需要停車的人卻找不到位置。
造成這種浪費的根本原因是傳統的"一個模型綁定一個GPU"模式。每個AI模型都要獨占一張或多張GPU卡,不管用戶請求多少,GPU都得24小時待命。熱門模型像Qwen這種,一天到晚忙得不行;而那些長尾模型,可能一小時才來幾個請求,但GPU還是得老老實實等著。
這就好比每個員工都要配一個專屬辦公室,不管他一天工作8小時還是1小時,房租都得照付。
Aegaeon是怎么做到的?
阿里云的解決思路其實挺巧妙的:既然GPU閑著也是閑著,為什么不讓它同時服務多個模型?
但這里面有個技術難點:AI模型生成文本是一個token一個token往外蹦的,每生成一個詞,都需要基于前面所有內容進行計算。如果要在多個模型之間切換,就得保存和恢復大量的中間狀態,這個開銷可能比收益還大。
Aegaeon的核心創新就是Token級調度。簡單說,就是每生成一個token后,系統會動態判斷:是繼續用當前模型,還是切換到其他有請求等待的模型?
為了讓這種頻繁切換變得可行,他們做了幾個關鍵優化:
? 組件復用 - 不同模型的相同組件可以共享,減少重復加載
? 顯存精細化管理 - 更智能的內存分配和回收機制
? KV緩存同步優化 - 加速模型狀態的保存和恢復
最終的效果是,模型切換開銷降低了97%,可以做到亞秒級響應。用戶基本感覺不到延遲,但GPU的利用率卻大幅提升了。
這個技術有多重要?
說實話,我覺得這可能是今年AI基礎設施領域最重要的突破之一。
首先是成本層面?,F在訓練和部署大模型的成本高得離譜,動不動就是幾千萬美元的GPU采購。如果能把硬件需求砍掉80%,那對整個行業的影響是巨大的。
更重要的是,這降低了AI服務的門檻。以前可能只有大廠才玩得起大模型服務,現在中小公司也有機會用更少的資源提供更多樣化的AI服務。
而且這個技術已經不是紙上談兵了。Aegaeon的論文被SOSP 2025接收,這是系統軟件領域的頂級會議。核心技術也已經在阿里云百煉平臺上線運行。
阿里云CEO吳泳銘在云棲大會上說:"大模型是下一代操作系統,AI云是下一代計算機。"從這個角度看,Aegaeon更像是給這臺"下一代計算機"裝了一個更高效的資源調度器。
當然,這個技術也不是萬能的。它主要解決的是多模型并發服務的場景,對于單一模型的大規模推理,效果可能沒那么明顯。而且Token級調度雖然開銷很小,但在極高并發的情況下,調度本身也可能成為瓶頸。
不過總的來說,我覺得這是一個很有價值的技術方向。隨著AI模型越來越多樣化,如何更高效地利用計算資源,肯定會成為一個越來越重要的問題。
阿里云這次算是給出了一個不錯的答案。82%的資源節省,聽起來確實挺震撼的。

























