一文看懂AI算力集群
最近這幾年,AI浪潮席卷全球,成為整個社會的關(guān)注焦點(diǎn)。
大家在討論AI的時候,經(jīng)常會提到AI算力集群。AI的三要素,是算力、算法和數(shù)據(jù)。而AI算力集群,就是目前最主要的算力來源。它就像一個超級發(fā)電廠,可以給AI浪潮提供源源不斷的動力。

那么,AI算力集群,到底是由哪些東西組成的呢?它為什么能夠提供澎湃的算力?它的內(nèi)部結(jié)構(gòu)又是怎樣的呢?包括了哪些關(guān)鍵技術(shù)?
接下來,小棗君就通過這篇文章,給大家做一個全面梳理。
什么是AI算力集群?
AI算力集群,顧名思義,就是能夠?yàn)锳I計(jì)算任務(wù)提供算力的集群系統(tǒng)。集群,英文是cluster,指的是一組相互獨(dú)立的、通過高速網(wǎng)絡(luò)互聯(lián)的設(shè)備。
網(wǎng)上也有定義指出,AI算力集群,指的是“通過高速網(wǎng)絡(luò),將大量高性能計(jì)算節(jié)點(diǎn)(如GPU/TPU服務(wù)器)互聯(lián),從而形成的一種分布式計(jì)算系統(tǒng)。”

此前小棗君給大家介紹AI智算的時候說過,所謂AI智算,無非就是訓(xùn)練和推理兩大任務(wù)。訓(xùn)練的計(jì)算量大、難度高,對算力的要求也高。推理的計(jì)算量相對較小,難度相對較低,對算力的要求也低。
無論是訓(xùn)練和推理,都涉及到大量的矩陣運(yùn)算(如卷積、張量乘法)任務(wù)。這些計(jì)算天然可以分解為獨(dú)立子任務(wù)進(jìn)行并行處理。所以,擅長并行計(jì)算的GPU、NPU、TPU等芯片,就成為了AI計(jì)算的主要工具。這些芯片也被統(tǒng)稱為AI芯片。
AI芯片是提供AI算力的最基本單元。單個芯片是沒辦法工作的,需要集成在電路板上。
于是,將AI芯片嵌入在手機(jī)主板上,或者直接集成到手機(jī)SoC主芯片上,就可以為手機(jī)提供AI算力。集成在物聯(lián)網(wǎng)設(shè)備模組上,就可以為物聯(lián)網(wǎng)設(shè)備(汽車、機(jī)械臂、AGV無人車、攝像頭等)提供AI算力。這些是端側(cè)算力。
將AI芯片集成在基站、路由器、網(wǎng)關(guān)等設(shè)備里,就是邊緣側(cè)算力。
這些設(shè)備體積小,AI芯片就1個,算力很弱,主要完成一些推理計(jì)算任務(wù)。
想要完成更為復(fù)雜的訓(xùn)練任務(wù),就需要一個能搭載更多AI芯片的硬件平臺。
將AI芯片做成AI算力板卡,然后在一個服務(wù)器里塞入多塊AI算力板卡,就打造出了AI服務(wù)器。世上本沒有AI服務(wù)器。普通服務(wù)器里多塞入幾個AI算力板卡,就變成了AI服務(wù)器。

一般來說,AI服務(wù)器是一機(jī)八卡。如果你硬要塞的話,有的最多也可以塞二十卡。但是,限于散熱和功耗,想要塞入更多,就不太現(xiàn)實(shí)了。
此時的AI服務(wù)器,算力又提升了一個數(shù)量級。完成推理任務(wù),更加駕輕就熟。一些簡單的訓(xùn)練任務(wù)(小模型),它也可以勉強(qiáng)勝任。
今年崛起的DeepSeek大模型,因?yàn)樵诩軜?gòu)和算法上進(jìn)行了優(yōu)化,大幅降低了對算力的要求。所以,就有很多廠商,搞了那種單機(jī)架的計(jì)算設(shè)備(包括若干臺AI服務(wù)器、存儲、電源等),并將其命名為“一體機(jī)”,可以滿足很多行業(yè)企業(yè)用戶DeepSeek大模型私有化部署的需求,賣得熱火朝天。

不管是AI服務(wù)器還是一體機(jī),AI算力仍然是有限的。針對真正的海量參數(shù)(千億級、萬億級)大模型訓(xùn)練,仍然需要更強(qiáng)勁的AI算力。
于是,就要打造包括更多AI芯片的系統(tǒng),也就是真正的大規(guī)模AI算力集群。
現(xiàn)在我們經(jīng)常會聽說所謂“萬卡規(guī)模”、“十萬卡規(guī)模”,意思就是說,要打造的目標(biāo)AI算力集群,需要一萬塊、十萬塊AI算力板卡(AI芯片)。
這該怎么辦呢?
答案很簡單,就是Scale Up和Scale Out。
什么是Scale Up?
Scale,是擴(kuò)展的意思。搞過云計(jì)算的同學(xué),對這個詞肯定不陌生。
Scale Up,是向上擴(kuò)展,也叫縱向擴(kuò)展,增加單節(jié)點(diǎn)的資源數(shù)量。
Scale Out,是向外擴(kuò)展,也叫橫向擴(kuò)展,增加節(jié)點(diǎn)的數(shù)量。
在云計(jì)算領(lǐng)域,還有和Scale Up對應(yīng)的Scale Down(縱向縮減),以及和Scale Out對應(yīng)的Scale In(橫向縮減)。
前面提到的,在每臺服務(wù)器里多塞幾塊AI算力板卡,這就是Scale Up。這時,一臺服務(wù)器就是一個節(jié)點(diǎn)。
通過通信網(wǎng)絡(luò),將多臺電腦(節(jié)點(diǎn))連接起來,這就是Scale Out。

Scale Up和Scale Out最主要的區(qū)別,在于AI芯片之間的連接速率。
Scale Up是節(jié)點(diǎn)內(nèi)部連接。它的連接速率更高,時延更低,性能更強(qiáng)勁。
以前,計(jì)算機(jī)內(nèi)部元件之間的通信主要基于PCIe協(xié)議。這個協(xié)議誕生于上世紀(jì)80-90年代PC剛剛普及的時候。雖然協(xié)議后來也有升級,但升級速度緩慢,數(shù)據(jù)傳輸速率和時延根本無法滿足要求需求。
于是,2014年,英偉達(dá)專門推出了NVLINK總線協(xié)議。NVLINK允許GPU之間以點(diǎn)對點(diǎn)方式進(jìn)行通信,速度遠(yuǎn)高于PCIe,時延也低得多。

圖片來自:英偉達(dá)官網(wǎng)
NVLINK原本只用于機(jī)器內(nèi)部通信。2022年,英偉達(dá)將NVSwitch芯片獨(dú)立出來,變成了NVLink交換機(jī),用于連接服務(wù)器之間的GPU設(shè)備。
這意味著,節(jié)點(diǎn)已經(jīng)不再僅限于1臺服務(wù)器了,而是可以由多臺服務(wù)器和網(wǎng)絡(luò)設(shè)備共同組成。
這些設(shè)備處于同一個HBD(High Bandwidth Domain,超帶寬域)。英偉達(dá)將這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng),稱為超節(jié)點(diǎn)。
歷經(jīng)多年的發(fā)展,NVLINK已經(jīng)迭代到第五代。每塊GPU擁有18個NVLink連接,Blackwell GPU的總帶寬可達(dá)到1800GB/s,遠(yuǎn)遠(yuǎn)超過PCIe Gen6的總線帶寬。
2024年3月,英偉達(dá)發(fā)布了NVL72,可以將36個Grace CPU和72個Blackwell GPU集成到一個液冷機(jī)柜中,實(shí)現(xiàn)總計(jì)720 Pflops的AI訓(xùn)練性能,或1440 Pflops的推理性能。

英偉達(dá)GB200 NVL72機(jī)柜(來自英偉達(dá)GTC大會直播)
英偉達(dá)是AI計(jì)算領(lǐng)域毫無疑問的領(lǐng)軍者。他們有最受歡迎的AI芯片(GPU)和軟件生態(tài)(CUDA),也探索出了最有效的Scale Up實(shí)現(xiàn)方式。
后來,隨著AI的不斷發(fā)展,越來越多的企業(yè)也開始推出AI芯片。因?yàn)镹VLINK是私有協(xié)議,所以,這些推出AI芯片的企業(yè),也要研究如何搭建自己的AI算力集群。
英偉達(dá)海外的主要競爭對手之一,AMD公司,推出了UA LINK。國內(nèi)的騰訊、阿里、中國移動等企業(yè),也牽頭推出了ETH-X、ALS、OISA等項(xiàng)目。

這些都是開放標(biāo)準(zhǔn),成本比私有協(xié)議更低,也有利于降低行業(yè)門檻,幫助實(shí)現(xiàn)技術(shù)平權(quán),符合互聯(lián)網(wǎng)開放解耦的發(fā)展趨勢。
值得一提的是,這些標(biāo)準(zhǔn)基本上都是以以太網(wǎng)技術(shù)(ETH)為基礎(chǔ)。因?yàn)橐蕴W(wǎng)技術(shù)最成熟、最開放,擁有很好的產(chǎn)業(yè)鏈基礎(chǔ)。
另一個非常值得關(guān)注的技術(shù)路線,就是華為的私有協(xié)議UB(Unified Bus)。
最近幾年,華為一直在打造昇騰生態(tài)。昇騰是華為的AI芯片,目前發(fā)展到了昇騰910C。他們也需要自己的AI算力集群解決方案,最大程度地發(fā)揮910C的能量,也為市場推廣鋪平道路。
今年4月,華為高調(diào)發(fā)布CloudMatrix384超節(jié)點(diǎn),集成了384張昇騰910C算力卡,可提供高達(dá)300 Pflops的密集BF16算力,接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。

華為CloudMatrix 384超節(jié)點(diǎn)(來自華為云生態(tài)大會)
CloudMatrix384,就采用了UB技術(shù)。準(zhǔn)確來說,CloudMatrix384包括了三個不同的網(wǎng)絡(luò)平面,分別是UB平面、RDMA平面和VPC平面。
三個平面互補(bǔ),實(shí)現(xiàn)了CloudMatrix384極強(qiáng)的卡間通信能力,也實(shí)現(xiàn)了整個超節(jié)點(diǎn)的算力提升。限于篇幅,具體技術(shù)細(xì)節(jié)下次再單獨(dú)介紹。
需要再說明一下,面對開放標(biāo)準(zhǔn)的競爭壓力,英偉達(dá)前段時間公布了NVLink Fusion計(jì)劃,向8家合作伙伴開放了其NVLink技術(shù),以幫助他們構(gòu)建通過將多個芯片連接在一起的定制AI系統(tǒng)。
但是,根據(jù)一些媒體的報(bào)道,其中一些關(guān)鍵的NVLink組件仍然是未開放的,英偉達(dá)還是沒有那么爽快。
什么是Scale Out?
再來看看Scale Out。
Scale Out,其實(shí)就接近于我們傳統(tǒng)意義上的數(shù)據(jù)通信網(wǎng)絡(luò)了。把傳統(tǒng)服務(wù)器連接起來的技術(shù),包括胖樹架構(gòu)、葉脊網(wǎng)絡(luò)架構(gòu)那些,還有TCP/IP、以太網(wǎng)那些技術(shù),都是Scale Out的基礎(chǔ)。
當(dāng)然了,AI智算對網(wǎng)絡(luò)性能的要求很高,所以,傳統(tǒng)技術(shù)也要升級,才能滿足條件。
目前,Scale Out主要采用的通信網(wǎng)絡(luò)技術(shù),是Infiniband(IB)和RoCEv2。
這兩個技術(shù)都是基于RDMA(遠(yuǎn)程直接內(nèi)存訪問)協(xié)議,擁有比傳統(tǒng)以太網(wǎng)更高的速率、更低的時延,負(fù)載均衡能力也更強(qiáng)。
IB當(dāng)年也是為了取代PCIe而推出的技術(shù),后來起起伏伏,掌握這項(xiàng)技術(shù)的Mellanox(邁絡(luò)思)公司被英偉達(dá)收購。IB也變成了英偉達(dá)的私有技術(shù)。這個技術(shù)性能是真好,但價(jià)格也是真貴。它是英偉達(dá)算力布局的重要組成部分。
RoCEv2,則是開放標(biāo)準(zhǔn),是傳統(tǒng)以太網(wǎng)融合RDMA的產(chǎn)物,也是產(chǎn)業(yè)界為了對抗IB一家獨(dú)大所推出的產(chǎn)物。它的價(jià)格便宜,和IB的性能差距也在不斷縮小。

比起Scale Up領(lǐng)域的多個標(biāo)準(zhǔn),Scale Out目前標(biāo)準(zhǔn)相對集中,主要就是RoCEv2,路線非常清晰。畢竟,Scale Up是節(jié)點(diǎn)內(nèi),和芯片產(chǎn)品強(qiáng)相關(guān)。Scale Out是節(jié)點(diǎn)外,更強(qiáng)調(diào)兼容性。
前面我說了,Scale Up和Scale Out最主要的區(qū)別在于速率帶寬。
IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up,能夠?qū)崿F(xiàn)數(shù)百個GPU間10Tbps帶寬級別的互聯(lián)。
在時延方面,Scale Up和Scale Out也有很大的差距。IB和RoCEv2的時延高達(dá)10微秒。而Scale Up對網(wǎng)絡(luò)時延的要求極為嚴(yán)苛,需要達(dá)到百納秒(100納秒=0.1微秒)級別。
在AI訓(xùn)練過程中,包括多種并行計(jì)算方式,例如TP(張量并行)、 EP(專家并行)、PP(流水線并行)和DP(數(shù)據(jù)并行)。

通常來說,PP和DP的通信量較小,一般交給Scale Out搞定。而TP和EP的通信量大,需要交給Scale Up(超節(jié)點(diǎn)內(nèi)部)搞定。
超節(jié)點(diǎn),作為Scale Up的當(dāng)前最優(yōu)解,通過內(nèi)部高速總線互連,能夠有效支撐并行計(jì)算任務(wù),加速GPU之間的參數(shù)交換和數(shù)據(jù)同步,縮短大模型的訓(xùn)練周期。
超節(jié)點(diǎn)一般也都會支持內(nèi)存語義能力,GPU之間可以直接讀取對方的內(nèi)存,這也是Scale Out不具備的。
站在組網(wǎng)和運(yùn)維的角度來看,更大的Scale Up也有明顯優(yōu)勢。
超節(jié)點(diǎn)的HBD(超帶寬域)越大,Scale Up的GPU越多,Scale Out的組網(wǎng)就越簡單,大幅降低組網(wǎng)復(fù)雜度。

Scale Up & Scale Out組網(wǎng)示意圖
Scale Up系統(tǒng)是一個高度集成的小型集群,內(nèi)部總線已經(jīng)連好。這也降低了網(wǎng)絡(luò)部署的難度,縮短了部署周期。后期的運(yùn)維,也會方便很多。
當(dāng)然,Scale Up也不能無限大,也要考慮本身的成本因素。具體的規(guī)模,需要根據(jù)需求場景進(jìn)行測算。
概括來說,Scale Up和Scale Out,就是性能和成本之間的平衡。隨著時間的推移和技術(shù)的進(jìn)步,以后肯定還會出現(xiàn)更大規(guī)模的超節(jié)點(diǎn)。Scale Up和Scale Out之間的邊界,也會越來越模糊。
前面提到的ETH-X等開放Scale Up標(biāo)準(zhǔn),都是基于以太網(wǎng)技術(shù)。從技術(shù)的角度來看,以太網(wǎng)具有最大交換芯片容量(單芯片51.2T已商用)、最高速Serdes技術(shù)(目前達(dá)到112Gbps),交換芯片時延也很低(200ns),完全可以滿足Scale Up的性能要求。
Scale Out也是基于以太網(wǎng)。這不就大一統(tǒng)了么?
圖片
AI算力集群的發(fā)展趨勢
最后,我再來說說AI算力集群的一些趨勢動向。
目前看來,AI算力集群體現(xiàn)出這么幾個趨勢:
1、物理空間的異地化。
AI算力集群正在向萬卡、十萬卡方向發(fā)展。英偉達(dá)NVL72的1個機(jī)架有72顆芯片,華為CM384的16個機(jī)架有384顆芯片。華為基于CM384搞十萬卡,需要432套(384×432=165888),那就是6912個機(jī)架。
對于單體數(shù)據(jù)中心來說,很難容納下這么多機(jī)架。電力供應(yīng)也會成為問題。
所以,現(xiàn)在業(yè)界在探索異地?cái)?shù)據(jù)中心共同組成AI算力集群,協(xié)力完成AI訓(xùn)練任務(wù)。這個非常考驗(yàn)長距離、大帶寬、低時延的DCI光通信技術(shù),會加速空芯光纖等前沿技術(shù)的應(yīng)用。
2、節(jié)點(diǎn)架構(gòu)的定制化。
我們剛才介紹AI集群,都是在討論如何把海量的AI芯片給“聚集起來”。其實(shí),AI算力集群除了堆芯片數(shù)量之外,越來越看重架構(gòu)的深度設(shè)計(jì)。
計(jì)算資源(GPU、NPU、CPU,甚至包括內(nèi)存、硬盤)的池化,成為趨勢。集群需要充分適配AI大模型的架構(gòu)(例如MoE架構(gòu)),提供定制性的設(shè)計(jì),才能更好地完成計(jì)算任務(wù)。
換言之,單純提供AI芯片是不夠的,還要提供量體裁衣的設(shè)計(jì)。
3、運(yùn)維能力的智能化。
大家都聽說過,AI大模型訓(xùn)練容易出錯。嚴(yán)重的時候,幾個小時就錯一次。錯了就要重新算,非常耽誤事,不僅拉長了訓(xùn)練周期,也增加了訓(xùn)練成本。
所以,企業(yè)在打造AI算力集群的時候,越來越關(guān)注系統(tǒng)的可靠性和穩(wěn)定性。引入各種AI技術(shù),對潛在故障進(jìn)行預(yù)判,對亞健康設(shè)備或模塊進(jìn)行提前替換,成為一種趨勢。
這些技術(shù)有利于降低故障率和中斷率,增強(qiáng)系統(tǒng)穩(wěn)定性,也等于是變相提升了算力。
4、算力的綠色化。
AI智算需要消耗大量的算力,也會產(chǎn)生很高的能耗,所以目前各大廠商都在努力研究如何降低AI智算集群的能耗,提升綠色能源的使用比例,這也有利于AI智算的長遠(yuǎn)發(fā)展。我們國家的東數(shù)西算戰(zhàn)略,其實(shí)也是出于這方面的目的。
好啦,以上就是關(guān)于AI算力集群的介紹。應(yīng)該是非常全面且具體了,不知道大家都看懂了沒?
































