大模型時代,九章云極DataCanvas點亮五座“燈塔”?
原創(chuàng)“計算”是貫穿人類文明史的一大主題。
早在茹毛飲血的原始社會,先民們就開始結(jié)繩記事;進入20世紀,世界上首臺數(shù)字式電子計算機ENIAC誕生,標志著人類算力正式跨越閾限;隨后半導體技術(shù)出現(xiàn),芯片成為了算力的主要載體;科技巨輪駛?cè)?1世紀,云計算的發(fā)展再度為算力迎來巨變。
如今當我們習慣算力云化后,大模型的崛起又帶來變數(shù),各色生成式AI應(yīng)用落地,各地智算中心拔地而起,新一輪底層算力變革正式啟幕。
眾所周知,底層計算歷來都是軟硬件適配協(xié)同的結(jié)果。一方面,計算需求的演進,催生了硬件形態(tài)與功能的變革,另一方面,以操作系統(tǒng)為代表的軟件作為中樞神經(jīng),橋接著底層硬件與上層應(yīng)用。
在此背景下,人工智能基礎(chǔ)軟件供應(yīng)商九章云極DataCanvas于日前發(fā)布了DATACANVAS AIDC OS智算操作系統(tǒng)。這個團隊從智算操作系統(tǒng)入手,為算力的效能瓶頸求得一個新解。
迷失:算力利用率的困局
在大模型的狂飆突進中,算力需求的爆發(fā)式增長只是故事的開始。
在企業(yè)千帆競發(fā),掘金AI新大陸之前,無法忽視的是橫亙眼前的巨大鴻溝。這種“鴻溝”不僅表現(xiàn)在算力供需兩端的矛盾上,還表現(xiàn)在算力利用率上。公開數(shù)據(jù)顯示,目前整體算力利用率不足30%。
一方面,面對算力需求缺口,計算資源捉襟見肘;另一方面,現(xiàn)實中卻普遍存在大量算力資源未得到有效利用,以致被閑置和浪費的現(xiàn)象。
落實到智算中心的籌建中,這也是無法回避的問題。
下游算力需求的集中爆發(fā),催生了智算中心的建設(shè)熱潮。相比傳統(tǒng)IDC,智算中心的設(shè)計理念有著鮮明的差異:其一,在內(nèi)部,GPU取代CPU成為主角,高速連接的 GPU 構(gòu)成了新的計算中心;其二,就功能定位來說,其工作載荷高度聚焦,即大模型的訓練、調(diào)優(yōu)和推理。換言之,大模型反向驅(qū)動底層的資源管理。
從這個意義上說,智算中心可以被視為“模型的算力工廠”。
可是在智算中心的建設(shè)過程中,依舊面臨重重困難。九章云極DataCanvas聯(lián)合創(chuàng)始人&CTO尚明棟在接受采訪時,強調(diào)了兩個不可回避的問題:一是高額的成本;二是穩(wěn)定性的挑戰(zhàn)。
他提到:以構(gòu)建1000P算力的智算中心為例,包括硬件、能源在內(nèi),總成本可能高達5.5億,其中硬件成本占比約80%,而能源成本每年約合1000到1500萬(根據(jù)不同地區(qū)的電力計價水平)。如此高昂的投入如何獲得穩(wěn)定持續(xù)的收入是必須思考的議題。
與此同時,隨著算力集群規(guī)模的增大,整個算力集群的穩(wěn)定性也越來越難以保障,因此,其效率也始終低于常規(guī)默認的基準。
要解決這些問題,提升算力利用率是當務(wù)之急。九章云極DataCanvas為之找到的突破口就是——智算操作系統(tǒng)。
尋路:操作系統(tǒng)躍遷的轉(zhuǎn)機
提到操作系統(tǒng),大家可能會想到 Windows、Linux、macOS等等。但到了大模型時代,當?shù)讓佑布軜?gòu)從 以CPU為核心 變成以 GPU 為核心時,當大規(guī)模、高性能的 AI 計算任務(wù)逐漸成為剛需時,新一代操作系統(tǒng)的誕生成為必然。
相較傳統(tǒng)操作系統(tǒng),智算操作系統(tǒng)可以說是專門為適應(yīng)AI時代計算需求而設(shè)計的操作系統(tǒng),它在硬件支持、資源調(diào)度、AI服務(wù)集成等方面進行了深度優(yōu)化和革新,旨在為用戶提供一個高效、易用、智能的平臺。
圍繞DATACANVAS AIDC OS智算操作系統(tǒng),尚明棟介紹了其整體的設(shè)計思路:
“智算中心操作系統(tǒng)的定位是管理好硬件和軟件的協(xié)同,能夠使GPU發(fā)揮出最大的算力。所以,在智算中心的操作系統(tǒng)里,需要協(xié)調(diào)上層和下層的生態(tài),下層面向智算基礎(chǔ)資源,能夠去協(xié)調(diào)高速算力、存儲和網(wǎng)絡(luò),上層需要面對智算中心使用群體提供完整的大模型工具鏈。”
可說,在智算中心內(nèi)部,AIDC OS 扮演了一個“頂天立地”的角色:上接大模型應(yīng)用,下管萬卡集群,是智算中心進行運營和管理的基礎(chǔ)。如果把目光調(diào)整至外部,就會發(fā)現(xiàn)AIDC OS也是一個開放的生態(tài)。
“不僅可以在系統(tǒng)之上像九章云極DataCanvas開源的Alaya一樣,預訓練一個7B、13B、35B的大模型,同時也可以開放兼容其他開源大模型的微調(diào)和統(tǒng)一的模型納管。”
而對九章云極DataCanvas的研發(fā)團隊來說,打造 AIDC OS 是為了更好地利用算力,因此他們有著清晰的目標。
尚明棟對此做了進一步說明:
首先,降低用戶使用門檻。因為智算中心核心是面向模型,軟件供應(yīng)商提供模型全生命周期的所有能力,通過軟件方式,能夠讓用戶無縫無感地將智算算力使用起來。
再者,能夠持續(xù)地降低成本,提升算力的有效性。通過提高整個智算中心運維的穩(wěn)定性,以及硬件的使用效率,最終達成降低智算中心的使用成本的目的。
至此,一幅在算力新紀元中乘風破浪的理想藍圖已然徐徐鋪開:以智算操作系統(tǒng)為橋梁,持續(xù)優(yōu)化算力資源配置,加速千行百業(yè)落地大模型的進程,增強其為產(chǎn)業(yè)創(chuàng)造的價值與經(jīng)濟效益。那么九章云極要如何做到呢?
點燈:五大價值內(nèi)核的聚力
在求索之路上,九章云極持續(xù)打磨 AIDC OS的功能和性能,最終提煉出五大價值內(nèi)核,宛如在算力利用的困局中點亮了五座燈塔,照亮了算力飛躍的新航路。
尚明棟對這五大核心價值,進行了逐一說明。
告別“裸金屬”:紓解算力調(diào)度能力不足且利用率低的癥結(jié)
裸金屬服務(wù)器通常可以提供相對更安全的物理隔離,而且由于沒有虛擬化層的介入,它能避免虛擬化技術(shù)帶來的額外性能損耗,提供更接近硬件性能的計算能力。
而九章云極DataCanvas在這里提出的“告別裸金屬”,是希望能在裸金屬之上提供新的價值。更確切地說,是提升智算中心資產(chǎn)的附加值,將運營方的運營和運維的能力從裸算力設(shè)備提升到AI大模型運維和服務(wù)能力的輸出上。
尚明棟介紹:我們的AIDC OS通過對資源的協(xié)同管理和彈性調(diào)度,旨在最大限度提升效率。如何實現(xiàn)效率最大化?其策略關(guān)鍵在于采取更小粒度的調(diào)度和管理,而不是按照整機或整卡的固定分配模式。如此一來,就可以更加靈活地去分享內(nèi)存資源,更高效地利用計算單元,確保對各類硬件資源進行充分且合理的調(diào)度,從而達到對更多計算資源進行高效利用的目的。
為AI而生:降低AI大模型訓練微調(diào)門檻
如前文所述,AIDC 區(qū)別于傳統(tǒng)的 IDC,不同的建設(shè)目的和驅(qū)動機制也導致兩者的計算方式和資源管理方式截然不同。
傳統(tǒng) IDC 的主要計算單元是 CPU,而且一定面向的是多任務(wù),在此之上通過虛擬機的方式提供服務(wù),從而實現(xiàn)普算服務(wù),比如提供OA的服務(wù)、視頻直播服務(wù)、電商服務(wù)等等。
而 AIDC 的建設(shè)目的從來都只專注于人工智能核心任務(wù)。所以,AIDC OS從來不是傳統(tǒng)的云管平臺的平移,同樣GPU的高度異構(gòu)也需要更強的抽象和隔離能力。針對大模型的訓練、微調(diào)、部署和推理等任務(wù),AIDC OS提供的是集“算力、數(shù)據(jù)、算法、調(diào)度”為一體的融合服務(wù)。
全局加速優(yōu)化:彌補AI加速優(yōu)化能力不足
算力的成本高昂,決定了對其加速優(yōu)化本質(zhì)上是對經(jīng)濟效益的精打細算。如果加速優(yōu)化策略能實現(xiàn)10%的效率提升,則意味著在大模型的訓練過程中,將成功削減同等比例的成本支出。
尚明棟介紹,AIDC OS在加速性能上的顯著優(yōu)勢集中體現(xiàn)于推理端與訓練端,而這背后蘊含著九章云極DataCanvas研發(fā)團隊在工程實踐中的深厚積累。
“舉個例子,通過內(nèi)核的優(yōu)化,可以將多個運算融合到一個內(nèi)核中,從而減少內(nèi)核的調(diào)用次數(shù)和跨內(nèi)核訪問主內(nèi)存的延遲。通過對Transformer的優(yōu)化內(nèi)核,可以充分利用內(nèi)存的帶寬,最大限度提升算力利用率,同時結(jié)合其他加速策略,包括編譯優(yōu)化并行加速、緩存優(yōu)化模型壓縮等等,可以使我們的推理速度提高4倍,同時將Token吞吐量提高到5倍。”
訓練端的優(yōu)化同樣卓有成效。“通過通信加速,通過梯度壓縮算法,將通信量減少了2到3倍,整體的訓練效率在保持原有精度的同時,單卡利用率提升50%。結(jié)合內(nèi)存的優(yōu)化、數(shù)據(jù)的三級緩存、算法的加速等策略,集群訓練效率上可以提升100%。”
異構(gòu)算力納管與調(diào)度:直擊異構(gòu)算力資源納管困難
在智算中心構(gòu)建過程中,異構(gòu)算力的出現(xiàn)是常態(tài)。如果是在不同的智算中心,那么通過高速網(wǎng)絡(luò)異構(gòu)的分散性會表現(xiàn)得更加突出。如何去調(diào)度和管理異構(gòu)算力是必須直面的一大痛點。
而AIDC OS能夠做到的,不僅是可以支持不同廠商芯片模型的轉(zhuǎn)化,同時也可以實現(xiàn)在混合專家模型里進行混合訓練的技術(shù)。
九章云極DataCanvas對此同樣擁有大量工程化的積累。借助拓撲感知調(diào)度與Affinity調(diào)度策略,AIDC OS能夠根據(jù)拓撲位置實現(xiàn)算力資源的就近部署,從而精準優(yōu)化算力效能與作業(yè)性能。除拓撲感知調(diào)度外,系統(tǒng)還支持優(yōu)先級調(diào)度、故障感知調(diào)度以及動態(tài)平衡調(diào)度等多種調(diào)度機制,大幅提升算力資源的利用率。
1度算力:實現(xiàn)“買到即用到”的算力服務(wù)
這一核心理念的價值在于:九章云極DataCanvas從用戶視角出發(fā),首次提出了統(tǒng)一的算力服務(wù)計量單位“度”(DCU)。就像水、電一樣,算力也有了自己的衡量單位,這為標準化的算力計量計費、以及未來算力資源的互聯(lián)互通打下了基石。
尚明棟強調(diào),1度算力并不單純是物理的衡量,它將所有硬件投入、運營管理、運維管理和運維投入變化囊括其中,實現(xiàn)可度量。可量化的算力對于算力的使用者和廣大的企業(yè)來說,意味著可以真正實現(xiàn)“買到即用到”的算力服務(wù)。
他談到:在訓練大模型的時候經(jīng)常會遇到這樣的問題,由于前期經(jīng)驗不足,團隊并不精準地知道到底需要多大規(guī)模的算力。同時,在此過程中,即使部署了大規(guī)模集群算力,依然會因為各種原因讓模型訓練中斷,比如數(shù)據(jù)問題,比如程序bug。一旦中斷,這些算力就會被浪費。
“所以我們在此提到的有效算力指的是,當你使用的時候算力是在計價的,當你沒有使用的時候,不會被計價,我們最終的用戶買到的是真正有效的算力。同時我們運營商也可以獲得更高的單價,隨著算網(wǎng)建設(shè)的發(fā)展,同樣1度算力度量的算力也會促進我們算力的流通進行公平的結(jié)算。”
遠航:重構(gòu)計算,吾道不孤
僅從操作系統(tǒng)本身而言,生態(tài)的成功與否往往直接影響到其生存與繁榮。AIDC OS 同樣如此。而在智算中心的核心生態(tài)里,智算中心操作系統(tǒng)本身就處在承上啟下的關(guān)鍵連接位。如何不斷健全其生態(tài)構(gòu)建,是關(guān)乎長遠的發(fā)展要義。
尚明棟表示,九章云極DataCanvas希望與GPU廠商、大模型廠商、智能體廠商、行業(yè)客戶以及智算中心的建設(shè)者都成為朋友,廣結(jié)善緣、共建生態(tài)。
目前為止,AIDC OS已經(jīng)適配了中科、海光、N騰、天數(shù)智芯等主流GPU;另外,在大模型方面,除了九章云極DataCanvas自研的Alaya大模型之外,也可以支持一眾國內(nèi)的開源大模型,在平臺上進行模型的微調(diào)和統(tǒng)一納管。
站在又一次技術(shù)浪潮襲來的當口,改變世界的能力可以被掌握在更多人手中。而要成為這場變革的舵手,不僅要有凌霄之志,更要有善利之懷,與志同道合者共繪智算新圖景。在駛向新大陸的征程里,革新之路,星漢燦爛;重構(gòu)計算,吾道不孤。
























