AI算力大戰(zhàn)打到太空!英偉達(dá)前腳H100入軌,谷歌TPU后腳上天,中國(guó)玩家笑而不語(yǔ)
英偉達(dá)和谷歌,搶著上天了!
搭載英偉達(dá)H100的衛(wèi)星已經(jīng)在這個(gè)月被送入太空,谷歌這邊也不甘落后——
CEO劈柴哥表示要把TPU也發(fā)射上去,最早的兩顆衛(wèi)星2027初啟程。

未來,兩家都打算在太空建立起吉瓦級(jí)的數(shù)據(jù)中心。
網(wǎng)友表示,在太空部署算力的想法真的很酷。

不過這個(gè)賽道上,領(lǐng)先的既不是英偉達(dá)也不是谷歌,而是一家來自中國(guó)的公司,更早之前就已經(jīng)開啟了太空算力布局。
AI芯片要上天了
英偉達(dá)芯片上天,主要是由Inception計(jì)劃孵化的初創(chuàng)公司Starcloud執(zhí)行。
本月剛剛發(fā)射的Starcloud-1衛(wèi)星搭載了H100,重60公斤,大小與小型冰箱相當(dāng)。
之所以選擇英偉達(dá)芯片,是因?yàn)镾tarcloud需要具備與地球數(shù)據(jù)中心相媲美的性能,而英偉達(dá)GPU在訓(xùn)練、微調(diào)和推理方面性能最佳。
Starcloud-1將接收來自合成孔徑雷達(dá)(SAR)衛(wèi)星群的數(shù)據(jù),并在太空中對(duì)這些數(shù)據(jù)進(jìn)行實(shí)時(shí)處理然后傳回地球。

同時(shí)Starcloud還是Google for Startups Cloud AI Accelerator計(jì)劃的“畢業(yè)生”,計(jì)劃在軌道上使用H100運(yùn)行谷歌的開源模型Gemma,證明大型語(yǔ)言模型在外太空運(yùn)行的可行性。
Starcloud最早將于明年啟動(dòng)商業(yè)服務(wù),后續(xù)還計(jì)劃把Blackwell也送入太空,終極目標(biāo)是建造一個(gè)功率達(dá)5吉瓦、跨度約2.5英里(約4公里)的軌道數(shù)據(jù)中心。
CEO Philip Johnston還預(yù)言,10年之內(nèi),新建的數(shù)據(jù)中心將全部建在太空。

谷歌這邊起手稍晚了些,計(jì)劃把自家的TPU送上太空,兩顆原型衛(wèi)星預(yù)計(jì)在2027年初發(fā)射。
谷歌把該計(jì)劃命名為“太陽(yáng)捕手計(jì)劃”(Project Suncatcher)。

原因是計(jì)算星座中的衛(wèi)星將全部通過太陽(yáng)能供能,之間的通信鏈路也是通過自由空間光通信實(shí)現(xiàn)。
最早的兩顆原型衛(wèi)星將測(cè)試谷歌TPU在太空中的實(shí)際運(yùn)行情況,同時(shí)對(duì)光通信鏈路進(jìn)行驗(yàn)證,探索其執(zhí)行分布式機(jī)器學(xué)習(xí)任務(wù)的可行性。
遠(yuǎn)期來看,谷歌的終極目標(biāo),也是在太空中建成吉瓦級(jí)的數(shù)據(jù)中心。
太空部署的優(yōu)勢(shì)和挑戰(zhàn)
關(guān)于在太空中部署算力設(shè)施的優(yōu)勢(shì),兩家都進(jìn)行了論證,谷歌甚至還為此專門發(fā)了一篇論文。

首先就是成本優(yōu)勢(shì),Starcloud這邊給出的數(shù)字認(rèn)為,即使算上發(fā)射費(fèi)用,太空能源成本也僅有陸基方案的1/10。
谷歌這邊則給出了更具體的計(jì)算。
假設(shè)LEO發(fā)射成本降至每公斤200美元,則衛(wèi)星的單位電力年均成本可降至810美元每千瓦年,與當(dāng)前美國(guó)數(shù)據(jù)中心570到3000美元的電力成本區(qū)間相當(dāng)。
并且發(fā)射成本呈現(xiàn)下降趨勢(shì),以SpaceX為例,歷史數(shù)據(jù)顯示其每年發(fā)射載重量翻倍,單價(jià)下降20%,若維持此曲線,預(yù)計(jì)2035年前可將每公斤的發(fā)射成本降低至200美元以內(nèi)。
而當(dāng)馬斯克星艦實(shí)現(xiàn)重復(fù)使用時(shí),發(fā)射成本有望降至每公斤60美元甚至15美元,成本持續(xù)且加速下降。
成本低的一個(gè)重要原因,就是電力更容易獲取——
谷歌論文顯示,太陽(yáng)的能量輸出超過人類總發(fā)電量的100萬(wàn)億倍,在合適的軌道上,太陽(yáng)能電池板的效率可比在地球上高出8倍,并且?guī)缀蹩梢猿掷m(xù)發(fā)電,從而減少對(duì)電池的需求。
再來就是散熱,與許多地球上的數(shù)據(jù)中心依靠蒸發(fā)塔利用淡水進(jìn)行冷卻不同,Starcloud的太空數(shù)據(jù)中心可以利用深空的真空作為無限的散熱器。
英偉達(dá)與Starcloud聯(lián)合開發(fā)了真空散熱架構(gòu),通過衛(wèi)星外殼的高導(dǎo)熱材料將H100的熱量傳導(dǎo)至表面,再以紅外輻射形式排向太空。
此外就是衛(wèi)星數(shù)據(jù)的在軌處理——其他衛(wèi)星所產(chǎn)生的數(shù)據(jù),如果傳回地面再做計(jì)算將耗費(fèi)大量通信資源,有了天基衛(wèi)星之后可以在軌完成運(yùn)算,只把運(yùn)算結(jié)果進(jìn)行回傳,從而減輕通信壓力。
Starcloud對(duì)SAR衛(wèi)星數(shù)據(jù)的處理,就是對(duì)這一路徑的一種嘗試。
谷歌這邊還進(jìn)行了更多驗(yàn)證。
比如通信鏈路,使用現(xiàn)成DWDM模塊(如400G PM-16QAM光模塊),在實(shí)驗(yàn)中已成功實(shí)現(xiàn)800Gbps單向(1.6Tbps雙向)短距光通信,證明此類模塊可用于小尺度衛(wèi)星集群。
還有大規(guī)模衛(wèi)星的控制,谷歌的模型顯示,只需要適度的軌道保持機(jī)動(dòng),就維持星座的穩(wěn)定運(yùn)行。

還有TPU對(duì)輻射的耐受性,谷歌表示,即使是敏感的HBM組件也要在在累積劑量達(dá)到2000rad(Si)后才開始出現(xiàn)異常,這一數(shù)值幾乎是預(yù)期五年任務(wù)劑量的三倍。
所以總的來說,天基機(jī)器學(xué)習(xí)計(jì)算的核心概念并未受到基本物理定律或不可逾越的經(jīng)濟(jì)障礙的限制,但也仍然存在諸多重大的工程挑戰(zhàn),例如熱管理、高帶寬地面通信以及在軌系統(tǒng)可靠性。
國(guó)產(chǎn)算力衛(wèi)星已常態(tài)化商用
Starcloud這邊剛把H100送上天,谷歌的TPU更是要等上一年多才能進(jìn)入太空,但此時(shí)中國(guó)首個(gè)太空算力星座已經(jīng)發(fā)射快半年了。
今年5月,之江實(shí)驗(yàn)室“三體計(jì)算星座”的首批12顆衛(wèi)星已被送入預(yù)定軌道。
這十二顆計(jì)算衛(wèi)星,每顆衛(wèi)星均具備太空計(jì)算、太空互聯(lián)的能力,還搭載了之江實(shí)驗(yàn)室承擔(dān)研制的星載智能計(jì)算機(jī)等太空計(jì)算軟硬件和天基模型,實(shí)現(xiàn)了“算力上天、在軌組網(wǎng),模型上天”。
相比于傳統(tǒng)的應(yīng)用型衛(wèi)星,計(jì)算衛(wèi)星將單顆衛(wèi)星的計(jì)算能力從T級(jí)提升至P級(jí),首發(fā)星座在軌計(jì)算能力達(dá)到5POPS,極大地提升了單星高性能太空計(jì)算的能力。
這些衛(wèi)星還能形成“互聯(lián)網(wǎng)”一樣的互聯(lián)互通,衛(wèi)星之間使用激光通信,通信速度最高可達(dá)100Gbps。
并且今年9月,該星座已經(jīng)實(shí)現(xiàn)了常態(tài)化商業(yè)運(yùn)行。
現(xiàn)在,隨著英偉達(dá)和谷歌的加入,這場(chǎng)太空AI競(jìng)賽也越來越精彩了。
參考鏈接:
[1]https://blogs.nvidia.com/blog/starcloud/?linkId=100000388085273
[2]https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/


































