馬斯克23萬GPU訓練Grok-這規模讓OpenAI都要顫抖
馬斯克昨天在X上發了一條消息:"xAI的目標是在5年內部署相當于5000萬個H100的AI算力。"
5000萬個H100,這什么概念?我算了一下,這相當于35個核電站的發電量才能供得起。
更震撼的是,馬斯克現在已經在用的基礎設施規模了。
現在就有23萬個GPU在轉
昨天看到的數據確實挺震撼的。xAI的Memphis數據中心現在運行著:
? 15萬個H100 - 這是之前的主力
? 5萬個H200 - 性能是H100的兩倍
? 3萬個GB200 - 基于最新Blackwell架構,性能是H100的5倍
按算力折算,這相當于40萬個H100在同時工作。這個數字什么概念呢?OpenAI說他們年底要有"超過100萬個GPU",但按算力計算,馬斯克現在已經有了。
而這只是他們的Colossus 1集群。
Colossus 2要來了
馬斯克最近透露,他們正在建設第二個集群 - Colossus 2。這個集群計劃部署110萬個GB200和GB300。
我看到這個數字的時候,第一反應是:這還是地球上的項目嗎?
按照算力計算,Colossus 2完工后,xAI將擁有相當于500-800萬個H100的計算能力。這是目前Grok 3訓練算力的50-80倍。
更瘋狂的是,馬斯克說這個集群將在5-9個月內建成。這個建設速度,傳統數據中心廠商看了都得傻眼。
電力是最大的挑戰
你知道5000萬個H100需要多少電嗎?35吉瓦。
這什么概念?一個核電站的發電量通常是1吉瓦,也就是說,馬斯克需要35個核電站專門給他的AI集群供電。
即使到了2029年,使用Nvidia最新的Feynman Ultra GPU,功耗相比現在有大幅改善,這樣的集群仍然需要4.685吉瓦的電力供應。
這已經超過了法屬圭亞那整個國家的用電量。
不過話說回來,馬斯克向來不按常理出牌。他在德州建特斯拉超級工廠的時候,也有人覺得不可能。現在看起來,xAI正在走同樣的路線。
AI軍備競賽的新維度
從這個角度看,AI競爭已經不只是算法和模型的競爭了,更是基礎設施的競爭。
OpenAI說要建"100萬GPU"的數據中心,Google有自己的TPU集群,而馬斯克直接從量級上碾壓。
更關鍵的是,馬斯克有幾個別人沒有的優勢:
? Tesla的電池技術 - Colossus 1就是用Tesla電池作為備用電源
? SpaceX的工程能力 - 這種超大規模基建項目,SpaceX有經驗
? X平臺的實時數據 - 其他AI公司想要的訓練數據,他有源源不斷的供應
這種跨公司的協同優勢,是其他AI公司很難復制的。
超級智能要來了?
馬斯克在接受采訪時說,他預計超級智能可能在今年或2026年出現。
按他的定義,超級智能是指"在大多數事情上都比任何一個人類更聰明的AI"。
我不知道這個預測準不準,但從硬件基礎設施的角度看,馬斯克確實在為這個目標做準備。他提到,全球大概會有十個"深度智能"數據中心,其中四個在美國。
想想看,如果真的實現了,這將是人類歷史上最大規模的計算集群,專門用來訓練可能比人類更聰明的AI。
現實一點說
當然了,計劃是一回事,能不能實現是另一回事。
5000萬個H100等效算力,35吉瓦電力,這在工程上確實是巨大的挑戰。但考慮到馬斯克之前的記錄 - 從PayPal到特斯拉到SpaceX - 我覺得不能輕易說他做不到。
至少現在,他已經有了業界最大規模的AI訓練集群。Grok模型能夠實時接入X平臺數據,在某些基準測試上表現確實不錯。
這個基礎設施軍備競賽,確實值得關注。不管結果怎樣,它肯定會推動整個AI行業的發展速度。
不過話說回來,普通人更關心的可能是:這些超級AI什么時候能真正有用,而不是只會在基準測試上跑分。





































