馬斯克23萬GPU訓練Grok-這規模讓OpenAI都要顫抖

作者：阿丸筆記 2025-07-25 09:25:05

馬斯克在接受采訪時說，他預計超級智能可能在今年或2026年出現。按他的定義，超級智能是指"在大多數事情上都比任何一個人類更聰明的AI"。

馬斯克昨天在X上發了一條消息："xAI的目標是在5年內部署相當于5000萬個H100的AI算力。"

5000萬個H100，這什么概念？我算了一下，這相當于35個核電站的發電量才能供得起。

更震撼的是，馬斯克現在已經在用的基礎設施規模了。

昨天看到的數據確實挺震撼的。xAI的Memphis數據中心現在運行著：

? 15萬個H100 - 這是之前的主力

? 5萬個H200 - 性能是H100的兩倍

? 3萬個GB200 - 基于最新Blackwell架構，性能是H100的5倍

按算力折算，這相當于40萬個H100在同時工作。這個數字什么概念呢？OpenAI說他們年底要有"超過100萬個GPU"，但按算力計算，馬斯克現在已經有了。

而這只是他們的Colossus 1集群。

馬斯克最近透露，他們正在建設第二個集群 - Colossus 2。這個集群計劃部署110萬個GB200和GB300。

我看到這個數字的時候，第一反應是：這還是地球上的項目嗎？

按照算力計算，Colossus 2完工后，xAI將擁有相當于500-800萬個H100的計算能力。這是目前Grok 3訓練算力的50-80倍。

更瘋狂的是，馬斯克說這個集群將在5-9個月內建成。這個建設速度，傳統數據中心廠商看了都得傻眼。

你知道5000萬個H100需要多少電嗎？35吉瓦。

這什么概念？一個核電站的發電量通常是1吉瓦，也就是說，馬斯克需要35個核電站專門給他的AI集群供電。

即使到了2029年，使用Nvidia最新的Feynman Ultra GPU，功耗相比現在有大幅改善，這樣的集群仍然需要4.685吉瓦的電力供應。

這已經超過了法屬圭亞那整個國家的用電量。

不過話說回來，馬斯克向來不按常理出牌。他在德州建特斯拉超級工廠的時候，也有人覺得不可能。現在看起來，xAI正在走同樣的路線。

從這個角度看，AI競爭已經不只是算法和模型的競爭了，更是基礎設施的競爭。

OpenAI說要建"100萬GPU"的數據中心，Google有自己的TPU集群，而馬斯克直接從量級上碾壓。

更關鍵的是，馬斯克有幾個別人沒有的優勢：

? Tesla的電池技術 - Colossus 1就是用Tesla電池作為備用電源

? SpaceX的工程能力 - 這種超大規模基建項目，SpaceX有經驗

? X平臺的實時數據 - 其他AI公司想要的訓練數據，他有源源不斷的供應

這種跨公司的協同優勢，是其他AI公司很難復制的。

馬斯克在接受采訪時說，他預計超級智能可能在今年或2026年出現。

按他的定義，超級智能是指"在大多數事情上都比任何一個人類更聰明的AI"。

我不知道這個預測準不準，但從硬件基礎設施的角度看，馬斯克確實在為這個目標做準備。他提到，全球大概會有十個"深度智能"數據中心，其中四個在美國。

想想看，如果真的實現了，這將是人類歷史上最大規模的計算集群，專門用來訓練可能比人類更聰明的AI。

當然了，計劃是一回事，能不能實現是另一回事。

5000萬個H100等效算力，35吉瓦電力，這在工程上確實是巨大的挑戰。但考慮到馬斯克之前的記錄 - 從PayPal到特斯拉到SpaceX - 我覺得不能輕易說他做不到。

至少現在，他已經有了業界最大規模的AI訓練集群。Grok模型能夠實時接入X平臺數據，在某些基準測試上表現確實不錯。

這個基礎設施軍備競賽，確實值得關注。不管結果怎樣，它肯定會推動整個AI行業的發展速度。

不過話說回來，普通人更關心的可能是：這些超級AI什么時候能真正有用，而不是只會在基準測試上跑分。

責任編輯：武曉燕來源：阿丸筆記