剛剛,全球首個GB300巨獸救場!一年燒光70億,OpenAI內斗GPU慘烈
過去一年,OpenAI在算力上斥資70億美元。
其中,大模型研發占了最大頭——50億美元,而推理計算僅用了20億美元。
圖片
可見,LLM訓練正吞噬無盡的算力,這也是OpenAI最近一直在大舉擴展超算建設與合作的重要原因。
采訪中,OpenAI總裁Greg Brockman坦言,「內部如何分配GPU,簡直就是一場痛苦與煎熬」。
OpenAI各個團隊爭搶GPU,那叫一個激烈。最頭疼的是,如何去合理分配。

如今,甲骨文、英偉達、AMD等芯片巨頭/云服務巨頭,紛紛與OpenAI聯結,能夠解其燃眉之急。
這不,就連曾經最大的「金主爸爸」微軟也上陣了。
納德拉官宣,全球首個配備4600+ GB300的超算率先上線,專攻OpenAI。預計,未來將擴展到十萬塊GPU。
圖片
英偉達稱,這一算力巨獸,可以讓OpenAI不用數周,僅在數天內訓練萬億參數模型。

全球首臺GB300超算數天訓出萬億LLM
就在昨天,微軟Azure宣布成功交付了,全球首個生產級超大規模AI集群。
它搭載了超4600個GB300 NVL72,配備通過下一代InfiniBand網絡互聯的Blackwell Ultra GPU。
圖片
今年早些時候,微軟曾推出GB200 v6虛擬機(VM),通過大規模GB200 NVL2集群,已在OpenAI內部訓練部署得到應用。
這一次,GB300 v6虛擬機再次樹立了行業標桿。
該系統基于機架級設計,每個機架包含18個虛擬機,共計72個GPU:
- 72個Blackwell Ultra GPU,搭配36個Grace CPU
- 通過下一代Quantum-X800 InfiniBand,實現每GPU 800 Gb/s的跨機架橫向擴展帶寬(2x GB200 NVL72)
- 機架內130 TB/s的NVLink帶寬
- 37TB高速內存
- 高達1,440 PFLOPS的FP4 Tensor Core性能
圖片
全新設計,為大規模AI超算而生
為打造出最強超算,微軟對計算、內存、網絡、數據中心、散熱和供電等技術棧的每一層,都進行了重新設計。
機架層:低延遲高吞吐
通過NVLink和NVSwitch,GB300 v6在機架層面實現了高達130TB/s的機架內數據傳輸速率,連接了總計37TB的高速內存,由此消除了內存和帶寬瓶頸。
在大模型和長上下文場景下,推理吞吐量大幅提升,為AI智能體和多模態AI帶來前所未有的響應速度和擴展性。
同時,Azure部署了采用當今最快網絡 fabric——Quantum-X800 Gbp/s InfiniBand——的全連接胖樹(fat-tree)無阻塞架構,能夠跨機架擴展數萬個GPU。
此外,Azure散熱系統采用獨立的「散熱器單元」和「設施級冷卻方案」。
在為GB300 NVL72這類高密度、高性能集群保持熱穩定性的同時,最大限度地減少了水資源消耗。
軟件層:全面優化
不僅如此,微軟為存儲、編排和調度重構的軟件棧也經過全面優化,能夠在超算規模上充分利用計算、網絡、存儲和數據中心基礎設施,提供前所未有的高性能和高效率。

OpenAI GPU爭奪戰一場「痛苦與煎熬」
在OpenAI內部,正上演一場GPU激烈爭奪戰。
圖片
上周四,Greg在一期「Matthew Berman」播客節目中,自曝管理算力資源分配的過程,令人揪心且筋疲力盡。
這太難了,你總能看到各種絕妙的點子,然后又有人帶著另一個絕妙的點子來找你,你心想,這個也太棒了。
在OpenAI內部,將算力資源主要分配給「研究」和「應用產品」兩個方向。
圖片
為了應對算力分配的挑戰,OpenAI建立了一套相對清晰的資源分配機制:
- 高層決策:由奧特曼和Fidji Simo組成的領導團隊,決定研究團隊與應用團隊之間的總體算力劃分;
- 研究團隊內部協調:首席科學家和研究負責人,決定研究團隊資源分配;
- 運營層:由Kevin Park領導的小型內部團隊負責GPU的具體分配和調動。
OpenAI復雜算力關系網絡圖
Greg提到,當一個項目接近尾聲時,Kevin會重新分配硬件資源,以支持新啟動的項目。
算力驅動著整個團隊的生產力,此事干系重大。
大家對此都非常在意。人們對「我能否分到算力」這件事所投入的精力與情感強度遠超想象。
一直以來,OpenAI多次公開表達其對算力永不滿足的需求。
OpenAI首席產品官Kevin Weil曾表示,「我們每次拿到新的 GPU,它們都會被立刻投入使用」。
OpenAI對算力的需求邏輯很簡單——
GPU的數量直接決定了AI應用的能力上限。獲得的GPU越多,所有人就能使用越多的AI。
圖片
不僅OpenAI,整個行業科技巨頭也在加碼算力投入。小扎透露,Meta正將「人均算力」打造為核心競爭優勢。

上個月,奧特曼稱,OpenAI正在推出「算力密集型服務」。
當我們以當前模型的成本,將海量算力投入到有趣的新想法上時,能創造出怎樣的可能性?
這場算力爭奪戰中,誰手握最多的算力,將決定誰在AI競賽中脫穎而出。
參考資料:
https://x.com/satyanadella/status/1976322455288545343
https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/






























