專為 DeepSeek 類強(qiáng)推理加速,老黃拿出 Blackwell Ultra,下代架構(gòu)性能還要翻倍
「因?yàn)?AI 技術(shù)爆發(fā),GTC 大會(huì)的規(guī)模每年都在擴(kuò)大,以前人們說(shuō) GTC 是 AI 的伍德斯托克音樂(lè)節(jié),今年我們搬進(jìn)了體育場(chǎng),我覺(jué)得 GTC 已經(jīng)成了 AI 的超級(jí)碗,」英偉達(dá) CEO 黃仁勛說(shuō)道。「唯一的不同在于每個(gè)人都是『超級(jí)碗』的贏家?!?/p>
北京時(shí)間 3 月 19 日凌晨,全世界的目光都匯聚在加州圣何塞 SAP 中心,期待英偉達(dá)給出的下一個(gè) AI 大方向。

老黃的 Keynote 演講行云流水,沒(méi)有提詞器
在詳細(xì)介紹 Keynote 內(nèi)容之前,我們劃下重點(diǎn):
- Blackwell 已經(jīng)全面投產(chǎn)。「產(chǎn)量驚人,客戶需求驚人,因?yàn)槿斯ぶ悄艹霈F(xiàn)了一個(gè)拐點(diǎn),由于推理人工智能以及推理人工智能系統(tǒng)和智能體系統(tǒng)的訓(xùn)練,我們?cè)谌斯ぶ悄茴I(lǐng)域必須完成的計(jì)算量大大增加。」
- Blackwell Ultra 將于 2025 年下半年上市,下一代 AI 加速器架構(gòu) Vera Rubin 則會(huì)在 2026 年推出。
- 搭載分布式推理系統(tǒng) Dynamo 的 Blackwell NVLink 72 的「AI 工廠」性能是英偉達(dá) Hopper 的 40 倍?!鸽S著人工智能規(guī)模的擴(kuò)大,推理將成為未來(lái)十年最重要的工作負(fù)載之一」。
- 按照最新路線圖,英偉達(dá)正在構(gòu)建三種 AI 基礎(chǔ)設(shè)施:一種用于云,第二種用于企業(yè),第三種用于機(jī)器人。
發(fā)布會(huì)上,老黃再次拿出 CES 上展示的 AI 發(fā)展曲線:

從 2012 年的 AlexNet 開(kāi)始,現(xiàn)在我們處于生成式人工智能的階段,即將進(jìn)入智能體時(shí)代,隨后是物理人工智能。物理 AI 也就是進(jìn)入物理世界的人工智能,包括自動(dòng)駕駛汽車與機(jī)器人?!该恳淮卫顺倍紴槲覀兇蜷_(kāi)了新的市場(chǎng)機(jī)遇。」
再增加一個(gè)維度,不容忽視的是 DeepSeek R1 推動(dòng)測(cè)試時(shí)擴(kuò)展(Test-Time Scaling)給機(jī)器智能帶來(lái)的全新發(fā)展曲線:

智能背后是計(jì)算的力量。預(yù)訓(xùn)練時(shí)代解決數(shù)據(jù)問(wèn)題,后訓(xùn)練解決的是 human-in-the-loop 問(wèn)題,而測(cè)試時(shí)間擴(kuò)展則是為了增強(qiáng) AI 的推理能力。每一階段都有自己的 Scaling Law,算力都是強(qiáng)需求。
所以,雖然 DeepSeek R1 的高效率給全世界以震撼,讓人們正在重估大模型的算力需求,但英偉達(dá)對(duì)于未來(lái)的 AI 算力需求仍然非常樂(lè)觀。
英偉達(dá)給出了一組數(shù)據(jù):僅在 2024 年,全球前四的云服務(wù)運(yùn)營(yíng)商共采購(gòu)了 130 萬(wàn)片 Hopper 架構(gòu)芯片。預(yù)計(jì)數(shù)據(jù)中心的建設(shè)投資將很快達(dá)到 1 萬(wàn)億美元。不知道其中有多少是 OpenAI 星際之門(mén)項(xiàng)目的貢獻(xiàn)。

AI 計(jì)算不是在萎縮,而是在通貨膨脹,老黃進(jìn)一步給出了兩個(gè)增長(zhǎng)曲線:
- 第一個(gè)曲線,軟件都會(huì)因?yàn)?AI 而加速,在常規(guī)云服務(wù)上運(yùn)行的人類編寫(xiě)軟件,會(huì)轉(zhuǎn)變?yōu)?AI 編寫(xiě)的軟件運(yùn)行在加速 AI 基礎(chǔ)設(shè)施上;
- 第二個(gè)曲線,人們編寫(xiě)的文字提示獲得 AI 生成的 token,轉(zhuǎn)變成為 AI 生成的 Token 引導(dǎo)出 AI 生成的結(jié)果(即強(qiáng)推理)。
在此之上,整個(gè)世界將會(huì)被重塑。

每個(gè)企業(yè)未來(lái)都會(huì)有兩個(gè)工廠,一個(gè)是物理的工廠,一個(gè)是 AI 的虛擬工廠。英偉達(dá)為所有行業(yè)的變革準(zhǔn)備了新的工具,包括 CUDA X 軟件庫(kù),其中包括用于 NumPy 的 cuPYNUMERIC、用于量子計(jì)算的 cuQUANTUM 和 CUDA-Q、用于深度學(xué)習(xí)的 NCCL 和 cuBLAS 等等。
所有這些庫(kù)都依賴 CUDA 核心來(lái)完成工作,為此英偉達(dá)也準(zhǔn)備好了更先進(jìn)的 AI 算力。
Blackwell 發(fā)布超大杯,性能猛增
Blackwell 架構(gòu)的 AI 加速卡現(xiàn)在已經(jīng)全面進(jìn)入量產(chǎn)階段,正在推動(dòng)下一波 AI 基礎(chǔ)設(shè)施浪潮?!高@是我們改變計(jì)算架構(gòu)基礎(chǔ)的重要一步,」黃仁勛說(shuō)道。
在芯片架構(gòu)進(jìn)步的同時(shí),英偉達(dá)正在研究讓用戶同時(shí)訪問(wèn)多個(gè) GPU 的 NVLINK 交換機(jī)。

大規(guī)模的推理可能是英偉達(dá)迄今為止面臨的最復(fù)雜的計(jì)算問(wèn)題,但又是 AI 未來(lái)的方向。過(guò)去幾個(gè)月里,很多人都在嘗試使用 DeepSeek,肯定已經(jīng)有了親身體驗(yàn):

黃仁勛展示了新舊兩代大模型是如何解決「為七位客人優(yōu)化婚宴餐桌位次」的問(wèn)題。上代大語(yǔ)言模型 Llama 輸出了 439 個(gè) token,結(jié)果不盡如人意。強(qiáng)推理模型 DeepSeek R1 輸出了 8559 個(gè) token 進(jìn)行了一番推理,花費(fèi)的時(shí)間更長(zhǎng),計(jì)算量也更大,但結(jié)果真正能被人用得上。
老黃表示:「這是個(gè)只有丈母娘或者 AI 才能解決的問(wèn)題?!?/p>

但是上面這個(gè)問(wèn)題需要消耗 150 倍的算力。AI 服務(wù)商希望盡可能地向每位用戶提供更高的速度,同時(shí)也希望盡可能地向更多用戶提供服務(wù)。這就產(chǎn)生了對(duì)內(nèi)存、帶寬、計(jì)算速度等各個(gè)方面的巨大需求。Grace Blackwell NVLink72 正是為滿足這樣的需求誕生的。
為了提升效率,英偉達(dá)在軟件上也有創(chuàng)新,提出了「AI 工廠的操作系統(tǒng)」——NVIDIA Dynamo。它是一個(gè)「分布式推理服務(wù)庫(kù)」,而且是一個(gè)開(kāi)源解決方案,解決的是用戶需要 token 但無(wú)法提供足夠 token 的問(wèn)題。據(jù)介紹,Dynamo 會(huì)被用于在大量 GPU 之間高效編排和協(xié)調(diào) AI 推理請(qǐng)求。目前,微軟、Perplexity 等公司已宣布開(kāi)始接入這一系統(tǒng)。

接下來(lái),讓我們看看軟件 + 硬件能夠帶來(lái)的算力效率提升。如果強(qiáng)推理模型落地成產(chǎn)品,我們就需要 AI 能以極快的速度跑完思維鏈?!钢挥性谟ミ_(dá),你才會(huì)這樣被數(shù)學(xué)折磨,」老黃說(shuō)道。在推理模型中,最新版 Blackwell 的性能是 Hopper 的 40 倍:

黃仁勛展示了一個(gè)非常直觀的對(duì)比。同樣是 100 MW 功率的 AI 工廠,使用 GB200 搭建的數(shù)據(jù)中心的生產(chǎn)力是使用 H100 的數(shù)據(jù)中心的 40 倍,同時(shí)機(jī)架數(shù)量還能從 1400 大幅減少到 600。

現(xiàn)在不是「the more you buy the more you save」了,而是「the more you buy the more you generate」。「全球 TOPS 的云服務(wù)提供商(CSP)訂購(gòu)的 Blackwell 芯片數(shù)量是 Hopper 的三倍,AI 算力的需求正在迅猛增長(zhǎng)?!裹S仁勛表示。
不得不說(shuō),他表示自己確實(shí)想提高 Blackwell 的銷量,但這同時(shí)在一定程度上降低了 Hopper 的銷量。他甚至打趣說(shuō)自己是 chief revenue destroyer(首席收入破壞官)。
黃仁勛表示,人們的 AI 任務(wù)需求正在大幅提升,因?yàn)榇竽P屯评砣蝿?wù)、AI Agent 等任務(wù),AI 推理的算力需求已經(jīng)增長(zhǎng)了 10-100 倍。這也就產(chǎn)生了對(duì)更強(qiáng)大性能的需求。
似乎是在順應(yīng)手機(jī)和新能源車出「超大杯」Ultra 版的風(fēng)潮,英偉達(dá)在旗艦 AI 計(jì)算卡上也搞了個(gè) Ultra 版:Blackwell Ultra NVL72。

這是迄今為止 AI 算力最強(qiáng)大的硬件,配備了 1.1 EF 的密集 FP4 推理能力和 0.36 EF 的 FP8 訓(xùn)練能力,達(dá)到了 GB200 NVL72 的 1.5 倍。此外,它的互聯(lián)帶寬是 GB200 NVL72 的 2 倍,內(nèi)存速度也提升了 1.5 倍。至于 Blackwell Ultra NVL72 的上市時(shí)間,預(yù)計(jì)會(huì)是今年下半年。
將八個(gè) NVL72 機(jī)架放在一起,就可以獲得完整的 Blackwell Ultra DGX SuperPOD:288 個(gè) Grace CPU、576 個(gè) Blackwell Utlra GPU、300TB HBM3e 內(nèi)存和 11.5 ExaFLOPS FP4 算力。這就形成了英偉達(dá)定義中「AI 工廠」的超級(jí)計(jì)算機(jī)解決方案。
需要注意的是,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的芯片。
下一代架構(gòu) Vera Rubin
既然算力在通貨膨脹,那這還遠(yuǎn)遠(yuǎn)不夠。在今天的 Keynote 中,英偉達(dá)很快就介紹完了 Blackwell Ultra,轉(zhuǎn)而展示了其下一代架構(gòu) Vera Rubin—— 其全機(jī)架性能應(yīng)是同類 Blackwell Ultra 的 3.3 倍。
Vera Rubin 將是英偉達(dá)的下一個(gè)平臺(tái),將于 2026 年下半年推出。Vera Rubin 具有 NVLink144,更強(qiáng)大的 Rubin Ultra 則具有 NVLink576,將于 2027 年下半年推出。在具體性能上,其將具有 3.6 EF 的 FP4 推理性能和 1.2 EF 的 FP8 訓(xùn)練性能,整體可達(dá)到 GB300 NVL72 的 3.3 倍,同時(shí)在其它指標(biāo)上也有 2 倍左右的提升。

其 Ultra 版則計(jì)劃在 2027 年下半年推出,其性能更是有望達(dá)到 GB300 NVL72 的 14 倍!

除了 GPU 芯片的迭代,Rubin 還將標(biāo)志著從 HBM3/HBM3e 向 HBM4 的轉(zhuǎn)變。每 GPU 的內(nèi)存容量仍為 288GB,與 B300 相同,但帶寬將從 8 TB/s 提高到 13 TB/s。下代產(chǎn)品還將擁有更快的 NVLink,吞吐量翻倍至 260 TB/s,機(jī)架之間的新 CX9 鏈路速度為 28.8 TB/s(是 B300 和 CX8 的兩倍)。
如果將 4 組 Vera Rubin NVLink144 組成的 Vera Rubin NVLink576 來(lái)構(gòu)建 NVIDIA Rubin System,則這將是配備 576 個(gè) Rubin GPU 的性能怪獸,能實(shí)現(xiàn) 15 EF 的 FP4 性能,同時(shí)內(nèi)存也將達(dá)到驚人的 150 TB。對(duì)比前代 Blackwell System 的性能,可以看到優(yōu)勢(shì)非常明顯。

黃仁勛特別強(qiáng)調(diào):「你可以看到,Rubin 將大大降低成本?!?/p>

據(jù)了解,這一代 GPU 得名于科學(xué)家 Vera Rubin,她是一位美國(guó)天文學(xué)家,1928 年出生于費(fèi)城。她的知名成就是發(fā)現(xiàn)了暗物質(zhì)存在的證據(jù)。

值得一提的是,自去年的 Blackwell 開(kāi)始,命名就不再單指芯片架構(gòu)。黃仁勛就曾強(qiáng)調(diào),Blackwell 并不是某塊芯片,而是一個(gè)技術(shù)平臺(tái),英偉達(dá)也越來(lái)越多地開(kāi)始使用「Blackwell」一詞來(lái)指代該公司所有最新一代 AI 產(chǎn)品,例如 GB200 芯片和 DGX 服務(wù)器機(jī)架。

黃仁勛還在演講中簡(jiǎn)單提到了再后一代的 Feynman 架構(gòu) —— 很顯然這得名于著名物理學(xué)家理查德?費(fèi)曼。不過(guò)這至少得等到 2028 年了。
此外,黃仁勛還宣布了 NVIDIA Photonics,這似乎是迄今為止最強(qiáng)大的 Spectrum-X 以太網(wǎng)互聯(lián),以激光作為介質(zhì),可以大幅提升 GPU 之間的傳輸速度,支持擁有數(shù)百萬(wàn)塊 GPU 的集群。預(yù)計(jì)這款產(chǎn)品將于今年下半年上市,而新一代的 Quantum-X 將在明年下半年上市。

今天的新產(chǎn)品中相對(duì)來(lái)說(shuō)接地氣的是 Blackwell RTX Pro 系列圖形產(chǎn)品。其面向的是筆記本電腦和臺(tái)式機(jī),以及獨(dú)立 PC 和數(shù)據(jù)中心產(chǎn)品。具體規(guī)格和配置的細(xì)節(jié)尚未公布,已知頂級(jí)解決方案將使用與 GeForce RTX 5090 相同的 GB202 芯片(但顯存會(huì)更大)。

至此,英偉達(dá)看起來(lái)已經(jīng)為強(qiáng)推理 AI 大規(guī)模落地所需巨量的計(jì)算做好了準(zhǔn)備。
下一波浪潮:物理世界的 AI
最后是對(duì)未來(lái)的展望。英偉達(dá)表示,AI 的下一波浪潮必然會(huì)延伸到物理世界,主要形式會(huì)是三種機(jī)器人:工業(yè)機(jī)器人、自動(dòng)駕駛車輛以及狹義的人形機(jī)器人。
三種機(jī)器人都需要的算力包括預(yù)訓(xùn)練、模擬環(huán)境和端側(cè)算力,這些算力英偉達(dá)都提供。物理世界的 AI 將會(huì)帶動(dòng)數(shù)萬(wàn)億美元的工業(yè)產(chǎn)值,數(shù)以十億計(jì)的機(jī)器人將會(huì)使用英偉達(dá)的計(jì)算平臺(tái)。

數(shù)據(jù)、架構(gòu)、Scaling Law,這些問(wèn)題在機(jī)器人領(lǐng)域也同樣存在
對(duì)此,英偉達(dá)的預(yù)訓(xùn)練模型平臺(tái) Cosmos、GROOT N1 以及 NVIDIA Omniverse 將會(huì)幫助物理 AI 生態(tài)的構(gòu)建,推動(dòng)技術(shù)的發(fā)展。
其中,GROOT N1 是通用的機(jī)器人基礎(chǔ)模型,英偉達(dá)宣布已經(jīng)把它開(kāi)源了出來(lái)。模型采用雙系統(tǒng)架構(gòu),靈感來(lái)自人類認(rèn)知原理。在視覺(jué)語(yǔ)言模型的支持下,系統(tǒng) 2 可以推理其環(huán)境和收到的指令,從而規(guī)劃行動(dòng)。然后,系統(tǒng) 1 將這些計(jì)劃轉(zhuǎn)化為精確、連續(xù)的機(jī)器人動(dòng)作。
基于可通過(guò)少量人類演示生成指數(shù)級(jí)的大量合成動(dòng)作數(shù)據(jù)的生成藍(lán)圖,他們?cè)诙潭?11 小時(shí)內(nèi)生成了 78 萬(wàn)條合成軌跡,相當(dāng)于 6500 小時(shí)或連續(xù) 9 個(gè)月的人類演示數(shù)據(jù)。然后,通過(guò)將合成數(shù)據(jù)與真實(shí)數(shù)據(jù)相結(jié)合,與僅使用真實(shí)數(shù)據(jù)相比,GR00T N1 的性能提高了 40%。
黃仁勛展示了與迪斯尼和 DeepMind 聯(lián)合開(kāi)發(fā)的機(jī)器人平臺(tái) Newton,以及基于該平臺(tái)打造的《星球大戰(zhàn)》風(fēng)格的機(jī)器人 Blue。

他表示,對(duì)于機(jī)器人,可驗(yàn)證的獎(jiǎng)勵(lì)就是物理定律。

利用 Omniverse 和 Cosmos 通過(guò)數(shù)字孿生虛擬訓(xùn)練機(jī)器人的 AI,然后將其轉(zhuǎn)化為現(xiàn)實(shí)世界的動(dòng)作 Token 輸出,這就是未來(lái)機(jī)器人大規(guī)模落地的方式嗎?

如果人形機(jī)器人會(huì)有恐怖谷效應(yīng)的話,科幻電影里早已為我們準(zhǔn)備了解決方案。
「每個(gè)人都應(yīng)該關(guān)注機(jī)器人領(lǐng)域,它很可能會(huì)成為最大的產(chǎn)業(yè),」黃仁勛說(shuō)。


































