英偉達鐵幕之后,谷歌AI芯片已成氣候
英偉達明修棧道,谷歌暗渡陳倉。
當你回頭一看,谷歌在AI基礎設施的優勢已經無法阻擋。

這幾天,谷歌終于把憋了很久的大招放出來了,CEO劈柴官宣了自研第七代TPU Ironwood正式商用。

這是谷歌第七代TPU,單顆算力4614 TFLOPS(FP8精度),192GB的HBM3E內存,帶寬高達7.37 TB/s。
與上一代TPU v5p相比峰值性能提升10倍!

對于Google Cloud客戶,Ironwood根據工作負載需求提供兩種尺寸:256芯片配置和9216芯片配置。
也就是一個pod可以最多塞下9216個TPU,總算力達到了驚人的42.5 ExaFLOPS。
與之相比英偉達目前主推的的GB300 NVL72系統只有0.36 ExaFLOPS。
這就是為啥Anthropic直接買了100萬顆TPU的根本原因。
谷歌才是那個真正低調發財的公司,有人總結AI價值鏈上所有公司涉足的領域。

谷歌是唯一一家,沒有之一,全棧人工智能公司:數據→算法→硬件→云服務器。
它使用自己的數據來訓練自己的算法;這些算法在部署在自己的云上的自己的芯片上運行;然后開發了自己的應用程序。
如果說現在谷歌唯一的弱點,那可能就是「蘋果」,準確的說,是客戶端設備,手機。
雖然安卓系統是谷歌的,但是偏偏谷歌沒有自己的手機(如果手機也有,谷歌稱得上地球上最壟斷的公司,也許沒有之一。)
雖然Pixel系列出貨量未能排在三星和國產等安卓機前面,但是用過Pixel的人都說好。

谷歌TPU十年進化
谷歌TPU,全稱張量處理單元 (Tensor Processing UnitT), 從早期幾代主要作為內部優化工具,到最新的迭代已構成一個成熟且極具競爭力的產品組合。
當英偉達在橫向擴展(scale-out) 加速器市場占據主導地位時,谷歌已經構建了全球唯一一個專為訓練和運行前沿模型而設計的、具有高容錯性的超大規模系統。
2013年,谷歌面臨一個關鍵時刻。
公司意識到,神經網絡日益增長的計算需求(尤其是在語音識別領域)可能迫使他們將數據中心的規模翻倍。
這一預測使AI計算不再是一個機遇,而是對運營支出 (OpEx) 的生存威脅。
盡管谷歌早在2006年就考慮過構建專用集成電路 (ASIC),但直到2013年,這才真正成為一項迫在眉睫的任務。
TPU v1 的開發周期之快是前所未有的:從設計、驗證、制造到部署至數據中心僅用了15個月!
TPU v1 于2015年在谷歌內部署,并于2016年的Google I/O大會上公開發布。

TPU v1的誕生過程極不尋常。
它并非一個循序漸進的研發項目,更像是一項緊急的「救火」措施。
據報道,谷歌在構建芯片的同時才開始招聘團隊,這表明該項目風險極高,但也具有最高優先級。
這種「沖刺」塑造了TPU的DNA:實用主義和領域特定優化壓倒一切。
谷歌為了成功,犧牲了所有與神經網絡無關的功能。
當AI由神經網絡組成,TPU就是AI而誕生的。
架構哲學,摒棄通用性
谷歌TPU v1是一款「僅限推理」的ASIC,專為TensorFlow框架設計。 (另一個深度學習框架就是Meta的PyTorch)
它與CPU和GPU的關鍵區別在于:TPU專為高吞吐量的低精度計算(如8位整數)而設計。
與CPU(通用處理器)和GPU(當時主要為圖形渲染優化)不同,TPU徹底摒棄了非必需的硬件,如緩存、亂序執行和紋理映射單元。

該芯片的核心是一個龐大的矩陣乘法單元,擁有 65,536 個 (256x256) 8位MAC單元,峰值性能達到每秒92萬億次操作 (TOPS)。
v1 采用了28nm工藝,時鐘頻率為700MHz,而其熱設計功耗 (TDP) 僅為40W,遠低于同期的GPU。
它被設計為一塊PCIe卡,可安裝在SATA硬盤插槽中,以便快速集成到現有服務器。
早期勝利,AlphaGo與驚人的能效比
2016年,DeepMind的AlphaGo擊敗世界圍棋冠軍李世石,這一歷史性事件的背后正是TPU v1在提供算力支持。
2017年發表的一篇具有里程碑意義的論文詳細闡述了其性能。
在谷歌的生產工作負載(占數據中心NN推理需求的95%)中,TPU v1 的速度比同期的Intel Haswell CPU和英偉達 K80 GPU快15至30倍。

然而,更關鍵的指標是能效比 (TOPS/Watt),TPU v1 比CPU和GPU高出30至80倍。
這一數據揭示了谷歌從一開始的戰略意圖。
在超大規模數據中心的環境中,成本不僅由芯片的采購成本 (CapEx) 決定,更由其運行的電力成本 (OpEx) 決定。
TPU v1 的勝利不僅在于速度,更在于它解決了AI計算的總體擁有成本 (TCO) 問題。
中期規模化演進
TPU v1 驗證了ASIC的概念,但其「僅限推理」的特性意味著谷歌在模型訓練方面仍依賴英偉達。
TPU v2 (2017年推出) 標志著谷歌向訓練領域的戰略轉向。
關鍵的架構轉變是:從8位整數計算轉向浮點計算,特別是引入并推廣了由Google Brain發明的 bfloat16 (bf16) 格式。

bfloat16 是一個巧妙的工程妥協:它保留了與32位浮點數 (FP32) 相同的8位指數,但將尾數截短至7位。
這一設計在大幅降低內存占用和帶寬需求的同時,保留了訓練所需的動態范圍,有效防止了梯度消失或爆炸。
規格方面,v2采用16nm工藝,搭載16GB高帶寬內存 (HBM)(v1為DDR3),內存帶寬飆升至600 GB/s,算力達到45 TFLOPS。
TPU v2引入了Pod(集群)概念,但在此之前與之后,GPU長期以集群/超算形態擴展。
英偉達隨后在2018年推出DGX POD參考架構,2019 年起推出 DGX SuperPOD 并在 2020–2025 年持續更新(H200/GB200 等版本),這些都屬于標準化的GPU集群解決方案。

谷歌不再將TPU視為獨立的加速器,而是設計了4芯片模塊(180 TFLOPS)。
64個這樣的模塊被組裝成一個256芯片的Pod,總性能達到11.5 PFLOPS 6。
這是TPU歷史上最重要的時刻之一。
谷歌停止了在「芯片競賽」中追趕,轉而開辟了「系統競賽」的新戰場。
TPU v3 (2018年) 延續了這一思路。
芯片性能提升至123T-ops,HBM增加到32GB。更重要的是,Pod的規模擴大了4倍,達到1024個芯片,使每個Pod的性能增加了8倍。
為了應對急劇增加的功率密度,液冷技術被引入并成為TPU Pod的標準配置,這使谷歌能夠進一步挑戰性能極限。

到了第四代,TPU v4 (2021)可以和與A100并駕齊驅,實現規模化領先。
TPU v4(2021年)是一次重大飛躍。采用7nm工藝,性能提升至275T-ops(T-ops 是 tera-operations per second的縮寫,表示每秒執行的萬億次操作。)。
Pod規模再次擴大,達到4096個芯片。
關鍵改進在于互連:v4 芯片的互連帶寬達到了上一代的10倍。
到2021年,TPU不再只是一個「高TCO效益」的選項。
它在原始性能上已經可以與英偉達的最佳產品正面競爭。
現代TPU產品,多元化和專業化
TPU v5 的發布標志著谷歌從單一架構轉向成熟、多元化的產品線。
v5有兩個版本TPU v5e(Efficiency)和TPU v5p(Performance),v5e針對主流推理、微調和中小型訓練負載設計;TPU v5p是訓練谷歌Gemini 1.0模型所使用的核心系統。
與TPU v4相比,TPU v5p的FLOPS提高了2倍以上,高帶寬內存(HBM)提高了3倍 。

TPU v5p專為性能、靈活性和規模而設計,可以訓練大型LLM模型 ,速度比上一代TPU v4快2.8倍。
TPU v6,代號Trillium,于2024年5月宣布,并于同年10月提供預覽。
v6性能實現了918TFLOPS和1836TOPS (Int8) 的巨大飛躍。
這比v5e高出4.7倍,比v5p高出約2倍。規格32GB HBM,1600 GB/s帶寬。

v6引入了關鍵架構:第三代SparseCore。
SparseCore 的引入表明谷歌正在解決Transformer模型中的特定瓶頸。
SparseCore是一種專門用于處理嵌入 (embeddings) 的加速器。
嵌入在排名和推薦模型中普遍存在,并且對傳統的MXU來說計算效率低下。
Trillium 是一款專為訓練Transformer和MoE(Mixture of Experts)模型而打造的芯片。
谷歌的Gemini 2.0是在Trillium (v6) 上訓練的。

谷歌CEO劈柴明確表示:「TPU為Gemini 2.0的訓練和推理提供了100%的動力」。
TPU v7推理時代的專業芯片
TPU v7,代號Ironwood,于2025年4月發布。
Ironwood是首款專為推理而設計的TPU,而Trillium則是訓練冠軍。

在戰略和資本層面,這反映了一種鐘擺策略。谷歌使用v6 (Trillium) 來構建前沿模型 (CapEx投入),現在發布v7 (Ironwood) 來規模化服務這些模型 (OpEx消耗)。
Ironwood 旨在優化推理的TCO。(畢竟我們人類已經進入AI推理時代)
Ironwood達到4614 TFLOPS (FP8),比Trillium的Int8性能高出2.5倍以上。能效比是Trillium的2倍。

Ironwood將在未來幾周年內全面上市。市場對Ironwood的早期反響極為熱烈。
比如,谷歌列出了一些已經下訂單的企業,Anthropic、Lightricks、essential AI。



CPU也造,還有最新虛擬機
除了TPU,谷歌還造了自己的第一顆通用處理器Axion。
用谷歌自己的話:構建和運維現代應用既需要高度專業化的加速器,也離不開強大高效的通用計算能力。

基于這顆CPU,谷歌還發布了最新的Axion虛擬機,N4A。
基于Arm架構的全新Axion實例現已開放預覽。
與當前同代基于x86架構的虛擬機相比,N4A可提供高達2倍的價格性能優勢。
除了虛擬機,還推出了裸金屬實例,C4A。
C4A裸金屬實例(即將進入預覽階段)是谷歌首款基于Arm架構的裸金屬實例,為專用工作負載提供專屬物理服務器,適用于Android開發、汽車車載系統、嚴格許可要求的軟件、規模化測試農場或運行復雜模擬等場景。
谷歌的云服務在2025年3季度處于世界第3,前面是亞馬遜和微軟。

正如文章開頭所說,谷歌是現在AI領域唯一一家全棧技術公司,數據、算法、模型、云服務、CPU、GPU,需要什么就自己造什么。

雖然在很多時候,谷歌沒有排在第一,但是在任何領域,谷歌都榜上有名。
也許這才是真正的悶聲發大財。

2025年10月,Anthropic宣布擴大合作,獲得高達100萬個TPU芯片的使用權。
該協議價值數百億美元,并將在2026年提供超過1吉瓦 (Gigawatt) 的計算容量。
雖然全球的聚光燈幾乎都照在英偉達身上,但在聚光之外,谷歌的AI基礎設施版圖已經悄然成形,甚至形成了自己獨立的「氣候系統」。
谷歌給自己這套系統起了個名字:AI Hypercomputer。

英偉達是舞臺中央的光芒,谷歌則隱藏在大幕之后。
當所有AI公司都在搶購H系列GPU時,谷歌早已在自己的TPU集群上完成了自我造血循環 ——訓練、部署、推理、優化,全都在自己的系統內部完成。
谷歌AI基金(Google AI Infrastructure Fund) 便是在這種體系下自然誕生的產物。
它不僅是投資基金,更像是一個生態基金池,用以扶持所有基于谷歌云與TPU生態的AI公司。

Anthropic、Cohere、Character.AI、Essential AI……
這些名字在外界看來是獨立的創業公司,但它們在算力與模型底座上,都深度綁定谷歌的TPU集群與Gemini模型家族。
換句話說,谷歌的AI基金并非簡單的「投資人」,而是用資本作為粘合劑,將算力、云服務與生態綁定在一起。
當這些公司成長、融資、甚至上市時,谷歌都在背后分得紅利。
這就是谷歌真正的護城河:
不是某一代TPU芯片的領先;
也不是Gemini模型的參數量;(Gemini 3馬上要發布了)
而是一個可自我進化、自我繁殖的AI生態系統。
在未來的幾年中,當市場仍在討論GPU的供需、算力的溢價、芯片的帶寬時,谷歌的TPU與AI基金正以穩健的方式持續擴張。
它的節奏不快,但勢能深厚,氣候已成。



































