NVIDIA發布Spectrum-XGS以太網:連接多地數據中心,重塑AI網絡性能邊界
從PERCEPTION AI到AGENTIC AI,再到PHYSICAL AI……人工智能技術的飛速演進和發展,在重構企業業務模式,加速企業轉型的同時,也給算力帶來了巨大的挑戰。目前,單GPU算力已無法滿足指數級增長的計算需求,當萬億參數模型需要跨數千張GPU協同訓練時,網絡性能成為決定整體效率的核心瓶頸。
面對AI工作負載下傳統以太網在帶寬限制、延遲波動和丟包等問題暴露出的致命缺陷,NVIDIA推出了Spectrum-XGS以太網技術,將不同城市、國家乃至大洲的數據中心組合成龐大的千兆級AI超級工廠,以更強的算力賦能AI技術的發展。
跨數據中心整合的"超級計算機"模式
NVIDIA Spectrum-XGS的核心創新在于突破傳統數據中心邊界,通過高速以太網將多個地理位置分散的數據中心連接為一個邏輯統一的計算單元。而這一創新的技術架構模式,徹底解決了AI訓練中數據分布廣,算力需求動態變化的難題。
據了解,NVIDIA Spectrum-XGS提供跨地點擴展與縱向擴展和橫向擴展的能力,并稱AI計算“三大支柱”,能夠將Spectrum-X以太網的極致性能和規模擴展至多個分布式數據中心,將它們組成具有千兆級智能的巨型AI超級工廠。
除此之外,NVIDIA Spectrum-XGS以太網完全集成于Spectrum-X平臺,具有使網絡能夠動態適應數據中心設施間距離的算法。 據了解,憑借先進的自動調節距離擁塞控制、精準延遲管理及端到端遙測技術,NVIDIA Spectrum-XGS以太網將NVIDIA集合通信庫性能提升了近一倍,加快了多GPU和多節點通信速度,使分散在不同地點的AI集群性能變得可以估測。這樣就可以將多個數據中心組合成一個AI超級工廠運行,全面提升長距離連接性能。
在性能方面,NVIDIA Spectrum-XGS通過優化集體通信庫(NCCL),多站點部署下的性能提升達1.9倍,顯著縮短萬億參數模型訓練的同步周期。
在筆者看來,NVIDIA Spectrum-XGS的優勢在于,其通過高速網絡將位于不同地域數據中心中的數以萬計的GPU進行統一編排,構成一個超大規模的計算單元,為AI提供了強大的算力支持。同時,克服了本地建設超大規模數據中心所需要的電力成本和物理限制。據悉,NVIDIA Spectrum-XGS所采用的分層高速設計不但能夠提供更高的帶寬,而且還提供更加可靠靈活的擴展能力。
數據顯示,AI超級高速公路現已融入機架,GPU到GPU的帶寬高達每秒130TB,并通過NVLink實現全連接。
另據介紹,NVIDIA正在通過NVLink Fusion的成熟架構實現性能擴展,其中NVLink的硬件和軟件傳承提供了領先的擴展性能,而NVLink Fusion提供了唯一可量產的機架級、可擴展的連接結構,并在模塊化組合產品方面具有全面性和靈活性。
NVFP4:引領4位訓練的新前沿
除了Spectrum-XGS之外,NVIDIA還重磅宣布推出NVFP4,進一步引領4位訓練的新前沿。
NVFP4以更高的效率實現了BF16級別的精度,證明4位預訓練已準備好用于大規模人工智能。人工智能(AI)工廠可以使用NVFP4來加速訓練和推理,從而加快開發并簡化部署。
據了解,NVFP4在預訓練方面的應用正通過與領先的AI組織持續合作進行積極探索。
開源創新重塑人工智能
在開源方面,NVIDIA以1000多個GitHub項目、450 多個模型和 80 多個數據集推動開源發展。
據介紹,NVIDIA Dynamo 使 Hopper 上的 [lama 推理速度翻倍,并且在 Blackwvell 上顯著提升 DeepSeek-R 的令牌吞吐量,在 Blackwell上為DeepSeek-R 實現的吞吐量提升。
除此之外,NVIDIA還積極參與到Linux、PyTorch、Python、Kubernetes、ROS、JAX等社區當中,為社區發展做出了重要的貢獻。
最后,在CUDA-X中,400 多個 GPU庫為大規模的人工智能、高性能計算、數據和機器人技術提供支持。據了解,NVIDIA的模型和數據集涵蓋語言、視覺、多模態和機器人領域,包括Llama、NeMo、Cosmos、GROOT等。
寫在最后:
面對高速發展的AI技術對算力提出的新挑戰,NVIDIA憑借Spectrum-XGS以太網再次證明,真正的創新不僅在于硬件性能的提升,更在于通過系統性架構設計。Spectrum-XGS的推出,與Blackwell架構GPU、DGX SuperPOD超算系統形成端到端解決方案,不僅提供了更強的算力,而且降低了客戶的集成成本。不難發現,當千兆級人工智能超級工廠成為現實,我們正見證一個新計算時代的誕生。




















