探索CXL 3.X交換機在AI應用中的用例

發布于 2025-10-11 06:39

瀏覽

0收藏

CXL 3.X技術正從理論討論轉向實際部署，業界對其必要性和潛力的關注日益增加。它特別適合作為構建大規模實用計算系統的標準，因為它通過內存共享實現更高效的資源利用，并通過支持多級交換和基于端口路由（Port-Based Routing，PBR）的互連架構來提升可擴展性和靈活性。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

為了探索CXL 3.x技術的實際應用領域，CXL成員公司Panmnesia的團隊在我們的CXL 3.x全系統框架上運行了各種工作負載。如上圖所示，Panmnesia的CXL 3.x全系統框架包括CXL-GPU、CXL內存擴展器和CXL-CPU，這些組件均是使用我們CXL 3.x IP在內部開發，并通過我們的CXL 3.x交換機SoC進行互連。

**此框架是2022年USENIX年度技術會議上展示的CXL 2.0全系統框架的升級版本[1]。

通過我們的探索，我們確定CXL 3.x技術特別適合以下兩個領域：AI基礎設施和高性能計算（HPC）。在接下來的部分，我們將介紹為什么這些領域與CXL技術的特性高度契合，以及我們如何使用CXL 3.x框架加速每個領域的代表性應用。

<應用領域#1：AI基礎設施>

各種AI應用，例如大型語言模型（Large Language Models，LLM）和推薦系統，已深入融入日常生活。隨著其影響力的持續增長，各大公司正試圖提升AI模型的性能。提升性能最常見的方法包括：增加訓練數據量以使模型從更多樣化的示例中學習，以及增加模型參數數量以分析更復雜的關系。隨著這些努力的持續，模型和數據集的大小迅速增長。因此，許多應用現在需要數TB甚至數十TB的內存[2, 3]，這輕易超過了單個GPU的內存容量（最新GPU通常為100-200GB[4]）。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

傳統上，為了彌補內存容量不足，通常會分配更多GPU或配備GPU的服務器節點，并通過網絡互連來運行大規模AI應用。然而，考慮到每個AI應用對計算和內存資源的需求不同，傳統方法以固定的計算與內存比率分配資源，往往導致資源利用率低下和浪費。鑒于主要IT公司運營的單個數據中心通常容納超過10,000個GPU，總基礎設施成本達到數億美元甚至更多[5, 6]，提高資源利用率已成為一項必需。

為了應對這一挑戰，我們提出了幾種基于CXL的解決方案。如圖所示，我們的方法是根據計算需求放置GPU或其他AI加速器，并通過添加高密度內存設備（即CXL內存擴展器）或內存節點來解決內存不足問題。與傳統方法（即僅為了確保足夠內存容量而添加更多GPU或配備GPU的服務器）相比，這種方法能最小化資源浪費。換言之，可顯著降低構建和運營成本。在接下來的部分，我們將介紹兩個基于上述方法的代表性CXL系統，以提升AI基礎設施中的資源效率。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

第一個系統在GPU/AI加速器本身中集成了CXL根復雜。通過將CXL內存擴展器或CXL-SSD連接到此根復雜，GPU系統的內存容量得以增加。對于主機（將GPU作為端點設備訪問），它看起來就好像只是GPU的內存增長了。

請注意，Panmnesia的CXL IP嵌入在每個設備的CXL控制器中，能夠以硬件自動化的方式處理諸如緩存一致性管理等操作。因此，相比先前的方法，例如統一虛擬內存（Unified Virtual Memory，UVM[7]）（其中主機軟件管理GPU對外部內存空間的訪問），可以實現更高的性能。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

事實上，當我們基于CXL IP構建原型并評估其性能時，我們證實其性能超過了UVM性能的3倍。有關此系統的更多細節，可在Panmnesia的最新博客中找到：https://panmnesia.com/technology/blog/2024-06-25-cxl-gpu-techblog/。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

第二個系統將GPU/AI加速器用作Type 2設備。我們在去年的OCP全球峰會上發布了此系統，即CXL使能的AI集群。該框架由GPU節點和內存節點組成，通過Panmnesia的CXL 3.x交換機互連。它支持用戶根據資源需求，從每個節點（池）中僅分配所需的計算（GPU/AI加速器）和內存資源，從而最小化不必要的資源浪費。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

為了驗證此框架的實用性，我們運行并評估了檢索增強生成（Retrieval-Augmented Generation，RAG）應用的性能，該應用如今在主要AI聊天機器人中廣為常用。簡而言之，RAG通過從向量數據庫中檢索與用戶查詢相關的文檔，并將其用作LLM的附加輸入，來提升LLM推理的準確性。鑒于向量數據庫的大小可能達到數十TB，許多先前研究提出將它們存儲在SSD等存儲設備上[8, 9]。在我們的方法中，我們將向量數據庫存儲在利用CXL技術構建的大型內存池中，并且在GPU池上運行LLM。

探索CXL 3.X交換機在AI應用中的用例-AI.x社區

我們的測試顯示，基于CXL的系統消除了基于SSD的系統中通常由慢速存儲訪問引起的高延遲，并最小化了其通信開銷，因為我們的CXL IP實現了超過六倍的性能提升。

這僅是我們努力的一部分。除了上述工作外，我們還將繼續通過Panmnesia的核心產品（CXL交換機SoC和CXL IP）驅動的各種現實用例，來展示CXL的實用性。

參考文獻：

[1] Donghyun Gouk, Sangwon Lee, Miryeong Kwon, and Myoungsoo Jung. Direct Access, High-Performance Memory Disaggregation with DirectCXL. 2022 USENIX Annual Technical Conference (USENIX ATC 22).

[2] Harsha Simhadri. Research talk: Approximate nearest neighbor search systems at scale. https://youtu.be/BnYNdSIKibQ?si=WoSWfJTVLEd2Rk62

[3] Cong Fu, Chao Xiang, Changxu Wang, and Deng Cai. Fast approximate nearest neighbor search with the navigating spreading-out graph. Proceedings of the VLDB Endowment, 2019.

[4] NVIDIA. NVIDIA H200 Tensor Core GPU. https://www.nvidia.com/en-us/data-center/h200/

[5] Business Insider. Elon Musk quietly built a 2nd mega-data center for xAI in Atlanta with $700 million worth of chips and cables. https://www.businessinsider.com/xai-elon-musk-x-new-atlanta-data-center-2025-2

[6] The Globe and Mail. OpenAI’ First Stargate Site at Texas to Host 400K Nvidia (NVDA) AI Chips. https://www.theglobeandmail.com/investing/markets/stocks/MSFT/pressreleases/31469159/openai-first-stargate-site-at-texas-to-host-400k-nvidia-nvda-ai-chips/

[7] NVIDIA. Unified Memory for CUDA Beginners. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/

[8] Suhas Jayaram Subramanya, Fnu Devvrit, Harsha Vardhan Simhadri, Ravishankar Krishnawamy, and Rohan Kadekodi. Diskann: Fast accurate billion-point nearest neighbor search on a single node. Advances in Neural Information Processing Systems (NeurIPS), 2019.

[9] Siddharth Gollapudi, Neel Karia, Varun Sivashankar, Ravishankar Krishnaswamy, Nikit Begwani, Swapnil Raz, Yiyong Lin, Yin Zhang, Neelam Mahapatro, Premkumar Srinivasan, et al. Filtered-diskann: Graph algorithms for approximate nearest neighbor search with filters. Proceedings of the ACM Web Conference 2023 (WWW 23), 2023

本文轉載自??Andy730??，作者：常華

標簽

CXL 3.X

交換機

已于2025-10-11 06:39:42修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

探索CXL 3.X交換機在AI應用中的用例

目錄