探索CXL 3.X交換機在AI應用中的用例
CXL 3.X技術正從理論討論轉向實際部署,業界對其必要性和潛力的關注日益增加。它特別適合作為構建大規模實用計算系統的標準,因為它通過內存共享實現更高效的資源利用,并通過支持多級交換和基于端口路由(Port-Based Routing,PBR)的互連架構來提升可擴展性和靈活性。

為了探索CXL 3.x技術的實際應用領域,CXL成員公司Panmnesia的團隊在我們的CXL 3.x全系統框架上運行了各種工作負載。如上圖所示,Panmnesia的CXL 3.x全系統框架包括CXL-GPU、CXL內存擴展器和CXL-CPU,這些組件均是使用我們CXL 3.x IP在內部開發,并通過我們的CXL 3.x交換機SoC進行互連。
**此框架是2022年USENIX年度技術會議上展示的CXL 2.0全系統框架的升級版本[1]。
通過我們的探索,我們確定CXL 3.x技術特別適合以下兩個領域:AI基礎設施和高性能計算(HPC)。在接下來的部分,我們將介紹為什么這些領域與CXL技術的特性高度契合,以及我們如何使用CXL 3.x框架加速每個領域的代表性應用。
<應用領域#1:AI基礎設施>
各種AI應用,例如大型語言模型(Large Language Models,LLM)和推薦系統,已深入融入日常生活。隨著其影響力的持續增長,各大公司正試圖提升AI模型的性能。提升性能最常見的方法包括:增加訓練數據量以使模型從更多樣化的示例中學習,以及增加模型參數數量以分析更復雜的關系。隨著這些努力的持續,模型和數據集的大小迅速增長。因此,許多應用現在需要數TB甚至數十TB的內存[2, 3],這輕易超過了單個GPU的內存容量(最新GPU通常為100-200GB[4])。

傳統上,為了彌補內存容量不足,通常會分配更多GPU或配備GPU的服務器節點,并通過網絡互連來運行大規模AI應用。然而,考慮到每個AI應用對計算和內存資源的需求不同,傳統方法以固定的計算與內存比率分配資源,往往導致資源利用率低下和浪費。鑒于主要IT公司運營的單個數據中心通常容納超過10,000個GPU,總基礎設施成本達到數億美元甚至更多[5, 6],提高資源利用率已成為一項必需。
為了應對這一挑戰,我們提出了幾種基于CXL的解決方案。如圖所示,我們的方法是根據計算需求放置GPU或其他AI加速器,并通過添加高密度內存設備(即CXL內存擴展器)或內存節點來解決內存不足問題。與傳統方法(即僅為了確保足夠內存容量而添加更多GPU或配備GPU的服務器)相比,這種方法能最小化資源浪費。換言之,可顯著降低構建和運營成本。在接下來的部分,我們將介紹兩個基于上述方法的代表性CXL系統,以提升AI基礎設施中的資源效率。

第一個系統在GPU/AI加速器本身中集成了CXL根復雜。通過將CXL內存擴展器或CXL-SSD連接到此根復雜,GPU系統的內存容量得以增加。對于主機(將GPU作為端點設備訪問),它看起來就好像只是GPU的內存增長了。
請注意,Panmnesia的CXL IP嵌入在每個設備的CXL控制器中,能夠以硬件自動化的方式處理諸如緩存一致性管理等操作。因此,相比先前的方法,例如統一虛擬內存(Unified Virtual Memory,UVM[7])(其中主機軟件管理GPU對外部內存空間的訪問),可以實現更高的性能。

事實上,當我們基于CXL IP構建原型并評估其性能時,我們證實其性能超過了UVM性能的3倍。有關此系統的更多細節,可在Panmnesia的最新博客中找到:https://panmnesia.com/technology/blog/2024-06-25-cxl-gpu-techblog/。

第二個系統將GPU/AI加速器用作Type 2設備。我們在去年的OCP全球峰會上發布了此系統,即CXL使能的AI集群。該框架由GPU節點和內存節點組成,通過Panmnesia的CXL 3.x交換機互連。它支持用戶根據資源需求,從每個節點(池)中僅分配所需的計算(GPU/AI加速器)和內存資源,從而最小化不必要的資源浪費。

為了驗證此框架的實用性,我們運行并評估了檢索增強生成(Retrieval-Augmented Generation,RAG)應用的性能,該應用如今在主要AI聊天機器人中廣為常用。簡而言之,RAG通過從向量數據庫中檢索與用戶查詢相關的文檔,并將其用作LLM的附加輸入,來提升LLM推理的準確性。鑒于向量數據庫的大小可能達到數十TB,許多先前研究提出將它們存儲在SSD等存儲設備上[8, 9]。在我們的方法中,我們將向量數據庫存儲在利用CXL技術構建的大型內存池中,并且在GPU池上運行LLM。

我們的測試顯示,基于CXL的系統消除了基于SSD的系統中通常由慢速存儲訪問引起的高延遲,并最小化了其通信開銷,因為我們的CXL IP實現了超過六倍的性能提升。
這僅是我們努力的一部分。除了上述工作外,我們還將繼續通過Panmnesia的核心產品(CXL交換機SoC和CXL IP)驅動的各種現實用例,來展示CXL的實用性。
參考文獻:
[1] Donghyun Gouk, Sangwon Lee, Miryeong Kwon, and Myoungsoo Jung. Direct Access, High-Performance Memory Disaggregation with DirectCXL. 2022 USENIX Annual Technical Conference (USENIX ATC 22).
[2] Harsha Simhadri. Research talk: Approximate nearest neighbor search systems at scale. https://youtu.be/BnYNdSIKibQ?si=WoSWfJTVLEd2Rk62
[3] Cong Fu, Chao Xiang, Changxu Wang, and Deng Cai. Fast approximate nearest neighbor search with the navigating spreading-out graph. Proceedings of the VLDB Endowment, 2019.
[4] NVIDIA. NVIDIA H200 Tensor Core GPU. https://www.nvidia.com/en-us/data-center/h200/
[5] Business Insider. Elon Musk quietly built a 2nd mega-data center for xAI in Atlanta with $700 million worth of chips and cables. https://www.businessinsider.com/xai-elon-musk-x-new-atlanta-data-center-2025-2
[6] The Globe and Mail. OpenAI’ First Stargate Site at Texas to Host 400K Nvidia (NVDA) AI Chips. https://www.theglobeandmail.com/investing/markets/stocks/MSFT/pressreleases/31469159/openai-first-stargate-site-at-texas-to-host-400k-nvidia-nvda-ai-chips/
[7] NVIDIA. Unified Memory for CUDA Beginners. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/
[8] Suhas Jayaram Subramanya, Fnu Devvrit, Harsha Vardhan Simhadri, Ravishankar Krishnawamy, and Rohan Kadekodi. Diskann: Fast accurate billion-point nearest neighbor search on a single node. Advances in Neural Information Processing Systems (NeurIPS), 2019.
[9] Siddharth Gollapudi, Neel Karia, Varun Sivashankar, Ravishankar Krishnaswamy, Nikit Begwani, Swapnil Raz, Yiyong Lin, Yin Zhang, Neelam Mahapatro, Premkumar Srinivasan, et al. Filtered-diskann: Graph algorithms for approximate nearest neighbor search with filters. Proceedings of the ACM Web Conference 2023 (WWW 23), 2023
本文轉載自??Andy730??,作者:常華

















