AI就緒的數據存儲基礎設施:定義、分類、本體與未來展望 精華
?概述
IT高管們明白投資AI項目及其支持基礎設施的必要性。根據IDC的研究,技術領導者預計在未來兩年內,整體AI預算和專項GenAI預算將翻倍。然而,預算并非無限,且如前所述,AI項目的成功率相當低。因此,組織的最高層級正密切監控著支出與成果。
根據報告,35.1%的受訪者表示,在未來18個月內,AI賦能的能力將對其團隊的數據管理效率和效能產生最大影響。然而,受訪者也指出,數據管理是使用GenAI的最大障礙之一。
為支持關鍵工作負載,正確構建基礎設施并平衡計算、存儲和網絡技術始終是當務之急。支持AI工作負載顯然不僅僅是堆砌GPU那么簡單。不幸的是,整個行業仍在學習和適應不斷變化的基礎設施需求,包括那些針對數據存儲的特定需求。
這份IDC特別研究報告探討了存儲系統和存儲軟件為實現AI就緒而在演進中的需求,并且是以下四部分系列報告的第一部分:
- AI就緒的數據存儲基礎設施:定義、分類、本體與未來展望。在本報告中,我們定義了什么是AI就緒的數據存儲基礎設施,其組成部分,以及其與“普通”存儲系統的區別。我們還描述了支持AI環境所需的生態系統和連接點。
- 客戶之聲。這項終端用戶初步研究有助于回答市場現狀、客戶優先級、預算和購買標準等問題。訂閱者將收到一份關鍵發現的解讀報告。
- 競爭格局。在本部分,我們概述了關鍵的IT供應商,包括系統供應商和獨立軟件供應商(ISV)。
- 市場規模與預測。基于IDC的研究,我們在此提供了AI就緒的數據存儲基礎設施市場的確切當前規模及至2030年的增長預測。
序言
盡管人工智能(AI)備受炒作,但它仍有望成為這十年來最具影響力的技術變革之一。不久前,業界還在熱議生成式AI(GenAI),緊接著是檢索增強生成(Retrieval-Augmented Generation, RAG)AI,而現在則是代理式AI(Agentic AI)。我們切不可忘記,這些較新的人工智能形態是建立在預測性、解釋性、行為性及其他更成熟的AI方法論基礎之上的。AI正逐漸成為一個寬泛的總稱,需要更具體的細分來界定討論的范疇。僅僅將產品特性或功能稱為“AI”,既無法向IT采購方充分描述其價值,也無法在AI概念泛濫的市場中脫穎而出。
由于AI帶來的變革性前景,IT采購方正在大力投資AI項目及其所需的硬件基礎設施。然而遺憾的是,IDC的研究表明,許多此類努力都未達預期;只有不到一半的AI試點項目能進入生產階段。盡管成功率低的原因可能有很多,但我們認為,企業必須從以數據為中心的視角來審視AI項目。顯然,數據質量和時效性是AI學習系統成功的基石;沒有這些,AI項目便無法成功。IT組織仍在學習如何為支持各類AI工作負載而正確地配置和部署基礎設施資產。在IT采購方尋找最佳基礎設施的同時,IT供應商不僅需要使其解決方案與特定需求對齊,還必須清晰地闡述其帶來的差異化優勢。
AI就緒的數據存儲基礎設施(AI-Ready Data Storage Infrastructure, AI-RDSI)需要結合硬件和軟件,并建立在傳統技術之上。我們認為,AI-RDSI將涉及“嵌入式”AI以及AI工作負載的支持與優化。嵌入式AI指的是用于增強系統使用、性能、可靠性和運營效率的內部AI技術,并且它將針對其所嵌入的硬件或軟件而特定化。例如,執行以往由人類負責的系統功能任務的AI代理(AI Agent)。這一層面的AI不同于工作負載AI,后者指的是支持和優化數據存儲以服務于AI工作負載(如大語言模型(LLM)、代理等)的能力。優化AI工作負載的核心在于,能夠以GPU、DPU和CPU集群所需的速度,提供完整、準確的數據集。
任何單一供應商都不太可能為所有人或所有用例提供一切所需。因此,供應商必須準備好在由合作伙伴和競爭對手組成的生態系統中運作,以提供全棧的AI基礎設施產品。一些市場參與者將是系統供應商,另一些則是純軟件供應商。無論如何,我們預計競爭將基于清晰的差異化而變得十分激烈。那些能夠最好地利用AI實現運營目標,并通過AI就緒的數據存儲基礎設施支持客戶AI旅程的供應商,將最有能力在未來十年加速增長。數據存儲供應商可以預見,這個市場將經歷快速且不可預測的演變。在這樣一個充滿活力的市場中,今天熱門的產品可能很快就會過時。在此期間,可擴展的架構、敏捷開發和響應迅速的市場營銷將顯得尤為重要。
定義AI就緒的數據存儲基礎設施
AI就緒的數據存儲基礎設施(AI-RDSI)定義如下:
以自動化的方式,識別相關數據,并對這些數據進行準備、攝入、存儲、分類、管理、保護、保障安全、治理和移動,以滿足人工智能應用需求的必要硬件、軟件和服務。AI-RDSI還涵蓋與AI工作負載相關的服務水平,包括性能和系統可用性;與數據質量相關的屬性,如信任度和來源追溯;以及用于分析后數據處置的技術。
廣義上講,數據通過兩種方式進入組織的計算機系統:一種是由內部運營產生的“有機”數據,另一種是從外部來源攝入的數據。IDC的全球數據圈(Global DataSphere)研究顯示,2023年存儲的數據中有92.3%是非結構化/半結構化數據,其余6.7%是結構化數據。IDC預測,到2028年,結構化數據的復合年增長率(CAGR)將達到18.3%,而非結構化/半結構化數據同期的復合年增長率將達到19.9%。此外,目前48%的數據位于本地,29%在云端,19%在邊緣,其余4%在“其他”位置。盡管數據正逐漸向云端遷移,但這將是一個漸進的過程。所有這些數據,無論其格式或位置如何,都可能對AI工作負載具有價值。
數據調度(Data Logistics)與AI工作負載
數據一旦進入組織,就會經過一個被IDC稱為“數據調度”的過程。以包裹運輸作類比,數據調度是將數據從其源頭運送至目的地,并保證交付、質量、安全和時效性的過程。數據調度為AI-RDSI提供了基礎,但AI工作負載對此提出了更高層次的嚴苛要求。圖1展示了AI環境中數據的調度旅程以及該旅程中的技術要素。讀者應注意圖1底部的漸進箭頭。這個箭頭突出了數據從被攝入(外部來源)或創建(內部來源)開始的旅程。這種攝入可能來自本地工作負載或云端工作負載。從那時起,數據必須根據策略和工作負載性能要求進行存儲。此外,數據必須被分類、索引和標記,以確保適當的治理。安全性、數據信任和保護是AI就緒的數據存儲基礎設施的基石。

圖1.持AI的數據調度:從攝入到訪問
在考慮AI-RDSI的定義時,同樣重要的是要考慮哪些內容不包含在內。例如,雖然其中許多元素與數據生命周期管理(Data Life-cycle Management, DLM)共通,但DLM的完整范疇超出了本研究的范圍。此外,針對AI模型自身的數據管理也不在本研究的討論范圍之內。
讀者還會注意到,當數據被攝入到AI工作負載中時,也會發生數據探索類活動、數據治理、來源追溯等。這些活動與AI-RDSI的能力是相互獨立且有區別的。這是一個重要的區分,因為IT團隊可能會混淆兩者,而沒有意識到兩者都可能是必需的,并可能被迫使用兩種相互沖突且引發集成挑戰的工具。
單一事實來源(Single Source of Truth)要求
IDC的研究發現,IT組織平均要處理6.4個數據孤島。我們的研究進一步發現,這些IT團隊必須管理13份數據副本,這些副本可能分布在主存儲、二級存儲、云和邊緣存儲中。出于多種原因,可能會創建多個數據副本,包括保護(備份)、測試/開發、分析和歸檔。所有這些對于運營都是有效且必要的。
多個數據副本給AI工作負載帶來了特殊的挑戰。盡管數據時效性在數據湖和數據分析應用中可能不那么重要,但對于AI而言,它可能至關重要。AI的準確性依賴于數據的準確性和時效性,以便及時學習并響應不斷變化的需求——有時是實時的。從過時的數據副本中攝入數據可能導致AI學習模塊“退步”。因此,在AI-RDSI中擁有副本數據管理(Copy Data Management, CDM)能力,或者一個跨所有存儲的統一元數據環境以消除副本的創建,對于AI工作負載至關重要。了解哪個副本是最新版本、清理過時的副本,甚至管理一個“黃金副本”,都有助于確保AI模型始終基于單一事實來源進行工作。
支持AI的數據基礎設施
AI工作負載可能是計算密集型的,使用數十個甚至數百個CPU和GPU的組合。為了優化這些成本高昂的資源,基礎設施團隊必須部署能夠滿足這些需求的存儲系統。
向計算資源的數據交付不應導致計算周期空閑。圖2展示了許多必要的存儲特性。

圖2.支持AI的數據基礎設施
從圖2中可以看出,數據基礎設施存在五個主要屬性。對這些屬性的詳細解釋如下:
- 性能。端到端的存儲系統性能必須考慮AI工作負載的需求,包括數據吞吐量、每秒輸入/輸出操作數(IOPS)、延遲、必要的網絡帶寬以及性能密集型計算(Performance-Intensive Computing, PIC)的需求。實現高吞吐量可能需要使用并行文件系統或并行NFS(pNFS)等技術,而為了滿足必要的IOPS和低延遲,則需要使用閃存或存儲級內存。對于性能需求中等或較低的AI工作負載,可以采用分層存儲、對象存儲或硬盤驅動器(HDD)等技術,以實現成本效益。
- 規模。AI工作負載需求的演變可能難以預測。雖然較小的項目可能不需要最大的可擴展性,但IT組織無疑應考慮潛在需求,并部署具有足夠可擴展性的系統。
- 服務水平。服務水平要求與性能密切相關,但更側重于數據可用性。常見的服務水平包括數據可用性的“N個9”或總正常運行時間。五個九(99.999%)的正常運行時間將是AI工作負載的普遍要求,因為停機將極具破壞性。
- 數據調度。數據調度策略引擎確保數據能夠在正確的時間被交付到正確的位置,以實現AI優化。這將包括位置信息,同時確保遵守主權要求。
- 數據信任。將盡可能多的數據提供給AI模型以優化學習的愿望,必須與對數據質量的需求相平衡。數據信任是數據質量的核心,通過建立適當的策略和程序來減少數據污染或篡改。
未來展望
當AI-RDSI交付給IT消費者時,它可以根據硬件、軟件和AI特定分類法進行歸類。一些IT提供商,如存儲系統供應商,將為所有這三個分類法提供能力。這些系統必然是硬件特定的,盡管它們可能集成了來自其他來源的軟件。獨立軟件供應商將提供許多能力,并試圖在硬件無關的基礎上實現這些能力。
任何單一供應商都不太可能提供AI-RDSI所需的所有能力。因此,審視解決方案的整體性以及各組件如何協同工作是非常有用的。圖3展示了AI就緒的數據存儲基礎設施本體。

圖3.AI就緒的數據存儲基礎設施本體
本體模型描述了元素之間的關系。圖3展示了AI-RDSI各元素之間的關系,無論其來源、平臺或交付機制如何。這個本體視圖匯集了AI-RDSI的主要組成部分。每個組成部分都代表了價值鏈中的一個環節。IT供應商無需提供鏈中的每一個環節,但他們必須確定要“主導”哪些環節,以及通過合作伙伴關系或其他方式獲取哪些環節。
圖4詳細說明了AI-RDSI所需的硬件功能。

圖4.AI就緒的存儲硬件系統功能
此AI-RDSI硬件分類法包括八類組件:
硬件抽象:虛擬基礎設施已被充分證明能夠為工作負載、工作負載遷移和數據位置提供更大的靈活性。
- AI啟示:AI(和機器學習)可用于輔助硬件部署配置、基于策略或服務等級協議(SLA)的動態性能優化、故障預測/檢測、隔離和糾正。AI驅動的動態資源分配可以按需應用必要的資源,同時AI工作負載驅動性能需求并平衡其與其他工作負載的需求。
分層:存儲基礎設施最多使用四層存儲類型,可能需要多種介質技術,如NAND閃存、存儲級內存和HDD,每一層都有特定的性能要求。
- AI啟示:AI能力將能夠根據工作負載需求或其他因素預測性地分配資源,并將數據移動到適當的層級以提供最佳性能。
數據訪問:AI就緒的存儲基礎設施必須能夠支持結構化和非結構化數據,以及塊、文件和對象存儲的協議/接口。每種訪問方法都有其特定應用的用途。
數據格式:與數據訪問要求類似,AI就緒的存儲基礎設施必須能夠支持所有類型的結構化、非結構化和半結構化數據,以及用于高性能計算和數據湖的特定文件類型。
性能:AI工作負載數據生命周期的不同階段對數據基礎設施在IOPS、延遲和吞吐量方面提出了性能特性要求。平衡這些要求可能涉及某些權衡。
- AI啟示:AI能力應該能夠將數據移動到適當的存儲層或位置,以獲得必要的性能特性,從而滿足任何工作負載類型的需求。
并行與高性能文件系統:并行與高性能文件系統(High-Performance File Systems, HPFS)可以提供單一的全局命名空間和數據轉換(概念上類似于ETL)服務。
- AI啟示:并行文件系統和HPFS可以減少數據孤島,將數據暫存到最佳位置,并為AI工作負載需求轉換數據。
擴展:出于多種原因,各種工作負載可能需要動態擴展和顯著的節點數量擴展。數據的激增,尤其是在AI攝入和輸出中的非結構化數據,可能導致巨大且不規則的容量需求。此外,存儲系統架構可能是縱向擴展(scale up)或橫向擴展(scale out),或具有元數據帶外(out of band)的線性可擴展性。
- AI啟示:AI能力應該能夠預測性地、動態地將數據移動到最適合工作負載需求的架構中。
部署:大多數組織使用本地、私有云、公有云和混合云的組合來支持其工作負載。AI-RDSI系統必須能在這個生態系統中工作。
- AI啟示:AI能力可以根據性能、成本、數據位置、隱私、法規遵從、數據主權要求、治理、安全和數據保護等復雜需求來優化數據布局。
應用訪問:存儲系統必須支持廣泛的數據訪問協議。
圖5展示了AI-RDSI的軟件分類。詳細說明如下:

圖5.AI就緒的數據存儲軟件分類
數據保護:AI環境的數據保護始于備份和恢復的基礎。對于AI,還需要幾種特定的相關能力。
- 對數據恢復的AI啟示:AI工作負載需要對AI數據存儲進行有狀態的保護。這些數據存儲(例如,LLM和向量數據庫)可能從多個來源實時收集數據。如果其中一個來源注入了不應被攝入的數據,例如專有IP、敏感或禁止的數據,甚至是惡意數據,IT團隊必須有能力恢復到數據注入前的那個時間點,而不丟失來自其他來源的數據。快照可能是實現AI就緒數據恢復的關鍵技術,它能夠出于法律原因審計和證明用于AI訓練的數據。快照還可用于迭代和可重復性。
- 對恢復編排的AI啟示:由于數據恢復的復雜性,特別是在涉及影響數據子集的勒索軟件攻擊時,手動確定最佳恢復點和恢復方法既耗時又費力,可能將恢復延遲數天甚至數周。AI輔助的恢復編排可以幫助精確確定需要恢復的數據以及最快的恢復方法。AI輔助的恢復還可以考慮SLA要求,以調整基礎設施和備份作業來滿足這些SLA。
- 對威脅檢測的AI啟示:盡管威脅檢測應在網絡和主存儲系統中進行,但在二級備份存儲中同樣是必要的。根據IDC的研究,在近一半的攻擊中,勒索軟件攻擊者會先攻擊二級數據,再攻擊主數據。因此,數據泄露的指標可能首先出現在備份中。AI異常檢測應該能夠關聯看似無關的事件,并檢測傳統基于簽名的檢測方法可能無法發現的攻擊活動。AI還應能協助檢測數據存儲中的惡意軟件。
數據探索:數據質量是AI工作負載準確性和有效性的核心,而數據探索是數據質量的核心。
- 對數據分組、索引和標記的AI啟示:數據在存儲時必須被準確識別和分類,以確保將正確的數據提供給AI模型。這可能是解決數據孤島和數據冗余問題,從而確定AI數據供給的“單一事實來源”的關鍵。數據探索可以由AI驅動,但并非必須如此。
- 對數據工作流管理的AI啟示:處理數據并將其輸入向量數據庫或LLM將涉及各種工作負載,以移動數據、轉換數據、將其轉換為不同的存儲類型等。利用AI基于策略引擎來編排這些工作流,可以減少人工操作并提高準確性。
數據信任:數據信任對于數據準確性和AI工作負載至關重要。數據信任與數據安全相關。關鍵支柱包括數據加密、不可變性、多因子認證(Multi-Factor Authentication, MFA)和基于角色的訪問控制(Role-Based Access Control, RBAC)。
- AI啟示:與前述的二級存儲一樣,AI可以協助主存儲上的威脅檢測,以警報異常行為。AI還可用于自動化和自適應的事件響應。
數據治理:數據治理驅動著數據探索活動。數據的正確處理決定了數據是否必須被脫敏、加密、移動、保留在主權邊界內、進行來源追溯等。
- AI啟示:適當的數據治理有助于提升數據的可靠性和信任度。治理為驅動數據探索的策略引擎提供信息。
圖6展示了AI工作負載的優化分類。詳細說明如下:

圖6.AI工作負載優化分類
硬件加速:AI計算基礎設施資源可能相當成本高昂;優化對于實現最佳的AI項目投資回報率(ROI)非常重要。
- AI啟示:將存儲系統性能與計算資源需求相匹配,部分可以通過GPU-Direct數據訪問來實現。
數據暫存:AI-RDSI的目標是提供最優質的數據來供給AI工作負載。因此,數據暫存是該過程的最后一步。
- AI啟示:由于與數據孤島和多份數據副本相關的數據挑戰,由數據探索引擎驅動的副本數據管理實用程序可以幫助確保AI工作負載的單一事實來源。CDM管理著眾多的數據副本,無論是快照還是克隆/鏡像,無論其位置在何處。一些CDM系統還可以創建數據的“黃金副本”,提供數據的虛擬視圖,以促進在多個工作負載間的一致使用。
相關研究發現
在企業中,尤其是在北美地區,現有環境中數據安全和合規性的限制是阻礙AI更快應用的最重要的基礎設施相關問題(50%的受訪者)。
到2025年,對AI模型最重要的前三種數據類型是運營/事件流數據(43.5%)、主數據(40.6%)和半結構化業務文檔(38.7%)。
在AI模型的設計、開發和部署過程中,與數據團隊合作最多的前兩個角色是ITOps(42.5%)和AIOps(25.8%)。
限制組織進一步評估或擴大使用GenAI的首要擔憂是,GenAI會危及對數據和知識產權資產的控制(30%的受訪者)。
為確保AI項目成功而實施的最重要或次重要的流程或策略是:實施數據共享和操作實踐,以確保為內部開發或與第三方合作開發的任何大語言模型提供數據完整性(40%的受訪者)。
給IT供應商的建議
審慎界定解決方案范圍。從市場營銷的角度來看,覆蓋盡可能大的潛在市場總是理想的。然而,這有時會導致語言過于寬泛,可能包含或暗示了根本不準確的能力。這種不準確性可能導致客戶幻想破滅和供應商信譽受損。我們認為,任何單一供應商都不太可能解決AI-RDSI的所有方面,因此,AI-RDSI供應商最好能明確闡述他們在生態系統中所扮演的角色。思考一下本體模型,并確定你的組織選擇“主導”價值鏈中的哪些環節。
清晰闡述AI差異化。IT采購方希望了解供應商的解決方案與非AI解決方案或先前版本的解決方案有何不同。你的解決方案如何幫助確保數據既準確又及時?
構建互補的生態系統。了解自身能力和局限性的供應商將能夠尋找互補的供應商進行合作,以便向客戶交付完整的產品。客戶通常不希望自己進行集成測試和認證。
發展嵌入式和AI工作負載支持。嵌入式AI指的是在存儲解決方案內部使用的AI,用于增強AIOps、基礎設施優化或數據優化。AI工作負載支持指的是優化和支持在存儲系統上運行的AI工作負載的特定功能。AI-RDSI供應商很可能會同時提供嵌入式AI和AI工作負載支持。
為可擴展性和敏捷性構建解決方案架構。AI就緒的數據存儲基礎設施需求正在迅速演變。新的AI系統和技術正在不斷涌現,這將改變存儲需求。IT供應商必須準備好迅速轉向支持這些新環境。
給IT采購方的建議
描述AI工作負載的特征。并非所有工作負載都相同。分析數十億數據點的超大型LLM將需要與小規模、專注的代理式AI模型不同的基礎設施能力。一刀切的方案并不適用,不同的供應商會將其“最佳應用點”定位于不同的工作負載。
識別“單一事實來源”。“垃圾進,垃圾出”這句古老的格言同樣適用于AI,就像它適用于以往的技術一樣。數據質量和數據時效性至關重要,AI開發者需要能夠訪問這些數據。副本數據管理、數據分類和標記可能在減少數據孤島和定義單一事實來源方面發揮關鍵作用。
現代化數據存儲基礎設施。為了支持AI工作負載并最大化AI項目的成功率,投資于AI就緒的數據存儲基礎設施將是必要的。此外,隨著系統達到其使用壽命終點,強調AI就緒的技術更新將有助于組織為應對不斷演變的數據需求做好準備。
考慮數據版圖。大多數組織都是混合多云環境,擁有本地和私有云數據存儲庫以及多個公有云環境。這些存儲庫通常在地理上是分布式的,甚至遍布全球。這種存儲庫的廣泛分布可能導致數據孤島,從而抑制數據利用的準確性。AI-RDSI將通過跨存儲庫的通用數據平面來解決這些問題。
尋找嵌入式AI。嵌入式AI,即解決方案內部的AI,可以提供許多好處。這些可能包括AI驅動的數據發現、分類和高級數據處理。其他嵌入式AI系統可能驅動動態基礎設施配置、工作負載管理、SLA達成等。這些嵌入式AI能力將是解決方案之間的核心差異化因素。
像對待產品一樣對待數據。自從GenAI問世以來,83%的組織已經改變了他們的數據戰略,轉而專注于支持AI計劃、提高數據質量以及改善數據隱私和安全控制。將數據視為產品是AI計劃成功的關鍵因素,它為訓練AI模型提供集成、精選和受保護的數據,以提高結果的準確性和相關性。
參考資料:Goodwin, P., Nadkarni, A., Pearson, D., Sliwa, C., & Yu, J. (2025). AI-ready data storage infrastructure: Definition, taxonomy, ontology, and future outlook. IDC.
本文轉載自?????????Andy730?????????,作者:常華?

















