數據倉庫即服務(DWaaS):定義、主要功能和解決方案提供商
譯文?譯者 | 布加迪
審校 | 孫淑娟
數據倉庫即服務(DWaaS)簡介

隨著企業數據量以驚人的速度增長(比如IDC預計到2025年,年復合增長率為23%,達到175 ZB),采用現代數據基礎架構已不可避免。各行各業大大小小的公司都不可避免地采用更有效的數據解決方案。
這些組織需要整合來自多個數據源系統的業務數據,用于歷史分析和趨勢分析。這時候數據倉庫有了用武之地,它使公司能夠將有組織、干凈的業務數據匯總起來(主要是適合行和列的“結構化數據”)。
需要為預定義的業務目的處理結構化數據時,數據倉庫被視為首選。然而,構建和維護數據倉庫是一項艱巨的任務。隨著數據量不斷增長,組織必須相應地擴展其本地倉庫的存儲和計算資源。這不僅需要大量投資,還會帶來管理開銷——團隊始終密切關注整套基礎架構,以保持正常運行,同時確保安全和合規。
這個挑戰是小公司面臨的主要障礙,正在通過基于云的數據倉庫即服務(DWaaS)模型來解決。服務提供商負責設置、維護、保護和升級數據倉庫,并負責處理所有相關軟硬件堆棧的工作。客戶只需要負責插入想要連接到倉庫的數據源,并為托管服務付費。
DWaaS產品的關鍵功能
當企業選擇數據倉庫即服務產品時,它將從提供商那里獲得幾項關鍵服務。然而,它也可能會選擇更具包容性的服務。基本服務清單包括以下內容:
- 數據倉庫設計與開發
一家提供DWaaS服務的公司先查看客戶獨特的業務需求、現有的數據管理策略、數據源和質量實踐,為客戶配置自定義數據倉庫架構。一旦自定義框架準備就緒并面向未來(比如針對可擴展性等方面),就可以通過選擇最合適的軟硬件系統和流程來實現它。
- 與數據源集成
配置自定義數據倉庫后,提供商致力于將其與所有現有數據源集成,比如客戶的交易系統。視具體情況而定,供應商可以利用領先的管道技術或自定義代碼來確保將數據以高完整性傳輸到倉庫。一些供應商還將倉庫與現有的分析解決方案集成起來,供內部分析。
- 數據清洗和遷移
集成后,來自相連數據源的信息將被合并、清理、強化,并定期測試,以確保準確性、完整性以及符合核心數據模型。清理后的信息被傳輸到客戶選擇的云平臺,但一些提供商也支持混合策略,即一些數據保存在客戶的地方,一些數據保存在云端。
- 支持
倉庫啟動并運行后,服務提供商啟動維護數據質量、添加和刪除數據源、檢查性能以及不時確保提取、轉換和加載(ETL)正確性的內務管理工作。提供商確保從數據模型到基礎架構的整個服務都符合隱私、安全和治理等方面的標準。
- 不斷進化
在維護數據倉庫的同時,提供商密切關注不斷變化的業務需求和數據源,以確保整個數據環境得到定期升級,無論在軟件、計算還是在存儲方面。
2022年主流數據倉庫即服務解決方案提供商
借助DWaaS解決方案,許多供應商提供了數據倉庫的好處,無需客戶承擔設置和維護的重任。然而,根據G2和Gartner獲得的客戶反饋,只有少數提供商取得的成績足以被歸類為領導者。
- Snowflake Data Cloud
Snowflake Data Cloud跨多個云(包括AWS和Azure)運行,提供倉儲功能,并為結構化數據和半結構化數據提供完整的關系數據庫支持。它將存儲、計算和云服務分成不同的層,允許它們獨立變更和擴展。它還自動管理維護的關鍵方面,比如查詢緩存、規劃、解析和優化以及更新處理等方面。全球有5000余家公司使用Snowflake Data Cloud處理數據,供人工智能和分析所用。
據客戶評價顯示,該平臺滿足用戶需求,并在易部署性、管理、支持質量、可擴展性、集成和定價靈活性等所有方面均脫穎而出。
- Amazon Redshift
作為一款AWS產品,Amazon Redshift提供了完全托管且可擴展的云數據倉庫,允許企業對存儲在S3存儲桶中的TB到PB級數據執行復雜的分析查詢。它通過配置節點集群來運行,每個節點為一個或多個數據庫提供CPU、RAM和存儲。隨著倉儲需求不斷變化,集群可以在Redshift中手動配置或取消配置,相應地擴大或縮小規模。
根據Gartner的用戶反饋,Redshift幾乎與Snowflake相提并論,但在最終用戶培訓質量和第三方資源可用性等方面落后。
- Google BigQuery
BigQuery是谷歌提供的完全托管的數據倉庫產品。它帶有無服務器架構,由自動配置提供支持,擁有流數據支持、機器學習和地理空間分析等內置功能。據谷歌聲稱,BigQuery將計算和存儲分離以增強擴展的靈活性,并允許開發人員使用采用熟悉編程語言(包括 Python、Java、JavaScript和Go)的客戶端庫,以轉換和管理數據。
該解決方案還可以借助身份和訪問管理工具,對數據和計算資源進行集中管理。根據 G2評價顯示,使用BigQuery的客戶聲稱他們在解決方案的部署、使用和支持等方面遇到了問題。
- IBM DB2
與谷歌一樣,IBM也提供完全托管的彈性云數據倉庫,通過其IBM DB2解決方案提供存儲和計算的獨立擴展。該產品包括高度優化的列式數據存儲、可操作的壓縮和內存處理,以加速分析和機器學習。此外,它還能自動執行維護任務,比如監控、正常運行時間檢查和備份。
該解決方案存在的問題類似谷歌的BigQuery,用戶報告他們在解決方案的設置、部署、使用和所提供支持的質量等方面遇到了問題。
- Microsoft Azure Synapse Analytics
Azure Synapse Analytics將數據集成、倉儲和分析功能結合在一起,為企業提供統一的工作空間,以便為AI和商業智能(BI)等用例攝取、準備、管理和提供大數據。
該解決方案使數據專業人員可以自由地使用無服務器資源或手動配置的資源來查詢數據。由于存儲和計算資源幾乎可無限擴展、深度集成的SQL引擎、直接與Power BI和Azure ML集成以及對數據控制的高級訪問,它也是該領域的領先者之一。
Walgreens、Co-op、Marks and Spencer和GE Aviation等領先企業目前都在使用Azure Synapse Analytics。根據Gartner評價顯示,存在的問題主要是定價模型。
該類別中其他值得注意的玩家是SAP、甲骨文、Yellowbrick、Cloudera和天睿。總體而言,DWaaS解決方案市場預計將從2020年的14.4億美元增長到2026年的43億美元,增長 20%。
據Mordor Intelligence聲稱,這種激增主要是由于公司越來越有興趣了解有關業務流程、產品、客戶和服務等方面的可用信息,以便牢牢抓住新的商機。
原文標題:??What is data-warehouse-as-a-service (DWaaS)? Definition, key functions and solution providers???,作者:Shubham Sharma?





















