像用“數據庫”一樣使用“大數據”！華為宣布河圖引擎開源

作者：朝暉 2019-11-20 09:10:12

華為 Cloud & AI 產品與服務總裁侯金龍宣布開源數據虛擬化引擎 HetuEngine（河圖引擎），希望讓伙伴像使用“數據庫”一樣使用“大數據”，讓數據治理、使用更簡單。

　　11 月 19 日，華為在深圳舉辦了 2019 全球數據基礎設施論壇。華為 Cloud & AI 產品與服務總裁侯金龍宣布，面向鯤鵬計算產業，全面啟動數據基礎設施戰略，并開源數據虛擬化引擎 HetuEngine（河圖引擎），希望讓伙伴像使用“數據庫”一樣使用“大數據”，讓數據治理、使用更簡單。

　　今年 9 月，華為在全聯接大會上發布了“一云兩翼雙引擎”的鯤鵬計算產業布局，基于“鯤鵬+昇騰”雙引擎，全面啟航計算戰略，為世界提供最強算力。今天華為又從數據角度對計算戰略再一次進行了闡述。

　　侯金龍表示，華為公司的愿景與使命是：“把數字世界帶入每個人、每個家庭、每個組織，構建萬物互聯的智能世界”。在智能世界，算力成為新生產力，數據成為新生產資料，“5G、AI、云”成為新生產工具，將使能千行百業邁入智能時代。

　　隨著 5G、AI 和云的普及，數據量正以驚人的速度增長：從 1080P 到 4K、8K，視頻數據量將提升 40 倍，從 4K 到 4K VR 要增加 6 倍以上；未來每輛自動駕駛汽車每天就會產生高達 64 TB 數據；深圳一個城市有超過 200 萬攝像頭，每天將產生 80 PB 數據，平均保存 30 天，大家希望保存更長時間；大量的數據過去只需存幾天，現在需要保存幾個月甚至永久保存。

　　根據預測，全球數據量將從 2018 年的 33 ZB 快速增長到 2025 年的 180 ZB。但是，產生的數據中僅有不到2% 被保存，而被保存的數據中僅有不到 10% 被應用。

　　這些海量數據的增長背后是需要海量存儲和計算的資源，數據增長是無限的，而存儲資源卻是有限的。

　　華為希望，對數據的采、存、算、管、用實施端到端的整合和優化，讓數據在全生命周期內更好用，數據的每比特發揮價值最大，數據的每比特成本最優。

　　為實現這個追求，華為打造融合、智能、開放的數據基礎設施，讓數據系統從孤立走向融合，從復雜走向智能，從封閉走向開放：

通過“打破數據處理與數據存儲的邊界”，實現數據高效共享和分析，降本增效。
通過“AI+ 存儲+云”，實現數據全生命周期內智能管理和智能運營，讓存儲越用越快，價值越來越大。
通過“數據虛擬化引擎”，統一 SQL 語法，像使用數據庫一樣使用大數據。

　　通過 10 余年技術積累和創新，華為在存儲、數據庫和大數據技術上實現了一系列突破，通過打破 4 堵墻，讓數據的每比特發揮價值最大，數據的每比特成本最優。

打破存儲內部系統墻：通過一套架構實現生產、分析、備份、歸檔的統一管理，一份數據在各個系統中平滑流動，減少拷貝，TCO 降低 30% 以上。
打破數據庫與存儲鏈路墻：通過算子下推實現近數據計算，減少存儲層與計算層之間的數據交換，數據訪問和處理性能提升 2 倍。
打破大數據與存儲配置墻：通過存算分離實現資源靈活配置，計算不足擴計算，存儲不足擴存儲。并通過彈性 EC、數據縮減技術減少冗余，整體 TCO 降低 30% 以上。
打破數據庫與大數據協同墻：通過協同分析實現數據零搬遷，數據庫和大數據共享一份數據，分析效率提升 100%。

　　此外，針對目前大量業務需要跨平臺、跨數據源協同分析，找數難、取數難、用數難等痛點，為了屏蔽數據類型差異、地域差異、語法差異，讓數據治理簡單，使用簡單，華為推出了“河圖引擎”。

　　同時，為了更好地發展數據產業，今天侯金龍宣布開源河圖引擎，開源版本的河圖引擎叫 openHetu，將于 2020 年 6 月上線。

　　華為將開源內核，開發者可以基于開源代碼進行定制，包括數據源擴展、SQL 執行策略等，實現應用快速對接，提升開發效率。

　　侯金龍最后表示，華為始終踐行“平臺+生態”策略，通過硬件開放，軟件開源，使能伙伴，共建開放、繁榮的鯤鵬計算產業生態，共同邁入智能時代。

責任編輯：張燕妮來源：快科技

開源技術數據