Spark 2.0面紗半揭,相關細節引人遐想
譯文【51CTO.com快譯】Spark已經以暴風驟雨之勢席卷整個大數據領域。那么下一個內存內引擎選項會是什么?Spark背后的主要商業支持方Databricks對此給出了一點提示。
在上周召開的Spark東部峰會上,Databricks公司發布了一系列相關提示,旨在探討內存內數據處理工具Spark的未來發展方向。該公司作為Spark項目背后的核心商業支持方,在該項技術成果的演進道路上扮演著重要角色。
Databricks的托管Spark平臺Databricks Cloud目前已經提供訂閱服務。為了進一步簡化該云環境中的Spark上手難度,Databricks公布了一套免費層,即這套平臺的社區版本。雖然目前此版本尚處于beta測試階段,但其通用版本預計將在今年年中與廣大用戶見面。
Databricks公司將該社區版本明確定位為付費產品版本的過渡手段,并指出其將“幫助用戶以無縫化方式將自身原型設計過渡至完整Databricks平臺之上的生產性應用程序。”
Databricks公司亦決心始終緊跟Spark的發展步伐。通過此次Spark峰會主題演講發布的一系列演示資料,Databricks公司CTO兼Spark創始人Matei Zaharia談到了即將出爐的Spark 2.0。其將包含以下三大核心轉變:利用Tungsten項目的下一發展階段解決Java內存處理局限,從而加快Spark運行速度; 將Spark改進為一套實時數據流系統; 將Spark當前使用的結構化數據API(包括Dataset與DataFrame)統一為單一API。
不過此次演講未被提及、但卻廣受Spark支持者關注的一項細節在于,Spark要如何進一步與Apache Arrow加以結合——這一全新項目旨在為列式數據提供內存內版本,從而實現快速訪問成效。
這一切都可謂真正令人興奮且意義重大的改進。特別是Tungsten項目所代表的方案能夠顯著加快其它由Java語言編寫而成的大數據項目的運行速度。
目前,該公司宣稱其已經擁有200家付費客戶,并自信地表示其將專注于推動Databricks平臺而非將精力分散至其它項目。
不過Databricks公司并不是惟一一家Spark參與廠商。IBM公司就專門將Spark作為自身大數據發展戰略中的核心組成部分,旨在立足于其Bluemix云提供“Spark即服務”方案。過去一年當中,Spark項目已經從Hadoop手中奪過了大數據***引擎的桂冠,而Databricks公司也將在新的發展階段面臨更為嚴峻的項目演進競爭。
原文標題:Databricks offers a glimpse of Spark 2.0
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】






















