WOT2016向磊:構建自己的可視化大數據查詢平臺
原創(chuàng)【51CTO.com原創(chuàng)稿件】WOT2016大數據峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數十位大數據領域一線專家、數據技術先行者將齊聚現(xiàn)場,在圍繞機器學習、實時計算、系統(tǒng)架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數據領域最新實踐和最熱門的行業(yè)應用。
51CTO記者對即將參加大會演講的向磊進行了專訪,讓我們先睹為快,探聽他在構建可視化大數據查詢平臺方面的心得。
【講師簡介】
?? 
向磊,easyhadoop及phpHiveAdmin作者,社區(qū)創(chuàng)始人之一,arm嵌入式開發(fā)愛好者。熟悉Hadoop及其周邊分布式平臺自動化運維架構設計及可視化查詢平臺開發(fā)架構設計。
EasyHadoop現(xiàn)狀
隨著大數據時代的到來,Hadoop已經成為大數據領域最炎手可熱的技術。Hadoop是大數據領域不可或缺的一個分布式系統(tǒng)基礎架構,用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數據的應用程序。同時,由于Hadoop是一個復雜的分布式處理系統(tǒng),對于一般人來說,Hadoop在使用上的難度很大。它不僅需要多方面的知識積累,在整個運維方面也有很多難點需要攻克,而這還僅僅是Hadoop本身。Hadoop的周邊生態(tài)系統(tǒng)所需要學習和積累的東西更多,學習入門的曲線非常陡峭,這就從一定程度上限制了Hadoop的推廣和使用。
EasyHadoop,顧名思義,就是讓Hadoop大數據分析更簡單。EasyHadoop是一款Hadoop一鍵安裝系統(tǒng),方便大家更容易安裝部署Hadoop軟件。據EasyHadoop創(chuàng)始人向磊介紹,EasyHadoop其實最近一直沒有更新,easyhadoop項目之前有一些用戶在使用,比如早期藍汛,締元信的早期設備都通過easyhadoop進行部署,而phpHiveAdmin的用戶更多一些,例如,酷狗,迅雷,甚至pinterest,他們的工程師舍棄了qubole,轉而使用phpHiveAdmin,這讓向磊感到很意外,也很驕傲。但無論如何,這些系統(tǒng)本身更像是一個早期實驗探索性質的產品,目前只是驗證了一下這種方式的可行性,盡可能做的方便部署一些,就暫停了,項目本身基于php,也有諸多不便,會有很多環(huán)境部署上的問題,特別是對于沒用過php的人來說。向磊也透露,現(xiàn)在正在開發(fā)新的基于python的項目。希望很快可以將其開源。
同時,向磊表示,現(xiàn)在正在打造細分行業(yè)的Hadoop/Spark發(fā)行版,會包含一些具有行業(yè)特性的應用和算法,他希望盡快能把開源版本拿出來貢獻給大家。
構建自己的大數據生態(tài)系統(tǒng)可視化查詢及作業(yè)提交的平臺的意義
構建自己的大數據生態(tài)系統(tǒng)可視化查詢及作業(yè)提交的平臺主要是構建一個適應自己內部需求的數據作業(yè)平臺,以此為基礎,可以將數據分析業(yè)務的權限開發(fā)給任何具有提交權限的人。Hadoop周邊有很多很方便快捷的應用,如Hive,Pig,SparkSQL等,如果專門設立一個數據部門,其他部門的分析需求統(tǒng)一由數據部門整理完成,優(yōu)點是集中化管理,接口部門統(tǒng)一,方便管理和追查。但劣勢是數據分析部門勢必成為公司的數據作業(yè)瓶頸,大量分析挖掘任務會堆積在這個部門。所以,建立一個可視化查詢及作業(yè)提交的平臺,可以將大量數據分析作業(yè)以眾包的形式分散到各個部門自己提交查詢,可以大大提高數據分析和結果產出的效率。提高整體公司的運作效率。
通過使用RESTful, CLI等接口方式構建可視化大數據平臺的技術難點
Hadoop生態(tài)可視化查詢的主要技術難點在于驗證與授權的管理和作業(yè)的監(jiān)控。授權包含兩點:驗證和授權。驗證是去校驗某個用戶是不是合法用戶,而授權是指驗證通過的用戶可以訪問哪些應用和數據。對于Hadoop系統(tǒng)來說,權限管理功能是比較弱的,如上一個問題所說,如果把分析任務分發(fā)到其他部門自行完成,勢必需要一個追蹤和管理的審計系統(tǒng)。一旦出現(xiàn)問題作業(yè),可以知道是誰提交的,什么時間,提交了什么,訪問了哪些數據,出現(xiàn)了什么問題。
另外一個難點是如何把CLI方式的控制臺的實時輸出返回到前端網頁上面,RESTful和Thrift方式都無法獲取作業(yè)進度的情況,但可以用來提交一些元數據查詢。這時,就需要自己編寫代碼,將作業(yè)通過CLI方式進行提交,并跟蹤作業(yè)的進度。這是在構建可視化平臺時相對比較難的地方。
面對眾多大數據可視化工具,該如何選擇?
大數據可視化查詢平臺工具,主流的有Cloudera推出的HUE,HUE主要問題是針對CDH版本支持很好,而對于其他發(fā)行版就需要改代碼來進行適配,如果沒用過Django,改起來比較困難。此外,還有一些有指向性的工具,比如專門針對Hive的Qubole,phpHiveAdmin等,針對Pig的Lipstick等等。
說到挑選,主要還是看主要業(yè)務需求在哪里,最重要的是不能光看網上評測,使用感受等文章,最好親自動手安裝部署一下試試,感覺合適才是最重要的。現(xiàn)在虛擬機裝Hadoop,Spark都很方便。
學習Hadoop,動手實踐最重要
對于初學者來說,動手實踐是最重要的。理論看得再多,頂多也就是面試的時候侃侃而談,實際工作中不一定過得了試用期。向磊的個人經驗是:先去動手做,中間如果有不會的再去查理論。與其說是理論聯(lián)系實際,更應該是實際結合理論。
關于技術方面的學習,運維從安裝部署開始動手,開發(fā)從寫代碼開始動手,把理論書籍上面的代碼自己一個字母一個字母實際敲一遍,不要從網上復制粘貼,也是一個比較好的學習方式。
至于學習渠道,向磊強烈推薦先學好英文。“有問題,問谷歌”。而且要用英文問,會得到更精準的答案。另外,網上的在線教育也是個不錯的學習方式,比如51cto的在線學院就很不錯。有些老師會在教學后安排作業(yè)。出現(xiàn)問題是好事,但首先要嘗試自己解決,自己解決的記憶是最深刻的。在選擇課程的時候,也需要多方查證,有些自己鼓吹的,名氣大的老師不一定靠譜,這里面也有少數渾水摸魚,湊熱鬧騙錢的人。現(xiàn)在各家搜索引擎都很強大,查證一個老師的身份并不難。
51CTO主辦的高端技術峰會??【WOT2016“大數據技術峰會】??將于11月25日-26日在北京粵財JW萬豪酒店盛大揭幕,40余位業(yè)內重量級嘉賓匯聚,解析大數據技術與行業(yè)應用的實踐結合。福利大放送,主辦方將邀請更多講師來到“WOT講師專訪間”,深度解析技術干貨。
WOT2016更多訪談
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】


































