大數據初創企業WibiData將Hadoop“打包”
WibiData這家初創公司也許“名不見經傳”,但是這家公司的聯合創始人Christophe Bisciglia和Aaron Kimball同時也締造了Cloudera,這家成立于2008年的公司在大數據領域絕對可以算得上“大名鼎鼎”了。在2012年,Cloudera還獲得了6500萬美元E輪融資,這也是 2012年大數據領域融資的No.1。
其實WibiData在創立初期,并沒有什么宏偉的戰略規劃,僅僅是想成為***個提供基于Hadoop商業應用套件的軟件供應商(即使不是***,也應該是之一)。在今年5月份,WibiData宣布獲得了1500萬美元的B輪融資,該輪融資由Canaan Partners領投,原有的投資者NEA以及谷歌董事長埃里克·施密特也有參投,共同助力WibiData完成這一宏偉的目標。

言歸正傳,現在Hadoop的市場也是“炙手可熱”,很多公司也是雄心勃勃準備大干一場,但是昂貴的咨詢費用,同時還要為特定目標開發不同應用的要求,阻擋了大多數創新企業的腳步。甚至導致了很多企業已經不能局限于從非結構化數據轉向到了結構化數據(常常被稱之為ETL)或者執行一些后端的分析工作。實際上,WibiData已經投入了18個月的時間在做這件事情。Bisciglia表示,Hadoop領域三大巨頭(Cloudera、Hortonworks以及MapR基本上已經壟斷了全部的市場份額。
家庭能源管理初創公司Opower就是一個很好的用戶案例。這家公司原本是Cloudera的老牌客戶,但是“當Opower想使用SaaS工具超越批量分析和 ETL工作負載時,”Bisciglia表示,Opower就不得不尋求WibiData的幫助。原來Opower的服務只能專注于分析用戶夜間的能源使用數據情況,現在完全可以動態地向用戶進行推薦,在用戶和應用之間構建一種全新的聯系方式。
WibiData的系統架構

WibiData已經構建了自己的核心技術架構,將后端的Hadoop環境與面向客戶的預測性應用連接到一起,包括HBase數據集,數據格式化工具以及機器學習算法。WibiData還創建了一個開源的項目稱之為 Kiji。
Kiji開源項目
WibiData創建 開源項目Kiji是為了提供一個構建大數據應用的框架。Kiji的核心模塊是KijiSchema,它提供了一個簡單的Java API,通過Avro存儲系列化來存儲和管理HBase中類型化的數據。就像是構建在HBase上的一層Wrapper,基本上目的是讓應用程序的編寫者能更容易的用HBase管理結構化的數據,而不是作為一個扁平的表使用。
kiji的基本操作包括KijiTable的創建修改,以及Entity數據的讀寫。其操作的流程步驟和HBase的比較相似,也有許多對應的概念對象如Configuration/Admin/Table等。

總體來說,Kiji基本上就是對HBase應用模式的一個封裝,用Avro來承載對象化的數據,方便Schema的演化。從數據的角度加強面向對象編程的概念(相對Hbase Table)。面對的是希望能使用HBase存儲數據,快速上手開發應用的用戶。
Bisciglia表示,WibiData近期將重點關注金融和零售這兩個行業內的發展。他預期未來成型的產品將包括數據格式化的預定義模式以及預制的預測模型,這兩個產品主要面向廣義的行業客戶,而不是專門針對個人用戶。WibiData也將為不同類型的用戶(像數據科學家,系統工程師以及商業用戶)提供不同種類的接口,他們可以通過自己特有的方式來跟數據進行交互。
時間會告訴我們一切,如果WibiData可以真正實現其目標,可以把Hadoop專門封裝成一個特定的軟件集合數據包,這將會一個新的里程碑。即使是像Cloudera這樣的行業巨頭也看到了這些需求,但是它們滿手的業務都是將Hadoop集成到現有環境中,以便盡早的進行使用和運行。Cloudera公司的CEO Mike Olson曾表示,“如果誰有雄心來解決Hadoop與應用之間的銜接問題,給我打電話,我馬上就給資金,這筆錢隨時放在那里!”





















