大數據利器Hadoop的應用現狀和發展趨勢
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統(HDFS,Hadoop Distributed Filesystem)和MapReduce(GoogleMapReduce的開源實現)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統;MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。
Hadoop的歷史
Hadoop的源頭是Apache Nutch,該項目開始于2002年,是Apache Lucene 的子項目之一。2004年,Google在“操作系統設計與實現”(OSDI,Operating System Design and Implementation)會議上公開發表了題為“MapReduce:Simplified Data Processing on Large Clusters”(MapReduce:簡化大規模集群上的數據處理)的論文,之后受到啟發的Doug Cutting等人開始嘗試實現MapReduce計算框架,并將它與NDFS(Nutch Distributed File System)結合,以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有著良好的應用,所以它們于2006年2月被分離出來,成為了一套完整而獨立的軟件,起名為Hadoop。到了2008年年初,Hadoop已成為 Apache的頂級項目,它被包括Yahoo!在內的很多互聯網公司所采用。現在,Hadoop已經發展成為包含HDFS、MapReduce、Pig、ZooKeeper等子項目的集合,用于分布式計算。
Hadoop的功能與作用
我們為什么需要Hadoop呢?眾所周知,現代社會的信息量增長速度極快,這些信息里又積累著大量的數據,其中包括個人數據和工業數據。預計到2020年,每年產生的數字信息將會有超過1/3的內容駐留在云平臺中或借助云平臺處理。我們需要對這些數據進行分析和處理,以獲取更多有價值的信息。那么我們如何高效地存儲和管理這些數據,如何分析這些數據呢?這時可以選用Hadoop系統,它在處理這類問題時,采用了分布式存儲方式,提高了讀寫速度,并擴大了存儲容量。采用MapReduce來整合分布式文件系統上的數據,可保證分析和處理數據的高效。與此同時,Hadoop還采用存儲冗余數據的方式保證了數據的安全性。
Hadoop中HDFS的高容錯特性,以及它是基于Java語言開發的,這使得Hadoop可以部署在低廉的計算機集群中,同時不限于某個操作系統。Hadoop中HDFS的數據管理能力,MapReduce處理任務時的高效率,以及它的開源特性,使其在同類的分布式系統中大放異彩,并在眾多行業和科研領域中被廣泛采用。
Hadoop的優勢
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:
- 高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
- 高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
- 高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此其處理速度非常快。
- 高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
Hadoop的應用現狀和發展趨勢
由于Hadoop優勢突出,基于Hadoop的應用已經遍地開花,尤其是在互聯網領域。Yahoo! 通過集群運行Hadoop,以支持廣告系統和Web搜索的研究;Facebook借助集群運行Hadoop,以支持其數據分析和機器學習;百度則使用Hadoop進行搜索日志的分析和網頁數據的挖掘工作;淘寶的Hadoop系統用于存儲并處理電子商務交易的相關數據;中國移動研究院基于Hadoop的“大云”(BigCloud)系統用于對數據進行分析和并對外提供服務。
2008年2月,Hadoop最大貢獻者的Yahoo!構建了當時規模最大的Hadoop應用,它們在2000個節點上面執行了超過1萬個Hadoop虛擬機器來處理超過5PB的網頁內容,分析大約1兆個網絡連接之間的網頁索引資料。這些網頁索引資料壓縮后超過300TB。Yahoo!正是基于這些為用戶提供了高質量的搜索服務。
Hadoop目前已經取得了非常突出的成績。隨著互聯網的發展,新的業務模式還將不斷涌現,Hadoop的應用也會從互聯網領域向電信、電子商務、銀行、生物制藥等領域拓展。相信在未來,Hadoop將會在更多的領域中扮演幕后英雄,為我們提供更加快捷優質的服務。
作者簡介
陸嘉恒,《Hadoop實戰》作者,中國人民大學副教授,新加坡國立大學博士,美國加利福尼亞大學爾灣分校(University of California, Irvine) 博士后。



















