Hadoop成功部署案例之eBay篇
譯文【前言】有不少人非常看好當下熱議的Hadoop,但是成功應用Hadoop的超大環境又有哪些?本文是一系列文章,為大家介紹成功部署Hadoop的超大環境。
【51CTO精選譯文】據估計,到2015年,全世界一半以上的數據將涉及Hadoop——圍繞這個開源平臺的生態系統日益龐大,這有力地印證了這個驚人的數字。
然而,有些人表示,雖然Hadoop是眼下熱鬧非凡的大數據領域最熱話題,但它肯定不是可以解決數據中心和數據管理方面所有難題的靈丹妙藥??紤]到這一點,我們暫且不想猜測這個平臺未來會如何,也不想猜測徹底改變各種數據密集型解決方案的開源技術未來會如何,而是關注讓Hadoop越來越火的實際應用案例。
毫無疑問,現在有幾個出眾的例子,表明Hadoop及相關開源技術(Hive和HBase等)在如何重塑大數據公司考慮基礎設施的角度。
雖然我們會通過在今年Hadoop World大會之前撰寫的一系列文章,繼續專門介紹Hadoop并非解決之道的應用案例,但是不妨闡明幾個引人注目的、大規模Hadoop部署案例,它們在重塑依賴大數據的公司,這些公司從事社交媒體、旅游和一般商品和服務等行業。
先來介紹你在電子商務興起時期最先開始聽到的一家公司:電子港灣(eBay)。
電子港灣的Hadoop環境
電子港灣公司分析平臺開發小組的Anil Madan討論了這家拍賣行業的巨擘在如何充分發揮Hadoop平臺的強大功能,充分利用每天潮水般涌入的8TB至10TB數據。
雖然電子港灣只是幾年前才開始向生產型Hadoop環境轉移,但它卻是早在2007年就率先開始試用Hadoop的大規模互聯網公司之一,當時它使用一個小型集群來處理機器學習和搜索相關性方面的問題。
這些涉及的是少量數據;Madan表示,但是就這個試驗項目而言很有用;不過隨著數據日益增加、用戶活動日益頻繁,電子港灣想充分利用幾個部門和整個用戶群當中的數據。
電子港灣的第一個大型Hadoop集群是500個節點組成的Athena,這個專門建造的生產型平臺可以滿足電子港灣內部幾個部門的要求。該集群只用了不到三個月就建成了,開始高速處理預測模型、解決實時問題;后來不斷擴大規模,以滿足其他要求。
Madan表示,該集群現由電子港灣的許多小組使用,既用于日常生產作業,又用于一次性作業。小組使用Hadoop的公平調度器(Fair Scheduler)來管理資源分配、為各小組定義作業池、賦予權重、限制每個用戶和小組的并行作業,并且設定搶占超時和延遲調度。
雖然Madan經常在臺上暢談Hadoop具有的實際價值,他也經常提到工作小組在擴建電子港灣基礎設施時面臨、繼續竭力克服的幾個主要挑戰。
下面列出了與Hadoop有關的一系列挑戰:
•可擴展性
就現有版本而言,主服務器NameNode存在可擴展性問題。由于集群的文件系統不斷擴大,它占用的內存空間也隨之擴大,因為它把整個元數據保存在內存中。1PB的存儲容量大概需要1GB的內存容量。幾種切實可行的解決方案是分層命名空間分區,或者結合使用Zookeeper和HBase,實現元數據管理。
•可用性
NameNode的可用性對生產型工作負載來說至關重要。開源社區正致力于冷備份(cold standby)、暖備份(warm standby)和熱備份(hot standby)這幾個選項,比如檢查點(Checkpoint)節點和備份(Backup)節點;從輔助NameNode切換avatar的Avatar節點;以及日志元數據復制技術。我們正在評估這些方案,以建立我們的生產型集群。
•數據發現
在天生不支持數據結構的系統上支持數據監管、發現和模式管理。一個新項目準備把Hive的元數據存儲區和Owl合并成一個新系統,名為Howl。我們旨在努力把該系統連接到我們的分析平臺中,那樣我們的用戶很容易跨不同的數據系統發現數據。
•數據移動
我們正在努力開發發布/訂閱數據移動工具,以便跨我們不同的子系統,如數據倉庫和Hadoop分布式文件系統(HDFS),支持數據拷貝和調和。
•策略
通過配額(目前的Hadoop配額需要做一些改進)進行存儲容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據集群的工作負載和特點,跨不同的集群努力定義這些策略。
•度量指標、度量指標、度量指標
我們正在開發成熟可靠的工具,以便生成度量指標,用于度量數據來源、使用情況、預算編制和利用率。一些Hadoop企業服務器體現的現有度量指標有的不夠全面,有的只是臨時的,很難看清楚集群使用模式。
【編輯推薦】























