大數(shù)據(jù)與Hadoop的五大優(yōu)勢(shì)
Hadoop與競(jìng)爭(zhēng)對(duì)手相比有哪些優(yōu)勢(shì)?
到目前為止,人們可能已經(jīng)聽說過ApacheHadoop。這個(gè)名字來源于一只可愛的玩具大象,但Hadoop只不過是一個(gè)毛絨玩具。Hadoop是一個(gè)開源軟件項(xiàng)目,它提供了一種存儲(chǔ)和處理大數(shù)據(jù)的新方法。

Hadoop軟件框架是用Java編寫的,用于在由商用硬件構(gòu)建的計(jì)算機(jī)集群上對(duì)超大型數(shù)據(jù)集進(jìn)行分布式存儲(chǔ)和分布式處理。
雖然Google和Facebook等大型Web2.0公司使用Hadoop來存儲(chǔ)和管理其龐大的數(shù)據(jù)集,但Hadoop基于其五大優(yōu)勢(shì)也被證明對(duì)許多其他更傳統(tǒng)的企業(yè)很有價(jià)值。
以下來看看。
1. Hadoop是可擴(kuò)展的
Hadoop是一個(gè)高度可擴(kuò)展的存儲(chǔ)平臺(tái),因?yàn)樗梢栽跀?shù)百臺(tái)并行運(yùn)行的廉價(jià)服務(wù)器上存儲(chǔ)和分發(fā)非常大的數(shù)據(jù)集。
與無法擴(kuò)展以處理大量數(shù)據(jù)的傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)(RDBMS)不同,Hadoop使企業(yè)能夠在涉及數(shù)千TB數(shù)據(jù)的數(shù)千個(gè)節(jié)點(diǎn)上運(yùn)行應(yīng)用程序。
2. 成本效益
Hadoop還為企業(yè)爆炸式數(shù)據(jù)集提供了一種經(jīng)濟(jì)高效的存儲(chǔ)解決方案。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的問題在于,為了處理如此大量的數(shù)據(jù),擴(kuò)展至如此程度的成本極其昂貴。
為了降低成本,過去許多公司不得不對(duì)數(shù)據(jù)進(jìn)行下采樣,并根據(jù)某些關(guān)于哪些數(shù)據(jù)最有價(jià)值的假設(shè)對(duì)其進(jìn)行分類。
原始數(shù)據(jù)將被刪除,因?yàn)楸A羲某杀咎摺km然這種方法可能在短期內(nèi)奏效,但這意味著當(dāng)業(yè)務(wù)優(yōu)先級(jí)發(fā)生變化時(shí),完整的原始數(shù)據(jù)集將不可用,因?yàn)榇鎯?chǔ)成本太高。另一方面,Hadoop被設(shè)計(jì)為一種橫向擴(kuò)展架構(gòu),可以經(jīng)濟(jì)地存儲(chǔ)公司的所有數(shù)據(jù)以供以后使用。
成本節(jié)省是驚人的:Hadoop提供的計(jì)算和存儲(chǔ)功能不是每TB數(shù)千到數(shù)萬(wàn)英鎊,而是提供了數(shù)百英鎊/TB的計(jì)算和存儲(chǔ)能力。
3. 靈活
Hadoop使企業(yè)能夠輕松訪問新數(shù)據(jù)源并利用不同類型的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))從這些數(shù)據(jù)中產(chǎn)生價(jià)值。
這意味著企業(yè)可以使用Hadoop從社交媒體、電子郵件對(duì)話或點(diǎn)擊流數(shù)據(jù)等數(shù)據(jù)源中獲得有價(jià)值的業(yè)務(wù)洞察力。此外,Hadoop可用于多種用途,例如日志處理、推薦系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、市場(chǎng)活動(dòng)分析和欺詐檢測(cè)
4. Hadoop速度快
Hadoop獨(dú)特的存儲(chǔ)方法基于分布式文件系統(tǒng),該系統(tǒng)基本上“映射”數(shù)據(jù)位于集群上的任何位置。數(shù)據(jù)處理工具通常位于數(shù)據(jù)所在的同一臺(tái)服務(wù)器上,從而加快了數(shù)據(jù)處理速度。
如果您正在處理大量的非結(jié)構(gòu)化數(shù)據(jù),Hadoop能夠在幾分鐘內(nèi)有效地處理TB級(jí)數(shù)據(jù),并在幾小時(shí)內(nèi)有效處理PB級(jí)數(shù)據(jù)。
5. 對(duì)失敗有彈性
使用Hadoop的一個(gè)關(guān)鍵優(yōu)勢(shì)是它的容錯(cuò)性。當(dāng)數(shù)據(jù)發(fā)送到單個(gè)節(jié)點(diǎn)時(shí),該數(shù)據(jù)也會(huì)復(fù)制到集群中的其他節(jié)點(diǎn),這意味著在發(fā)生故障時(shí),還有另一個(gè)副本可供使用。
MapR發(fā)行版超越了這一點(diǎn),它消除了NameNode并將其替換為提供真正高可用性的分布式NoNameNode架構(gòu)。我們的架構(gòu)提供針對(duì)單個(gè)和多個(gè)故障的保護(hù)。
在以安全且經(jīng)濟(jì)高效的方式處理大型數(shù)據(jù)集方面,Hadoop具有優(yōu)于關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的優(yōu)勢(shì),并且隨著非結(jié)構(gòu)化數(shù)據(jù)的不斷增長(zhǎng),它對(duì)任何規(guī)模的企業(yè)的價(jià)值都將繼續(xù)增加。



















