精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Spark:一個(gè)高效的分布式計(jì)算系統(tǒng)

大數(shù)據(jù) 分布式 Spark
Spark是UC Berkeley AMP lab所開(kāi)源的類Hadoop MapReduce的通用的并行計(jì)算框架,Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。

概述

什么是Spark

◆ Spark是UC Berkeley AMP lab所開(kāi)源的類Hadoop MapReduce的通用的并行計(jì)算框架,Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。其架構(gòu)如下圖所示:

 

Spark與Hadoop的對(duì)比

◆ Spark的中間數(shù)據(jù)放到內(nèi)存中,對(duì)于迭代運(yùn)算效率更高。

  • Spark更適合于迭代運(yùn)算比較多的ML和DM運(yùn)算。因?yàn)樵赟park里面,有RDD的抽象概念。

◆ Spark比Hadoop更通用。

  • Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型,Spark把這些操作稱為Transformations。同時(shí)還提供Count, collect, reduce, lookup, save等多種actions操作。
  • 這些多種多樣的數(shù)據(jù)集操作類型,給給開(kāi)發(fā)上層應(yīng)用的用戶提供了方便。各個(gè)處理節(jié)點(diǎn)之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名,物化,控制中間結(jié)果的存儲(chǔ)、分區(qū)等。可以說(shuō)編程模型比Hadoop更靈活。
  • 不過(guò)由于RDD的特性,Spark不適用那種異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用,例如web服務(wù)的存儲(chǔ)或者是增量的web爬蟲(chóng)和索引。就是對(duì)于那種增量修改的應(yīng)用模型不適合。

◆ 容錯(cuò)性。

  • 在分布式數(shù)據(jù)集計(jì)算時(shí)通過(guò)checkpoint來(lái)實(shí)現(xiàn)容錯(cuò),而checkpoint有兩種方式,一個(gè)是checkpoint data,一個(gè)是logging the updates。用戶可以控制采用哪種方式來(lái)實(shí)現(xiàn)容錯(cuò)。

◆ 可用性。

  • Spark通過(guò)提供豐富的Scala, Java,Python API及交互式Shell來(lái)提高可用性。

Spark與Hadoop的結(jié)合

◆ Spark可以直接對(duì)HDFS進(jìn)行數(shù)據(jù)的讀寫,同樣支持Spark on YARN。Spark可以與MapReduce運(yùn)行于同集群中,共享存儲(chǔ)資源與計(jì)算,數(shù)據(jù)倉(cāng)庫(kù)Shark實(shí)現(xiàn)上借用Hive,幾乎與Hive完全兼容。

Spark的適用場(chǎng)景

◆ Spark是基于內(nèi)存的迭代計(jì)算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場(chǎng)合。需要反復(fù)操作的次數(shù)越多,所需讀取的數(shù)據(jù)量越大,受益越大,數(shù)據(jù)量小但是計(jì)算密集度較大的場(chǎng)合,受益就相對(duì)較小

◆ 由于RDD的特性,Spark不適用那種異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用,例如web服務(wù)的存儲(chǔ)或者是增量的web爬蟲(chóng)和索引。就是對(duì)于那種增量修改的應(yīng)用模型不適合。

◆ 總的來(lái)說(shuō)Spark的適用面比較廣泛且比較通用。

運(yùn)行模式

◆ 本地模式

◆ Standalone模式

◆ Mesoes模式

◆ yarn模式

Spark生態(tài)系統(tǒng)

◆ Shark ( Hive on Spark): Shark基本上就是在Spark的框架基礎(chǔ)上提供和Hive一樣的H iveQL命令接口,為了最大程度的保持和Hive的兼容性,Shark使用了Hive的API來(lái)實(shí)現(xiàn)query Parsing和 Logic Plan generation,最后的PhysicalPlan execution階段用Spark代替Hadoop MapReduce。通過(guò)配置Shark參數(shù),Shark可以自動(dòng)在內(nèi)存中緩存特定的RDD,實(shí)現(xiàn)數(shù)據(jù)重用,進(jìn)而加快特定數(shù)據(jù)集的檢索。同時(shí),Shark通過(guò)UDF用戶自定義函數(shù)實(shí)現(xiàn)特定的數(shù)據(jù)分析學(xué)習(xí)算法,使得SQL數(shù)據(jù)查詢和運(yùn)算分析能結(jié)合在一起,最大化RDD的重復(fù)使用。

◆ Spark streaming: 構(gòu)建在Spark上處理Stream數(shù)據(jù)的框架,基本的原理是將Stream數(shù)據(jù)分成小的時(shí)間片斷(幾秒),以類似batch批量處理的方式來(lái)處理這小部分?jǐn)?shù)據(jù)。Spark Streaming構(gòu)建在Spark上,一方面是因?yàn)镾park的低延遲執(zhí)行引擎(100ms+)可以用于實(shí)時(shí)計(jì)算,另一方面相比基于Record的其它處理框架(如Storm),RDD數(shù)據(jù)集更容易做高效的容錯(cuò)處理。此外小批量處理的方式使得它可以同時(shí)兼容批量和實(shí)時(shí)數(shù)據(jù)處理的邏輯和算法。方便了一些需要?dú)v史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)聯(lián)合分析的特定應(yīng)用場(chǎng)合。

◆ Bagel: Pregel on Spark,可以用Spark進(jìn)行圖計(jì)算,這是個(gè)非常有用的小項(xiàng)目。Bagel自帶了一個(gè)例子,實(shí)現(xiàn)了Google的PageRank算法。

#p#

在業(yè)界的使用

◆ Spark項(xiàng)目在2009年啟動(dòng),2010年開(kāi)源, 現(xiàn)在使用的有:Berkeley, Princeton, Klout, Foursquare, Conviva, Quantifind, Yahoo! Research & others, 淘寶等,豆瓣也在使用Spark的python克隆版Dpark。

Spark核心概念

Resilient Distributed Dataset (RDD)彈性分布數(shù)據(jù)集

◆ RDD是Spark的最基本抽象,是對(duì)分布式內(nèi)存的抽象使用,實(shí)現(xiàn)了以操作本地集合的方式來(lái)操作分布式數(shù)據(jù)集的抽象實(shí)現(xiàn)。RDD是Spark最核心的東西,它表示已被分區(qū),不可變的并能夠被并行操作的數(shù)據(jù)集合,不同的數(shù)據(jù)集格式對(duì)應(yīng)不同的RDD實(shí)現(xiàn)。RDD必須是可序列化的。RDD可以cache到內(nèi)存中,每次對(duì)RDD數(shù)據(jù)集的操作之后的結(jié)果,都可以存放到內(nèi)存中,下一個(gè)操作可以直接從內(nèi)存中輸入,省去了MapReduce大量的磁盤IO操作。這對(duì)于迭代運(yùn)算比較常見(jiàn)的機(jī)器學(xué)習(xí)算法, 交互式數(shù)據(jù)挖掘來(lái)說(shuō),效率提升比較大。

◆ RDD的特點(diǎn):

  1. 它是在集群節(jié)點(diǎn)上的不可變的、已分區(qū)的集合對(duì)象。
  2. 通過(guò)并行轉(zhuǎn)換的方式來(lái)創(chuàng)建如(map, filter, join, etc)。
  3. 失敗自動(dòng)重建。
  4. 可以控制存儲(chǔ)級(jí)別(內(nèi)存、磁盤等)來(lái)進(jìn)行重用。
  5. 必須是可序列化的。
  6. 是靜態(tài)類型的。

◆ RDD的好處

  1. RDD只能從持久存儲(chǔ)或通過(guò)Transformations操作產(chǎn)生,相比于分布式共享內(nèi)存(DSM)可以更高效實(shí)現(xiàn)容錯(cuò),對(duì)于丟失部分?jǐn)?shù)據(jù)分區(qū)只需根據(jù)它的lineage就可重新計(jì)算出來(lái),而不需要做特定的Checkpoint。
  2. RDD的不變性,可以實(shí)現(xiàn)類Hadoop MapReduce的推測(cè)式執(zhí)行。
  3. RDD的數(shù)據(jù)分區(qū)特性,可以通過(guò)數(shù)據(jù)的本地性來(lái)提高性能,這與Hadoop MapReduce是一樣的。
  4. RDD都是可序列化的,在內(nèi)存不足時(shí)可自動(dòng)降級(jí)為磁盤存儲(chǔ),把RDD存儲(chǔ)于磁盤上,這時(shí)性能會(huì)有大的下降但不會(huì)差于現(xiàn)在的MapReduce。

◆ RDD的存儲(chǔ)與分區(qū)

  1. 用戶可以選擇不同的存儲(chǔ)級(jí)別存儲(chǔ)RDD以便重用。
  2. 當(dāng)前RDD默認(rèn)是存儲(chǔ)于內(nèi)存,但當(dāng)內(nèi)存不足時(shí),RDD會(huì)spill到disk。
  3. RDD在需要進(jìn)行分區(qū)把數(shù)據(jù)分布于集群中時(shí)會(huì)根據(jù)每條記錄Key進(jìn)行分區(qū)(如Hash 分區(qū)),以此保證兩個(gè)數(shù)據(jù)集在Join時(shí)能高效。

◆ RDD的內(nèi)部表示

在RDD的內(nèi)部實(shí)現(xiàn)中每個(gè)RDD都可以使用5個(gè)方面的特性來(lái)表示:

  1. 分區(qū)列表(數(shù)據(jù)塊列表)
  2. 計(jì)算每個(gè)分片的函數(shù)(根據(jù)父RDD計(jì)算出此RDD)
  3. 對(duì)父RDD的依賴列表
  4. 對(duì)key-value RDD的Partitioner【可選】
  5. 每個(gè)數(shù)據(jù)分片的預(yù)定義地址列表(如HDFS上的數(shù)據(jù)塊的地址)【可選】

◆ RDD的存儲(chǔ)級(jí)別

RDD根據(jù)useDisk、useMemory、deserialized、replication四個(gè)參數(shù)的組合提供了11種存儲(chǔ)級(jí)別:

  1. val NONE = new StorageLevel(falsefalsefalse)   
  2.     val DISK_ONLY = new StorageLevel(truefalsefalse)   
  3.     val DISK_ONLY_2 = new StorageLevel(truefalsefalse, 2)   
  4.     val MEMORY_ONLY = new StorageLevel(falsetruetrue)   
  5.     val MEMORY_ONLY_2 = new StorageLevel(falsetruetrue, 2)   
  6.     val MEMORY_ONLY_SER = new StorageLevel(falsetruefalse)   
  7.     val MEMORY_ONLY_SER_2 = new StorageLevel(falsetruefalse, 2)   
  8.     val MEMORY_AND_DISK = new StorageLevel(truetruetrue)   
  9.     val MEMORY_AND_DISK_2 = new StorageLevel(truetruetrue, 2)   
  10.     val MEMORY_AND_DISK_SER = new StorageLevel(truetruefalse)   
  11.     val MEMORY_AND_DISK_SER_2 = new StorageLevel(truetruefalse, 2)  

◆ RDD定義了各種操作,不同類型的數(shù)據(jù)由不同的RDD類抽象表示,不同的操作也由RDD進(jìn)行抽實(shí)現(xiàn)。

RDD的生成

◆ RDD有兩種創(chuàng)建方式:

1、從Hadoop文件系統(tǒng)(或與Hadoop兼容的其它存儲(chǔ)系統(tǒng))輸入(例如HDFS)創(chuàng)建。

2、從父RDD轉(zhuǎn)換得到新RDD。

◆ 下面來(lái)看一從Hadoop文件系統(tǒng)生成RDD的方式,如:val file = spark.textFile("hdfs://..."),file變量就是RDD(實(shí)際是HadoopRDD實(shí)例),生成的它的核心代碼如下:

  1. // SparkContext根據(jù)文件/目錄及可選的分片數(shù)創(chuàng)建RDD, 這里我們可以看到Spark與Hadoop MapReduce很像   
  2.    // 需要InputFormat, Key、Value的類型,其實(shí)Spark使用的Hadoop的InputFormat, Writable類型。   
  3.    def textFile(path: String, minSplits: Int = defaultMinSplits): RDD[String] = {   
  4.        hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable],   
  5.        classOf[Text], minSplits) .map(pair => pair._2.toString) }  
  6.    
  7.    // 根據(jù)Hadoop配置,及InputFormat等創(chuàng)建HadoopRDD    
  8.    new HadoopRDD(this, conf, inputFormatClass, keyClass, valueClass, minSplits) 

◆ 對(duì)RDD進(jìn)行計(jì)算時(shí),RDD從HDFS讀取數(shù)據(jù)時(shí)與Hadoop MapReduce幾乎一樣的:

RDD的轉(zhuǎn)換與操作

◆ 對(duì)于RDD可以有兩種計(jì)算方式:轉(zhuǎn)換(返回值還是一個(gè)RDD)與操作(返回值不是一個(gè)RDD)。

◆ 轉(zhuǎn)換(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是說(shuō)從一個(gè)RDD轉(zhuǎn)換生成另一個(gè)RDD的操作不是馬上執(zhí)行,Spark在遇到Transformations操作時(shí)只會(huì)記錄需要這樣的操作,并不會(huì)去執(zhí)行,需要等到有Actions操作的時(shí)候才會(huì)真正啟動(dòng)計(jì)算過(guò)程進(jìn)行計(jì)算。

◆ 操作(Actions) (如:count, collect, save等),Actions操作會(huì)返回結(jié)果或把RDD數(shù)據(jù)寫到存儲(chǔ)系統(tǒng)中。Actions是觸發(fā)Spark啟動(dòng)計(jì)算的動(dòng)因。

◆ 下面使用一個(gè)例子來(lái)示例說(shuō)明Transformations與Actions在Spark的使用。

  1. val sc = new SparkContext(master, "Example", System.getenv("SPARK_HOME"),   
  2.         Seq(System.getenv("SPARK_TEST_JAR")))  
  3.    
  4.     val rdd_A = sc.textFile(hdfs://.....)  
  5.     val rdd_B = rdd_A.flatMap((line => line.split("\\s+"))).map(word => (word, 1))  
  6.    
  7.     val rdd_C = sc.textFile(hdfs://.....)  
  8.     val rdd_D = rdd_C.map(line => (line.substring(10), 1))  
  9.     val rdd_E = rdd_D.reduceByKey((a, b) => a + b)  
  10.    
  11.     val rdd_F = rdd_B.jion(rdd_E)  
  12.    
  13.     rdd_F.saveAsSequenceFile(hdfs://....)  
 

 

#p#

Lineage(血統(tǒng))

◆ 利用內(nèi)存加快數(shù)據(jù)加載,在眾多的其它的In-Memory類數(shù)據(jù)庫(kù)或Cache類系統(tǒng)中也有實(shí)現(xiàn),Spark的主要區(qū)別在于它處理分布式運(yùn)算環(huán)境下的數(shù)據(jù)容錯(cuò)性(節(jié)點(diǎn)實(shí)效/數(shù)據(jù)丟失)問(wèn)題時(shí)采用的方案。為了保證RDD中數(shù)據(jù)的魯棒性,RDD數(shù)據(jù)集通過(guò)所謂的血統(tǒng)關(guān)系(Lineage)記住了它是如何從其它RDD中演變過(guò)來(lái)的。相比其它系統(tǒng)的細(xì)顆粒度的內(nèi)存數(shù)據(jù)更新級(jí)別的備份或者LOG機(jī)制,RDD的Lineage記錄的是粗顆粒度的特定數(shù)據(jù)轉(zhuǎn)換(Transformation)操作(filter, map, join etc.)行為。當(dāng)這個(gè)RDD的部分分區(qū)數(shù)據(jù)丟失時(shí),它可以通過(guò)Lineage獲取足夠的信息來(lái)重新運(yùn)算和恢復(fù)丟失的數(shù)據(jù)分區(qū)。這種粗顆粒的數(shù)據(jù)模型,限制了Spark的運(yùn)用場(chǎng)合,但同時(shí)相比細(xì)顆粒度的數(shù)據(jù)模型,也帶來(lái)了性能的提升。

◆ RDD在Lineage依賴方面分為兩種Narrow Dependencies與Wide Dependencies用來(lái)解決數(shù)據(jù)容錯(cuò)的高效性。Narrow Dependencies是指父RDD的每一個(gè)分區(qū)最多被一個(gè)子RDD的分區(qū)所用,表現(xiàn)為一個(gè)父RDD的分區(qū)對(duì)應(yīng)于一個(gè)子RDD的分區(qū)或多個(gè)父RDD的分區(qū)對(duì)應(yīng)于一個(gè)子RDD的分區(qū),也就是說(shuō)一個(gè)父RDD的一個(gè)分區(qū)不可能對(duì)應(yīng)一個(gè)子RDD的多個(gè)分區(qū)。Wide Dependencies是指子RDD的分區(qū)依賴于父RDD的多個(gè)分區(qū)或所有分區(qū),也就是說(shuō)存在一個(gè)父RDD的一個(gè)分區(qū)對(duì)應(yīng)一個(gè)子RDD的多個(gè)分區(qū)。對(duì)與Wide Dependencies,這種計(jì)算的輸入和輸出在不同的節(jié)點(diǎn)上,lineage方法對(duì)與輸入節(jié)點(diǎn)完好,而輸出節(jié)點(diǎn)宕機(jī)時(shí),通過(guò)重新計(jì)算,這種情況下,這種方法容錯(cuò)是有效的,否則無(wú)效,因?yàn)闊o(wú)法重試,需要向上其祖先追溯看是否可以重試(這就是lineage,血統(tǒng)的意思),Narrow Dependencies對(duì)于數(shù)據(jù)的重算開(kāi)銷要遠(yuǎn)小于Wide Dependencies的數(shù)據(jù)重算開(kāi)銷。

容錯(cuò)

◆ 在RDD計(jì)算,通過(guò)checkpint進(jìn)行容錯(cuò),做checkpoint有兩種方式,一個(gè)是checkpoint data,一個(gè)是logging the updates。用戶可以控制采用哪種方式來(lái)實(shí)現(xiàn)容錯(cuò),默認(rèn)是logging the updates方式,通過(guò)記錄跟蹤所有生成RDD的轉(zhuǎn)換(transformations)也就是記錄每個(gè)RDD的lineage(血統(tǒng))來(lái)重新計(jì)算生成丟失的分區(qū)數(shù)據(jù)。

資源管理與作業(yè)調(diào)度

◆ Spark對(duì)于資源管理與作業(yè)調(diào)度可以使用Standalone(獨(dú)立模式),Apache Mesos及Hadoop YARN來(lái)實(shí)現(xiàn)。 Spark on Yarn在Spark0.6時(shí)引用,但真正可用是在現(xiàn)在的branch-0.8版本。Spark on Yarn遵循YARN的官方規(guī)范實(shí)現(xiàn),得益于Spark天生支持多種Scheduler和Executor的良好設(shè)計(jì),對(duì)YARN的支持也就非常容易,Spark on Yarn的大致框架圖。

 

◆ 讓Spark運(yùn)行于YARN上與Hadoop共用集群資源可以提高資源利用率。

編程接口

◆ Spark通過(guò)與編程語(yǔ)言集成的方式暴露RDD的操作,類似于DryadLINQ和FlumeJava,每個(gè)數(shù)據(jù)集都表示為RDD對(duì)象,對(duì)數(shù)據(jù)集的操作就表示成對(duì)RDD對(duì)象的操作。Spark主要的編程語(yǔ)言是Scala,選擇Scala是因?yàn)樗暮?jiǎn)潔性(Scala可以很方便在交互式下使用)和性能(JVM上的靜態(tài)強(qiáng)類型語(yǔ)言)。

◆ Spark和Hadoop MapReduce類似,由Master(類似于MapReduce的Jobtracker)和Workers(Spark的Slave工作節(jié)點(diǎn))組成。用戶編寫的Spark程序被稱為Driver程序,Dirver程序會(huì)連接master并定義了對(duì)各RDD的轉(zhuǎn)換與操作,而對(duì)RDD的轉(zhuǎn)換與操作通過(guò)Scala閉包(字面量函數(shù))來(lái)表示,Scala使用Java對(duì)象來(lái)表示閉包且都是可序列化的,以此把對(duì)RDD的閉包操作發(fā)送到各Workers節(jié)點(diǎn)。 Workers存儲(chǔ)著數(shù)據(jù)分塊和享有集群內(nèi)存,是運(yùn)行在工作節(jié)點(diǎn)上的守護(hù)進(jìn)程,當(dāng)它收到對(duì)RDD的操作時(shí),根據(jù)數(shù)據(jù)分片信息進(jìn)行本地化數(shù)據(jù)操作,生成新的數(shù)據(jù)分片、返回結(jié)果或把RDD寫入存儲(chǔ)系統(tǒng)。

 

Scala

◆ Spark使用Scala開(kāi)發(fā),默認(rèn)使用Scala作為編程語(yǔ)言。編寫Spark程序比編寫Hadoop MapReduce程序要簡(jiǎn)單的多,SparK提供了Spark-Shell,可以在Spark-Shell測(cè)試程序。寫SparK程序的一般步驟就是創(chuàng)建或使用(SparkContext)實(shí)例,使用SparkContext創(chuàng)建RDD,然后就是對(duì)RDD進(jìn)行操作。如:

  1. val sc = new SparkContext(master, appName, [sparkHome], [jars])   
  2. val textFile = sc.textFile("hdfs://.....")   
  3. textFile.map(....).filter(.....).....  

Java

◆ Spark支持Java編程,但對(duì)于使用Java就沒(méi)有了Spark-Shell這樣方便的工具,其它與Scala編程是一樣的,因?yàn)槎际荍VM上的語(yǔ)言,Scala與Java可以互操作,Java編程接口其實(shí)就是對(duì)Scala的封裝。如:

  1. JavaSparkContext sc = new JavaSparkContext(...);    
  2. JavaRDD lines = ctx.textFile("hdfs://...");   
  3. JavaRDD words = lines.flatMap(   
  4.   new FlatMapFunction<String, String>() {   
  5.      public Iterable call(String s) {   
  6.         return Arrays.asList(s.split(" "));   
  7.      }   
  8.    }   
  9. );  

Python

◆ 現(xiàn)在Spark也提供了Python編程接口,Spark使用py4j來(lái)實(shí)現(xiàn)python與java的互操作,從而實(shí)現(xiàn)使用python編寫Spark程序。Spark也同樣提供了pyspark,一個(gè)Spark的python shell,可以以交互式的方式使用Python編寫Spark程序。 如:

  1. from pyspark import SparkContext   
  2. sc = SparkContext("local", "Job Name", pyFiles=['MyFile.py', 'lib.zip', 'app.egg'])   
  3. words = sc.textFile("/usr/share/dict/words")   
  4. words.filter(lambda w: w.startswith("spar")).take(5)  

#p#

使用示例

Standalone模式

◆ 為方便Spark的推廣使用,Spark提供了Standalone模式,Spark一開(kāi)始就設(shè)計(jì)運(yùn)行于Apache Mesos資源管理框架上,這是非常好的設(shè)計(jì),但是卻帶了部署測(cè)試的復(fù)雜性。為了讓Spark能更方便的部署和嘗試,Spark因此提供了Standalone運(yùn)行模式,它由一個(gè)Spark Master和多個(gè)Spark worker組成,與Hadoop MapReduce1很相似,就連集群?jiǎn)?dòng)方式都幾乎是一樣。

◆ 以Standalone模式運(yùn)行Spark集群

      • 下載Scala2.9.3,并配置SCALA_HOME
      • 下載Spark代碼(可以使用源碼編譯也可以下載編譯好的版本)這里下載 編譯好的版本(http://spark-project.org/download/spark-0.7.3-prebuilt-cdh4.tgz
      • 解壓spark-0.7.3-prebuilt-cdh4.tgz安裝包
      • 修改配置(conf/*) slaves: 配置工作節(jié)點(diǎn)的主機(jī)名 spark-env.sh:配置環(huán)境變量。
  1. SCALA_HOME=/home/spark/scala-2.9.3   
  2. JAVA_HOME=/home/spark/jdk1.6.0_45   
  3. SPARK_MASTER_IP=spark1               
  4. SPARK_MASTER_PORT=30111   
  5. SPARK_MASTER_WEBUI_PORT=30118   
  6. SPARK_WORKER_CORES=2 SPARK_WORKER_MEMORY=4g   
  7. SPARK_WORKER_PORT=30333   
  8. SPARK_WORKER_WEBUI_PORT=30119   
  9. SPARK_WORKER_INSTANCES=1 

◆ 把Hadoop配置copy到conf目錄下

◆ 在master主機(jī)上對(duì)其它機(jī)器做ssh無(wú)密碼登錄

◆ 把配置好的Spark程序使用scp copy到其它機(jī)器

◆ 在master啟動(dòng)集群

  1. $SPARK_HOME/start-all.sh  

yarn模式

◆ Spark-shell現(xiàn)在還不支持Yarn模式,使用Yarn模式運(yùn)行,需要把Spark程序全部打包成一個(gè)jar包提交到Y(jié)arn上運(yùn)行。目錄只有branch-0.8版本才真正支持Yarn。

◆ 以Yarn模式運(yùn)行Spark

下載Spark代碼.

  1. git clone git://github.com/mesos/spark  

◆ 切換到branch-0.8

  1. cd spark   
  2. git checkout -b yarn --track origin/yarn  

◆ 使用sbt編譯Spark并

  1. $SPARK_HOME/sbt/sbt   
  2. package   
  3. > assembly 

◆ 把Hadoop yarn配置copy到conf目錄下

◆ 運(yùn)行測(cè)試

  1. SPARK_JAR=./core/target/scala-2.9.3/spark-core-assembly-0.8.0-SNAPSHOT.jar \   
  2. ./run spark.deploy.yarn.Client --jar examples/target/scala-2.9.3/ \   
  3. --class spark.examples.SparkPi --args yarn-standalone  

使用Spark-shell

◆ Spark-shell使用很簡(jiǎn)單,當(dāng)Spark以Standalon模式運(yùn)行后,使用$SPARK_HOME/spark-shell進(jìn)入shell即可,在Spark-shell中SparkContext已經(jīng)創(chuàng)建好了,實(shí)例名為sc可以直接使用,還有一個(gè)需要注意的是,在Standalone模式下,Spark默認(rèn)使用的調(diào)度器的FIFO調(diào)度器而不是公平調(diào)度,而Spark-shell作為一個(gè)Spark程序一直運(yùn)行在Spark上,其它的Spark程序就只能排隊(duì)等待,也就是說(shuō)同一時(shí)間只能有一個(gè)Spark-shell在運(yùn)行。

◆ 在Spark-shell上寫程序非常簡(jiǎn)單,就像在Scala Shell上寫程序一樣。

  1. scala> val textFile = sc.textFile("hdfs://hadoop1:2323/user/data")   
  2. textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3 
  3.    
  4. scala> textFile.count() // Number of items in this RDD  
  5. res0: Long = 21374 
  6.    
  7. scala> textFile.first() // First item in this RDD  
  8. res1: String = # Spark  

編寫Driver程序

◆ 在Spark中Spark程序稱為Driver程序,編寫Driver程序很簡(jiǎn)單幾乎與在Spark-shell上寫程序是一樣的,不同的地方就是SparkContext需要自己創(chuàng)建。如WorkCount程序如下:

  1. import spark.SparkContext  
  2. import SparkContext._  
  3.    
  4. object WordCount {  
  5.   def main(args: Array[String]) {  
  6.     if (args.length ==0 ){  
  7.       println("usage is org.test.WordCount ")  
  8.     }  
  9.     println("the args: ")  
  10.     args.foreach(println)  
  11.    
  12.     val hdfsPath = "hdfs://hadoop1:8020" 
  13.    
  14.     // create the SparkContext, args(0)由yarn傳入appMaster地址  
  15.     val sc = new SparkContext(args(0), "WrodCount",  
  16.     System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))  
  17.    
  18.     val textFile = sc.textFile(hdfsPath + args(1))  
  19.    
  20.     val result = textFile.flatMap(line => line.split("\\s+"))  
  21.         .map(word => (word, 1)).reduceByKey(_ + _)  
  22.    
  23.     result.saveAsTextFile(hdfsPath + args(2))  
  24.   }  
  25. }  

原文鏈接:http://tech.uc.cn/?p=2116

責(zé)任編輯:林師授 來(lái)源: UC技術(shù)博客
相關(guān)推薦

2016-09-30 10:13:07

分布式爬蟲(chóng)系統(tǒng)

2020-07-30 09:35:09

Redis分布式鎖數(shù)據(jù)庫(kù)

2022-06-27 08:36:27

分布式事務(wù)XA規(guī)范

2011-09-14 10:08:07

Beanstalkd

2015-10-15 14:05:51

StormSparkMapReduce

2022-04-14 07:56:30

公平鎖Java線程

2023-05-12 08:23:03

分布式系統(tǒng)網(wǎng)絡(luò)

2023-04-05 10:00:00

分布式算法

2014-04-02 09:39:15

Ceph分布式文件系統(tǒng)

2018-05-10 09:34:21

spark存儲(chǔ)系統(tǒng)

2024-03-01 09:53:34

2017-09-01 05:35:58

分布式計(jì)算存儲(chǔ)

2024-02-19 00:00:00

Redis分布式

2023-09-04 08:45:07

分布式配置中心Zookeeper

2015-08-03 09:15:00

300行代碼分布式系統(tǒng)

2023-02-11 00:04:17

分布式系統(tǒng)安全

2019-12-27 16:00:56

分布式事務(wù)框架Java

2019-01-28 11:46:53

架構(gòu)運(yùn)維技術(shù)

2017-10-11 16:12:19

內(nèi)存

2023-09-21 22:22:51

開(kāi)發(fā)分布式鎖
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美喷水视频| 亚洲国产欧美国产第一区| 国产三级三级三级精品8ⅰ区| 日本伊人精品一区二区三区介绍 | 久久精品www| 久久黄色影视| 精品视频在线免费看| 国产一二三四五| 亚洲欧美综合在线观看| 麻豆成人91精品二区三区| 欧美日本亚洲视频| 中文字幕丰满乱子伦无码专区| 久久女人天堂| 午夜精品免费在线| 在线视频不卡一区二区| 天天干视频在线观看| 久久精品免费观看| 2019中文在线观看| 亚洲人与黑人屁股眼交| 久草在线综合| 91精品国产一区二区| 毛片一区二区三区四区| 国产美女av在线| 久久蜜桃av一区二区天堂| 91久久国产精品91久久性色| 日韩熟女精品一区二区三区| 国产国产精品| 亚洲天堂久久av| av2014天堂网| 美女日韩一区| 欧美日韩高清在线播放| 茄子视频成人免费观看| 欧美野外wwwxxx| 国产精品福利一区| 日本成人黄色| 三级在线视频| av电影一区二区| 91成人免费观看| 中文字幕永久在线观看| 蜜桃伊人久久| 5566成人精品视频免费| 国产亚洲小视频| 亚洲精品国产首次亮相| 在线视频日韩精品| 熟女俱乐部一区二区| 日本福利一区| 亚洲韩国日本中文字幕| jjzz黄色片| 亚洲成人五区| 欧美一区二区高清| 一级片黄色免费| 婷婷久久免费视频| 欧美日韩在线播| 尤蜜粉嫩av国产一区二区三区| 青青青免费在线视频| 午夜国产精品影院在线观看| 91动漫在线看| 999av小视频在线| 亚洲国产精品一区二区久久恐怖片 | 夜夜躁日日躁狠狠久久av| 国产情侣一区| 4p变态网欧美系列| 日韩中文字幕在线观看视频| 在线午夜精品| a国产在线视频| 亚洲电影一级黄| 国产毛片视频网站| 漫画在线观看av| 午夜久久久影院| 免费看一级大黄情大片| 午夜影院在线观看国产主播| 色婷婷国产精品| 日本成人黄色网| 国产成人午夜性a一级毛片| 欧美日韩高清一区二区| 亚洲综合20p| 国产精品超碰| 亚洲色图av在线| 天堂а√在线中文在线鲁大师| 亚洲精品国产偷自在线观看| 久久久久久久影院| 精品国产一区二区三区四| 日韩成人免费电影| 91精品视频免费| 欧美一级性视频| 国产午夜一区二区三区| 一级全黄肉体裸体全过程| 色a资源在线| 欧美日韩国产精品专区| 色综合天天色综合| 亚洲一区二区三区免费| 日韩大片在线观看视频| 精品伦精品一区二区三区视频密桃| 真实国产乱子伦精品一区二区三区| 国产综合在线看| 欧美日韩 一区二区三区| 国产在线精品免费| 快播日韩欧美| 成人video亚洲精品| 性欧美疯狂xxxxbbbb| 亚洲视频在线a| 亚洲一区二区三区四区电影 | 色哟哟国产精品色哟哟| 国产视频一区二区在线| 小泽玛利亚av在线| 极品美女一区| 日韩一区二区视频| 天天躁日日躁aaaa视频| 午夜亚洲福利| 国产精品视频不卡| 日韩在线视频免费| 中文字幕中文在线不卡住| 青青草国产精品视频| 精品视频在线一区二区在线| 欧美va亚洲va香蕉在线 | 亚洲啪啪综合av一区二区三区| 久艹视频在线免费观看| 久久69成人| 精品在线欧美视频| 欧美成人片在线观看| 日韩精品欧美精品| 久草精品电影| 色屁屁www国产馆在线观看| 欧美日本在线播放| 无码人妻精品一区二区中文| 精品69视频一区二区三区Q| 国产精品一区二区三区成人| 日韩三级电影网| 亚洲大片免费看| 亚洲av无一区二区三区久久| 999久久久国产精品| 欧美中在线观看| 少妇av在线播放| 亚洲国产精品一区二区尤物区| 久久久精品视频国产| 日韩欧美中文| 国产精品视频免费在线| 韩国三级在线观看久| 欧美日韩午夜激情| 日韩精品视频一区二区| 一区福利视频| 国产精品三区在线| 青春草免费在线视频| 欧美大片国产精品| 国产在线拍揄自揄拍| 国产精品资源网| 在线观看成人免费| 精品欧美视频| 欧美高跟鞋交xxxxxhd| 国产美女自慰在线观看| 国产精品电影一区二区三区| 久久这里只精品| 青草国产精品| 国产色综合天天综合网 | 国产午夜亚洲精品不卡| 国产91美女视频| 色狼人综合干| 国产成人+综合亚洲+天堂| 黄色美女网站在线观看| 色哟哟欧美精品| 欧美丰满老妇熟乱xxxxyyy| 日韩中文欧美在线| 亚洲精品中文字幕乱码三区不卡| 欧美成人福利| 久久99久久99精品免观看粉嫩| 国产按摩一区二区三区| 欧美亚洲国产激情| 性欧美xxxx| 四虎在线视频| 欧美在线free| 视频国产一区二区| 国产成人啪午夜精品网站男同| 丁香色欲久久久久久综合网| 国产主播性色av福利精品一区| 91精品国产91久久久久福利| 日韩美女一级视频| 欧美三级电影一区| 青青草免费av| 久久嫩草精品久久久久| 中文字幕第36页| 一区二区日韩欧美| 国产亚洲精品久久飘花| 欧美日韩不卡| 超在线视频97| 水中色av综合| 欧美久久久一区| 欧美偷拍第一页| 91免费视频网址| 看看黄色一级片| 99精品国产在热久久| 天堂√在线观看一区二区| 久久影院一区二区三区| 91成人免费观看网站| 五月天婷婷在线视频| 精品久久人人做人人爽| 国产精品熟女视频| 夜夜精品视频一区二区 | 久久精品香蕉视频| 91精品婷婷色在线观看| 久久综合狠狠综合久久综青草| 日韩毛片网站| 热久久这里只有| av在线网址观看| 亚洲人成亚洲人成在线观看| 99精品人妻无码专区在线视频区| 欧美午夜女人视频在线| 91香蕉视频网| 久久免费的精品国产v∧| 日韩高清一二三区| 日本中文字幕一区二区视频| wwwwww欧美| 99久久夜色精品国产亚洲1000部| 欧美激情视频一区二区三区在线播放 | 欧美韩国日本在线观看| 动漫精品视频| 亚洲综合资源| 国产91久久婷婷一区二区| 99福利在线| 在线不卡国产精品| 香蕉国产在线视频| 欧美一区二区免费视频| 中文字幕在线观看高清| 狠狠久久亚洲欧美专区| 久草国产在线观看| 中文字幕亚洲区| 在线免费观看日韩av| 成人一区二区三区在线观看| 国产三级精品三级在线| 日本女人一区二区三区| 免费在线激情视频| 一区二区三区国产盗摄| 日韩成人手机在线| 一本到12不卡视频在线dvd| 亚洲欧美综合一区| 欧美视频网址| 视频一区在线免费观看| 欧美**vk| 免费观看成人在线| 日韩伦理一区二区三区| 国产精品一国产精品最新章节| 日韩一级淫片| 亚洲精品免费在线视频| 高清一区二区| 95av在线视频| 国产亚洲高清一区| 91久久久久久久久久| 亚洲福利影视| 91亚洲精品一区| 电影一区中文字幕| 亚洲xxxxx性| 麻豆一区在线| 国产精品污www一区二区三区| 大伊香蕉精品在线品播放| 粉嫩高清一区二区三区精品视频 | 日韩亚洲欧美高清| av中文字幕播放| 日韩欧美一二三区| 亚洲精品911| 亚洲福利在线播放| 日本中文字幕一区二区有码在线| 亚洲男人av电影| jizz日韩| 久久国产精品久久久久| 污污的网站在线看| 国模极品一区二区三区| 美女高潮视频在线看| 国产精品99久久久久久人| 国产成人77亚洲精品www| 国产情人节一区| 国产精品毛片aⅴ一区二区三区| 2020国产精品久久精品不卡| 草草视频在线一区二区| 美日韩精品免费| 日韩1区在线| 欧美精品卡一卡二| 日韩中文字幕一区二区三区| 三级性生活视频| 成人精品小蝌蚪| 一区二区精品免费| 国产精品久久久久国产精品日日| 久久久精品视频免费观看| 亚洲国产中文字幕| 国产91免费在线观看| 亚洲永久免费av| 日本在线观看视频网站| 精品国产福利在线| 欧美国产一级片| 67194成人在线观看| 亚洲免费成人网| 亚洲欧美综合v| av毛片在线免费看| 97成人在线视频| 日韩色性视频| 精品国产乱码久久久久久郑州公司 | 精品女厕一区二区三区| 姑娘第5集在线观看免费好剧| 91精品国产品国语在线不卡| 亚洲色偷精品一区二区三区| 中国人与牲禽动交精品| 男女在线观看视频| 国产精品r级在线| 亚洲三级av| 亚洲欧美日韩精品在线| 亚洲高清免费| 欧美日韩中文不卡| 99精品视频一区二区三区| 日本美女黄色一级片| 狠狠久久五月精品中文字幕| 国产免费无遮挡| 国产一区二区三区欧美| 成人福利影视| 国产在线日韩在线| av资源中文在线天堂| 日韩中文字幕av| 第四色日韩影片| 国产欧美在线播放| 亚洲人成网站77777在线观看| 正在播放91九色| 一区二区三区国产在线| 在线播放黄色av| 久久精品人人做人人爽人人| 激情小说中文字幕| 欧美日韩视频一区二区| 亚州av在线播放| 欧美噜噜久久久xxx| 成人网ww555视频免费看| 美女被啪啪一区二区| 在线欧美不卡| 色综合久久久无码中文字幕波多| 国产精品欧美经典| 69成人免费视频| 日韩av影视综合网| 蜜臀av国内免费精品久久久夜夜| 成人免费网站在线观看| 国产一区网站| 日韩中文字幕组| 91捆绑美女网站| 欧美亚韩一区二区三区| 亚洲成人久久网| 国产www视频在线观看| 91网免费观看| 欧美精品aa| 绯色av蜜臀vs少妇| 亚洲国产视频一区二区| 精品久久久久成人码免费动漫| 蜜月aⅴ免费一区二区三区| 亚洲天堂网站| 黄色网址在线免费看| 国产精品综合视频| 黄色一级视频免费观看| 日韩欧美一区二区免费| 国产一线二线在线观看 | av女优在线播放| 成人一区在线看| 在线观看精品国产| 亚洲欧美在线免费观看| 国产精品久久亚洲不卡| 亚洲 日韩 国产第一区| 免费一区二区视频| 国产精品久久久免费看| 欧美一级一区二区| 青春草在线视频| 久久国产手机看片| 久久激情婷婷| 国产精品久久久久久成人| 欧美日韩情趣电影| a视频在线免费看| www.久久爱.cn| 国产免费成人| 免费一级特黄3大片视频| 欧美日韩mp4| 欧美hdxxx| 欧美美乳视频网站在线观看| 奇米精品一区二区三区在线观看一| 亚洲女同二女同志奶水| 欧美一区二区精品| 新版的欧美在线视频| 色噜噜一区二区| 国产精品12区| 91在线视频在线观看| 中文字幕自拍vr一区二区三区| 综合久久av| 国产毛片视频网站| 国产精品婷婷午夜在线观看| 精品久久久免费视频| 青青草99啪国产免费| 99久久综合狠狠综合久久aⅴ| 国产又黄又粗又猛又爽| 婷婷中文字幕综合| 日韩欧美在线观看一区二区| 国产剧情久久久久久| 欧美三级视频| wwwwww日本| 91精品综合久久久久久| 川上优av中文字幕一区二区| 日韩av一区二区三区美女毛片| 国产伦精品一区二区三区在线观看| 国产午夜小视频| 自拍偷拍亚洲精品| 黄色成人美女网站|