精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

面向數(shù)據(jù)科學(xué)的5個(gè)Apache Spark最佳實(shí)踐

譯文
大數(shù)據(jù) Spark
啟動(dòng)項(xiàng)目前應(yīng)了解這幾個(gè)Spark優(yōu)秀實(shí)踐。雖然我們都在談?wù)摯髷?shù)據(jù),但通常在職場(chǎng)闖蕩一段時(shí)間后才遇到大數(shù)據(jù)。在我供職的Wix.com,有逾1.6億個(gè)用戶在生成大量數(shù)據(jù),因此需要擴(kuò)展我們的數(shù)據(jù)流程。

[[337096]]

【51CTO.com快譯】

為什么轉(zhuǎn)向Spark?

雖然我們都在談?wù)摯髷?shù)據(jù),但通常在職場(chǎng)闖蕩一段時(shí)間后才遇到大數(shù)據(jù)。在我供職的Wix.com,有逾1.6億個(gè)用戶在生成大量數(shù)據(jù),因此需要擴(kuò)展我們的數(shù)據(jù)流程。

雖然有其他選擇(比如Dask),但我們決定選擇Spark,原因主要有兩個(gè):(1)它是目前的最新技術(shù),廣泛用于大數(shù)據(jù)。(2)我們擁有Spark所需的基礎(chǔ)架構(gòu)。

如何針對(duì)pandas人群用PySpark編寫代碼?

您可能很熟悉pandas,僅僅搞好語(yǔ)法可能開了個(gè)好頭,但確保PySpark項(xiàng)目成功還需要具備更多的條件,您要了解Spark的工作原理。

讓Spark正常工作很難,但一旦可以正常工作,它效果很棒!

Spark簡(jiǎn)述

建議看看這篇文章,閱讀MapReduce方面的說明以便更深入的了解:《如何使用Spark處理大數(shù)據(jù)?》(https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a)。

我們?cè)谶@里要了解的概念是橫向擴(kuò)展。

從縱向擴(kuò)展入手比較容易。如果我們有一個(gè)運(yùn)行良好的pandas代碼,但后來數(shù)據(jù)對(duì)于它來說太大了,我們可能會(huì)轉(zhuǎn)移到一臺(tái)內(nèi)存更多、功能更強(qiáng)的機(jī)器上,希望它能應(yīng)付得了。這意味著我們?nèi)杂幸慌_(tái)機(jī)器同時(shí)在處理全部數(shù)據(jù)——這就是縱向擴(kuò)展。

如果我們改而決定使用MapReduce,并將數(shù)據(jù)分成多個(gè)塊,然后讓不同的機(jī)器來處理每個(gè)塊,這就是橫向擴(kuò)展。

五個(gè)Spark最佳實(shí)踐

這五個(gè)Spark最佳實(shí)踐幫助我將運(yùn)行時(shí)間縮短至十分之一,并擴(kuò)展項(xiàng)目。

1. 從小處入手——采樣數(shù)據(jù)

如果我們想讓大數(shù)據(jù)起作用,先要使用少量數(shù)據(jù)看到我們方向正確。在我的項(xiàng)目中,我采樣10%的數(shù)據(jù),并確保管道正常工作,這讓我可以使用Spark UI中的SQL部分,并查看數(shù)字流經(jīng)整個(gè)流程,不必等待太長(zhǎng)的時(shí)間來運(yùn)行流程。

憑我的經(jīng)驗(yàn),如果您用小樣本就能達(dá)到所需的運(yùn)行時(shí)間,通常可以輕松擴(kuò)展。

2. 了解基礎(chǔ)部分:任務(wù)、分區(qū)和核心

這可能是使用Spark時(shí)要理解的最重要的一點(diǎn):

1個(gè)分區(qū)用于在1個(gè)核心上運(yùn)行的1個(gè)任務(wù)。

您要始終了解自己有多少分區(qū)——密切關(guān)注每個(gè)階段的任務(wù)數(shù)量,并在Spark連接中將它們與正確數(shù)量的核心進(jìn)行匹配。幾個(gè)技巧和經(jīng)驗(yàn)法則可以幫助您做到這一點(diǎn)(所有這些都需要根據(jù)您的情況進(jìn)行測(cè)試):

  • 任務(wù)與核心之間的比例應(yīng)該是每個(gè)核心約2至4個(gè)任務(wù)。
  • 每個(gè)分區(qū)的大小應(yīng)約為200MB–400MB,這取決于每個(gè)worker的內(nèi)存,可根據(jù)需要來調(diào)整。

3. 調(diào)試Spark

Spark使用惰性求值,這意味著它在等到動(dòng)作被調(diào)用后才執(zhí)行計(jì)算指令圖。動(dòng)作示例包括show()和count()等。

這樣一來,很難知道我們代碼中的bug以及需要優(yōu)化的地方。我發(fā)現(xiàn)大有幫助的一個(gè)實(shí)踐是,使用df.cache()將代碼劃分為幾個(gè)部分,然后使用df.count()強(qiáng)制Spark在每個(gè)部分計(jì)算df。

現(xiàn)在使用Spark UI,您可以查看每個(gè)部分的計(jì)算,并找出問題所在。值得一提的是,如果不使用我們?cè)?1)中提到的采樣就使用這種做法,可能會(huì)創(chuàng)建很長(zhǎng)的運(yùn)行時(shí)間,到時(shí)將很難調(diào)試。

4. 查找和解決偏度

讓我們從定義偏度開始。正如我們提到,我們的數(shù)據(jù)分到多個(gè)分區(qū);轉(zhuǎn)換后,每個(gè)分區(qū)的大小可能隨之變化。這會(huì)導(dǎo)致分區(qū)之間的大小出現(xiàn)很大的差異,這意味著我們的數(shù)據(jù)存在偏度。

可以通過在Spark UI中查看階段方面的細(xì)節(jié),并尋找最大數(shù)和中位數(shù)之間的顯著差異以找到偏度:

圖1. 很大的差異(中位數(shù)= 3秒,最大數(shù)= 7.5分鐘)意味著數(shù)據(jù)有偏度。

這意味著我們有幾個(gè)任務(wù)比其他任務(wù)要慢得多。

為什么這不好——這可能導(dǎo)致其他階段等待這幾項(xiàng)任務(wù),使核心處于等待狀態(tài)而無所事事。

如果您知道偏度來自何處,可以直接解決它并更改分區(qū)。如果您不知道/或沒辦法直接解決,嘗試以下操作:

調(diào)整任務(wù)與核心之間的比例

如前所述,如果擁有的任務(wù)比核心更多,我們希望當(dāng)更長(zhǎng)的任務(wù)運(yùn)行時(shí),其他核心仍然忙于處理其他任務(wù)。盡管這是事實(shí),但前面提到的比例(2-4:1)無法真正解決任務(wù)持續(xù)時(shí)間之間這么大的差異。我們可以試著將比例提高到10:1,看看是否有幫助,但是這種方法可能有其他缺點(diǎn)。

為數(shù)據(jù)加入隨機(jī)字符串(salting)

Salting是指用隨機(jī)密鑰對(duì)數(shù)據(jù)重新分區(qū),以便可以平衡新分區(qū)。這是PySpark的代碼示例(使用通常會(huì)導(dǎo)致偏度的groupby):

圖2

5. Spark中迭代代碼方面的問題

這是個(gè)棘手的問題。如前所述,Spark使用惰性求值,因此運(yùn)行代碼時(shí),它僅構(gòu)建計(jì)算圖(DAG)。但當(dāng)您有一個(gè)迭代過程時(shí),該方法可能會(huì)很成問題,因?yàn)镈AG重新打開了先前的迭代,而且變得很大。這可能太大了,驅(qū)動(dòng)程序在內(nèi)存中裝不下。由于應(yīng)用程序卡住了,因此很難找到問題所在,但是在Spark UI中好像沒有作業(yè)在長(zhǎng)時(shí)間運(yùn)行(確實(shí)如此),直到驅(qū)動(dòng)程序最終崩潰才發(fā)現(xiàn)并非如此。

這是目前Spark的一個(gè)固有問題,對(duì)我來說有用的解決方法是每5-6次迭代使用df.checkpoint()/ df.localCheckpoint()(試驗(yàn)一番可找到適合您的數(shù)字)。這招管用的原因是,checkpoint()打破了譜系和DAG(不像cache()),保存了結(jié)果,并從新的檢查點(diǎn)開始。缺點(diǎn)在于,如果發(fā)生了什么岔子,您就沒有整個(gè)DAG來重新創(chuàng)建df。

原文標(biāo)題:5 Apache Spark Best Practices For Data Science,作者:Zion Badash

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2022-06-01 13:52:11

開源大數(shù)據(jù)

2021-07-20 15:37:37

數(shù)據(jù)開發(fā)大數(shù)據(jù)Spark

2018-05-02 13:59:01

大數(shù)據(jù)數(shù)據(jù)收集數(shù)據(jù)科學(xué)

2017-11-01 14:45:51

數(shù)據(jù)管理數(shù)據(jù)

2016-08-22 15:15:14

數(shù)據(jù)實(shí)踐

2016-10-12 09:41:45

Hadoop+Spar大數(shù)據(jù)開發(fā)

2012-03-29 09:18:47

HTML5WEB

2010-12-02 10:30:09

Apache Hado反模式Map Reduce

2014-09-19 10:54:47

用戶體驗(yàn)單頁(yè)面

2011-12-21 09:38:31

HTML 5

2017-07-11 09:59:22

Apache Spar技術(shù)數(shù)據(jù)

2019-02-26 11:35:16

數(shù)據(jù)科學(xué)云端遷移

2013-01-16 14:45:47

HadoopApache Hado

2020-07-22 10:30:54

數(shù)據(jù)可視化分析平臺(tái)分析工具

2020-06-10 09:57:23

Kubernetes日志容器

2017-03-30 22:16:21

DevOpsIT應(yīng)用程序

2010-10-28 09:05:42

SilverlightXAML

2018-01-24 11:46:57

2025-09-05 07:28:34

2012-02-07 09:17:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日本www在线观看视频| 波多野结衣人妻| 国产一区在线电影| 欧美日韩国产在线| 一区二区三区的久久的视频| 国产成人精品亚洲精品色欲| 国产日产高清欧美一区二区三区| 亚洲色图激情小说| 午夜影院免费观看视频| 九色porny丨国产首页在线| 国产欧美日韩综合精品一区二区| 亚洲a在线观看| 91精品国产综合久久久蜜臀九色| 我不卡手机影院| 亚洲国产精品字幕| 57pao国产成永久免费视频| 超碰中文在线| 国产精品久久久久久户外露出| 豆国产97在线| 在线视频你懂得| 亚洲精品日本| 久久视频在线观看免费| 日韩av在线看免费观看| 99re热精品视频| 欧美三级电影网| 无码精品a∨在线观看中文| 黄色免费在线网站| 欧美极品xxx| 欧美精品一区在线发布| 亚洲爱情岛论坛永久| 久久国产精品区| 日韩av免费在线观看| 一区二区成人免费视频| 第九色区aⅴ天堂久久香| 亚洲护士老师的毛茸茸最新章节| 国产xxxxhd| 99riav视频一区二区| 精品欧美aⅴ在线网站| 99热久久这里只有精品| 美女写真理伦片在线看| 91在线码无精品| 国产99在线免费| 国产成人精品亚洲精品色欲| 久久99久久精品| 国产精品视频在线播放| 欧产日产国产69| 国产视频一区三区| 国产做受69高潮| 精品一区二区三区四| 91av精品| 欧美成aaa人片免费看| 天海翼在线视频| 999国产精品视频| 中日韩美女免费视频网址在线观看 | 日韩精品一区二区三区视频在线观看| 亚洲另类第一页| 精品176极品一区| 欧美偷拍一区二区| 亚洲黄色a v| 国产毛片精品久久| 欧美日韩成人在线一区| 看看黄色一级片| 国产精品伦一区二区| 在线视频你懂得一区| 色哟哟精品视频| 国产91精品在线| 欧美日韩国产天堂| 91免费视频污| 一区二区亚洲视频| 亚洲精品久久久久久下一站 | 日韩成人一级| 亚洲欧美精品在线| 色屁屁草草影院ccyy.com| av中文字幕一区二区| 色午夜这里只有精品| 亚洲色偷偷综合亚洲av伊人| 你懂的国产精品永久在线| 久久影视电视剧免费网站清宫辞电视| 五月天丁香激情| 中文日韩在线| 国产成人亚洲综合91| 国产一区二区网站| 国产成a人亚洲| 91精品久久久久久蜜桃| 日本免费不卡视频| 久久精品水蜜桃av综合天堂| 一区二区精品在线| 久久五月精品中文字幕| 婷婷久久综合九色综合绿巨人| 日韩欧美视频网站| www.26天天久久天堂| 欧美一级黄色录像| 99久久人妻无码中文字幕系列| 日本不卡二三区| 久久91亚洲精品中文字幕| 日韩欧美高清在线观看| 蜜桃在线一区二区三区| 国产精品播放| 婷婷在线视频| 五月天亚洲婷婷| 手机看片一级片| 精品女人视频| www.日韩.com| 国产精品黄色大片| 国产精品一区二区在线观看网站| 精品免费一区二区三区蜜桃| 在线免费看黄网站| 午夜精品福利视频网站| 亚洲色图欧美自拍| 亚洲国产精品嫩草影院久久av| 久久精品福利视频| 欧美日韩综合一区二区三区| 国产精品一区二区不卡| 日本一区视频在线观看| 丁香花在线电影| 欧美日韩精品是欧美日韩精品| 男男一级淫片免费播放| 欧美丰满老妇| 日韩av免费在线| 日本xxxxwww| 亚洲精品欧美激情| 欧美美女性视频| 亚洲婷婷丁香| 午夜精品视频在线| 国产草草影院ccyycom| 国产精品久久福利| 国产天堂在线播放| 欧美激情15p| 国内精品久久久久伊人av| 国产又粗又猛又爽又黄的| 久久伊人中文字幕| 国产一区二区在线视频播放| 亚洲无线观看| 久久综合色88| 97在线播放免费观看| 中文字幕成人av| 97公开免费视频| 少妇精品久久久一区二区三区| 欧美亚洲一级片| 色窝窝无码一区二区三区| 亚洲一区二区欧美激情| 99热这里只有精品2| 亚洲a在线视频| 成人中文字幕在线观看| 免费av在线网址| 欧美日韩夫妻久久| 女教师淫辱の教室蜜臀av软件| 日韩不卡一二三区| 日韩精品久久一区二区三区| 欧美最新精品| 这里只有精品视频| 一卡二卡三卡在线| 亚洲欧洲www| 久久人人爽av| 久久久久久久久99精品大| 国产一区二区在线播放| 老司机精品视频在线观看6| 欧美日韩国产在线观看| 欧美性x x x| 国产精品一级黄| 美女黄色免费看| 草草视频在线一区二区| 国语自产精品视频在线看抢先版图片 | 99精品久久| 久久精品日产第一区二区三区精品版 | 久久影视一区| 成人乱人伦精品视频在线观看| 成人黄视频在线观看| 日韩欧美中文字幕公布| 国产精品16p| 久久婷婷综合激情| 8x8x最新地址| 欧美精品观看| 久久精品二区| 久久久久伊人| 国产成人a级片| 91手机视频在线| 97品白浆高清久久久久久| 97精品视频在线播放| 激情小说 在线视频| 欧美日韩不卡一区二区| 欧美激情图片小说| 成人三级伦理片| 不要播放器的av网站| 久久综合成人| 国产精品一区二区免费看| 台湾佬中文娱乐久久久| 久久精品国产久精国产思思| 手机在线精品视频| 欧洲精品视频在线观看| 九九九在线视频| 久久蜜臀精品av| 一二三av在线| 老鸭窝91久久精品色噜噜导演| 亚洲精品国产一区| 国产伦精品一区二区三区在线播放| 奇米四色中文综合久久| 国产成人无吗| 亚洲色图国产精品| 亚洲精品久久久久avwww潮水| 日本韩国欧美国产| 18岁成人毛片| 国产女同互慰高潮91漫画| 国产精品成人免费一区久久羞羞| 丝袜美腿亚洲综合| www.成年人视频| 欧美hentaied在线观看| 久久精品五月婷婷| 91精品尤物| 91精品久久久久久久| 第一中文字幕在线| 俺去了亚洲欧美日韩| 黄色影院在线播放| 精品国产免费人成电影在线观看四季 | 久久久久亚洲| 亚洲成人午夜在线| 视频小说一区二区| 国产欧美丝袜| 国产一区 二区| 国产精品综合网站| 免费观看欧美大片| 午夜精品久久久久久99热| 成人区精品一区二区不卡| 国产亚洲视频中文字幕视频| 亚洲aⅴ在线观看| 精品国产123| 国产夫妻性生活视频| 欧美三级在线播放| 好吊色在线视频| 欧美日韩中文字幕日韩欧美| 国产午夜精品一区二区理论影院| 自拍偷自拍亚洲精品播放| 亚洲色图 激情小说| 久久久精品国产免大香伊| 在线免费观看污视频| 粉嫩一区二区三区性色av| 永久免费黄色片| 久久成人免费网| 亚洲一级免费观看| 秋霞午夜鲁丝一区二区老狼| 成人免费毛片播放| 老**午夜毛片一区二区三区| 99爱视频在线| 男人的天堂亚洲| 欧美日韩国产精品激情在线播放| 99在线|亚洲一区二区| 丁香六月激情婷婷| a91a精品视频在线观看| 日韩av综合在线观看| 国产色综合网| 熟女性饥渴一区二区三区| 老司机一区二区三区| 国产淫片av片久久久久久| 久久久久99| 欧美黑人又粗又大又爽免费| 日韩激情视频网站| 91精品无人成人www| 久久精品国产精品青草| 日本中文字幕观看| 国产白丝网站精品污在线入口| 99热这里只有精品2| av影院午夜一区| 成年人网站免费看| 国产目拍亚洲精品99久久精品| 东京热无码av男人的天堂| 最好看的中文字幕久久| 精品欧美一区二区久久久久| 亚洲国产毛片aaaaa无费看 | 国产欧美一级| wwwwww.色| 韩国精品在线观看| 国产高潮失禁喷水爽到抽搐| 91在线小视频| 后入内射无码人妻一区| 一区二区在线观看视频在线观看| 国产一级特黄a高潮片| 一本色道久久加勒比精品| 中文字幕精品一区二| 日韩丝袜情趣美女图片| 亚洲欧美日本在线观看| 国产一区二区三区毛片| 99热国产在线| 欧美亚洲在线观看| 亚洲毛片在线免费| 国产日韩欧美一区二区三区四区| 国产成人精品一区二区免费看京 | 999国产在线| 青草久久视频| 亚洲制服欧美久久| 尤物精品在线| 婷婷六月天在线| 国产精品一区一区| 国产免费看av| 伊人婷婷欧美激情| 中文字幕在线日本| 欧美mv和日韩mv的网站| 韩国三级av在线免费观看| 蜜臀久久99精品久久久久久宅男| 亚洲私拍视频| 99精品99久久久久久宅男| 亚洲va久久| 欧美视频免费一区二区三区| 91麻豆精品国产91久久久资源速度| 亚洲精华国产精华精华液网站| 亚洲精品网站在线播放gif| 黄色小网站在线观看| 日韩av片免费在线观看| 亚洲日本va| 亚洲蜜桃在线| 亚洲一区中文| 99久久综合网| 国产精品传媒视频| yjizz国产| 日韩美女在线视频| 日本福利专区在线观看| 国产成人+综合亚洲+天堂| 亚洲精品在线播放| 亚洲一卡二卡区| 视频一区二区中文字幕| 国产成人精品一区二区三区在线观看| 亚洲国产成人在线| 国产又大又黄又粗| 亚洲国产成人精品一区二区| 国产区在线看| 成人国产在线视频| 欧美日韩第一| 久久人妻精品白浆国产| www.欧美色图| 亚洲精品在线观看av| 日韩精品在线一区| 黄视频网站在线看| 成人激情视频免费在线| 全球成人免费直播| 成人一区二区三| 久久这里只有精品首页| 制服.丝袜.亚洲.中文.综合懂色| 精品国产乱码久久久久久夜甘婷婷| 国产视频在线播放| 91中文字幕在线| 亚洲成人三区| 亚洲欧美日本一区二区| **性色生活片久久毛片| 亚洲天堂一二三| 这里只有精品视频在线| 国外成人福利视频| 亚洲一区二区四区| 久久99精品一区二区三区| 亚洲女人久久久| 在线观看91精品国产麻豆| 日韩子在线观看| 国产专区欧美专区| 五月精品视频| 特级西西444www| 亚洲欧美日韩人成在线播放| 国产人妻精品一区二区三区| 麻豆一区二区在线观看| 6080亚洲理论片在线观看| 男人添女荫道口喷水视频| 成人在线视频一区二区| 日本在线播放视频| 一区二区三欧美| 亚洲免费资源| 免费成人进口网站| 成人免费不卡视频| 69xxxx国产| 日韩在线视频观看| 中文字幕一区二区三区日韩精品| 欧美亚洲色图视频| 26uuu国产在线精品一区二区| 色一情一乱一伦| 日韩中文在线不卡| 涩爱av色老久久精品偷偷鲁| 日韩中文字幕在线免费| 久久久久久亚洲综合| 中文字幕在线观看1| 欧美理论电影在线观看| 精品久久97| 激情 小说 亚洲 图片: 伦| 亚洲乱码日产精品bd| 图片区 小说区 区 亚洲五月| 国产精品第七十二页| 一区二区三区午夜探花| 亚洲精品乱码久久久久久久| 欧美日韩精品综合在线| 黄色在线看片| 欧美午夜精品理论片a级大开眼界| 久久er精品视频| 日本天堂在线视频| 自拍偷拍亚洲一区| 国产精品巨作av| 中文字幕 91| 亚洲成年人网站在线观看| h网站在线免费观看| 99在线观看视频网站| 日韩电影在线观看网站| 国产日韩欧美在线观看视频| 日韩精品在线免费| 免费看一区二区三区| 999精品网站| 亚洲午夜激情av|