精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據治理實踐 | 網易某業務線的計算資源治理

大數據 數據分析
對于調度優化一開始會無從下手,統計凌晨2-5點區間下大概600+任務難梳理,同時存在任務依賴,修改起來可能會對下游整體有大的影響,因此我們選擇循序漸進先梳理再改善。

?本文從計算資源治理實踐出發,帶大家清楚認識計算資源治理到底該如何進行,并如何應用到其他項目中。

01前言

由于數據治理層面可以分多個層面且內容繁多(包括模型合規、數據質量、數據安全、計算/存儲資源、數據價值等治理內容),因此需要單獨拆分為6個模塊單獨去闡述其中內容。

筆者作為數倉開發經常會收到大量集群資源滿載、任務產出延時等消息/郵件,甚至下游數分及其他同學也會詢問任務運行慢的情況,在這里很多數倉同學遇到這類問題第一想到的都是加資源解決,但事實真不一定是缺少資源,而是需要優化當前問題任務。所以本期從團隊做計算資源治理視角出發,帶大家清楚認識計算資源治理到底該如何進行。

02問題出現

在做計算治理之前(2022.12)我們團隊盤點了下當前計算資源存在的幾個問題:

(1)30+高消耗任務:由于數倉前中期業務擴張,要覆蓋大量場景應用,存在大量問題代碼運行時數據傾斜,在消耗大量集群計算資源下,產出時間也久;

(2)200w+的小文件:當前任務存在未合并小文件、任務Reduce數量過多、上游數據源接入(尤其是API數據接入)會造成過多小文件出現,小文件過多會開啟更多數據讀取,執行會浪費大量的資源,嚴重影響性能;

(3)任務調度安排不合理:多數任務集中在凌晨2-5點執行且該區間CPU滿載,導致該時間段資源消耗成了重災區,所有核心/非核心任務都在爭搶資源,部分核心任務不能按時產出一直在等待階段;

(4)線上無效DQC(數據質量監控)&監控配置資源過小:存在部分歷史任務沒下線表及DQC場景,每日都在空跑無意義DQC浪費資源,同時DQC資源過少導致DQC需要運行過長時間;

(5)重復開發任務/無用任務:早期協助下游做了較多煙囪數據模型,因為種種原因,部分任務不再被使用,煙囪模型分散加工導致資源復用率降低;

(6)任務缺少調優參數&部分任務仍然使用MapReduce/Spark2計算引擎:任務缺少調優參數導致資源不能適配及動態調整,甚至線上仍有早期配置MapReduce/Spark2計算引擎導致運行效率較低。

03思考與行動

3.1 治理前的思考:?

在治理之前我想到一個問題,切入點該從哪里開始最合適?

經過與團隊多次腦暴對當前治理優先級/改動成本大小/難度做了一個排序,我們先選擇從簡單的參數調優&任務引擎切換開始->小文件治理->DQC治理->高消耗任務治理->調度安排->下線無用模型及沉淀指標到其他數據資產,同時在初期我們完成各類元數據接入搭建治理看板以及團隊治理產出統計數據模型,并通過網易數帆提供的數據治理平臺解決具體細節問題。

圖片

(數據治理平臺截圖)

3.2 治理行動:

(1)大部分任務切換至Spark3計算引擎&補充任務調優參數

補充Spark調優參數(參數內容詳見文末),任務統一使用Spark3引擎加速,并充分利用Spark3的AQE特性及Z-Order排序算法特性。

AQE解釋:Spark 社區在 DAG Scheduler 中,新增了一個 API 在支持提交單個 Map 階段,以及在運行時修改 shuffle 分區數等等,而這些就是 AQE,在 Spark 運行時,每當一個 Shuffle、Map 階段進行完畢,AQE 就會統計這個階段的信息,并且基于規則進行動態調整并修正還未執行的任務邏輯計算與物理計劃(在條件運行的情況下),使得 Spark 程序在接下來的運行過程中得到優化。

Z-Order解釋:Z-Order 是一種可以將多維數據壓縮到一維的技術,在時空索引以及圖像方面使用較廣,比如我們常用order by a,b,c 會面臨索引覆蓋的問題,Z-Order by a,b,c 效果對每個字段是對等的

(2)小文件治理

在這里我們使用內部數據治理平臺-數據治理360對存在小文件較多表提供內容展示(本質采集HDFS對應路徑下文件數的日志去顯示)

當前小文件處理:

對于分區較多使用Spark3進行動態分區刷新,(Spark3具備小文件自動合并功能,如未使用Spark3可配置Spark3/Hive小文件合并參數刷新,參數詳見文末),代碼如下:

set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table xxx.xxx partition (ds)
select column
,ds
from xxx.xxx

對于分區較少或未分區的表采用重建表,補數據方法回刷。

小文件預防:

  • 使用Spark3引擎,自動合并小文件
  • 減少Reduce的數量(可以使用參數進行控制)
  • 用Distribute By Rand控制分區中數據量
  • 添加合并小文件參數 
  • 將數據源抽取后的表做一個任務(本質也是回刷分區合并小文件任務)去處理小文件保障從數據源開始小文件不向下游流去

(3)DQC治理

無效DQC下線:難點在于需要查找所有DQC對應的線上任務,查看該DQC任務是否與線上任務一一匹配,從而找到無效DQC任務下線,內容繁雜耗時較多。

DQC資源:由于之前DQC配置資源為集群默認參數,效率極低導致所有DQC運行時長均超過10min,從而使得整體任務鏈路運行時長過久,調整Driver內存為2048M,Executor個數為2,Executor內存為4096M

(4)高消耗任務調優

這里存在2個難點:優化效果不可控、高消耗任務調整到何種程度算合適,針對這個這個難點我們取所有核心數據資產任務均值,保障單個任務消耗小于平均消耗,同時我們針對當前高消耗任務列舉出如下可優化的方式:

  • 關聯表過多,需拆分
  • 關聯時一對多,數據膨脹
  • 資源配置過多,運行時資源嚴重浪費,需要將配置調小(包括Driver內存、Executor個數、Executor內存)
  • 代碼結尾添加Distribute By Rand(),用來控制Map輸出結果的分發
  • 查詢中列和行未裁剪、分區未限定、Where條件未限定
  • SQL中Distinct切換為Group by(Distinct會被hive翻譯成一個全局唯一Reduce任務來做去重操作,Group by則會被hive翻譯成分組聚合運算,會有多個Reduce任務并行處理,每個Reduce對收到的一部分數據組,進行每組聚合(去重))
  • 關聯后計算切換為子查詢計算好后再關聯
  • 使用Map Join(Map Join會把小表全部讀入內存中,在Map階段直接拿另外一個表的數據和內存中表數據做匹配,由于在Map是進行了Join操作,省去了Reduce運行的效率也會高很多)可用參數代替

(5)任務調度合理優化

對于調度優化一開始會無從下手,統計凌晨2-5點區間下大概600+任務難梳理,同時存在任務依賴,修改起來可能會對下游整體有大的影響,因此我們選擇循序漸進先梳理再改善。

  • 找到所有表的輸出輸入點即啟始ODS與末尾ADS
  • 劃分其中核心表/非核心表,及對應任務開始時間與結束時間
  • 按照梳理內容把非核心的任務穿插在當前集群資源非高峰時期(2點前與5點后),同時把核心任務調度提前,保障CDM層任務及時產出
  • 對實踐后內容再度調優,達到資源最大利用率

(6)煙囪任務下沉&無用任務下線

煙囪表過多,需下沉指標到DWS中提升復用性,對于無用任務也需要及時下線(這里需要拿到元數據血緣最好到報表層級的數據血緣,防止任務下線后導致可視化內容問題產生),減少開發資源消耗。

04治理效果

(1)Hive與Spark2任務升級Spark3.1,總計升級任務137個,升級任務后總體任務執行效率提升43%,cpu資源消耗降低41%,內存資源消耗降低46%

(2)治理小文件數大于10000+以上的數倉表總計30+張,小文件總數由216w下降至67w

(3)下線無效DQC任務總計50+,修改DQC配置資源降低運行時長,由原來10min優化至3min內

(4)完成線上20+個任務優化及10+個任務下線及10+表指標下沉,優化后節省任務耗時146分鐘,減少CPU損耗800w+,降低內存消耗2600w+(相當于節省了8個200+字段1億數據量任務消耗)

(5)調度重新分配后2-5點資源使用率由90+%降低至50+%,保障日用資源趨勢圖無大突刺波動

05小結

計算資源治理核心在于降本增效,用有限資源去運行更多任務,通過一系列治理操作也讓數倉同學積累技術經驗同時規范化自身開發標準,讓治理反推進組內技術進步。

計算資源治理是一件長久之事,并不能因為資源緊張才去治理,而要將計算治理常態化,可通過周/月資源掃描內容及時推送給每個同學,并為之打分,讓每個任務都有源可循,有方法可優化。

參數內容

參數并不是設置越多任務性能越好,根據數據量、消耗、運行時間進行調整達到合理效果。

Hive:

(1)set hive.auto.convert.join = true; (是否自動轉化成Map Join)

(2)set hive.map.aggr=true; (用于控制負載均衡,頂層的聚合操作放在Map階段執行,從而減輕清洗階段數據傳輸和Reduce階段的執行時間,提升總體性能,該設置會消耗更多的內存)

(3)set hive.groupby.skewindata=true; (用于控制負載均衡,當數據出現傾斜時,如果該變量設置為true,那么Hive會自動進行負載均衡)

(4)set hive.merge.mapfiles=true;  (用于hive引擎合并小文件使用)

(5)set mapreduce.map.memory.mb=4096;      (設置Map內存大小,解決Memory占用過大/小)

(6)set mapreduce.reduce.memory.mb=4096;(設置Reduce內存大小,解決Memory占用過大/小)

(7)set hive.exec.dynamic.partition.mode=nonstrict;(動態分區開啟)

Spark:

(1)set spark.sql.legacy.parquet.datetimeRebaseModeInRead=LEGACY;(用于spark3中字段類型不匹配(例如datetime無法轉換成date),消除sql中時間歧義,將Spark .sql. LEGACY . timeparserpolicy設置為LEGACY來恢復Spark 3.0之前的狀態來轉化)

(2)set spark.sql.adaptive.enabled=true;(是否開啟調整Partition功能,如果開啟,spark.sql.shuffle.partitions設置的Partition可能會被合并到一個Reducer里運行。平臺默認開啟,同時強烈建議開啟。理由:更好利用單個Executor的性能,還能緩解小文件問題)

(3)set spark.sql.hive.convertInsertingPartitinotallow=false;(解決數據無法同步Impala問題,使用Spark3引擎必填)

(4)set spark.sql.finalStage.adaptive.advisoryPartitinotallow=2048M;(Spark小文件合并)?

責任編輯:武曉燕 來源: 網易有數
相關推薦

2023-06-12 07:44:21

大數據數據治理

2023-02-08 19:32:27

大數據

2022-12-06 17:52:57

離線數倉治理

2022-05-13 11:24:09

數據美團

2023-06-19 07:27:50

網易嚴選全鏈路

2023-07-27 07:44:07

云音樂數倉平臺

2023-01-31 15:27:13

數據治理數據管理

2023-08-07 08:40:24

2024-03-26 06:46:52

大數據數據治理大數據資產治理

2022-12-30 15:27:13

2024-04-22 07:56:32

數據倉庫數據中臺數據服務

2023-04-10 07:34:30

2024-01-11 08:15:52

大數據成本治理Hadoop

2025-03-20 10:50:08

RedisCaffeine緩存監控

2022-12-21 12:05:40

網易云音樂用戶畫像

2024-05-22 15:31:56

2023-04-14 15:50:29

元數據數據治理

2023-10-24 14:48:23

數據治理大數據

2021-07-19 10:06:30

數據治理數字化轉型CIO

2023-06-27 07:26:36

汽車之家敏感數據治理
點贊
收藏

51CTO技術棧公眾號

欧美不卡高清一区二区三区| 男女污污视频在线观看| 女人色偷偷aa久久天堂| 亚洲国产高清自拍| 9久久婷婷国产综合精品性色| 巨大荫蒂视频欧美另类大| 大尺度一区二区| 国产精品爱啪在线线免费观看| 伊人在线视频观看| 国产a久久精品一区二区三区| 欧美一区二区三区公司| 国产乱子夫妻xx黑人xyx真爽| 日本成人网址| 久久免费看少妇高潮| 国产一区二区丝袜| 天天操天天干视频| 午夜精品国产| 中文字幕免费精品一区| www.男人天堂| 久久天堂久久| 欧美亚一区二区| 男女激情无遮挡| caopeng在线| 中文字幕欧美三区| 久久国产一区| 亚洲男人第一天堂| 久国产精品韩国三级视频| 欧美在线日韩在线| 欧美亚洲天堂网| 99久久婷婷这里只有精品| 精品一区二区电影| 精品伦一区二区三区| 伊人久久大香伊蕉在人线观看热v| 欧美性xxxx极品hd欧美风情| 黄色一级片黄色| 91精品久久久久久粉嫩| 亚洲图片激情小说| 中文字幕中文字幕一区三区| 电影av在线| 久久久久久一二三区| 国产一区二区精品在线| 亚洲精品视频专区| 国产成人精品影视| 999国内精品视频在线| 国产成人三级在线播放| 国产精品538一区二区在线| 91亚洲精品久久久久久久久久久久| 自拍偷拍福利视频| 日韩中文欧美在线| 日本精品在线视频| 欧产日产国产69| 久久久久久久欧美精品| 青青久久aⅴ北条麻妃| 在线观看亚洲天堂| 久久av一区| 青草青草久热精品视频在线网站| 亚洲av中文无码乱人伦在线视色| 免费精品视频| 国产精品成人v| 天天综合久久综合| 蜜臀久久99精品久久久久久9| 国产精品久久久久久亚洲调教| 亚洲av无码精品一区二区| 久久国产精品毛片| 国产精品看片资源| 一本色道久久综合亚洲| 国产精品中文字幕日韩精品 | www.国产成人| 亚洲精品美女| 日本午夜人人精品| 伊人网中文字幕| 激情欧美一区二区| 国产精品18毛片一区二区| 污污视频在线观看网站| 国产日韩在线不卡| 黄频视频在线观看| 欧美另类tv| 一本色道久久综合亚洲aⅴ蜜桃 | 亚洲国产精品影视| 性欧美1819sex性高清大胸| 亚洲1区2区3区视频| 欧美日韩第二页| 巨大黑人极品videos精品| 欧美一区二区播放| 中文字幕免费看| 91精品秘密在线观看| 欧美—级高清免费播放| 无码人妻精品一区二区蜜桃色欲| 美女视频网站黄色亚洲| 国产精品久久精品视| 日韩黄色影片| 亚洲女与黑人做爰| 国产精品333| 亚洲人成777| 亚洲精品国精品久久99热| 色屁屁草草影院ccyy.com| 婷婷色综合网| 欧美一级大胆视频| 999免费视频| 国产日韩视频一区二区三区| 99久久久无码国产精品性色戒| 18aaaa精品欧美大片h| 欧美性生活大片视频| 中文字幕一区二区三区人妻在线视频| 亚洲va久久| 九色精品美女在线| 最近中文字幕av| 波多野结衣视频一区| 椎名由奈jux491在线播放| 超碰aⅴ人人做人人爽欧美| 91精品国模一区二区三区| 99久久久久久久久久| 欧美激情视频一区二区三区免费| 国产成人精品最新| 欧日韩在线视频| 亚洲四区在线观看| 爱情岛论坛vip永久入口| 国产欧美一区二区三区米奇| 久久在线精品视频| 五月天中文字幕| 91伊人久久大香线蕉| 久操手机在线视频| 96视频在线观看欧美| 中文字幕亚洲自拍| 亚洲 日本 欧美 中文幕| 不卡的av在线播放| 国产精品视频一二三四区| 欧美黑粗硬大| 国产一区二区三区在线视频 | 日韩综合在线视频| 国模一区二区三区私拍视频| 亚洲夜夜综合| 在线成人高清不卡| 亚洲女人毛茸茸高潮| 久久久久国内| 欧美综合77777色婷婷| 男人的天堂免费在线视频| 亚洲精品一区在线观看| 青青草原在线免费观看| 国产综合一区二区| 在线观看日韩羞羞视频| 欧美天堂一区二区| 中文字幕亚洲天堂| 在线观看xxxx| 国产精品久久久久久久久搜平片| 粉色视频免费看| 成人影视亚洲图片在线| 国产精品久久久久久久久久尿| 加勒比一区二区三区在线| 欧美性猛交xxxx久久久| 国产精品无码一区二区三区| 视频一区二区国产| 色狠狠久久av五月综合|| 亚洲爱爱视频| 视频一区视频二区国产精品| 中文字幕在线播放日韩| 国产精品久久久久国产精品日日| 不卡中文字幕在线观看| 欧美一区激情| 国产欧美一区二区三区另类精品 | 国产精品久久久久久搜索| av网站在线免费观看| 欧美日韩国产高清一区二区 | 精品国产成人在线| 精品无码国产污污污免费网站| 日本欧美一区二区| 欧美日韩在线免费观看视频| 免费观看亚洲视频大全| 97精品国产97久久久久久免费| 天天插天天干天天操| 色噜噜狠狠一区二区三区果冻| 中文字幕伦理片| 国产精一品亚洲二区在线视频| 欧美人成在线观看| 国产一区二区三区日韩精品 | 国产精品成人在线观看| 97人人模人人爽人人澡| 在线不卡视频| 日本一区二区三区精品视频| 中文幕av一区二区三区佐山爱| 久久久亚洲国产天美传媒修理工| 十九岁完整版在线观看好看云免费| 欧美色道久久88综合亚洲精品| 免费视频91蜜桃| 国产精品一区2区| 日日橹狠狠爱欧美超碰| 欧美3p视频| 国产伦精品一区二区三区照片 | 精品午夜一区二区| 久久亚洲人体| 欧美性做爰毛片| 国产一二区在线| 日韩精品免费综合视频在线播放| 一区二区三区在线免费观看视频| 亚洲色图欧美激情| 亚洲最大的黄色网| 国产在线精品一区二区| 秋霞无码一区二区| 国产精品久久久久无码av| 国产伦精品一区二区| 国产原创一区| 青青a在线精品免费观看| 午夜小视频福利在线观看| 亚洲天堂av在线免费| 丰满人妻一区二区三区四区53| 色久优优欧美色久优优| 久久精品视频国产| 国产精品久久久久久久久免费相片| 捆绑凌虐一区二区三区| 精品无人区卡一卡二卡三乱码免费卡 | 中文字幕第10页| 日韩成人免费在线| 少妇高潮喷水在线观看| 自拍欧美日韩| 一区高清视频| 精品国产一区探花在线观看 | 激情久久av一区av二区av三区| 神马久久精品综合| 国产欧美日本一区视频| 中文字幕丰满孑伦无码专区| 丰满白嫩尤物一区二区| 久久无码人妻一区二区三区| 麻豆成人91精品二区三区| 毛葺葺老太做受视频| 一区二区精品| 国产精品裸体瑜伽视频| 在线电影一区| 97中文字幕在线| 国产精品a级| 7777在线视频| 亚洲欧美综合久久久| 亚洲一区尤物| 日韩www.| 亚洲精品中文综合第一页| 精品一二三区| 日本一区视频在线观看免费| 亚洲免费观看高清完整版在线观| 国产99在线播放| 亚洲91网站| 99爱精品视频| 亚洲精品高潮| 国产精品乱子乱xxxx| 136国产福利精品导航网址应用| 95av在线视频| 精品伊人久久| 999日本视频| 开心激情综合| 欧美日韩国产不卡在线看| 亚洲精品无吗| 水蜜桃一区二区三区| 欧美日韩精品一区二区视频| 亚洲国产一区二区在线| 婷婷亚洲图片| 真实国产乱子伦对白视频| 亚洲大胆视频| 两根大肉大捧一进一出好爽视频| 夜夜嗨网站十八久久| 日韩av资源在线| 日韩高清一区在线| 中文字幕永久有效| 国产乱人伦精品一区二区在线观看 | 成人黄色免费短视频| 国产精品视频1区| 欧美9999| 久久波多野结衣| 欧美男gay| 亚洲一区二区精品在线| 欧美1区视频| 无码专区aaaaaa免费视频| 日韩国产欧美视频| 成人免费黄色av| 波多野结衣在线一区| 91成年人网站| 亚洲三级电影全部在线观看高清| 久久精品第一页| 精品久久久中文| 中国女人真人一级毛片| 日韩一区二区三区四区五区六区| 少妇精品视频一区二区| 国产一区二区黑人欧美xxxx| 麻豆视频在线| 69久久夜色精品国产69| 精品久久在线| 国产自产精品| 国产精品久久久久无码av| 国产无限制自拍| 免费一级片91| 日韩Av无码精品| 亚洲欧洲成人自拍| 国产美女激情视频| 日韩一级成人av| 国产人成在线视频| 久久久久成人网| 高清av一区二区三区| 国产精选一区二区| 999视频精品| 国产裸体舞一区二区三区| 精品无人区卡一卡二卡三乱码免费卡 | 一本一道无码中文字幕精品热| 欧美伦理视频网站| 欧美少妇另类| 久久久久国色av免费观看性色| 搜成人激情视频| 国产一区高清视频| 亚洲成人精品| 国内自拍视频网| 91丨九色porny丨蝌蚪| 久草视频手机在线观看| 欧美三级电影网| 日av在线播放| 久久久久免费精品国产| 日本午夜免费一区二区| 欧美二区在线| 99亚洲一区二区| 国产人妖在线观看| 亚洲欧美影音先锋| 日本三级一区二区三区| 亚洲激情中文字幕| 免费在线观看av电影| 91麻豆国产精品| 久久婷婷蜜乳一本欲蜜臀| 午夜精品在线免费观看| 久久天堂av综合合色蜜桃网| 国产在线视频99| 欧美va亚洲va香蕉在线| a视频在线观看| 亚洲xxxxx性| 一本到12不卡视频在线dvd| 一区二区三区 日韩| 国产日韩精品一区二区三区| 羞羞影院体验区| 精品亚洲精品福利线在观看| 涩涩网在线视频| 久久久久网址| 国产亚洲永久域名| 国产精品jizz| 一本大道久久a久久精品综合| 五月激情六月婷婷| 69久久夜色精品国产69| 天堂资源在线亚洲| 男女午夜激情视频| 久久网站热最新地址| 三级视频在线观看| 日韩成人av网| gay欧美网站| 日本午夜精品一区二区三区| 日日夜夜免费精品| 东京热无码av男人的天堂| 欧美日韩在线直播| 欧美96在线| 3d动漫啪啪精品一区二区免费| 欧美精品网站| 荫蒂被男人添免费视频| 都市激情亚洲色图| 激情福利在线| 国产精品视频导航| 亚洲国产精品成人| 四虎成人免费视频| 精品免费在线视频| 国产一级片在线播放| 国产男人精品视频| 日韩精品看片| av影片在线播放| 精品久久久精品| 草草影院在线观看| 91在线视频免费| 亚洲精品影院在线观看| 欧洲女同同性吃奶| 欧美日韩黄视频| av小说在线播放| 日韩三级电影| 国产成人a级片| 亚洲欧美一区二区三区在线观看| 少妇高潮久久77777| 亚洲成人五区| 日韩免费高清在线| 有坂深雪av一区二区精品| 色鬼7777久久| 成人国产在线激情| 国产乱码精品| 国产传媒免费在线观看| 亚洲国产精品人久久电影| 成人精品高清在线视频| 男人天堂手机在线视频| 日本一区二区三区dvd视频在线| 亚洲AV无码精品国产| 日本久久久久久久久| 一区二区日韩欧美| xxx在线播放| 精品噜噜噜噜久久久久久久久试看 | 日韩欧美亚洲成人| av在线免费网站| 欧美二区三区在线| 国产宾馆实践打屁股91| 亚洲精品一区二区二区| 久久久久久久久久久久av| 欧洲美女日日| 自拍视频一区二区| 日韩一区二区三区观看| 免费观看成人性生生活片|