精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

騰訊大數據實時湖倉智能優化實踐

大數據 數據湖
本次分享題目為騰訊大數據實時湖倉智能優化實踐。數據湖計算部分,Spark 作為 ETL Batch 任務的主要批處理引擎,Flink 作為準實時計算的流處理引擎,StarRocks 和 Presto 作為即席查詢的 OLAP 引擎。

一、湖倉架構

騰訊大數據的湖倉架構如下圖所示:

圖片

這里分為三個部分,分別是數據湖計算、數據湖管理和數據湖存儲。

數據湖計算部分,Spark 作為 ETL Batch 任務的主要批處理引擎,Flink 作為準實時計算的流處理引擎,StarRocks 和 Presto 作為即席查詢的 OLAP 引擎。數據湖管理層以 Iceberg 為核心,同時開放了一些簡單的 API,支持用戶通過 SDK 的方式去調用。在 Iceberg 之上構建了一套 Auto Optimize Service 服務,幫助用戶在使用 Iceberg 的過程中實現查詢性能的提升和存儲成本的降低。數據湖底層存儲基于 HDFS 和 COS,COS 是騰訊云的云對象存儲,可以滿足云上用戶的大規模結構化/非結構化存儲需求,在上層計算框架和底層存儲系統之間,也會引入 Alluxio 構建了一個統一的存儲 Cache 層,進行數據緩存提速。本次分享的重點主要是圍繞智能優化服務(Auto Optimize Service)展開。


二、智能優化服務

圖片

智能優化服務主要由六個部分組成,分別是:Compaction Service(合并小文件)、Expiration Service(淘汰過期快照)、Cleaning Service(生命周期管理和孤兒文件清理)、Clustering Service(數據重分布)、Index Service(二級索引推薦)和 Auto Engine Service(自動引擎加速)。以下就各模塊近期做的重點工作展開介紹。

1. Compaction Service

(1)小文件合并優化

小文件合并有讀和寫兩個階段,由于 Iceberg 主要以 PARQUET/ORC 列存格式為主,讀寫列存面臨著兩次行列轉換和編解碼,開銷非常大。針對這個痛點,我們對 Parquet 存儲模型進行了分析,主要由 RowGroup、Column Chunk、Page 以及 Footer 組成,相對位置如下圖所示,不同列的最小存儲單元以 Page 級別組織,數據水平方向上以 RowGroup 大小劃分數據塊,以便上層引擎按照 RowGroup 級別分配 task 加載數據。

圖片

基于存儲模型的特點,我們針對性地采用了 RowGroup Level 和 Page Level 兩種拷貝優化,對于大文件合并大文件且僅涉及重新壓縮、僅涉及列裁剪的場景,使用 RowGroup Copy;對于小文件合并大文件、不涉及列變化、不涉及 BloomFilter 的場景,使用 Page Copy。

圖片

下面是我們內部全部升級優化之后的落地效果,合并時間&資源減少 5 倍多。

圖片

(2)更多優化

我們還增強了 Delete Files 合并優化和增量 Rewrite 策略。

在大規模 Update 的場景下,會產生大量的 Delete Files,數據讀取時會頻繁地進行 Delete File Apply Data File 的操作,這個過程是串行的,I/O 開銷巨大。當合并的速度低于 Delete File Apply 的速度,就會因為積攢了大量的 Delete Files 導致合并失敗。針對這個痛點,我們使用 Left Anti Join 拆分出了關聯 Delete File 的 DataFile 和未關聯 Delete File 的 DataFile,然后將兩者進行 Union All。此外還在 Delete File Apply Data File 的過程中使用了 Bloom Index 加速尋找,及時刪除未關聯 Data File 的 Delete File。

增量 Rewrite 優化會通過在 DataFile 中引入 Modify Time 來決策,進行分區級別的增量更新。

圖片

2. Index Service

(1)Iceberg Core Framework

Iceberg 較 Hive 增加了 min-max 索引,記錄了 DataFile 所有 column 列的最大值和最小值,在執行引擎計算時可以協助做文件級別的過濾,但是文件級別的索引粒度較粗,在隨機寫數據的時候 min-max 存在交叉,導致索引失效。所以我們在這個基礎之上進一步拓展了二級索引,來提高 Data Skipping 的能力,加速查詢。索引的構建和加載過程在 Iceberg Core 層的框架支持實現如下:

圖片

(2)Iceberg scan metrics

對于專注于業務開發的用戶來說,索引的選擇往往是比較困難的,如何精準的判斷是不是需要索引,需要什么索引,索引是否有效,索引是否會帶來副作用等,往往需要經過一些額外的任務來進行分析,如果靠用戶自己的決策選擇,獲得大規模的適配收益很難。基于這個想法,我們做了智能推薦索引的支持,而智能的推薦,首先是需要一套 metrics 框架的支持,能夠記錄表的 Scan,Filter 等各種事件,收集 Partition Status 信息,然后對這些事件進行分析,統計列的查詢頻次,過濾條件,根據規則區分高/低基數列等。最后根據分析結果,進行 Index 的推薦。

圖片

(3)索引智能推薦流程

整個端到端的 Index Service 流程如下圖:1)首先是 SQL 提取,由于我們獲取到的 SQL 是引擎優化后的,并不是原始 SQL,所以需要進行 SQL 重構。2)是索引粗篩,根據拿到的信息,比如列和分區的查詢頻度,初步判斷怎么建立索引是有效的。3)開始嘗試構建索引,支持構建分區級別增量索引。4)在用戶無感知的情況下進行任務雙跑。5)根據雙跑結果進行索引優化的效果評估。6)將索引優化數據輸出給用戶,推薦用戶使用。7)由于索引構建是復雜的,一個表會被多任務引用,一個任務也會去訪問多張表,我們提供任務級別和表級別的索引構建,盡可能實現表級和任務級的同步優化。

圖片

3. Clustering Service

由于 Iceberg 的 min-max 索引在隨機寫的情況下是普遍失效的,導致 Data Skipping 能力較差,所以如果需要精確覆蓋 min-max,可以將數據進行重排分布。當用戶進行單列查詢的時候,提前對數據列排序寫入,如果是多列查詢的情況,由于無法保證多個列都分布在一個文件中,我們使用 Z-order,對每個列進行數字化處理,采樣計算 Range-ID,生成交錯位Z-Value,根據 Z-Value 進行重分區,可以保證不同列之間的相對有序性。

圖片

實際業務中,Data Clustering 和 Data Skipping 都實現了四倍以上的效果提升。

圖片

4. AutoEngine Service

相對于 OLAP 引擎來講,Iceberg 表,Hudi 表都是外表,這些外表基本都是 TB 級別,使用 StarRocks,Doris 查詢外表并不能發揮 OLAP 的查詢優勢。AutoEngine Service 通過收集 OLAP 引擎的 Event Message,對相應的分區進行加熱,也就是將相關分區數據路由到 StarRocks 集群,上層引擎可以在 StarRocks 集群中發現該分區的元數據,由此實現基于存儲計算引擎的選擇優化。

圖片


三、場景化能力

1. 多流拼接

關于多流拼接,這里舉個例子簡單說明, 如圖所示,有兩個 MQ 同時往下游寫數據,MQ1 更新列 data1,MQ2 更新列 data2,最終根據 id 聚合,取時間戳 orderColumn 排序最靠前的一條,作為 join 之后的 source。要實現這個合并更新能力,往往需要外接各種臨時存儲 Redis/Hbase/MQ 等組件。

圖片

那在 Iceberg 層面是怎么優化的呢?由于 Iceberg 本身支持事務和列級的更新刪除操作,類似于代碼倉庫的 Branch 概念,因此可以通過打 tag 的方式去標記狀態。具體實現是,初始化階段,數據寫入主流程,同時多流往其他 Merged Branch 去寫入,寫完之后的話會有一個異步的 Compaction 任務,定期和主流程合并,當用戶在讀的時候,直接讀取 Merged Branch。

圖片

2. 主鍵表

通過多流 Join 的實現方法依賴 Compaction Service 的調度性能,當數據規模不斷增加,多流 join 聚合計算更新的拼接方式可能存在性能瓶頸,所以我們也引入主鍵表作為行級更新的另一種實現方式。比如這里我們根據 id 分成四個桶,存在多個任務往一個桶去寫數據,一個桶內的數據是有序的,那么下游在讀取桶數據的時候會更輕松。但是當 id 的基數很大的時候,比如當 id 為 4/8/16 的時候,都會往一個桶內寫數,會產生 DataFile 的重疊,在下游從桶內讀數的時候,就需要合并一個桶內的多個 DataFile 到一個 Reader 處理。如果分桶數量設置的不合適,單點壓力就會過大,此時可以使用 Rescale 實現桶的彈性擴縮容。另外在桶的基礎上擴展列族 Column Family 的概念,相當于每個列都作為獨立的文件寫入,多個 Column Family 行拼接 Full Outer Join 即可。

圖片

3. In Place 遷移

由于對數據湖的高階特性能力的需要,很多業務做了架構的升級,同時也面臨著存量 Thive(騰訊自研 Hive)和 Hive 的數據遷移到 Iceberg。這里需要重點支持的工作包括:存儲數據的遷移,計算任務的遷移。

圖片

首先存儲數據的遷移,我們提供了 data in-place 的方案,不搬移原來的 data files,僅僅重新生成 Iceberg 新表所需的 metadata 即可,遷移的過程支持了 STRICT/APPEND/OVERWRITE 等三種模式。

其次是計算任務的遷移支持, 我們改進支持了新的 Name Mapping 機制,增強支持了 Identity partition pruning 能力,使得對于場景的 built-in functions 裁剪能力取得數量級性能提升,優化實現如下:

圖片

4. PyIceberg

Iceberg Table Spec 是開發性的實現,可以支持多種語言 API 接入,AI生態圈數據科學等主要以 Python 環境為主,要求高性能 Native 解碼,對 JVM 環境無強依賴,PySpark 雖然具備接入 Iceberg 的能力,但是太重了。我們可以直接利用 PyIceberg 能力,無JVM 依賴,加載解碼一次即可,提供廣泛的機器學習類庫的優勢,拓展 Python的技術棧到 Iceberg 元數據層面,構造 Pandas,Tensorflow,Pytorch 等不同的 DataFrame,方便進行數據分析和 AI 模型訓練的編程探索,我們內部也深度支持了 PyIceberg SQL 的列裁剪和謂詞下推能力,結合 DuckDB 做一些小數據集的算法快速調試。

圖片


四、總結和展望

未來還將從以下方面著手,進行實時湖倉的優化:

圖片

1. Auto Optimize Service

  • 冷熱分離降本提效
  • 物化視圖提速
  • AE 服務智能化感知
  • Compaction 能力打磨
  • 更多 Transform UDF Partition Pruning 優化

2. 主鍵表優化

拓展 Deletion Vector,解決謂詞下推必須聯合去重的性能問題

3. AI 探索

  • 落地適合模型訓練的湖倉格式。
  • 探索實現分布式 dataFrame,整合 metadata 和引擎。
責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-10-13 07:25:50

2023-06-28 07:28:36

湖倉騰訊架構

2024-12-16 08:34:13

2024-06-12 07:30:08

2017-01-04 10:29:37

Spark運維技術

2016-12-15 21:41:15

大數據

2021-06-04 07:24:14

Flink CDC數據

2024-08-27 09:12:36

2023-07-27 07:44:07

云音樂數倉平臺

2013-04-23 14:36:54

2014-08-20 09:40:56

大數據實踐項目

2022-05-23 13:30:48

數據胡實踐

2024-09-03 14:59:00

2023-08-29 10:20:00

2021-07-05 10:48:42

大數據實時計算

2023-03-27 21:24:18

架構數據處理分析服務

2023-10-16 07:22:50

點贊
收藏

51CTO技術棧公眾號

92久久精品一区二区| 成人乱码一区二区三区av| 超碰在线观看免费| 成人动漫一区二区| 国产91成人video| 欧洲性xxxx| 视频欧美一区| 日本韩国精品在线| 992tv快乐视频| 欧美日韩视频精品二区| 美女免费视频一区| 91国内在线视频| 日本免费网站视频| 老司机成人在线| 欧美日韩激情一区二区三区| 亚洲国产精品无码观看久久| av在线日韩国产精品| 成人爽a毛片一区二区免费| 国产精品久久久久久一区二区 | 97久久久久久| 九九热久久免费视频| 麻豆视频一区| 日韩欧美一二三四区| 北条麻妃av高潮尖叫在线观看| 国产1区在线| 国产日韩精品一区二区三区| 国产99视频精品免费视频36| 中文字幕理论片| 在线亚洲观看| 欧美丰满少妇xxxxx| 免费看裸体网站| 午夜精品福利影院| 精品国产凹凸成av人导航| 天堂av8在线| 美女福利一区二区| 午夜精品久久久久久久| 免费成人进口网站| 日本福利在线| 欧美极品美女视频| 欧美亚洲免费在线| 天天av天天翘| 成人高清视频在线| 97久久人人超碰caoprom欧美| 中文字幕 视频一区| 久久一区精品| 日韩女在线观看| 国产午夜免费福利| 亚洲少妇在线| 国模精品系列视频| 国产中文字幕免费| 伊人成人在线视频| 久久欧美在线电影| 欧美成人aaaaⅴ片在线看| 中文字幕一区二区av| 久久久成人精品视频| 小早川怜子一区二区的演员表| 欧美特黄一级大片| 中文字幕日韩欧美| 女人裸体性做爰全过| 精品国产一区二区三区| 亚洲新声在线观看| 亚洲av毛片基地| 日韩国产一区| 久久精品国产亚洲精品2020| 日韩在线视频网址| 亚洲蜜桃视频| 久久91精品国产91久久跳| 午夜69成人做爰视频| 欧美福利一区| 91国内精品久久| 男人天堂视频在线| 日韩精品亚洲专区| 成人av色在线观看| 精品人妻伦一区二区三区久久| 粉嫩蜜臀av国产精品网站| 国产精品区一区| 日本一卡二卡四卡精品| 久久久精品人体av艺术| 影音欧美亚洲| 色老头在线观看| 日韩欧美在线免费观看| 可以在线看的黄色网址| 欧美激情三区| 欧美mv和日韩mv的网站| 91精品人妻一区二区三区蜜桃欧美| 九热爱视频精品视频| 中文字幕一精品亚洲无线一区| 国产高潮流白浆| 国产综合精品| 国产精品久久久久久久9999| 国产男女无套免费网站| 成人av在线播放网址| 欧美专区一二三| 成人影欧美片| 亚洲高清在线视频| caoporn超碰97| 欧一区二区三区| 亚洲精品日韩在线| 欧美大片xxxx| 性色av一区二区怡红| 91免费在线视频| 欧美成熟毛茸茸| 亚洲人成电影网站色mp4| 国产精品999视频| 四虎精品一区二区免费| 日韩精品高清视频| 欧美极品视频在线观看| 日韩不卡一区二区| 国产精品免费一区二区三区观看 | 91麻豆精品视频| 中文字幕制服丝袜在线| 中文字幕在线看片| 日韩一级精品视频在线观看| 精品久久久久久中文字幕人妻最新| 欧美高清视频手机在在线| 久久露脸国产精品| 国产不卡av在线播放| 国产午夜精品一区二区三区视频| 成人一区二区av| 成人黄色在线| 亚洲美女av黄| 日韩成年人视频| 国产精品一二三在| 亚洲一二三区精品| 日本精品不卡| 日韩激情在线视频| 精品无码久久久久| 国产一区二区福利视频| 亚洲人成网站在线播放2019| 亚洲精品mv| 亚洲成人在线网| 欧美xxxx黑人xyx性爽| 久久成人羞羞网站| 午夜免费电影一区在线观看| 高潮一区二区| 亚洲美女在线看| 国产毛片aaa| 99精品一区二区| 欧美亚洲黄色片| 亚洲小说春色综合另类电影| 久久精品国产视频| 国产精品无码免费播放| 国产精品国产三级国产aⅴ中文| 韩国一区二区av| 免费成人av| 国产www精品| 久久99久久| 欧美日韩免费区域视频在线观看| www.四虎精品| 亚洲区一区二| 99国产视频| 亚洲电影视频在线| 日韩精品中文字幕在线一区| 国产一级黄色av| 国产91富婆露脸刺激对白 | 韩国在线视频一区| 999视频在线免费观看| 18+视频在线观看| 日韩欧美一级特黄在线播放| 欧美日韩国产精品综合| 豆国产96在线|亚洲| 分分操这里只有精品| 久久成人福利| 日产精品99久久久久久| 国产精品一二三区视频| 欧美三级视频在线| 97在线观看免费高| 国产成人精品1024| 国产肥臀一区二区福利视频| 国产尤物久久久| 国产在线a不卡| 国产精品69xx| 亚洲精品有码在线| 欧美性受xxx黑人xyx性爽| 国产精品国产三级国产普通话99| 色婷婷综合在线观看| 精品1区2区3区4区| 欧美三级华人主播| 婷婷久久免费视频| 久久久久久久999精品视频| 亚洲日本在线播放| 精品1区2区3区| 成熟的女同志hd| 99久久国产综合精品色伊| 日韩视频免费在线播放| 这里只有精品在线| 久久久久久国产精品mv| 免费视频观看成人| 国内精品小视频在线观看| 福利成人在线观看| 精品国产乱码久久久久久图片 | 欧美挠脚心视频网站| chinese全程对白| 成人免费视频app| 91香蕉视频污版| 国模 一区 二区 三区| 日韩av图片| 丁香五月缴情综合网| 国产精品久久999| 川上优av中文字幕一区二区| 国产一区二区三区网站| 亚洲高清视频在线播放| 欧洲国产伦久久久久久久| 久久久精品99| 国产精品免费人成网站| av鲁丝一区鲁丝二区鲁丝三区| 久久99久久精品欧美| 日本www在线播放| 亚洲欧美色图| 五月婷婷一区| 中文精品一区二区| 国产精品免费一区二区三区观看| 亚洲a成人v| 国产精品极品在线| 天堂网在线最新版www中文网| 欧美久久精品一级黑人c片 | 亚洲大尺度在线观看| 亚洲国产日产av| 亚洲综合视频网站| 国产日韩精品久久久| jizz欧美性20| 成人午夜av在线| 又大又长粗又爽又黄少妇视频| 麻豆精品在线播放| 亚洲中文字幕久久精品无码喷水| 91久久综合| 乱熟女高潮一区二区在线| 久久综合99| 亚洲精品不卡| 国产欧美一区二区精品久久久| 国产精品成人一区二区三区| 国产一区二区高清在线| 国产在线精品播放| 久久国内精品| 国产精品视频导航| 成人国产综合| 国产欧美一区二区| 国产精品天堂蜜av在线播放| 国产精品久久一| 亚洲综合av一区二区三区| 清纯唯美亚洲激情| 欧美成人黑人| 国产精品白嫩初高中害羞小美女 | 欧美日韩性视频在线| 99久在线精品99re8热| 性感美女久久精品| 日本网站免费观看| 欧美日韩国产一中文字不卡| 成年免费在线观看| 欧美午夜片欧美片在线观看| 97久久久久久久| 第一福利永久视频精品| 久久精品视频1| 一本色道久久综合精品竹菊| 无码免费一区二区三区| 在线观看精品一区| 在线观看国产精品视频| 91精品国产免费久久综合| 成 人 黄 色 片 在线播放| 日韩视频免费直播| 好男人在线视频www| 日韩av网站在线| 欧美伦理影视网| 日韩亚洲国产中文字幕| 国产不卡在线| 国语对白做受69| 成人做爰视频www网站小优视频| 国产精品久久久久久久久免费 | 3atv一区二区三区| www.好吊色| 日韩国产欧美精品在线| 国产福利电影在线| 久久影视电视剧免费网站清宫辞电视| av网站大全在线| 欧美性一区二区三区| 九九九伊在线综合永久| 91精品视频免费看| 久久中文资源| 亚洲欧美精品| 欧美视频久久| 无码人妻丰满熟妇区毛片| 久久成人18免费观看| 日本精品一二三区| 国产日韩欧美电影| 久草网在线观看| 在线观看视频一区二区欧美日韩| 国产又大又黄又爽| 亚洲大尺度美女在线| 国产香蕉视频在线看| 欧美成人性生活| 成人性生交大片免费网站 | 久久精品色播| 亚洲成人蜜桃| 1024日韩| 在线黄色免费看| 成人精品视频.| 五月天免费网站| 婷婷中文字幕综合| 国产一区二区麻豆| 日韩电影视频免费| av小次郎在线| 国产精品成人aaaaa网站| 一区二区中文字幕在线观看| 日本10禁啪啪无遮挡免费一区二区| 欧美va亚洲va日韩∨a综合色| 激情五月开心婷婷| 粉嫩av一区二区三区粉嫩| 少妇视频在线播放| 精品国产91久久久久久| 国产美女免费视频| 尤物yw午夜国产精品视频| 国产资源在线观看入口av| 亚洲jizzjizz日本少妇| 欧美日韩中文一区二区| 99视频在线免费播放| 岛国av在线一区| 永久免费看mv网站入口| 在线观看亚洲成人| 日本一区高清| 57pao国产精品一区| 亚洲精品黑牛一区二区三区| 亚洲一区二区三区乱码| 久久精品导航| 无码一区二区精品| 亚洲午夜精品网| 国产黄频在线观看| 久久精品视频免费播放| 色猫猫成人app| 日韩免费电影一区二区| 亚洲欧美日韩国产一区| 欧美一级片黄色| 午夜不卡av在线| 三级小视频在线观看| 欧美激情xxxx性bbbb| 日韩高清一区| 日本天堂免费a| 国产精品一区一区三区| 国产精品老熟女一区二区| 91精品国产综合久久蜜臀| av网站在线免费观看| 国产精品最新在线观看| 成人在线亚洲| 久久99999| 国产精品久久国产精麻豆99网站| 真实的国产乱xxxx在线91| 最近2019免费中文字幕视频三| 91福利精品在线观看| 亚洲人成网站在线观看播放| 久久精品国产精品亚洲红杏| 亚洲毛片亚洲毛片亚洲毛片| 欧美三级中文字幕| 免费观看久久久久| 69174成人网| 国产一区激情| 日韩精品视频一区二区| 午夜天堂影视香蕉久久| 日韩在线免费看| 国产成人精品在线视频| 大片网站久久| www.cao超碰| 亚洲精品videosex极品| 丰满熟妇人妻中文字幕| 2024亚洲男人天堂| 日本a级不卡| 亚洲女人在线观看| 亚洲成人福利片| 黄色片在线免费看| 国产日产亚洲精品| 欧美另类亚洲| 亚洲精品成人无码熟妇在线| 欧美色手机在线观看| 天天色天天射天天综合网| 国外成人在线视频网站| 久久一二三四| 一起操在线播放| 日韩高清中文字幕| 四虎地址8848精品| 国产原创popny丨九色| 国产欧美一区二区精品久导航| 国产一区二区在线视频聊天| 久久久久国产视频| 国产探花在线精品| 国产一级二级av| 色综合久久中文综合久久97| 女女色综合影院| 国产一区二区免费在线观看| 人人狠狠综合久久亚洲| 免费中文字幕视频| 亚洲视频在线视频| 2021年精品国产福利在线| 农村妇女精品一二区| 一区二区在线免费| 国产天堂在线| 国产精品视频在线免费观看| 日韩国产欧美视频| 国产污片在线观看| 少妇激情综合网| 亚洲精品白浆高清| 风韵丰满熟妇啪啪区老熟熟女| 欧美性猛交xxxx富婆|