精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節跳動基于 Hudi 的機器學習應用場景

人工智能
本文為 Apache Hudi 技術社區分享會第十期嘉賓分享文章,主要介紹火山引擎 LAS 團隊自研的多場景樣本離線存儲技術,用于處理機器學習系統的離線數據流。

為大家揭秘流批一體樣本生成的過程,分享對 Hudi 內核所做出的優化和改造,探索其在數據處理領域的實際應用和效果。

本篇文章提綱如下:

  • 業務場景
  • 離線樣本存儲與迭代
  • 流批一體的樣本生成
  • 功能與優化

1. 業務場景

為了讓大家更容易理解接下來要講的基于數據湖的樣本存儲和樣本生成問題,文章先給大家簡單介紹一些相關的基礎概念。首先是機器學習系統的離線數據流架構,機器學習系統和其他線上服務系統類似,其中和樣本有關的角色也比較集中。如下圖所示,整個離線數據流架構分為流式和批式兩種類型,其中的樣本數據由兩部分構成,分別是特征和標簽。

圖片

在流式架構中,特征由在線預估服務在 serving 時 dump 對應的快照并發送到消息隊列中。標簽則來自實時行為采集服務,通過日志上報等方法采集得到。在線樣本生成服務消費兩個數據流,通過關聯得到完整的樣本,并發送到下游的流式訓練服務中進行模型訓練,完成樣本數據的消費。

批式架構是流式架構的補充,批式架構在訂閱流式數據的同時,還會加入批式的特征或者批式生成的標簽。比如風控反作弊或者廣告類的業務,會有批式生產的數據,并使用批式的樣本生成模塊生成樣本,進而被模型訓練組件消費。

流式和批式數據流架構中,還有元數據服務,元數據服務記錄了特征的相關元數據,流式批式數據流都會訪問元數據服務獲取 meta 信息。因此,我們對于批式的特征存儲有若干種特定的訪問 pattern。

讀方面有以下讀數據 pattern:大范圍的按天批式讀取,關注吞吐指標;秒級的點查;高效的謂詞下推查詢能力;存在基于主鍵/外建的 join。

在寫方面需支持以下能力:基于主鍵的 upsert;針對部分 cell 的插入與更新;針對行/列/cell 的刪除;基于外鍵的 upsert。

在這樣的背景下,我們了解 Hudi 在機器學習離線數據流中的若干應用場景。

2.離線樣本存儲與迭代

我們希望設計的樣本離線存儲方案能夠適用于多種場景,主要包含以下三類情況。

第一,模型的重新訓練,回放流式訓練的過程,迭代/糾偏模型等等。

第二,樣本的數據迭代,增加修改或者刪除對應的特征/標簽,并重新訓練模型。

第三,樣本的 OLAP 查詢,用于日常 debug 等。

為了能夠支持以上的場景的樣本存儲與迭代,我們提出的存儲方案整體架構設計如下。在邏輯建模上,構建樣本存儲和構建特定 pattern 的 Hive 表非常類似,樣本包含主鍵、分區鍵、內部元數據列等功能性 column,然后包含若干特征列和若干標簽列。在物理架構上,通過流式和批式生產/采集的特征數據和標簽數據通過多個作業混合 upsert 的方式寫入 Hudi,更新位于 KV 存儲的索引信息,并將實際的數據寫入 HDFS 中。由于 Hudi 基于主鍵/外鍵 upsert 的特性,數據會被自然地拼接在一起,形成完整的包含特征和標簽的樣本數據,供消費使用。

圖片圖片

在對離線特征進行調研時,我們需要面臨以下挑戰:基于 HDFS 這種不可變的文件存儲,如何實現低成本低讀寫放大的數據修改。在沒有使用數據湖之前,用戶做離線特征調研之前需要復制樣本,修改并另存一份。其中消耗了巨大的計算和存儲資源,伴隨樣本量的增大,這樣的方案將消耗數個 EB 的存儲,使得迭代變得不可能。

我們基于 Hudi 實現了 ColumnFamily 的能力。這個方案受到了經典 BigTable 存儲 Apache HBase 的啟發,將 IO pattern 不同的數據使用不同的文件進行存儲,以減少不必要的讀寫放大。原理是將同一個 FileGroup 的不同列數據存儲在不同的文件中,在讀時進行合并。這種方法會將新增列的數據單獨進行文件存儲,發生修改或者新增成本很低。

圖片

我們通過為調研特征列賦予單獨的 CF 的方式來減少讀寫放大,其他列復用線上的特征所在的 CF。這樣資源的使用量只會和新增特征相關。這種方式極大得減少了迭代所需的存儲使用,并且不會引入任何 shuffle 操作。

圖片

上文介紹了離線樣本的存儲與迭代方案,接下來我們進一步為大家介紹在線樣本生成時的流批一體生成方案,討論其如何降低在線存儲的使用成本。

3. 流批一體的樣本生成

在線樣本生成服務中,我們使用 KV 或者 BigTable 類存儲來滿足樣本拼接的需求,比如 RocksDB 等。這類存儲點查性能好,延遲低,但是存儲成本也較高。如果在數據有明顯的冷熱分層的情況下,這類存儲本身并不能很好的滿足這樣的存儲需求。Hudi 是一個具有 KV 語義的離線存儲,存儲成本較低,我們將冷數據存在 Hudi 上的方式來降低在線存儲的使用成本,并通過統一的讀寫接口來屏蔽差異。這一架構也受到了目前市面的多種 HSAP 系統的啟發。

圖片

為了能夠讓 Hudi 支持更好的點查,我們復用了寫時的 HBase 索引。點查請求會先訪問 HBase 索引找到數據所在文件,然后根據文件進行點查。整體端到端的延遲可以做到秒級。適合存儲數據量大,qps 較低的場景。

圖片

4. 功能與優化

在使用 Hudi 滿足諸多業務需求的過程中,我們也對其內核做了一些改造,以更好得服務我們的業務場景。

4.1 Local Sort

我們支持了單文件內的主鍵排序。排序是較為常見的查詢性能優化手段。通過對主鍵的排序,享受以下收益

  • CF 在讀時,多 CF 合并使用 Sort Merge 的方式,內存使用更低。
  • Compaction 時支持 Sort Merge。不會觸發 spill,內存使用低。我們之前使用 SSD 隊列來做 Compaction 以保證性能,現在可以使用一些廉價的資源(比如無盤的潮汐資源)來進行 Compaction。
  • 在流批一體的樣本生成中,由于主鍵是排好序的,我們點查時基于主鍵的謂詞下推效果非常好。提升了點查性能。

4.2 Bulkload 并發寫

并發寫一直是 Hudi 的比較大的挑戰。我們的業務場景中會發生行級別/列級別的寫沖突,這種沖突無法通過樂觀鎖來避免?;跈C器學習對于數據沖突的解決需求,我們之前就支持了 MVCC 的沖突解決方式。更進一步得,為了能夠讓 Hudi 支持并發讀寫,我們參考 HBase 支持了 Bulkload 的功能來解決并發寫需求。所有寫數據都會寫成功,并由數據內部的 mvcc 來決定數據沖突。

我們首先將數據文件生成到一個臨時緩沖區,每個緩沖區對應一個 commit 請求,多個寫臨時緩沖區的請求可以并發進行。當數據完整寫入臨時緩沖區之后,我們有一個常駐的任務會接受數據 load 的請求,將數據從緩沖區中通過文件移動的方式 load 進 Hudi,并生成對應的 commit 信息。多個 load 請求是線性進行的,由 Hudi Timeline 的表鎖保證,但是每個 load 請求中只涉及文件的移動,所以 load 請求執行時間是秒級,這樣就實現了大吞吐的數據多并發寫和最終一致性。

圖片

4.3 Compaction Service

關于 Compaction,Hudi 社區提供了若干 Compaction 的開箱即用的策略。但是業務側的需求非常靈活多變,無法歸類到一種開箱即用的策略上。因此我們提供了 Compaction Service 這樣的組件用來處理用戶的 Compaction 請求,允許用戶主動觸發一次 Compaction,并可指定 Compaction 的數據范圍,資源使用等等。用戶也可以選擇按照時間周期性觸發 Compaction,以達到自動化數據生效的效果。

在底層我們針對 Compaction 的業務場景做了冷熱隊列分層,根據不同的 SLA 的 Compaction 任務,會選擇對應的隊列資源來執行。用來降低 Compaction 的整體成本。比如每天天級別的數據生效是一個高保障的 Compaction 任務,會有獨占隊列來執行。但是進行歷史數據的單次修復觸發的 Compaction,對執行時間不敏感,會被調度到低優先級隊列以較低成本完成。

針對數據湖的樣本存儲與生成問題,我們搭建了適用于多種場景的存儲方案架構,實現了批流一體的樣本生成,并且通過對 Hudi 內核進行一定的改造,實現更加滿足實際業務需求的功能設計。

責任編輯:龐桂玉 來源: 字節跳動技術團隊
相關推薦

2020-10-16 09:09:20

機器學習銀行技術

2017-06-14 19:05:51

機器學習Quora應用場景

2011-03-07 15:24:17

LBS

2012-10-23 09:32:07

2011-05-17 15:24:18

Shibboleth認證

2022-06-08 13:25:51

數據

2017-08-07 09:39:52

HBase大數據存儲

2022-09-05 14:46:01

元宇宙區塊鏈人工智能

2013-07-27 20:11:27

2023-04-19 16:47:09

抖音機器學習

2018-08-28 16:10:36

2025-05-26 17:16:51

2024-02-06 08:18:30

用戶畫像標簽數字化異常值處理

2023-11-15 18:40:27

半監督學習人工智能

2014-12-10 10:36:23

IaaS云應用場景

2021-06-04 15:45:43

XR虛擬現實虛擬經濟

2016-10-21 15:07:11

2022-07-18 16:02:10

數據庫實踐

2013-10-15 10:11:33

產品測試使用場景產品

2023-09-05 07:22:17

Hudi數據存儲
點贊
收藏

51CTO技術棧公眾號

99re热视频精品| 亚洲综合国产激情另类一区| 91精品国模一区二区三区| 8x8x华人在线| 五月婷婷六月激情| 日韩电影免费一区| 欧美二区在线播放| 在线免费观看成年人视频| 免费一级欧美在线观看视频| 性感美女极品91精品| 亚洲精品成人三区| 日本人妻丰满熟妇久久久久久| 日韩电影在线一区| 久久久久久久999精品视频| xxx在线播放| 一区二区日韩| 欧美性猛片aaaaaaa做受| 久久久久久www| 日本中文在线| 91在线免费视频观看| 国产日产亚洲精品| 久久久久久久久久久久久av| 欧美黄色大片网站| 国产一区二区三区视频在线观看| 亚洲日本久久久| 亚洲天堂网站| 欧美日韩国产综合视频在线观看| 久草资源站在线观看| 神马午夜伦理不卡| 国产精品福利在线播放| 欧美一区二区视频在线| 欧美天堂在线视频| 国产成人自拍在线| 成人免费福利在线| 在线免费观看av片| 日韩av午夜在线观看| 538国产精品一区二区免费视频 | 欧美 日韩 国产 成人 在线| 久久精品国产一区二区| 国产精品高清在线观看| www.久久精品视频| 午夜在线精品偷拍| 97成人精品区在线播放| 国产无遮挡又黄又爽在线观看| 亚洲欧美一级二级三级| 久久人体大胆视频| 一区二区三区影视| 91九色精品| 最新国产精品拍自在线播放| 色欲AV无码精品一区二区久久| 在线日韩网站| 亚洲女成人图区| 亚洲午夜久久久久久久久红桃 | 国模私拍国内精品国内av| 欧美午夜精品伦理| 黄色片视频在线播放| 成人av观看| 色婷婷香蕉在线一区二区| 国产福利视频在线播放| 户外露出一区二区三区| 欧美主播一区二区三区美女| 天天干在线影院| 久久人体av| 911精品国产一区二区在线| 不卡中文字幕在线观看| 国产在线不卡一区二区三区| 日韩三级在线观看| 丰满人妻一区二区三区53视频| 亚洲超碰在线观看| 亚洲第一av网| 久久久久久九九九九九| 成人免费看片39| 久久偷看各类女兵18女厕嘘嘘| 中文字幕人妻一区二| 在线免费观看日本欧美爱情大片| 九九热99久久久国产盗摄| 精品无码m3u8在线观看| 亚洲欧美春色| 国产视频999| 丰满人妻av一区二区三区| 91丨porny丨国产入口| 台湾成人av| 亚洲小说区图片区都市| 欧美日韩亚洲一区二区三区| 日韩一级片播放| 麻豆视频久久| 亚洲男人的天堂网站| 午夜激情福利电影| 伊人激情综合| 国产精品老牛影院在线观看 | 日韩大片免费观看视频播放| 国产免费一区二区三区网站免费| 91精品综合久久久久久久久久久| 久久久久久中文| 美女黄页在线观看| 成人综合婷婷国产精品久久蜜臀| 欧美日韩在线一区二区三区| 亚洲羞羞网站| 欧美日韩一区二区三区四区| youjizz.com国产| 日韩精品电影| 97视频在线看| 99在线精品视频免费观看20| 成人av网址在线观看| 亚洲午夜精品久久久中文影院av| 国产极品人妖在线观看| 欧美性生活久久| 日本黄色动态图| 91精品观看| 国产成人一区二区三区| 亚洲精品字幕在线观看| 国产精品久久久久国产精品日日| 国产二区视频在线| 国产999精品在线观看| 亚洲免费av电影| 久草国产在线视频| 国产在线精品一区在线观看麻豆| 欧美精品一区在线| av成人影院在线| 欧美一卡2卡3卡4卡| 欧美成人久久久免费播放| 国产精品一页| 国产精品一区二区欧美| 九七电影韩国女主播在线观看| 欧美日韩国产在线看| 师生出轨h灌满了1v1| 欧美激情偷拍自拍| 日韩美女主播视频| 婷婷久久久久久| 亚洲一区在线视频观看| 超碰在线超碰在线| 99视频精品视频高清免费| 国产精品高潮呻吟视频| 免费在线性爱视频| 黑人精品xxx一区一二区| 国产综合内射日韩久| 亚洲激情五月| 亚洲一区二区三区视频| 麻豆av在线导航| 欧美群妇大交群的观看方式| 日本成人免费在线观看| 免费成人av在线| 亚洲国产一区二区三区在线播| 无码小电影在线观看网站免费| 亚洲高清福利视频| 国产精彩视频在线| 不卡的av网站| 黄色大片中文字幕| 久久视频在线观看| 国产91av在线| 免费在线高清av| 色婷婷综合久久久久中文一区二区 | 亚洲男人天堂古典| 伦av综合一区| 日本一区二区三区dvd视频在线| 一本久道综合色婷婷五月| 免费一区二区三区视频导航| 国产成人激情视频| 天堂а√在线资源在线| 欧美精三区欧美精三区| 91在线播放观看| 国产·精品毛片| 黄网站欧美内射| 久久成人av| 国产一区红桃视频| 啪啪免费视频一区| 日韩精品久久久久久久玫瑰园| 天天干天天干天天操| 久久这里都是精品| www.涩涩涩| 欧美在线三区| 国内精品国语自产拍在线观看| 在线最新版中文在线| 国产一区二区三区高清在线观看| 久久久久久av无码免费看大片| 亚洲欧洲日产国码二区| 下面一进一出好爽视频| 一本色道久久综合亚洲精品高清 | 国产精品美女网站| av免费在线免费观看| 精品视频久久久久久久| 中文字幕+乱码+中文乱码www| 成人免费一区二区三区在线观看| 国产精品无码自拍| 视频一区二区欧美| 五月天在线免费视频| 天美av一区二区三区久久| 国产精品免费观看在线| 免费影视亚洲| 这里只有精品丝袜| 男人的天堂a在线| 在线日韩一区二区| 久久久夜色精品| 久久精品一区二区三区av| 欧美污在线观看| 老司机午夜免费精品视频| 黑人巨大国产9丨视频| 欧美精品国产白浆久久久久| 国产美女精品视频| 日韩脚交footjobhd| 久热精品视频在线观看| 欧美女优在线观看| 日韩欧美一卡二卡| 伊人免费在线观看| 日韩欧美成人区| 免费一级片在线观看| 国产精品素人视频| 国产激情视频网站| 国产一区二区福利| xx欧美撒尿嘘撒尿xx| 一本不卡影院| 成年女人18级毛片毛片免费| 99热国内精品| 色综合久久av| 精品中文一区| 精品国产乱码一区二区三区四区| 国产精品成人3p一区二区三区| 国产精品777| 国产精品蜜芽在线观看| 欧美黑人又粗大| 好吊日视频在线观看| 国产亚洲精品久久久久动| 欧美一级淫片免费视频魅影视频| 欧美猛男超大videosgay| 无码人妻精品一区二区三区9厂| 亚洲va天堂va国产va久| 欧美精品久久久久性色| 亚洲日本欧美天堂| 国产美女高潮视频| 中文字幕乱码一区二区免费| 精品成人av一区二区三区| 成人精品高清在线| 亚洲精品成人无码毛片| 国内精品伊人久久久久av影院| 男人插女人下面免费视频| 蜜乳av另类精品一区二区| 日韩中文字幕三区| 亚洲在线播放| 成年人视频网站免费观看| aa国产精品| av免费观看网| 久久国产精品久久w女人spa| 国产91在线视频观看| 国产精品久久国产愉拍| 一女被多男玩喷潮视频| 亚洲综合电影一区二区三区| 国产精品后入内射日本在线观看| 99精品热6080yy久久| 狠狠干 狠狠操| 国产视频一区免费看| 免费在线观看的av网站| 天堂影院一区二区| 亚洲 激情 在线| 精品一区二区久久久| 在线免费黄色小视频| 国产精品123区| 在线观看亚洲免费视频| 91麻豆产精品久久久久久| 成人午夜剧场视频网站| 欧美激情一区在线| 欧美日韩色视频| 亚洲影视在线观看| 日日夜夜综合网| 在线亚洲免费视频| 中文字幕在线播出| 日韩一区二区电影在线| 人人妻人人澡人人爽久久av| 亚洲精品色婷婷福利天堂| 免费毛片在线| 久久精品国产91精品亚洲| 国产在线xxx| 日韩av免费在线观看| 国产欧美在线观看免费| av成人午夜| 欧美精品momsxxx| 中文字幕一区二区三区乱码| 欧美午夜一区| 日韩视频在线免费看| 国产一区二区三区免费在线观看 | 福利在线一区| 日韩电影免费观看在| 女同性一区二区三区人了人一| 日韩伦理在线免费观看| 美女国产一区二区三区| 欧美一区二区三区影院| 久久久国产午夜精品| 粉嫩av性色av蜜臀av网站| 日韩欧美国产视频| 国产精品美女一区| 国产视频丨精品|在线观看| 在线看免费av| 欧美一区二区三区精品电影| 亚洲一区av| 欧美日韩一区在线观看视频| 欧美黄在线观看| 日本美女高潮视频| 成人福利在线看| 日本爱爱小视频| 日韩人在线观看| 亚洲狼人综合网| 色综合亚洲精品激情狠狠| heyzo高清国产精品| 成人美女免费网站视频| 欧美男同视频网| r级无码视频在线观看| 精品一区二区免费看| japanese中文字幕| 亚洲一区免费在线观看| 在线免费av网| 亚洲一区二区久久| 超碰成人av| 成人18视频| 一区二区三区在线| 不卡的av中文字幕| www国产成人免费观看视频 深夜成人网| av激情在线观看| 精品视频色一区| 国产在线视频网址| 91精品国产一区| 99国产精品免费网站| 中文字幕在线观看一区二区三区| 久久婷婷久久| 法国伦理少妇愉情| 天天综合网 天天综合色| 亚洲精品一区二区口爆| 美日韩精品免费视频| 四虎国产精品免费久久| 五月天综合网| 日韩电影免费在线观看网站| a级大片在线观看| 色综合一区二区三区| 亚欧洲精品视频| 午夜精品久久久久久久男人的天堂 | 99久久久精品免费观看国产 | 欧美成人四级hd版| 色999韩欧美国产综合俺来也| 日韩精品最新在线观看| 欧美aaaaa成人免费观看视频| 亚洲一二三精品| 欧美视频一区二区| 888av在线| 成人国内精品久久久久一区| 国产精品国产三级国产在线观看| 国产精品区在线| 综合婷婷亚洲小说| 国产精品久久影视| 精品国产依人香蕉在线精品| 亚洲一区av| 久久这里只有精品8| 国产一区二三区好的| 国产探花在线播放| 欧美刺激午夜性久久久久久久| 手机在线免费看av| 国产高清精品一区二区三区| 亚洲精华国产欧美| 日韩 中文字幕| 色一情一乱一乱一91av| 91社区在线观看| 91色精品视频在线| 国精品一区二区三区| 最近中文字幕无免费| 一本久久a久久免费精品不卡| 丁香婷婷在线观看| 成人激情视频小说免费下载| 欧美三级不卡| 欧美成人三级伦在线观看| 日本高清视频一区二区| 秋霞a级毛片在线看| 成人av播放| 米奇777在线欧美播放| 亚洲熟女毛茸茸| 亚洲国产成人精品一区二区 | 一级片黄色录像| 欧美一级一区二区| 国内激情视频在线观看| 人偷久久久久久久偷女厕| 理论电影国产精品| 国产亚洲小视频| 一本一本久久a久久精品牛牛影视| 日本国产一区| 欧美视频免费看欧美视频| 国产日本亚洲高清| 99精品国产99久久久久久97| 97精品久久久中文字幕免费| 日本一区二区免费高清| 国产精品19p| 91久久一区二区| 男插女视频久久久| 色999五月色| 成人免费毛片嘿嘿连载视频| 中文字幕激情视频| 久久久亚洲国产| 99久久激情| 91精品国产自产| 91精品国产综合久久久久久久 | 欧美精品在欧美一区二区少妇| www.8ⅹ8ⅹ羞羞漫画在线看| 亚洲激情图片| 91色婷婷久久久久合中文| 99久久99久久久精品棕色圆|