精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

基于Lakehouse架構(gòu)實(shí)現(xiàn)湖內(nèi)建倉實(shí)踐經(jīng)驗(yàn)

大數(shù)據(jù) 數(shù)據(jù)湖
現(xiàn)在很多企業(yè)都對數(shù)據(jù)湖存在一些誤區(qū),從上圖左側(cè)對數(shù)據(jù)湖的不同定義(紅色字體標(biāo)識)可以看出,數(shù)據(jù)湖并不像大家想象的那樣。誤區(qū)主要分為以下三種:第一種認(rèn)為數(shù)據(jù)湖僅用來進(jìn)行海量的存儲(chǔ);第二種認(rèn)為數(shù)據(jù)湖是用來處理非結(jié)構(gòu)數(shù)據(jù)的,不處理結(jié)構(gòu)化數(shù)據(jù);第三種認(rèn)為數(shù)據(jù)湖僅可以用來做貼源層,不能建數(shù)倉。

一、背景與行業(yè)現(xiàn)狀

1、數(shù)據(jù)湖理解的幾個(gè)誤區(qū)

圖片

現(xiàn)在很多企業(yè)都對數(shù)據(jù)湖存在一些誤區(qū),從上圖左側(cè)對數(shù)據(jù)湖的不同定義(紅色字體標(biāo)識)可以看出,數(shù)據(jù)湖并不像大家想象的那樣。誤區(qū)主要分為以下三種:第一種認(rèn)為數(shù)據(jù)湖僅用來進(jìn)行海量的存儲(chǔ);第二種認(rèn)為數(shù)據(jù)湖是用來處理非結(jié)構(gòu)數(shù)據(jù)的,不處理結(jié)構(gòu)化數(shù)據(jù);第三種認(rèn)為數(shù)據(jù)湖僅可以用來做貼源層,不能建數(shù)倉。

我們從數(shù)據(jù)湖所承載的大數(shù)據(jù)平臺技術(shù)上看,它除了存儲(chǔ)之外,還具備批量計(jì)算、實(shí)時(shí)計(jì)算、交互式分析、機(jī)器學(xué)習(xí)等多種能力。所以基于以上大家對數(shù)據(jù)湖的理解來使用數(shù)據(jù)湖是限制了它的數(shù)據(jù)處理加工能力和使用范圍,同時(shí)也提高了建設(shè)成本。

2、當(dāng)前數(shù)據(jù)湖在數(shù)據(jù)處理的幾種用法—數(shù)據(jù)湖能力并未充分利用

下面是幾種常見的數(shù)據(jù)湖用法,但是這幾種用法都沒有把數(shù)據(jù)湖的能力完全發(fā)揮出來。

(1)數(shù)據(jù)湖做原始數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)湖作為一個(gè)貼源層,從業(yè)務(wù)數(shù)據(jù)庫將原始數(shù)據(jù)導(dǎo)入到數(shù)據(jù)湖中存儲(chǔ)起來,在用數(shù)環(huán)節(jié)需要將數(shù)據(jù)再導(dǎo)出到傳統(tǒng)數(shù)倉或者其他查詢庫中,整個(gè)過程只是用了數(shù)據(jù)湖的存儲(chǔ)能力。

(2)數(shù)據(jù)湖做原始數(shù)據(jù)存儲(chǔ)+批量計(jì)算

第二種在上面的基礎(chǔ)上增加了批量計(jì)算,基于貼源層寫很多大表關(guān)聯(lián)、多表關(guān)聯(lián),生成應(yīng)用表,然后把應(yīng)用表抽到分析倉庫、數(shù)據(jù)倉庫中。這種用法也沒有把數(shù)據(jù)湖的全部能力用出來。

(3)數(shù)據(jù)湖分集群建設(shè)

第三種是分集群建設(shè),把大數(shù)據(jù)平臺真正的能力都用出來了,但是在集群規(guī)劃部署的時(shí)候,按照不同負(fù)載建設(shè)了不同的集群,比如:創(chuàng)建一個(gè)批量集群、一個(gè)分析集群,一個(gè)實(shí)時(shí)計(jì)算集群。分集群建設(shè)的理念認(rèn)為各種不同的負(fù)載會(huì)導(dǎo)致相互之間影響,為了保證負(fù)載和業(yè)務(wù)的SLA能夠達(dá)到要求,就分開進(jìn)行建設(shè)。其實(shí)大數(shù)據(jù)集群具有很好的資源隔離能力,分集群建設(shè)會(huì)導(dǎo)致資源浪費(fèi),數(shù)據(jù)共享難、數(shù)據(jù)存儲(chǔ)冗余、運(yùn)維成本高等問題。

這幾種用法都沒有真正發(fā)揮出數(shù)據(jù)湖的價(jià)值,只是用了它的一個(gè)方面。第三種用法比較典型,很多企業(yè)從組織架構(gòu)上就會(huì)設(shè)置一個(gè)批量計(jì)算組、實(shí)時(shí)計(jì)算組,通常建設(shè)的集群也是兩個(gè)。這樣會(huì)造成集群資源冗余和數(shù)據(jù)重復(fù)考拷貝,增加了很多數(shù)據(jù)遷移和開發(fā)成本,以及底層資源的消耗。

3、Lakehouse相比于數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)倉庫具備的能力介紹

針對以上使用數(shù)據(jù)湖存在的問題,我們對比一下數(shù)據(jù)平臺發(fā)展過程中經(jīng)歷的幾個(gè)階段。

(1)第一個(gè)階段是數(shù)據(jù)庫

不管是從業(yè)務(wù)的角度還是從技術(shù)棧角度,大家對數(shù)據(jù)庫都是最熟的。

(2)第二階段是數(shù)據(jù)倉庫

當(dāng)數(shù)據(jù)庫的整體能力達(dá)不到我們的存儲(chǔ)要求之后,就出現(xiàn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫定位也是偏OLAP。它把數(shù)據(jù)的存儲(chǔ)的能力通過分布式的方式去加大,計(jì)算能力也相應(yīng)增加了上去。在有些特性和用法上是非常相似的。

(3)第三階段是數(shù)據(jù)湖

數(shù)據(jù)湖在存儲(chǔ)規(guī)模和計(jì)算能力上進(jìn)一步加大,整個(gè)集群規(guī)??梢陨先f臺,整體的能力會(huì)有更大的提升,同時(shí)擴(kuò)容更加平滑。另外它增加了很多數(shù)據(jù)庫和數(shù)倉不具備的能力,比如實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)。它也會(huì)有一些弱勢,比如相對前面兩個(gè)它的交互式分析能力會(huì)弱一些。

(4)第四階段是Lakehouse

圖片

數(shù)據(jù)湖得到廣泛應(yīng)用之后,在數(shù)據(jù)湖上承載的業(yè)務(wù)越來越多,這個(gè)時(shí)候就會(huì)發(fā)現(xiàn)數(shù)據(jù)湖的能力不具備支持更多的應(yīng)用場景,比如:數(shù)據(jù)操作的事務(wù)能力、數(shù)據(jù)更新的能力,流數(shù)據(jù)與批量數(shù)據(jù)的共享、交互查詢能力性能等。但是我們又不希望構(gòu)建多個(gè)平臺,我們希望一個(gè)平臺能夠承載所有業(yè)務(wù),這時(shí)Lakehouse架構(gòu)應(yīng)運(yùn)而生。Lakehouse在數(shù)據(jù)湖上疊加了一些數(shù)倉的能力,并且做了非常大的延伸,使一些數(shù)倉的能力在數(shù)據(jù)湖上構(gòu)建起來。

左邊圖是Databricks發(fā)布的對Lakehouse技術(shù)體系的整體設(shè)想和架構(gòu),我們可以看到Lakehouse在事務(wù)性、數(shù)據(jù)更新能力和實(shí)時(shí)處理上都得到了非常大的提升,滿足了我們對更多業(yè)務(wù)場景的需要,通過一個(gè)統(tǒng)一的平臺解決不同業(yè)務(wù)場景的數(shù)據(jù)加工的需求。

4、Lakehouse架構(gòu)使得實(shí)時(shí)計(jì)算進(jìn)入流批一體階段

實(shí)時(shí)計(jì)算有三種不同的架構(gòu),分別是Lambda實(shí)時(shí)架構(gòu)、基于OLAP庫的實(shí)時(shí)架構(gòu)和基于Lakehouse的流批一體架構(gòu)。

(1)Lambda實(shí)時(shí)架構(gòu)

這種架構(gòu)是Strom和Flink實(shí)時(shí)計(jì)算組件出現(xiàn)后廣泛采用的架構(gòu),最大的特點(diǎn)就是批量與實(shí)時(shí)是存儲(chǔ)和計(jì)算分開的兩套架構(gòu),因此在集群建設(shè)和開發(fā)團(tuán)隊(duì)組建上也出現(xiàn)了分開建設(shè)的情況,這樣就導(dǎo)致了流批數(shù)據(jù)共享問題、數(shù)據(jù)一致性問題和運(yùn)維問題等。同時(shí)早期流式計(jì)算的計(jì)算模型也相對比較簡單,承擔(dān)數(shù)據(jù)業(yè)務(wù)場景多聚焦于實(shí)時(shí)監(jiān)控和風(fēng)控等場景,對原有的批量業(yè)務(wù)沒有太大的增強(qiáng)。

(2)基于OLAP庫的實(shí)時(shí)架構(gòu)

這種架構(gòu)其實(shí)是對Lambda架構(gòu)的增強(qiáng),Lambda架構(gòu)計(jì)算的結(jié)果要寫入到數(shù)據(jù)庫或者數(shù)據(jù)倉庫,以實(shí)現(xiàn)快速用數(shù)的需求,然后傳統(tǒng)數(shù)據(jù)庫或者數(shù)據(jù)倉庫在實(shí)時(shí)性上都達(dá)不到要求,因此該架構(gòu)主要也是改善這個(gè)問題,可實(shí)現(xiàn)大量數(shù)據(jù)的實(shí)時(shí)寫入,大量數(shù)據(jù)存儲(chǔ)以及實(shí)時(shí)查詢的需求。

但是Lambda架構(gòu)存在的問題,在該種架構(gòu)中是依然存在的,比如:批量數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)共享問題,批和流的數(shù)據(jù)相互引用還是比較不方便的,都是異步的或者是定時(shí)、周期的,相互之間使用同步的方式去做,本質(zhì)上批和流還是兩套東西。同時(shí)行業(yè)內(nèi)也將這種架構(gòu)稱為實(shí)時(shí)數(shù)倉,其實(shí)嚴(yán)格來說不完全具備實(shí)時(shí)數(shù)倉的能力,實(shí)時(shí)數(shù)倉處理具備實(shí)時(shí)寫入和實(shí)時(shí)查詢之外,還要具備在數(shù)倉分層存儲(chǔ)架構(gòu),尤其是分層之間的數(shù)據(jù)流轉(zhuǎn)也要具備實(shí)時(shí)性,目前該種架構(gòu)的產(chǎn)品還不具備該能力。

(3)基于Lakehouse的流批一體架構(gòu)

Lakehouse這種技術(shù)出來以后,尤其是以Hudi為代表的組件,提供了增量計(jì)算的能力。基于Lakehouse架構(gòu)去做流批一體能夠在數(shù)據(jù)進(jìn)行加工處理的時(shí)候支持連續(xù)實(shí)時(shí)的計(jì)算。

基于實(shí)時(shí)的倉庫,在Lakehouse里面可以做實(shí)時(shí)分層的數(shù)據(jù)加工。在分層內(nèi)做完加工后的數(shù)據(jù)和批量的數(shù)據(jù)是一體的。比如同樣一張表可以實(shí)時(shí)讀或批量讀;同樣一張表可以實(shí)時(shí)寫,也可以批量寫,做到了批量數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的統(tǒng)一存儲(chǔ)。在某些場景下,也可以做到計(jì)算引擎的一體化和數(shù)據(jù)處理代碼一體化。比如基于Flink SQL去做流式加工,在批量的時(shí)候也可以復(fù)用Flink SQL的代碼,它的SQL 邏輯是完全一樣的,可能只是改變一個(gè)參數(shù)來切換它的運(yùn)行模式是流還是批,做到完全的代碼一體。

在這三種實(shí)時(shí)計(jì)算的架構(gòu)中,目前我覺得Lakehouse應(yīng)該會(huì)是實(shí)時(shí)架構(gòu)的一個(gè)大的趨勢。

二、基于Lakehouse湖內(nèi)建倉參考架構(gòu)

下面介紹基于Lakehouse湖內(nèi)建倉參考架構(gòu)。

1、統(tǒng)一的計(jì)算集群層

圖片

首先我們要把數(shù)據(jù)湖不同計(jì)算負(fù)載的能力用起來,在同一個(gè)集群實(shí)現(xiàn)批處理、流處理、交互式查詢和機(jī)器學(xué)習(xí),避免多集群建設(shè)的帶來的運(yùn)維成本和資源成本增加。數(shù)據(jù)湖可以按租戶把資源隔離開,租戶使用不同的資源池跑自己的作業(yè),相互之間是不受影響的。這樣就可以避免出現(xiàn)資源負(fù)載互相影響或者業(yè)務(wù)SLA的問題,所以可以通過統(tǒng)一的集群去構(gòu)建多類負(fù)載的能力。

2、統(tǒng)一的元數(shù)據(jù)和權(quán)限管理層

基于數(shù)據(jù)湖構(gòu)建統(tǒng)一的數(shù)據(jù)平臺,提供了統(tǒng)一的元數(shù)據(jù)管理和數(shù)據(jù)權(quán)限管理。原來分集群建設(shè),導(dǎo)致元數(shù)據(jù)和用戶賬號不統(tǒng)一,在數(shù)據(jù)和權(quán)限管理上也帶來很大麻煩。如果統(tǒng)一元數(shù)據(jù)和賬號體系的管理,就能更方便的做統(tǒng)一的數(shù)據(jù)管理和權(quán)限管理。

3、數(shù)據(jù)集成層

在數(shù)據(jù)入湖和出湖的時(shí)候,需要有一個(gè)比較好的數(shù)據(jù)集成平臺。雖然有很多開源的組件可以實(shí)現(xiàn),但是開源實(shí)現(xiàn)和商業(yè)版本相比,在穩(wěn)定性和資源消耗上是存在短板的。所以不同的商業(yè)公司,包括各家云廠商都有數(shù)據(jù)集成的產(chǎn)品,在一鍵處理能力以及對資源消耗上都做了非常大的優(yōu)化。

4、Lakehouse層

基于Lakehouse構(gòu)建數(shù)據(jù)倉庫,比如貼源層、明細(xì)層、匯總層。不同的企業(yè)根據(jù)自己的數(shù)據(jù)治理規(guī)范要求建設(shè)自身需要的分層體系。建完分層以后,各層之間的數(shù)據(jù)流轉(zhuǎn)都是流批一體的,可以做大數(shù)據(jù)量的批量處理,也可以做增量的流式處理。在整個(gè)數(shù)據(jù)接入過程當(dāng)中遵循ELT的理念,在接入的時(shí)候不做業(yè)務(wù)邏輯的處理,加載以后再做處理。Lakehouse架構(gòu)提供事務(wù)的能力、數(shù)據(jù)更新的能力和流式讀寫的能力,以及查詢性能提升的能力,比如索引能力、物化視圖等能力。

5、統(tǒng)一存儲(chǔ)集群層

底層存儲(chǔ)采用統(tǒng)一的對象存儲(chǔ)或分布式的塊存儲(chǔ)來解決海量數(shù)據(jù)存儲(chǔ)的問題。

6、多樣集市層

在整個(gè)架構(gòu)里面,即使實(shí)現(xiàn)了數(shù)據(jù)的快速的消費(fèi),每個(gè)集市組件都有自己一定的適配場景,因此需要根據(jù)自身業(yè)務(wù)的技術(shù)要求選用合適的組件。單一一個(gè)組件很難滿足所有的數(shù)據(jù)業(yè)務(wù)要求,因此集市層建設(shè)組件可以多樣化。

現(xiàn)在有很多快速查的組件,比如Doris、ClickHouse、HBase、Redis、IotDB等??梢越Y(jié)合業(yè)務(wù)場景要求把結(jié)果數(shù)據(jù)同步到集市層組件,這樣在業(yè)務(wù)場景中的適配度會(huì)比較高。比如要做千億級別的,甚至字段能達(dá)到幾千列的,那么使用ClickHouse的效果就會(huì)非常好,時(shí)序數(shù)據(jù)分析采用IotDB。基于傳統(tǒng)數(shù)據(jù)倉庫或者數(shù)據(jù)湖是沒有辦法達(dá)到這么高的性能。

我們認(rèn)為整體的參考架構(gòu)要把數(shù)據(jù)湖的能力全面地應(yīng)用起來,解決大粒度的批流數(shù)據(jù)的加工處理。同時(shí)在數(shù)據(jù)消費(fèi)的時(shí)候,根據(jù)具體場景,選用不同的組件來滿足個(gè)性化的要求。而且經(jīng)過統(tǒng)一的建設(shè)之后,整體建設(shè)成本大幅下降,很多資源冗余、數(shù)據(jù)冗余、開發(fā)的冗余也會(huì)大大降低。

三、湖內(nèi)建倉典型場景方案介紹

下面列舉幾個(gè)在湖內(nèi)建倉的典型場景。

1、實(shí)時(shí)數(shù)據(jù)湖典型場景:流批一體加工模式,批量數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)共享

在Lakehouse做流批一體加工的時(shí)候,有幾種比較典型的加工模型:

(1)流式加工模式

所有的表都存在數(shù)據(jù)湖,基于Flink引擎/Spark引擎實(shí)現(xiàn)流式數(shù)據(jù)加工,把數(shù)據(jù)流式的寫入到湖里的表,源表數(shù)據(jù)與目標(biāo)表數(shù)據(jù)都可以長持久化存儲(chǔ)。

(2)增量批加工模式

增量批處理是基于Hive和SparkSQL實(shí)現(xiàn)增量的批讀數(shù)據(jù)。其處理語法邏輯與傳統(tǒng)Hive和SparkSQL基本保持一致。增量批將全量批轉(zhuǎn)化小表處理,性能高,資源消耗低,也避免了出現(xiàn)集群資源集中上漲的情況。

(3)全量批加工模式

基于Hudi的鏡像讀模式,實(shí)現(xiàn)數(shù)據(jù)全量讀取。保持分區(qū)裁剪等數(shù)據(jù)過濾能力。語法邏輯與傳統(tǒng)批量作業(yè)保持一致、原有批量作業(yè)可以直接搬遷。

其實(shí)上面這幾種作業(yè)的SQL邏輯都是一樣的,只是在有些參數(shù)和特定場景的處理上會(huì)有稍許的不同。批量加工和流式加工的數(shù)據(jù)是共用的。

2、數(shù)據(jù)加工—數(shù)據(jù)分層模型提升數(shù)據(jù)復(fù)用率、降低資源消耗、提升計(jì)算性能

(1)數(shù)據(jù)加工存在的問題

在跨業(yè)務(wù)中心數(shù)據(jù)引用的時(shí)候,各自進(jìn)行全量業(yè)務(wù)加工,導(dǎo)致出現(xiàn)數(shù)據(jù)處理量大、加工邏輯復(fù)雜、資源消耗大、時(shí)效低等問題;在業(yè)務(wù)中心內(nèi)部處理加工的時(shí)候,由于業(yè)務(wù)庫經(jīng)過長期演進(jìn),數(shù)據(jù)模型變得更加復(fù)雜,導(dǎo)致流式加工關(guān)聯(lián)數(shù)據(jù)過多、資源消耗大、穩(wěn)定性以及時(shí)效受到挑戰(zhàn)。通常大家都習(xí)慣于用數(shù)據(jù)庫和數(shù)倉那種模式,直接寫一個(gè)非常大的SQL把結(jié)果讀出來。

有了數(shù)據(jù)湖以后,它的存儲(chǔ)成本相對來說要廉價(jià)很多,這時(shí)存儲(chǔ)成本和計(jì)算成本相比較的話,存儲(chǔ)成本會(huì)更低。因?yàn)榍罢叩挠梅ㄓ?jì)算成本很高,耗費(fèi)了CPU和內(nèi)存,節(jié)省了硬盤,所以下面其實(shí)更應(yīng)該多用一用硬盤的存儲(chǔ)能力。

(2)數(shù)據(jù)分層中增加“共享層”

我們推薦在做復(fù)雜處理的時(shí)候,中間增加一層或兩層,把數(shù)據(jù)中一些共用的東西抽出來,降低每一層的加工復(fù)雜度。數(shù)據(jù)之間、各個(gè)作業(yè)之間的加工數(shù)據(jù)能夠復(fù)用。這樣在開發(fā)的時(shí)候會(huì)大幅簡化作業(yè)邏輯,降低整體資源消耗,并提升端到端整體的時(shí)效性。

(3)數(shù)據(jù)分層的價(jià)值

首先,能夠保證各業(yè)務(wù)之間數(shù)據(jù)共享時(shí)數(shù)據(jù)口徑是一致的。

第二是降本增效,適當(dāng)?shù)卦黾右稽c(diǎn)冗余的存儲(chǔ)資源,可以把計(jì)算資源消耗降低,同時(shí)數(shù)據(jù)時(shí)延也降下來了,可以提升整體性能。

第三是數(shù)據(jù)的解耦,貼源層跟業(yè)務(wù)層的業(yè)務(wù)邏輯保持一致,在數(shù)據(jù)業(yè)務(wù)加工的時(shí)候,不會(huì)改變貼源層的數(shù)據(jù)存儲(chǔ),在做數(shù)據(jù)回溯的時(shí)候,能夠非常方便地去做問題的定位和排查。

3、現(xiàn)有存量的批量數(shù)據(jù)和任務(wù)轉(zhuǎn)換為實(shí)時(shí)(按照業(yè)務(wù)需求進(jìn)行切換)

圖片

如果我們已經(jīng)有一個(gè)建好的數(shù)據(jù)湖,現(xiàn)在要上Lakehouse。如果把整個(gè)數(shù)據(jù)湖幾萬張表全部推倒重來,成本、代價(jià)、風(fēng)險(xiǎn)都非常高。

我們建議的方式是按照業(yè)務(wù)逐步切換,切換以后數(shù)據(jù)是可以沿用的,新的業(yè)務(wù)跑實(shí)時(shí),或者用Lakehouse的架構(gòu)去跑,老的業(yè)務(wù)繼續(xù)跑HiveSQL。即使有一些數(shù)據(jù)是交叉的,也不會(huì)影響,因?yàn)樵械腍ive技術(shù)可以讀Lakehouse的表,所以這樣去做會(huì)更加平滑。

4、歷史批量表與Lakehouse實(shí)時(shí)表的互相引用方式

前面我們介紹了存量的批量數(shù)據(jù)和任務(wù)轉(zhuǎn)換為實(shí)時(shí),接下來我們看一下這些表之間會(huì)不會(huì)存在引用上的問題。

雖然批量模式下引用實(shí)時(shí)表,原有批量作業(yè)的代碼和調(diào)用方式不用修改。但是在實(shí)時(shí)模式引用批量數(shù)據(jù)具有一定限制。比如ORC表不支持增量讀的方式,只支持全量讀,所以在碰到原有表數(shù)據(jù)加工的時(shí)候要做一定的適配。因?yàn)橐话銓?shí)時(shí)模式都是新業(yè)務(wù),它本身就要重寫,再適配也是可以接受的,并不會(huì)帶來太多額外的工作量。我們可以基于應(yīng)用逐步把所有業(yè)務(wù)切換完以后,就完全變成新的數(shù)據(jù)加工模式。

5、Lakehouse的典型場景:鏡像表構(gòu)建,簡化方案、降低成本、數(shù)據(jù)事務(wù)性保證

鏡像表的生成在數(shù)據(jù)接入層有兩種:第一種是批量同步方式,以T+1的方式進(jìn)行全表同步,成本會(huì)比較高;第二種是增量同步方式,按照自增ID或時(shí)間戳把增量的數(shù)據(jù)同步過來,但要跟原有的表做存增量合并的處理,存增量合并是將增量數(shù)據(jù)與已有存量數(shù)據(jù)通過join方式得到新增、刪除、更新的數(shù)據(jù),然后進(jìn)行Merge操作,得到最新的全量鏡像表。

增量同步方式又可以進(jìn)一步分為批量和實(shí)時(shí),如下:

  • 批量入湖

批量入湖在存增量合并的時(shí)候,經(jīng)常會(huì)遇到端到端時(shí)效性低、開發(fā)成本高、資源消耗高等問題。在一些案例中,為了解決端到端的數(shù)據(jù)開發(fā),在每一層都做存增量合并,資源消耗會(huì)占到業(yè)務(wù)開發(fā)的1/4到1/3,造成整體的成本很高,開發(fā)工作量也比較大。

  • 實(shí)時(shí)入湖

引入Lakehouse以后,基于Lakehouse的upsert能力實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)入湖,構(gòu)建鏡像表會(huì)非常方便。直接把增量數(shù)據(jù)寫入湖中,如果有相同的數(shù)據(jù),就直接更新,沒有相同的數(shù)據(jù),就會(huì)認(rèn)為是新增的,鏡像表就能非??斓臉?gòu)建出來。

鏡像表構(gòu)建的方案簡化了,計(jì)算成本和存儲(chǔ)成本也都可以降下來,并且還有事務(wù)性的保證。

6、Lakehouse的典型場景:拉鏈表構(gòu)建,兼顧流式計(jì)算、批量計(jì)算和數(shù)據(jù)回溯

圖片

下面再舉一個(gè)典型的場景,我們在數(shù)倉里面會(huì)構(gòu)建拉鏈表,尤其是基于TD的數(shù)倉會(huì)構(gòu)建大量的拉鏈表。拉鏈表在數(shù)倉里面針對某一個(gè)狀態(tài)有開始時(shí)間和結(jié)束時(shí)間?;跁r(shí)間戳?xí)捎锰旒?、分鐘級或者更?xì)粒度的狀態(tài)管理,只要有變化都可以保留下來。

  • 傳統(tǒng)數(shù)倉的拉鏈表實(shí)現(xiàn)

傳統(tǒng)數(shù)倉的拉鏈表基于Start_time和End_time實(shí)現(xiàn)不同粒度的拉鏈數(shù)據(jù);數(shù)據(jù)的寫入與讀取都是采用批量方式進(jìn)行,增量與全量表關(guān)聯(lián)得到閉鏈操作目標(biāo)數(shù)據(jù)。端到端時(shí)效性較差,T+1的數(shù)據(jù)可見性。

  • 流批一體實(shí)現(xiàn)方案

基于流批一體的方案除了保留原有數(shù)倉的批量能力外,新增了實(shí)時(shí)處理能力。批量處理方式在落地實(shí)現(xiàn)上可以基于原有邏輯實(shí)現(xiàn),也可以通過update、upsert能力簡化實(shí)現(xiàn)復(fù)雜度。在實(shí)時(shí)處理上可以新增最新數(shù)據(jù)的流式計(jì)算,提升業(yè)務(wù)的時(shí)效。因此基于流批一體的實(shí)現(xiàn)既可以實(shí)現(xiàn)原有批量處理的能力,有可以實(shí)現(xiàn)實(shí)時(shí)的處理能力,且能保持拉鏈表的特點(diǎn)。

四、后續(xù)規(guī)劃&挑戰(zhàn)

1、挑戰(zhàn)

  • 并發(fā)挑戰(zhàn):業(yè)務(wù)方希望能夠?qū)崿F(xiàn)單表的高的并發(fā)寫入要求。
  • 復(fù)雜事務(wù):跨表、跨語句的事務(wù)要求。如果事務(wù)很復(fù)雜,它的回滾量會(huì)非常大,會(huì)直接影響整個(gè)集成的穩(wěn)定性。
  • 門檻高:現(xiàn)代Lakehouse功能豐富、參數(shù)配置復(fù)雜,技術(shù)門檻高。這樣在用的時(shí)候,就需要熟悉它的各種用法、各種場景,這也為落地帶來了一定挑戰(zhàn)。

此外,基于批量的處理模式大家都很熟悉,也習(xí)慣了批的處理模式;但是流式處理和流批一體的模式屬于新的模式,在數(shù)據(jù)建模設(shè)計(jì)以及數(shù)據(jù)處理的理念上需要進(jìn)一步適配,對于設(shè)計(jì)和開發(fā)人員會(huì)帶來一定的挑戰(zhàn)。

2、后期規(guī)劃

針對這些問題,我們也做了很多規(guī)劃。總結(jié)起來有兩個(gè)方向:

(1)開箱即用

我們希望這么多豐富的功能使用上更簡單。能夠做到在部署好后直接把業(yè)務(wù) SQL 搭上去就能跑,而且跑的很好。

(2)場景能力增強(qiáng)

數(shù)據(jù)湖做交互式查詢的性能跟OLAP的庫有一定的差別,我們要繼續(xù)提升性能。我們希望實(shí)現(xiàn)更多的實(shí)時(shí)加工處理,并且速度能做得更快。結(jié)合具體場景,根據(jù)業(yè)務(wù)上的要求來豐富它的處理能力。

五、Q&A

Q1:現(xiàn)在 Lakehouse 有哪些開源版本嗎?

A:目前開源的Lakehouse有Hudi、Iceberg和DeltaLake,是現(xiàn)在比較主流的。其中Hudi在國內(nèi)的使用比較普及;Iceberg和DeltaLake在北美用得會(huì)比較多一些。

Q2;湖倉一起的架構(gòu)中,底層的存儲(chǔ)對于非結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù)怎么做到統(tǒng)一存儲(chǔ)的?他們的元數(shù)據(jù)也能統(tǒng)一管理嗎?

A:非結(jié)構(gòu)化的存儲(chǔ)和結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在開始的時(shí)候,它的元數(shù)據(jù)肯定是沒辦法做到一起的。你比如一個(gè)文件它本身就沒有什么元數(shù)據(jù),它只有一個(gè)文件名的概念。非結(jié)構(gòu)化存儲(chǔ)在做了特征模型之后,是可以統(tǒng)一去存儲(chǔ)的,去復(fù)用。另外關(guān)于結(jié)構(gòu)化數(shù)據(jù)在一些機(jī)器學(xué)習(xí)里面,它也會(huì)有一些特征的處理,特征以后的數(shù)據(jù)是可以去做統(tǒng)一存儲(chǔ)的。

如果是原始數(shù)據(jù),統(tǒng)一存儲(chǔ)在元數(shù)據(jù)層其實(shí)就是文件系統(tǒng)的元數(shù)據(jù)了。

Q3:湖倉分層與離線數(shù)據(jù)分層上處理上有什么特別注意的地方嗎?

A:實(shí)時(shí)的分層處理(湖倉分層)和離線分層處理,其實(shí)從模型上面不會(huì)有太大的區(qū)別,最大的區(qū)別是我們對實(shí)時(shí)要求的區(qū)別。

比如我們希望數(shù)據(jù)處理的端到端更快,其實(shí)它可以在我們原有的離線數(shù)據(jù)分層上適當(dāng)?shù)厝ヌ惶?,比如從明?xì)層直接跳到結(jié)果層、應(yīng)用層。在有些分層,比如我們貼源層是結(jié)構(gòu)化數(shù)據(jù),本身它的數(shù)據(jù)質(zhì)量相對比較高,這個(gè)時(shí)候也可以從貼源層直接跳到應(yīng)用層。總之,按照不同時(shí)效、不同業(yè)務(wù)要求,它的分層會(huì)比較靈活。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2014-10-29 13:52:38

程序員

2022-07-29 09:54:42

數(shù)據(jù)庫分布式

2010-01-05 13:16:59

2022-08-30 07:39:37

GPFSSAN存儲(chǔ)

2021-07-26 17:22:02

Java

2010-01-25 14:25:33

Android Int

2015-05-08 10:39:10

InfoQ

2015-05-08 12:47:58

Docker

2023-11-22 11:15:56

數(shù)據(jù)中心機(jī)房

2015-06-03 14:14:17

dockeropenstackIaaS

2022-12-23 16:52:22

Lakehouse數(shù)據(jù)湖

2022-08-10 13:54:40

云存儲(chǔ)存儲(chǔ)私有云

2021-09-13 14:19:03

HudiLakehouse阿里云

2018-09-10 15:25:29

云計(jì)算云安全IT經(jīng)理

2013-10-10 13:50:02

智能交通華為

2011-12-22 09:34:39

需求分析

2020-07-10 10:39:04

Python開發(fā)工具

2021-06-25 17:39:35

網(wǎng)絡(luò)對抗與實(shí)踐經(jīng)驗(yàn)

2013-01-06 16:08:43

風(fēng)險(xiǎn)評估信息安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

精品一区二区三区中文字幕| 99热这里只有精品66| 高清欧美日韩| 国产精品久久久久久亚洲毛片| 国产99久久精品一区二区 夜夜躁日日躁| 国产激情视频网站| 老司机成人影院| 国产亚洲福利社区一区| 国产精品福利网| 国内毛片毛片毛片毛片毛片| 日韩一二三区| 一区二区三区在线观看欧美| 激情视频在线观看一区二区三区| 国产成人啪精品午夜在线观看| 日本福利一区| 欧美午夜精品一区二区三区| 日韩av高清在线播放| 中文字幕有码视频| 欧美91大片| 日韩电影免费观看在线观看| 亚洲国产高清av| 黄色在线播放网站| 成人18精品视频| 日本不卡高字幕在线2019| 国产综合精品久久久久成人av| 国产激情一区| 欧美视频裸体精品| 一区二区三视频| 亚洲乱码在线观看| 亚洲欧美日韩视频二区| 日韩亚洲综合在线| 成人手机在线免费视频| а天堂中文最新一区二区三区| 亚洲美女一区二区三区| 狠狠色噜噜狠狠色综合久| 中文字幕在线观看欧美| 亚洲无毛电影| 精品国产一区二区三区久久狼黑人 | 久久亚洲综合| 国内揄拍国内精品少妇国语| 久久r这里只有精品| 亚洲v在线看| 日韩网站免费观看| 欧美人妻一区二区三区| 国产成人黄色| 国产亚洲精品一区二区| 中文字幕人妻一区二区| 视频福利一区| 精品在线欧美视频| 成年人在线观看av| 在线看成人av| 香蕉久久精品| 日韩av在线免费观看| 国产免费一区二区三区最新6| 久久69av| 日韩美女天天操| 中文字幕在线视频一区二区| 国产视频网站一区二区三区| 在线不卡a资源高清| 成人日韩在线视频| 亚洲老司机网| 日韩一区二区三区高清免费看看 | 国产亚洲精品av| 欧美区一区二| 久久久久久久久久国产| 91久久国产视频| 亚洲欧美大片| 国产精品视频色| 欧美性xxxxxxx| 国产成人手机视频| 午夜不卡一区| 欧美成人a在线| 亚洲 欧美 日韩在线| 欧美黑白配在线| 亚洲色图五月天| 林心如三级全黄裸体| 亚洲精品极品少妇16p| 欧美俄罗斯乱妇| 成人精品免费在线观看| 久久尤物视频| 91人成网站www| 色噜噜一区二区三区| 成人h动漫精品一区二区| 久久青青草综合| 日本a级在线| 亚洲午夜久久久久久久久久久 | 欧美h视频在线| 91在线品视觉盛宴免费| 亚洲久本草在线中文字幕| www.日本少妇| 成人黄色毛片| 亚洲成人a级网| 亚洲精品一区二区三区影院忠贞| 天天做天天爱天天综合网| 欧美富婆性猛交| 免费看一级视频| 国产美女精品一区二区三区| 久久99国产精品99久久| 亚乱亚乱亚洲乱妇| 午夜精品久久一牛影视| 一道本在线免费视频| 成人av综合网| 日韩有码视频在线| 国产精品100| 国产乱子伦视频一区二区三区| 精品久久久久久乱码天堂| 91xxx在线观看| 精品福利在线视频| 青青草久久伊人| 九九免费精品视频在线观看| 欧美久久久精品| 在线观看中文字幕2021| www亚洲一区| 狠狠噜天天噜日日噜| 天天综合网天天| 亚洲第一天堂av| 爱爱视频免费在线观看| 日韩国产高清影视| 久久涩涩网站| 国产丝袜在线播放| 欧美美女一区二区| 亚洲精品国产91| 亚洲精品一级| julia一区二区中文久久94| sese一区| 在线免费av一区| 中文字字幕码一二三区| 国产精品二区影院| 91在线视频免费| 午夜老司机在线观看| 高潮白浆女日韩av免费看| 黄页网站在线看| 亚洲影视一区| 成人av在线天堂| 尤物在线视频| 欧美中文字幕一区二区三区| 亚洲精品国产91| 视频在线观看一区| 清纯唯美一区二区三区| 亚洲欧美小说色综合小说一区| 亚洲国产精品大全| 香蕉免费毛片视频| 99国产麻豆精品| 免费在线观看视频a| 久久综合社区| 性视频1819p久久| 五月天婷婷激情网| 亚洲一区二区不卡免费| 午夜不卡久久精品无码免费| 亚洲高清资源| 国产伦精品一区二区三区免| 91福利区在线观看| 亚洲国产毛片完整版| 在线观看中文字幕视频| 91小视频免费看| 日本三级免费观看| 亚洲成a人片77777在线播放 | 视频一区二区视频| 美女久久精品| 久久青草福利网站| 色屁屁草草影院ccyycom| 欧美性高跟鞋xxxxhd| 精品国产av无码| 日韩高清一级片| 一区二区三区欧美在线| 国产精品一级在线观看| 欧美日韩国产二区| 五月婷中文字幕| 欧美在线观看视频在线| 91久久久久久久久久久久久久| 国产麻豆9l精品三级站| 无码专区aaaaaa免费视频| 色狼人综合干| 国产一区二区色| 午夜伦理在线视频| 亚洲美女av黄| 一级久久久久久久| 亚洲午夜激情av| 亚洲做受高潮无遮挡| 久久精品国产一区二区三区免费看| 国产精品白丝在线| 欧美色图另类小说| 国产一区二区三区91| 91久久久久久久一区二区 | 97在线观看免费| 番号集在线观看| 日韩无一区二区| www亚洲视频| 综合久久久久久| gogo亚洲国模私拍人体| 黄色工厂这里只有精品| 日本一区不卡| 韩国一区二区三区视频| 1769国产精品| 日本中文在线观看| 亚洲精品按摩视频| 一级黄色大片网站| 午夜电影久久久| 久久人妻无码aⅴ毛片a片app| 成人免费看的视频| 黄色手机在线视频| 国产日本精品| 麻豆映画在线观看| 欧美美乳视频| 国产精品一区二区免费| 日韩成人综合网站| 91豆花精品一区| 午夜小视频在线观看| 在线观看日韩视频| 性xxxx18| 日韩亚洲电影在线| 在线播放亚洲精品| 欧美性xxxx在线播放| 国产在线视频二区| 亚洲日本电影在线| 在线小视频你懂的| 91免费视频观看| 黄色国产在线视频| 国产一区二区伦理| 9久久婷婷国产综合精品性色| 亚洲黄色影院| 99re6这里有精品热视频| 欧美日韩激情| 美国av一区二区三区| 亚洲专区**| 91在线观看免费高清| 国产精品久久乐| 日本午夜在线亚洲.国产| 3344国产永久在线观看视频| 久久色在线播放| 日本视频在线观看| 在线播放日韩专区| 国产三级在线免费| 亚洲精品永久免费| 日韩欧美在线观看一区二区| 精品sm捆绑视频| 亚洲经典一区二区三区| 欧美一级搡bbbb搡bbbb| 国产人妖在线播放| 91精品婷婷国产综合久久竹菊| 中文字幕永久在线视频| 欧美亚洲国产一区二区三区va| 精品久久久久久久久久久久久久久久久久| 精品久久久久久久久久久久| 中文字幕一区二区三区手机版| 一区二区三区国产豹纹内裤在线| 顶臀精品视频www| 亚洲欧美aⅴ...| 午夜69成人做爰视频| 一区二区三区四区蜜桃| 麻豆chinese极品少妇| 亚洲黄色片在线观看| 欧美成人片在线观看| 亚洲最新视频在线播放| 国产a免费视频| 亚洲午夜一区二区| 中文字幕第15页| 色94色欧美sute亚洲线路二| 丰满人妻一区二区三区四区| 欧美日韩免费视频| 97人妻精品一区二区三区软件| 欧美一区永久视频免费观看| 亚洲精品一区二区口爆| 精品福利一区二区三区| 香蕉视频国产在线| 亚洲午夜精品久久久久久久久久久久| 成人在线视频成人| 色噜噜亚洲精品中文字幕| 国产在线二区| 国内精品小视频| 蜜桃视频成人m3u8| 91免费精品国偷自产在线| 国产精品白浆| 欧美在线一区二区三区四区| 999久久久免费精品国产| 日本一道在线观看| 国产精品试看| 天美一区二区三区| 暴力调教一区二区三区| 夫妇露脸对白88av| 亚洲最快最全在线视频| 一本一道无码中文字幕精品热| 欧美日韩精品一区二区天天拍小说| 国产婷婷一区二区三区久久| 亚洲精品电影在线| 免费**毛片在线| 97在线免费视频| 免费视频成人| 精品久久中出| 欧美gay男男猛男无套| 国产欧美日韩小视频| 日本成人在线一区| 美女扒开腿免费视频| 国产嫩草影院久久久久| 久久久美女视频| 欧美色图在线观看| 免费国产羞羞网站视频| 中文字幕日韩欧美精品在线观看| 男女在线视频| 国产精品视频1区| 欧美91在线| 4444亚洲人成无码网在线观看| 日韩激情一二三区| 亚洲精品国产成人av在线| 亚洲欧美影音先锋| 亚洲 日本 欧美 中文幕| 精品欧美一区二区三区精品久久| jizz在线观看中文| 欧美一区第一页| 日韩欧美激情电影| 亚洲午夜在线观看| 免播放器亚洲| 日本高清免费在线视频| 老司机一区二区三区| yjizz视频| 亚洲你懂的在线视频| 中文字幕永久免费视频| 亚洲男人天堂视频| 老色鬼在线视频| 成人在线资源网址| 在线观看免费一区二区| 亚洲综合欧美在线| 国产欧美日韩视频一区二区 | 亚洲黄色大片| 国产免费无码一区二区| 亚洲欧美在线观看| 中文字幕欧美在线观看| 亚洲女人天堂色在线7777| 91九色国产在线播放| 国产精品一区二区三区免费| 综合视频在线| 国产亚洲视频一区| 国产精品久久久久久久久免费相片| 久久久成人免费视频| 亚洲精品乱码久久久久久金桔影视 | 天堂av一区二区三区在线播放| 男人添女人下部视频免费| 国产一区不卡视频| www.av成人| 6080yy午夜一二三区久久| 在线观看美女网站大全免费| 国产精品福利片| 欧美色就是色| 亚洲最大综合网| 日本一区二区三区视频视频| 国产一级免费视频| 亚洲人成五月天| a成人v在线| 亚洲一区在线直播| 精品系列免费在线观看| 永久免费看片直接| 91精品国产综合久久久久久久| 国产欧美黑人| 97碰碰视频| 亚洲免费黄色| 丰满少妇在线观看资源站| 色视频成人在线观看免| 国产精品麻豆一区二区三区| 国产精品麻豆va在线播放| 视频在线不卡免费观看| 九九九九九九九九| 亚洲尤物在线视频观看| 日本免费网站在线观看| 欧美在线xxx| 日韩一区二区中文| 亚洲女人在线观看| 亚洲国产va精品久久久不卡综合| 日本人妻熟妇久久久久久 | 青青青国产精品| 蜜臀av.com| 不卡一区在线观看| 日韩精品成人免费观看视频| 中文字幕国产日韩| 国产精品1区| 加勒比成人在线| 久久久久久久电影| 亚洲一级在线播放| 欧美乱大交xxxxx另类电影| 欧美一级三级| 国产又黄又猛又粗又爽的视频| 亚洲男人的天堂一区二区| 手机看片1024国产| 国产精品伦子伦免费视频| 你懂的国产精品永久在线| www.88av| 欧美日本免费一区二区三区| av伦理在线| 亚洲欧美日韩另类精品一区二区三区| 国产又黄又大久久| wwwwww国产| 欧美成人精品一区| 亚洲男人都懂第一日本| 91在线第一页| 日韩欧美国产骚| 羞羞视频在线观看免费| 欧美亚洲丝袜| 国产成人午夜精品5599| 中文字幕欧美在线观看| 91精品国产91久久久久久吃药| 国产精品二区不卡|