精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓我來告訴你列存數據倉庫怎樣更高效

開發 前端
開源數據計算引擎SPL充分利用數據有序存儲的特征,在保持低 CPU 消耗的前提下,實現了較高壓縮率的壓縮算法,大幅減少了物理存儲量,進一步提高了性能。SPL還提供倍增分段機制,解決了列存分段難題,讓列存數據也能充分利用并行計算來提高效率。

很多數據倉庫產品都采用了列式存儲。如果數據表的總列數很多而計算涉及的列很少,采用列存就只讀取需要的列即可,能夠減少硬盤訪問量,提高性能。特別是數據量非常大時,硬盤掃描和讀取的時間占比很大,這時候列存的優勢會很明顯。

那么,是不是只要用了列存就一定能做到性能最佳呢?我們來看看,列式存儲在哪些方面還可以做的更高效。

壓縮

結構化數據的編碼方式一般都不會非常緊湊,常常還有一定的可壓縮余地。數據倉庫通常會在列存的基礎上對數據進行壓縮,在物理上減少數據存儲量,從而減少讀取時間,提高性能。數據表相同字段的數據類型一般都是一樣的,甚至有些情況取值都很接近,這樣的一批數據通常會有較好的壓縮率。列存是將相同字段值存儲在一起的,所以比行存更有利于數據壓縮。

但是,通用的壓縮算法不能假定數據有某種特征,只能將數據當作隨意的字節流去編碼,有時并不能獲得最好的壓縮率。而且,高壓縮率的算法壓縮出來的數據,解壓縮時常常會增加CPU的運算量,消耗更多的時間。這部分多消耗的時間,甚至會大于壓縮節省的硬盤讀取時間,得不償失。

如果我們先對數據做一些處理,人為地制造某些數據特征來利用,再配合壓縮算法,就可以實現較高的壓縮率,同時保持較低的CPU消耗。

將數據排序后存儲就是一個有效的處理方法。數據表中常常有許多維度字段,比如地區、日期等。這些維度的取值基本都在一個小集合范圍內,數據量大時會有很多重復取值。如果數據是按這些列排序的,則相鄰記錄之間取值相同的情況就很常見。這時,使用很輕量級的壓縮算法也能獲得很好的壓縮率。簡單來講,可以直接存儲列值及其重復次數,而不必把同樣的值存儲多遍,少占用的空間是相當可觀的。

排序的次序也有講究。要盡量把字段值較長的列放在前面排序。比如有地區和性別兩個列,地區的值(“北京”、“上?!钡龋┳址麛狄笥谛詣e(“男”、“女”),則先地區、后性別排序的效果就要好于反過來的情況。

我們還可以進行數據類型的優化,比如將字符串、日期等轉換為適當的數值編碼。如果把地區、性別字段都轉換為小整數編號,字段值的長度就一樣了。這時,可以選擇重復情況更多的字段排到前面。例如性別只有兩個枚舉值,而地區則相對較多。所以各條記錄中,性別重復的會更多,先性別、后地區排序所占用空間通常會更小。

開源數據計算引擎SPL提供的列存方案,就實現了這種壓縮算法。把有序數據追加進SPL的組表時,默認會自動執行上述方法,只記錄一次值和重復計數。

SPL建立有序列存組表,并完成遍歷計算的寫法,大致是這樣:

示例代碼1:有序壓縮列存和遍歷計算


A

1

=file("T_ordinary.ctx").open().cursor(f1,f2,f3,f4,…).sortx(f1,f2,f3)

2

>file("T.ctx").create(#f1,#f2,#f3,f4,…).append@i(A1)

3

=file("T.ctx").open().cursor().groups(…;sum(amt1),avg(amt2),max(amt3+amt4),…)

A1:建立原數據的游標,并按照f1,f2,f3三個字段排序。

A2:建立新的組表,指定f1,f2,f3三個字段有序。將已經排好序的數據寫入組表。

A3:打開已經建好的新組表,做分組匯總。

在下面這個測試中,SPL采用數據類型優化和有序壓縮列存后,數據存儲量減少了31%,而計算性能提高了9倍多。測試結果見下圖:

這個測試更詳細的信息請參考: 多維分析后臺實踐 3:維度排序壓縮

并行

多線程并行可以充分利用多CPU計算能力,是重要的提速手段。而要并行就需要先把數據分段。行存分段比較簡單,按數據量大體平均分段,再找記錄結束標記確定分段點位置即可。但列存不能采用同樣的辦法。由于列存的不同列是分別存儲的,也必須分別分段。又因為不定長字段和壓縮數據的存在,各個列相同的分段點位置不一定會落在同一條記錄上,會導致讀取錯誤。

業界普遍采用分塊方案解決列存分段同步性問題:塊內數據用列式存儲,分段必須以塊為單位,在塊內不再分段并行。實施這種方法,要先確定每一塊的數據量大小。如果數據表總數據量固定,以后也不再追加數據,則很容易計算出一個合適的塊大小。但數據表一般都會有新增數據不斷追加進來,這就會出現塊大小如何確定的矛盾。假如塊較大,在初期總數據量較小時,分塊數會比較少,無法做到靈活分段。而均勻、靈活的分段是決定并行計算性能的關鍵。假如塊較小,在數據量增長后分塊數會變得很多,列數據在物理上將被拆成很多不連續的小塊,會多讀入分塊之間的少量無用數據??紤]硬盤的尋道時間,分塊數越多這個問題越嚴重。很多數據倉庫或大數據平臺都無法解決這個分塊大小和分塊數的矛盾,所以很難充分利用并行計算提升性能。

SPL提供了倍增分段方式,將固定(物理)分塊改為動態(邏輯)分塊,可以很好的解決這個矛盾。具體做法是:為每列數據建立固定大?。ɡ?1024 個索引位)的索引區,每個索引位存儲一條記錄的起始位置,相當于一條記錄為一塊。追加記錄到索引位填滿后,重寫索引區,丟棄偶數索引位,奇數位向前移動,空出索引區后一半位置。相當于將分塊數縮減為 512 個,兩條記錄為一塊。依次類推,重復追加數據、填滿、重寫索引區的過程。隨著數據量的增加,塊的大?。▔K內記錄數)不斷翻倍。所有列的索引區要同步填充,且填滿后同步重寫,始終保持一致。這種辦法實質上是以記錄數作為分段依據的,而不是字節數,所以可以保證各個列即使分別分段也是同步的,不會出現錯位的情況。

以動態塊為單位分段時,塊個數保持在 512 到 1024 之間(記錄數小于 512 除外),可以滿足分段靈活的要求。各列的動態塊對應記錄數完全相同,也可以滿足分段均勻的要求。數據量無論大小,都可以獲得良好的分段效果。倍增分段原理的詳細介紹參見這里:SPL 的倍增分段。

示例代碼1中生成的組表T,缺省采用了倍增分段方案。要用T做并行計算,只要將A3代碼做簡單修改:

=file("T.ctx").open().cursor@m().groups(;sum(amt1),avg(amt2),max(amt3+amt4),)

cursor函數加上@m選項,就可以做并行計算了。

后續再追加數據時,不需要重新生成一遍組表。打開組表直接追加即可,代碼大致是這樣的:

> file("T.ctx").open().append@i(cs)

這里要保證游標cs中的待追加數據,按照f1,f2,f3三個字段繼續有序。實際應用中,待追加數據不一定滿足這個條件。對于這種情況,SPL也給出了高性能的解決方案,具體方法請參考:SPL 的有序存儲。

查找

列存比較適合遍歷計算,比如分組匯總等。對于大多數查找任務來講,列存卻會導致更差的性能。在不用索引的時候,通常的列存即使已經有序存儲,也無法使用二分法查找。這個原因,和上面并行分段介紹的一樣,還是因為列存不能保證各列的同步性,可能會出現錯位,導致讀取錯誤。這時列存數據只能用遍歷法來查找了,性能會很差。

列存數據表上也可以建立索引來避免遍歷,但非常麻煩。理論上講,要在索引中把各個字段的物理位置都記錄下來,索引容量就會比行存時的索引大很多,甚至可能和原數據表一樣大(因為每個字段都有個物理位置,索引中的數據量和原數據相同,僅是數據類型簡單)。而且,讀取時也要分別到各個字段的數據區去讀,而硬盤有個最小讀取單位,這會導致各列的總讀取量遠遠超過行存,表現出來就是查找性能差很多。

SPL采用倍增分段機制后,可以較迅速按記錄序號在列存格式中找到各字段值,就可以執行二分法了。同時,索引中記錄整條記錄的序號即可,容量就能小得多,和行存時差不多。不過,使用二分法或索引查找的時候,仍然需要到各個字段的數據塊分別讀取,性能還是趕不上行存。所以,如果要追求極致的查找性能,還是要采用行存。實際應用中,最好是讓程序員根據計算的需要來選擇是否列存。但是,有些數據倉庫做成了透明機制,不允許用戶自由選擇行存和列存,就很難達到最佳效果了。

SPL則將這個自由度留給了開發人員,可以根據實際需要來決定是否采用列存、哪些數據采用列存,從而獲得極致性能。

在前面的介紹中,組表缺省使用列存,但也提供行存模式,可以在創建時用選項 @r 指明。

示例代碼1中的A2可以改為:

=file("T_r.ctx").create@r(#f1,#f2,#f3,f4,).append@i(A1)

這樣生成的就是行存組表。有了列存和行存兩個組表,程序員即可根據需要自由選擇使用。

對遍歷和查找性能要求都很高的場景,就只能用存儲空間來換計算時間。也就是將數據冗余存儲兩遍,列存用于遍歷,行存用于查找。不過,這種共存方案的數據要冗余兩遍,且行存還要再建立索引,所以整體占用的硬盤空間會比較大。

SPL 還提供了一種帶值索引,在建立索引時把其它字段值一起復制過來。原組表繼續采用列存用于遍歷,而索引本身已經保存了字段值并使用行存,在查找時一般不再訪問原表,能獲得更好的性能。帶值索引和行列共存方案一樣,都能兼顧遍歷、查找的性能。而且,帶值索引相當于行存加上索引,比行列共存方案占用的空間更小。

示例代碼2:帶值索引


A

1

=file("T.ctx").open()

2

=A1.index(IDS;f1;f4,amt1,amt2)

3

=A1.icursor(f1,f4;f1==123456).fetch()

4

=A1.icursor(f4,amt2;f1>=123456 && f2<=654321)

A2 建立索引IDS時,把要引用的字段f4,amt1,amt2抄在參數中,就可以在索引中復制這些字段值。以后取出目標值時,只要涉及字段在這部分內,就不必再讀取原表。

回顧與總結

采用列存可以只讀取需要的列,在總列數較多、計算涉及的列較少時,能減少硬盤訪問量,提高性能。但僅此還不夠,列存數據倉庫還要在數據壓縮、多線程并行和查找計算等方面做優化以將列存的效果做到最佳。

開源數據計算引擎SPL充分利用數據有序存儲的特征,在保持低 CPU 消耗的前提下,實現了較高壓縮率的壓縮算法,大幅減少了物理存儲量,進一步提高了性能。SPL還提供倍增分段機制,解決了列存分段難題,讓列存數據也能充分利用并行計算來提高效率。并且,SPL能夠自由建立行存、列存數據表,允許開發者自主選擇使用,且提供了帶值索引機制,可以同時實現高性能遍歷和查找計算。

SPL資料

SPL下載

SPL源代碼

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2025-04-08 09:40:00

DWD數據倉庫大數據

2022-04-29 08:00:36

web3區塊鏈比特幣

2017-08-25 09:18:04

2019-04-19 08:47:00

前端監控數據

2010-12-23 15:55:00

上網行為管理

2011-08-29 09:33:48

2024-08-19 00:35:00

Pythondict遍歷列表推導式

2019-07-04 15:57:16

內存頻率DDR4

2018-05-08 14:58:07

戴爾

2011-03-07 09:44:09

赤裸的密碼密碼

2024-11-08 08:34:59

RocketMQ5.Remoting通信

2015-09-30 14:22:44

Qlik數據

2022-02-15 20:08:41

JDKJavaWindows

2023-11-24 11:20:04

functoolsPython

2016-06-30 16:54:49

UCloud愛數云計算

2015-09-02 11:44:39

視頻云華為

2018-06-20 11:00:06

云應用開發PaaS

2016-11-14 10:23:08

Hadoop工具大數據數據倉庫

2016-10-28 15:58:29

大數據就業成功率

2023-11-07 08:25:34

API接口參數驗證
點贊
收藏

51CTO技術棧公眾號

国产午夜精品一区二区三区欧美| 高清毛片在线观看| 久久91精品国产91久久小草| 亚洲欧美日韩直播| 亚洲综合欧美在线| 色呦呦在线观看视频| 久久亚洲捆绑美女| 成人情趣片在线观看免费| 国产亚洲欧美精品久久久www| 国产成人视屏| 欧美性猛交xxxx免费看| 亚洲综合网中心| 人妻夜夜爽天天爽| 精油按摩中文字幕久久| 51ⅴ精品国产91久久久久久| 九九热视频在线免费观看| 乱中年女人伦av一区二区| 欧美日韩国产一二三| 日本一本二本在线观看| 亚洲七七久久综合桃花剧情介绍| 国产很黄免费观看久久| 国产精品久久久久久久久久三级| 91中文字幕永久在线| 国产视频网站一区二区三区| 色就色 综合激情| 国产玉足脚交久久欧美| 亚洲AV无码成人片在线观看 | 久99久视频| 国产一区二区在线不卡| 这里只有精品在线| 在线成人激情黄色| 三级黄色片免费观看| 芒果视频成人app| 亚洲成人一区在线| a级片一区二区| 麻豆tv免费在线观看| 久久精品视频一区二区| 精品不卡在线| 中文字幕一区二区人妻| 在线视频精品| 久久久久久久久久久91| 欧美日韩在线视频免费| 久久久久久美女精品| 色爱av美腿丝袜综合粉嫩av | 欧美jizz18| 国产精品伦理在线| 欧洲一区二区在线观看| 深夜福利在线视频| 久久综合久久综合九色| 美女精品国产| 久草在现在线| 国产亚洲视频系列| 日韩精品欧美一区二区三区| 国产亚洲依依| 成人综合在线观看| 99视频免费观看蜜桃视频| 国产国语亲子伦亲子| 国产一区欧美二区| 国产suv精品一区二区三区88区| www.99re6| 国产精品毛片一区二区在线看| 亚洲国产精品va在看黑人| 日批免费观看视频| 激情亚洲另类图片区小说区| 日韩高清免费观看| 日本激情小视频| 国产真实有声精品录音| 精品久久久久久久久久久院品网| 蜜桃免费在线视频| 欧美爱爱视频| 欧美一级午夜免费电影| 亚洲熟妇一区二区| 国产精品1区在线| 日韩精品一区在线| 国产精品九九视频| 精品国产一区二区三区噜噜噜| 精品国产一区二区三区忘忧草| 五月婷婷六月合| 精品国产不卡一区二区| 精品国产免费人成电影在线观看四季 | 特大黑人巨人吊xxxx| 成人精品在线| 亚洲韩国青草视频| 超碰人人干人人| 午夜欧美精品| 国产91免费观看| av 一区二区三区| 9久草视频在线视频精品| 日本一区高清不卡| av在线免费网站| 日韩欧美在线一区| 欧美体内she精高潮| 日韩精品免费一区二区三区竹菊 | 免费在线稳定资源站| 亚洲国产成人在线| 日韩精品伦理第一区| 91cn在线观看| 91国偷自产一区二区三区观看 | 日本黄色小说视频| 国产欧美大片| 91九色综合久久| 免费理论片在线观看播放老| 亚洲柠檬福利资源导航| 国产精品无码专区av在线播放 | 久久人人爽av| 久久午夜影院| 理论片在线不卡免费观看| 亚洲高清毛片一区二区| 国产精品主播直播| 天天人人精品| 欧美办公室脚交xxxx| 欧美一区二区三区免费视频| 美国黑人一级大黄| 亚洲在线观看| 国产福利久久| 成人黄色网址| 精品视频1区2区| 黄色a一级视频| 在线成人欧美| 亚洲自拍在线观看| eeuss影院在线播放| 一区在线播放视频| 50路60路老熟妇啪啪| 国产丝袜一区| 欧美国产乱视频| 国产又大又粗又长| 亚洲国产高清在线| 国产资源在线免费观看| 自拍偷拍欧美日韩| 最近2019年好看中文字幕视频| 亚洲xxxx3d动漫| 日韩电影免费一区| 99久久99久久精品国产片| 婷婷在线视频| 欧美无人高清视频在线观看| 尤物视频最新网址| 久久国产精品99国产| 精选一区二区三区四区五区| 成人高清在线| 在线观看一区日韩| www.欧美com| 欧美激情一级片一区二区| 91免费在线视频| 三级毛片在线免费看| 精品成人国产在线观看男人呻吟| www.亚洲高清| 第一sis亚洲原创| 国产精品日韩欧美大师| 在线激情网站| 欧美一区二区在线看| 亚洲 欧美 变态 另类 综合| 久久国产综合精品| 中文字幕免费高| 欧美成人一级| 欧美激情区在线播放| 人妻精品一区一区三区蜜桃91| 亚洲国产精品成人综合 | 50一60岁老妇女毛片| 韩国av一区| 黄色99视频| 欧美xxxxxx| 在线日韩精品视频| 国产又粗又猛又爽又黄91| 亚洲欧美日韩国产一区二区三区| 女性女同性aⅴ免费观女性恋| www.精品| 色妞欧美日韩在线| 精品国产九九九| 五月天久久比比资源色| 亚洲人成人无码网www国产| 好看不卡的中文字幕| 九色91在线视频| 成人国产综合| 精品中文字幕在线| 人成在线免费视频| 欧美色爱综合网| 人妻熟人中文字幕一区二区| 激情综合色播激情啊| 精品国偷自产一区二区三区| 亚洲理论电影| 91在线看www| 一本大道色婷婷在线| 日韩欧美国产1| 亚洲天堂av片| 亚洲色大成网站www久久九九| 欧美激情第3页| 亚洲三级免费| 伊人久久大香线蕉成人综合网| 91九色综合| 欧美韩日一区二区| 最新国产在线观看| 51精品久久久久久久蜜臀| 在线观看免费国产视频| 国产精品色哟哟| 亚洲av网址在线| 九九精品视频在线看| 成人午夜免费剧场| 九九久久精品| 成人自拍爱视频| 韩国三级一区| 欧美激情精品久久久久久免费印度 | 国产在线高清理伦片a| 日韩av中文字幕在线| 国产又粗又长又大视频| 色素色在线综合| 国产 日韩 欧美 成人| www.日韩大片| 污污视频在线免费| 日本视频在线一区| 九九九九免费视频| 国产成人av| 国内精品二区| 亚洲成av人片在线观看www| 国产精品久久久久久av| 精品众筹模特私拍视频| 中文字幕日韩欧美| 欧美成人综合在线| 日韩成人久久久| 亚洲精品97久久中文字幕无码| 天天影视色香欲综合网老头| 无码国产69精品久久久久同性| 久久精品国产精品亚洲精品| www.亚洲天堂网| 9国产精品视频| 精品国偷自产一区二区三区| 欧美1区2区| 无码毛片aaa在线| 久久国产亚洲精品| 五月婷婷一区| 精品福利久久久| 欧美一区免费视频| 日韩最新av| 91亚洲精品久久久| 99久久999| 91久久久亚洲精品| www.久久99| 91视频国产高清| 国产精品国产三级在线观看| 国产欧美日韩丝袜精品一区| jizz免费一区二区三区| 国产精品久久久久久久久久久新郎| av免费在线免费观看| zzjj国产精品一区二区| 久久99精品久久| 久久亚洲影音av资源网 | 做爰高潮hd色即是空| 岛国成人av| 九色91视频| 精品欧美激情在线观看| 色一情一区二区三区四区 | 国产免费成人| 黄色a级在线观看| 一本精品一区二区三区| 超薄肉色丝袜足j调教99| 欧美日韩p片| www.好吊操| 国产模特精品视频久久久久| 国产激情在线观看视频| 激情国产一区| 日韩欧美国产免费| 久久午夜精品一区二区| 日韩视频在线免费看| 麻豆久久一区二区| 亚洲午夜精品在线观看| 裸体一区二区三区| 操人视频免费看| 99国产精品国产精品毛片| 一起草最新网址| www.亚洲激情.com| 久久精品—区二区三区舞蹈| 国产精品久久久久毛片软件| 欧美黑吊大战白妞| 亚洲日穴在线视频| 综合 欧美 亚洲日本| 亚洲色图视频网| 萌白酱视频在线| 成人高清视频免费观看| 亚洲综合网在线观看| 国产精品成人免费精品自在线观看| 久久久久久久毛片| 亚洲欧美乱综合| 91人妻一区二区三区蜜臀| 午夜电影一区二区| 欧美一级黄视频| 精品国产乱码久久久久久老虎| 精品欧美在线观看| 亚洲免费精彩视频| 黄色网在线看| 欧美做受高潮电影o| 91国产一区| 欧美欧美一区二区| 欧美破处大片在线视频| 欧美黑人又粗又大又爽免费| 国产精品综合一区二区| 色一情一交一乱一区二区三区| 91毛片在线观看| 免费中文字幕日韩| 欧美视频在线看| 精品国产18久久久久久| 亚洲区一区二区| 成人爽a毛片免费啪啪动漫| 国产精品美女无圣光视频| 国产香蕉精品| 久久久一本精品99久久精品66| 日韩欧美四区| 青青青在线观看视频| 免费不卡在线视频| 免费a级黄色片| 国产欧美一区二区在线| 在线免费观看毛片| 91精品国产一区二区| 国产视频第一页在线观看| 久久久影视精品| 久久视频免费| 亚洲最新在线| 日韩精品成人一区二区在线| 中文字幕66页| 国产欧美一区二区三区在线看蜜臀 | 91女神在线观看| 久久综合狠狠综合久久激情| 精品视频在线观看免费| 91精品国产综合久久婷婷香蕉| 好男人在线视频www| 久久精品亚洲94久久精品| 亚洲精品国产嫩草在线观看| 美女主播视频一区| 99精品国产99久久久久久福利| www.超碰com| 久久久精品影视| 国产无人区码熟妇毛片多| 亚洲成人999| 丁香花高清在线观看完整版| 日韩av免费在线| 午夜先锋成人动漫在线| 日本中文字幕网址| 不卡欧美aaaaa| 日本一本高清视频| 亚洲国产精品久久久| av有码在线观看| 国产一区二区不卡视频| 日韩一级毛片| 国模私拍视频在线观看| 亚洲欧洲色图综合| 欧美性猛交bbbbb精品| 91精品国产综合久久福利软件| 香蕉人妻av久久久久天天| 97福利一区二区| 欧美电影在线观看免费| 日本一区二区三区四区五区六区| 国产精品一页| caopeng视频| 欧美色电影在线| 国产不卡在线| 成人免费视频网站| 日韩欧美一区二区三区在线视频| 精品视频在线观看一区| jlzzjlzz亚洲日本少妇| 91丝袜一区二区三区| 国产一区二区黑人欧美xxxx| 九九久久国产| 国产制服91一区二区三区制服| 美女久久久精品| 青青草成人免费视频| 在线观看日韩毛片| 成人日批视频| 国产欧美日韩综合精品二区| 911精品美国片911久久久 | 国精一区二区三区| 精品中文字幕一区| 卡一卡二国产精品| 国产交换配乱淫视频免费| 午夜一区二区三区视频| www.亚洲黄色| 国产91精品久久久久| 成人知道污网站| 久草精品在线播放| 国产精品乱码久久久久久| www.久久视频| 久久成人这里只有精品| 久久九九热re6这里有精品| 九热视频在线观看| 久久久噜噜噜久噜久久综合| 亚洲性在线观看| 午夜剧场成人观在线视频免费观看| 亚洲精品不卡在线观看| 久久久久人妻精品一区三寸| 中文字幕视频一区| 水莓100在线视频| 成人国产精品久久久久久亚洲| 日韩免费久久| 亚洲天堂2024| 在线不卡欧美精品一区二区三区| 日本网站在线免费观看视频| 国产高清在线一区| 日本成人在线视频网站| 天天色天天综合| 精品香蕉在线观看视频一| 韩国一区二区三区视频| av免费中文字幕| 亚洲动漫第一页|