精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

到底選擇SQL還是NoSQL?看這里!

運(yùn)維 數(shù)據(jù)庫運(yùn)維
你是否在為系統(tǒng)的數(shù)據(jù)庫來一波大流量就幾乎打滿 CPU,日常 CPU 居高不下煩惱?你是否在各種 NoSQL 間糾結(jié)不定,到底該選用哪種最好?今天的你就是昨天的我,這也是我寫這篇文章的初衷。

你是否在為系統(tǒng)的數(shù)據(jù)庫來一波大流量就幾乎打滿 CPU,日常 CPU 居高不下煩惱?你是否在各種 NoSQL 間糾結(jié)不定,到底該選用哪種最好?今天的你就是昨天的我,這也是我寫這篇文章的初衷。

[[273819]]

圖片來自 Pexels

作為互聯(lián)網(wǎng)從業(yè)人員,我們要知道關(guān)系型數(shù)據(jù)庫(MySQL、Oracle)無法滿足我們對存儲的所有要求,因此對底層存儲的選型,對每種存儲引擎的理解非常重要。

同時也由于過去一段時間的工作經(jīng)歷,對這塊有了一些更多的思考,想通過自己的總結(jié)把這塊寫出來分享給大家。

結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)

文章的開始,聊一下結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù),因為數(shù)據(jù)特點(diǎn)的不同,將在技術(shù)上直接影響存儲引擎的選型。

首先是結(jié)構(gòu)化數(shù)據(jù),根據(jù)定義結(jié)構(gòu)化數(shù)據(jù)指的是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),嚴(yán)格遵循數(shù)據(jù)格式與長度規(guī)范,也稱作為行數(shù)據(jù),特點(diǎn)為:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體的信息,每一行數(shù)據(jù)的屬性是相同的。

例如:

因此關(guān)系型數(shù)據(jù)庫很好契合結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),關(guān)系型數(shù)據(jù)庫也是關(guān)系型數(shù)據(jù)最主要的存儲與管理引擎。

非結(jié)構(gòu)化數(shù)據(jù),指的是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有任何預(yù)定義的數(shù)據(jù)模型,不方便用二維邏輯表來表現(xiàn)的數(shù)據(jù),例如辦公文檔(Word)、文本、圖片、HTML、各類報表、視頻音頻等。

介于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)就是半結(jié)構(gòu)化數(shù)據(jù)了,它是結(jié)構(gòu)化數(shù)據(jù)的一種形式,雖然不符合二維邏輯這種數(shù)據(jù)模型結(jié)構(gòu),但是包含相關(guān)標(biāo)記,用來分割語義元素以及對記錄和字段進(jìn)行分層。

常見的半結(jié)構(gòu)化數(shù)據(jù)有 XML 和 JSON,例如:

  1. <person> 
  2.     <name>張三</name
  3.     <age>18</age> 
  4.     <phone>12345</phone> 
  5. </person> 

這種結(jié)構(gòu)也被成為自描述的結(jié)構(gòu)。

以關(guān)系型數(shù)據(jù)庫的方式做存儲的架構(gòu)演進(jìn)

首先,我們看一下使用關(guān)系型數(shù)據(jù)庫的方式,企業(yè)一個系統(tǒng)發(fā)展的幾個階段的架構(gòu)演進(jìn)(由于本文寫的是 SQL 與 NoSQL,因此只以存儲方式作為切入點(diǎn),不會涉及類似 MQ、ZK 這些中間件內(nèi)容):

階段一

企業(yè)剛發(fā)展的階段,最簡單,一個應(yīng)用服務(wù)器配一個關(guān)系型數(shù)據(jù)庫,每次讀寫數(shù)據(jù)庫。

階段二

無論是使用 MySQL 還是 Oracle 還是別的關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)庫通常不會先成為性能瓶頸,通常隨著企業(yè)規(guī)模的擴(kuò)大,一臺應(yīng)用服務(wù)器扛不住上游過來的流量且一臺應(yīng)用服務(wù)器會產(chǎn)生單點(diǎn)故障的問題。

因此加應(yīng)用服務(wù)器并且在流量入口使用 Nginx 做一層負(fù)載均衡,保證把流量均勻打到應(yīng)用服務(wù)器上。

階段三

隨著企業(yè)規(guī)模的繼續(xù)擴(kuò)大,此時由于讀寫都在同一個數(shù)據(jù)庫上,數(shù)據(jù)庫性能出現(xiàn)一定的瓶頸。

此時簡單地做一層讀寫分離,每次寫主庫,讀備庫,主備庫之間通過 Binlog 同步數(shù)據(jù),就能很大程度上解決這個階段的數(shù)據(jù)庫性能問題。

階段四

企業(yè)發(fā)展越來越好了,業(yè)務(wù)越來越大了,做了讀寫分離數(shù)據(jù)庫壓力還是越來越大,這時候怎么辦呢?

一臺數(shù)據(jù)庫扛不住,那我們就分幾臺吧,做分庫分表,對表做垂直拆分,對庫做水平拆分。

以擴(kuò)數(shù)據(jù)庫為例,擴(kuò)出兩臺數(shù)據(jù)庫,以一定的單號(例如交易單號),以一定的規(guī)則(例如取模)。

交易單號對 2 取模為 0 的丟到數(shù)據(jù)庫 1 去,交易單號對 2 取模為 1 的丟到數(shù)據(jù)庫 2 去,通過這樣的方式將寫數(shù)據(jù)庫的流量均分到兩臺數(shù)據(jù)庫上。

一般分庫分表會使用 Shard 的方式,通過一個中間件,便于連接管理、數(shù)據(jù)監(jiān)控且客戶端無需感知數(shù)據(jù)庫 IP。

關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn)

上面的方式,看似可以解決問題(實際上確實也能解決很多問題),正常對關(guān)系型數(shù)據(jù)庫做一下讀寫分離+分庫分表,支撐個 1W+ 的讀寫 QPS 還是問題不大的。

但是受限于關(guān)系型數(shù)據(jù)庫本身,這套架構(gòu)方案依然有著明顯的不足,下面對利用關(guān)系型數(shù)據(jù)庫方式做存儲的方案的優(yōu)點(diǎn)先進(jìn)行一下分析,后一部分再分析一下缺點(diǎn),對某個技術(shù)的優(yōu)缺點(diǎn)的充分理解是技術(shù)選型的前提。

①易理解

因為行+列的二維表邏輯是非常貼近邏輯世界的一個概念,關(guān)系模型相對網(wǎng)狀、層次等其他模型更加容易被理解。

②操作方便

通用的 SQL 語言使得操作關(guān)系型數(shù)據(jù)庫非常方便,支持 Join 等復(fù)雜查詢。

③數(shù)據(jù)一致性

支持 ACID 特性,可以維護(hù)數(shù)據(jù)之間的一致性,這是使用數(shù)據(jù)庫非常重要的一個理由之一。

例如同銀行轉(zhuǎn)賬,張三轉(zhuǎn)給李四 100 元錢,張三扣 100 元,李四加 100 元,而且必須同時成功或者同時失敗,否則就會造成用戶的資損。

④數(shù)據(jù)穩(wěn)定

數(shù)據(jù)持久化到磁盤,沒有丟失數(shù)據(jù)風(fēng)險,支持海量數(shù)據(jù)存儲。

⑤服務(wù)穩(wěn)定

最常用的關(guān)系型數(shù)據(jù)庫產(chǎn)品 MySQL、Oracle 服務(wù)器性能卓越,服務(wù)穩(wěn)定,通常很少出現(xiàn)宕機(jī)異常。

關(guān)系型數(shù)據(jù)庫的缺點(diǎn)

緊接著的,我們看一下關(guān)系型數(shù)據(jù)庫的缺點(diǎn),也是比較明顯的。

①高并發(fā)下 IO 壓力大

數(shù)據(jù)按行存儲,即使只針對其中某一列進(jìn)行運(yùn)算,也會將整行數(shù)據(jù)從存儲設(shè)備中讀入內(nèi)存,導(dǎo)致 IO 較高。

②為維護(hù)索引付出的代價大

為了提供豐富的查詢能力,通常熱點(diǎn)表都會有多個二級索引,一旦有了二級索引,數(shù)據(jù)的新增必然伴隨著所有二級索引的新增。

數(shù)據(jù)的更新也必然伴隨著所有二級索引的更新,這不可避免地降低了關(guān)系型數(shù)據(jù)庫的讀寫能力,且索引越多讀寫能力越差。

有機(jī)會的話可以看一下自己公司的數(shù)據(jù)庫,除了數(shù)據(jù)文件不可避免地占空間外,索引占的空間其實也并不少。

③為維護(hù)數(shù)據(jù)一致性付出的代價大

數(shù)據(jù)一致性是關(guān)系型數(shù)據(jù)庫的核心,但是同樣為了維護(hù)數(shù)據(jù)一致性的代價也是非常大的。

我們都知道 SQL 標(biāo)準(zhǔn)為事務(wù)定義了不同的隔離級別,從低到高依次是讀未提交、讀已提交、可重復(fù)讀、串行化,事務(wù)隔離級別月底,可能出現(xiàn)的并發(fā)異常越多,但是通常而言能提供的并發(fā)能力越強(qiáng)。

那么為了保證事務(wù)一致性,數(shù)據(jù)庫就需要提供并發(fā)控制與故障恢復(fù)兩種技術(shù),前者用于減少并發(fā)異常,后者可以在系統(tǒng)異常的時候保證事務(wù)與數(shù)據(jù)庫狀態(tài)不會被破壞。

對于并發(fā)控制,其核心思想就是加鎖,無論是樂觀鎖還是悲觀鎖,只要提供的隔離級別越高,那么讀寫性能必然越差。

④水平擴(kuò)展后帶來的種種問題難處理

前文提過,隨著企業(yè)規(guī)模擴(kuò)大,一種方式是對數(shù)據(jù)庫做分庫,做了分庫之后,數(shù)據(jù)遷移(1 個庫的數(shù)據(jù)按照一定規(guī)則打到 2 個庫中)、跨庫 Join(訂單數(shù)據(jù)里有用戶數(shù)據(jù),兩條數(shù)據(jù)不在同一個庫中)、分布式事務(wù)處理都是需要考慮的問題,尤其是分布式事務(wù)處理,業(yè)界當(dāng)前都沒有特別好的解決方案。

⑤表結(jié)構(gòu)擴(kuò)展不方便

由于數(shù)據(jù)庫存儲的是結(jié)構(gòu)化數(shù)據(jù),因此表結(jié)構(gòu) Schema 是固定的,擴(kuò)展不方便,如果需要修改表結(jié)構(gòu),需要執(zhí)行 DDL(data definition language)語句修改,修改期間會導(dǎo)致鎖表,部分服務(wù)不可用。

⑥全文搜索功能弱

例如 like "%中國真?zhèn)ゴ?",只能搜索到"2019年中國真?zhèn)ゴ螅瑦圩鎳?quot;,無法搜索到"中國真是太偉大了"這樣的文本,即不具備分詞能力。

且 like 查詢在"%中國真?zhèn)ゴ?quot;這樣的搜索條件下,無法命中索引,將會導(dǎo)致查詢效率大大降低。

寫了這么多,我的理解核心還是前三點(diǎn),它反映出的一個問題是關(guān)系型數(shù)據(jù)庫在高并發(fā)下的能力是有瓶頸的。

尤其是寫入/更新頻繁的情況下,出現(xiàn)瓶頸的結(jié)果就是數(shù)據(jù)庫 CPU 高、SQL 執(zhí)行慢、客戶端報數(shù)據(jù)庫連接池不夠等錯誤,因此例如萬人秒殺這種場景,我們絕對不可能通過數(shù)據(jù)庫直接去扣減庫存。

可能有朋友說,數(shù)據(jù)庫在高并發(fā)下的能力有瓶頸,我公司有錢,加 CPU、換固態(tài)硬盤、繼續(xù)買服務(wù)器加數(shù)據(jù)庫做分庫不就好了。

問題是這是一種性價比非常低的方式,花 1000 萬達(dá)到的效果,換其他方式可能 100 萬就達(dá)到了,不考慮人員、服務(wù)器投入產(chǎn)出比的 Leader 就是個不合格的 Leader。

且關(guān)系型數(shù)據(jù)庫的方式,受限于它本身的特點(diǎn),可能花了錢都未必能達(dá)到想要的效果。

至于什么是花 100 萬就能達(dá)到花 1000 萬效果的方式呢?可以繼續(xù)往下看,這就是我們要說的 NoSQL。

結(jié)合 NoSQL 的方式做存儲的架構(gòu)演進(jìn)

像上文分析的,數(shù)據(jù)庫作為一種關(guān)系型數(shù)據(jù)的存儲引擎,存儲的是關(guān)系型數(shù)據(jù),它有優(yōu)點(diǎn),同時也有明顯的缺點(diǎn)。

因此通常在企業(yè)規(guī)模不斷擴(kuò)大的情況下,不會一味指望通過增強(qiáng)數(shù)據(jù)庫的能力來解決數(shù)據(jù)存儲問題,而是會引入其他存儲,也就是我們說的 NoSQL。

NoSQL 的全稱為 Not Only SQL,泛指非關(guān)系型數(shù)據(jù)庫,是對關(guān)系型數(shù)據(jù)庫的一種補(bǔ)充。

特別要注意補(bǔ)充這兩個字,這意味著 NoSQL 與關(guān)系型數(shù)據(jù)庫并不是對立關(guān)系,二者各有優(yōu)劣,取長補(bǔ)短,在合適的場景下選擇合適的存儲引擎才是正確的做法。

比較簡單的 NoSQL 就是緩存:

針對那些讀遠(yuǎn)多于寫的數(shù)據(jù),引入一層緩存,每次讀從緩存中讀取,緩存中讀取不到,再去數(shù)據(jù)庫中取,取完之后再寫入到緩存,對數(shù)據(jù)做好失效機(jī)制通常就沒有大問題了。

通常來說,緩存是性能優(yōu)化的第一選擇也是見效最明顯的方案。但是,緩存通常都是 KV 型存儲且容量有限(基于內(nèi)存),無法解決所有問題,于是再進(jìn)一步的優(yōu)化,我們繼續(xù)引入其他 NoSQL:

數(shù)據(jù)庫、緩存與其他 NoSQL 并行工作,充分發(fā)揮每種 NoSQL 的特點(diǎn)。當(dāng)然 NoSQL 在性能方面大大優(yōu)于關(guān)系型數(shù)據(jù)庫的同時,往往也伴隨著一些特性的缺失,比較常見的就是事務(wù)功能的缺失。

下面看一下常用的 NoSQL 及他們的代表產(chǎn)品,并對每種 NoSQL 的優(yōu)缺點(diǎn)和適用場景做一下分析,便于熟悉每種 NoSQL 的特點(diǎn),方便技術(shù)選型。

KV 型 NoSQL(代表:Redis)

KV 型 NoSQL 顧名思義就是以鍵值對形式存儲的非關(guān)系型數(shù)據(jù)庫,是最簡單、最容易理解也是大家最熟悉的一種 NoSQL,因此比較快地帶過。

Redis、MemCache 是其中的代表,Redis 又是 KV 型 NoSQL 中應(yīng)用很廣泛的 NoSQL。

KV 型數(shù)據(jù)庫以 Redis 為例,最大的優(yōu)點(diǎn)我總結(jié)下來就兩點(diǎn):

  • 數(shù)據(jù)基于內(nèi)存,讀寫效率高。
  • KV 型數(shù)據(jù),時間復(fù)雜度為 O(1),查詢速度快。

因此,KV 型 NoSQL 最大的優(yōu)點(diǎn)就是高性能,利用 Redis 自帶的 BenchMark 做基準(zhǔn)測試,TPS 可達(dá)到 10 萬的級別,性能非常強(qiáng)勁。

同樣的 Redis 也有所有 KV 型 NoSQL 都有的比較明顯的缺點(diǎn):

  • 只能根據(jù) K 查 V,無法根據(jù) V 查 K。
  • 查詢方式單一,只有 KV 的方式,不支持條件查詢,多條件查詢唯一的做法就是數(shù)據(jù)冗余,但這會極大的浪費(fèi)存儲空間。
  • 內(nèi)存是有限的,無法支持海量數(shù)據(jù)存儲。
  • 同樣的,由于 KV 型 NoSQL 的存儲是基于內(nèi)存的,會有丟失數(shù)據(jù)的風(fēng)險。

綜上所述,KV 型 NoSQL 最合適的場景就是緩存的場景:

  • 讀遠(yuǎn)多于寫。
  • 讀取能力強(qiáng)。
  • 沒有持久化的需求,可以容忍數(shù)據(jù)丟失,反正丟了再查詢一把寫入就是了。

例如根據(jù)用戶 id 查詢用戶信息,每次根據(jù)用戶 id 去緩存中查詢一把,查到數(shù)據(jù)直接返回,查不到去關(guān)系型數(shù)據(jù)庫里面根據(jù) id 查詢一把數(shù)據(jù)寫到緩存中去。

搜索型NoSQL(代表:ES)

傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要通過索引來達(dá)到快速查詢的目的,但是在全文搜索的場景下,索引是無能為力的。

like 查詢一來無法滿足所有模糊匹配需求,二來使用限制太大且使用不當(dāng)容易造成慢查詢。

搜索型 NoSQL 的誕生正是為了解決關(guān)系型數(shù)據(jù)庫全文搜索能力較弱的問題,ElasticSearch 是搜索型 NoSQL 的代表產(chǎn)品。

全文搜索的原理是倒排索引,我們看一下什么是倒排索引。要說倒排索引我們先看下什么是正排索引,傳統(tǒng)的正排索引是文檔-->關(guān)鍵字的映射。

例如"Tom is my friend"這句話,會將其切分為"Tom"、"is"、"my"、"friend"四個單詞,在搜索的時候?qū)ξ臋n進(jìn)行掃描,符合條件的查出來。

這種方式原理非常簡單,但是由于其檢索效率太低,基本沒什么實用價值。

倒排索引則完全相反,它是關(guān)鍵字-->文檔的映射,我用張表格展示一下就比較清楚了:

意思是我現(xiàn)在這里有"Tom is Tom"、"Tom is my friend"、"Thank you, Betty"、"Tom is Betty's husband"四句話。

搜索引擎會根據(jù)一定的切分規(guī)則將這句話切成 N 個關(guān)鍵字,并以關(guān)鍵字的維度維護(hù)關(guān)鍵字在每個文本中的出現(xiàn)次數(shù)。

這樣下次搜索"Tom"的時候,由于 Tom 這個詞語在"Tom is Tom"、"Tom is my friend"、"Tom is Betty's husband"三句話中都有出現(xiàn),因此這三條記錄都會被檢索出來。

且由于"Tom is Tom"這句話中"Tom"出現(xiàn)了 2 次,因此這條記錄對"Tom"這個單詞的匹配度最高,最先展示。

這就是搜索引擎倒排索引的基本原理,假設(shè)某個關(guān)鍵字在某個文檔中出現(xiàn),那么倒排索引中有兩部分內(nèi)容:

  • 文檔 id。
  • 在該文檔中出現(xiàn)的位置情況。

可以舉一反三,我們搜索"Betty Tom"這兩個詞語也是一樣,搜索引擎將"Betty Tom"切分為"Tom"、"Betty"兩個單詞,根據(jù)開發(fā)者指定的滿足率,比如滿足率=50%,那么只要記錄中出現(xiàn)了兩個單詞之一的記錄都會被檢索出來,再按照匹配度進(jìn)行展示。

搜索型 NoSQL 以 ElasticSearch 為例,它的優(yōu)點(diǎn)為:

  • 支持分詞場景、全文搜索,這是區(qū)別于關(guān)系型數(shù)據(jù)庫的最大特點(diǎn)。
  • 支持條件查詢,支持聚合操作,類似關(guān)系型數(shù)據(jù)庫的 Group By,但是功能更加強(qiáng)大,適合做數(shù)據(jù)分析。
  • 數(shù)據(jù)寫文件無丟失風(fēng)險,在集群環(huán)境下可以方便橫向擴(kuò)展,可承載 PB 級別的數(shù)據(jù)。
  • 高可用,自動發(fā)現(xiàn)新的或者失敗的節(jié)點(diǎn),重組和重新平衡數(shù)據(jù),確保數(shù)據(jù)是安全和可訪問的。

同樣,ElasticSearch 也有比較明顯的缺點(diǎn):

①性能全靠內(nèi)存來頂,也是使用的時候最需要注意的點(diǎn),非常吃硬件資源、吃內(nèi)存,大數(shù)據(jù)量下 64G+SSD 基本是標(biāo)配,算得上是數(shù)據(jù)庫中的愛馬仕了。

為什么要專門提一下內(nèi)存呢,因為內(nèi)存這個東西是很值錢的,相同的配置多一倍內(nèi)存,一個月差不多就要多花幾百塊錢。

至于 ElasticSearch 內(nèi)存用在什么地方,大概有如下這些:

  • Indexing Buffer:ElasticSearch 基于 Luence,Lucene 的倒排索引是先在內(nèi)存里生成,然后定期以 Segment File 的方式刷磁盤的,每個 Segment File 實際就是一個完整的倒排索引。
  • Segment Memory:倒排索引前面說過是基于關(guān)鍵字的,Lucene 在 4.0 后會將所有關(guān)鍵字以 FST 這種數(shù)據(jù)結(jié)構(gòu)的方式將所有關(guān)鍵字在啟動的時候全量加載到內(nèi)存,加快查詢速度,官方建議至少留系統(tǒng)一半內(nèi)存給 Lucene。
  • 各類緩存:Filter Cache、Field Cache、Indexing Cache 等,用于提升查詢分析性能,例如 Filter Cache 用于緩存使用過的 Filter 的結(jié)果集。
  • Cluter State Buffer:ElasticSearch 被設(shè)計為每個 Node 都可以響應(yīng)用戶請求,因此每個 Node 的內(nèi)存中都包含有一份集群狀態(tài)的拷貝,一個規(guī)模很大的集群這個狀態(tài)信息可能會非常大。

②讀寫之間有延遲,寫入的數(shù)據(jù)差不多 1s 樣子會被讀取到,這也正常,寫入的時候自動加入這么多索引肯定影響性能。

③數(shù)據(jù)結(jié)構(gòu)靈活性不高,ElasticSearch 這個東西,字段一旦建立就沒法修改類型了,假如建立的數(shù)據(jù)表某個字段沒有加全文索引,想加上,那么只能把整個表刪了再重建。

因此,搜索型 NoSQL 最適用的場景就是有條件搜索尤其是全文搜索的場景,作為關(guān)系型數(shù)據(jù)庫的一種替代方案。

另外,搜索型數(shù)據(jù)庫還有一種特別重要的應(yīng)用場景。我們可以想,一旦對數(shù)據(jù)庫做了分庫分表后,原來可以在單表中做的聚合操作、統(tǒng)計操作是否統(tǒng)統(tǒng)失效?

例如我把訂單表分 16 個庫,1024 張表,那么訂單數(shù)據(jù)就散落在 1024 張表中,我想要統(tǒng)計昨天浙江省單筆成交金額最高的訂單是哪筆如何做?我想要把昨天的所有訂單按照時間排序分頁展示如何做?

這就是文檔型 NoSQL 的另一大作用了,我們可以把分表之后的數(shù)據(jù)統(tǒng)一打在文檔型 NoSQL 中,利用文檔型 NoSQL 的搜索與聚合能力完成對全量數(shù)據(jù)的查詢。

至于為什么把它放在 KV 型 NoSQL 后面作為第二個寫呢,因為通常搜索型 NoSQL 也會作為一層前置緩存,來對關(guān)系型數(shù)據(jù)庫進(jìn)行保護(hù)。

列式 NoSQL(代表:HBase)

列式 NoSQL,大數(shù)據(jù)時代代表性的技術(shù)之一了,以 HBase 為代表。列式 NoSQL 是基于列式存儲的,那么什么是列式存儲呢,列式 SQL 和關(guān)系型數(shù)據(jù)庫一樣都有主鍵的概念,區(qū)別在于關(guān)系型數(shù)據(jù)庫是按照行組織的數(shù)據(jù):

看到每行有 name、phone、address 三個字段,這是行式存儲的方式,且可以觀察 id=2 的這條數(shù)據(jù),即使 phone 字段沒有,它也是占空間的。

列式存儲完全是另一種方式,它是按每一列進(jìn)行組織的數(shù)據(jù):

這么做有什么好處呢?大致有以下幾點(diǎn):

  • 查詢時只有指定的列會被讀取,不會讀取所有列。
  • 存儲上節(jié)約空間,Null 值不會被存儲,一列中有時候會有很多重復(fù)數(shù)據(jù)(尤其是枚舉數(shù)據(jù),性別、狀態(tài)等),這類數(shù)據(jù)可壓縮,行式數(shù)據(jù)庫壓縮率通常在 3:1~5:1 之間,列式數(shù)據(jù)庫的壓縮率一般在 8:1~30:1 左右。
  • 列數(shù)據(jù)被組織到一起,一次磁盤 IO 可以將一列數(shù)據(jù)一次性讀取到內(nèi)存中。

第二點(diǎn)說到了數(shù)據(jù)壓縮,什么意思呢,以比較常見的字典表壓縮方式舉例:

 

仔細(xì)看圖理解一下,應(yīng)該就懂了。接著繼續(xù)講講優(yōu)缺點(diǎn),列式 NoSQL,以 HBase 為代表的,優(yōu)點(diǎn)為:

  • 海量數(shù)據(jù)無限存儲,PB 級別數(shù)據(jù)隨便存,底層基于 HDFS(Hadoop 文件系統(tǒng)),數(shù)據(jù)持久化。
  • 讀寫性能好,只要沒有濫用造成數(shù)據(jù)熱點(diǎn),讀寫基本隨便玩。
  • 橫向擴(kuò)展在關(guān)系型數(shù)據(jù)庫及非關(guān)系型數(shù)據(jù)庫中都是方便的之一,只需要添加新機(jī)器就可以實現(xiàn)數(shù)據(jù)容量的線性增長,且可用在廉價服務(wù)器上,節(jié)省成本。
  • 本身沒有單點(diǎn)故障,可用性高。
  • 可存儲結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。
  • 列數(shù)理論上無限,HBase 本身只對列族數(shù)量有要求,建議 1~3 個。

說了這么多 HBase 的優(yōu)點(diǎn),又到了說 HBase 缺點(diǎn)的時候了:

  • HBase 是 Hadoop 生態(tài)的一部分,因此它本身是一款比較重的產(chǎn)品,依賴很多 Hadoop 組件,數(shù)據(jù)規(guī)模不大沒必要用,運(yùn)維還是有點(diǎn)復(fù)雜的。
  • KV 式,不支持條件查詢,或者說條件查詢非常非常弱吧,HBase 在 Scan 掃描一批數(shù)據(jù)的情況下還是提供了前綴匹配這種 API 的,條件查詢除非定義多個 RowKey 做數(shù)據(jù)冗余。
  • 不支持分頁查詢,因為統(tǒng)計不了數(shù)據(jù)總數(shù)。

因此 HBase 比較適用于那種 KV 型的且未來無法預(yù)估數(shù)據(jù)增長量的場景,另外 HBase 使用還是需要一定的經(jīng)驗,主要體現(xiàn)在 RowKey 的設(shè)計上。

文檔型 NoSQL(代表:MongoDB)

坦白講,根據(jù)我的工作經(jīng)歷,文檔型 NoSQL 我只有比較淺的使用經(jīng)驗,因此這部分只能結(jié)合之前的使用與網(wǎng)上的文章大致給大家介紹一下。

什么是文檔型 NoSQL 呢,文檔型 NoSQL 指的是將半結(jié)構(gòu)化數(shù)據(jù)存儲為文檔的一種 NoSQL。

文檔型 NoSQL 通常以 JSON 或者 XML 格式存儲數(shù)據(jù),因此文檔型 NoSQL 是沒有 Schema 的。

由于沒有 Schema 的特性,我們可以隨意地存儲與讀取數(shù)據(jù),因此文檔型 NoSQL 的出現(xiàn)是解決關(guān)系型數(shù)據(jù)庫表結(jié)構(gòu)擴(kuò)展不方便的問題的。

MongoDB 是文檔型 NoSQL 的代表產(chǎn)品,同時也是所有 NoSQL 產(chǎn)品中的明星產(chǎn)品之一,因此這里以 MongoDB 為例。

按我的理解,作為文檔型 NoSQL,MongoDB 是一款完全和關(guān)系型數(shù)據(jù)庫對標(biāo)的產(chǎn)品,就我們從存儲上來看:

可看到,關(guān)系型數(shù)據(jù)庫是按部就班地每個字段一列存,在 MongDB 里面就是一個 JSON 字符串存儲。

關(guān)系型數(shù)據(jù)可以為 name、phone 建立索引,MongoDB 使用 createIndex 命令一樣可以為列建立索引,建立索引之后可以大大提升查詢效率。

其他方面而言,就大的基本概念,二者之間基本也是類似的:

因此,對于 MongDB,我們只要理解成一個 Free-Schema 的關(guān)系型數(shù)據(jù)庫就完事了,它的優(yōu)缺點(diǎn)比較一目了然,優(yōu)點(diǎn):

  • 沒有預(yù)定義的字段,擴(kuò)展字段容易。
  • 相較于關(guān)系型數(shù)據(jù)庫,讀寫性能優(yōu)越,命中二級索引的查詢不會比關(guān)系型數(shù)據(jù)庫慢,對于非索引字段的查詢則是全面勝出。

缺點(diǎn)在于:

  • 不支持事務(wù)操作,雖然 MongoDB 4.0 之后宣稱支持事務(wù),但是效果待觀測。
  • 多表之間的關(guān)聯(lián)查詢不支持(雖然有嵌入文檔的方式),Join 查詢還是需要多次操作。
  • 空間占用較大,這個是 MongDB 的設(shè)計問題,空間預(yù)分配機(jī)制+刪除數(shù)據(jù)后空間不釋放,只有用 db.repairDatabase() 去修復(fù)才能釋放。
  • 目前沒發(fā)現(xiàn) MongoDB 有關(guān)系型數(shù)據(jù)庫例如 MySQL 的 Navicat 這種成熟的運(yùn)維工具。

總而言之,MongDB 的使用場景很大程度上可以對標(biāo)關(guān)系型數(shù)據(jù)庫,但是比較適合處理那些沒有 Join、沒有強(qiáng)一致性要求且表 Schema 會常變化的數(shù)據(jù)。

總結(jié):數(shù)據(jù)庫與 NoSQL 及各種 NoSQL 間的對比

最后一部分,做一個總結(jié),本文歸根到底是兩個話題:

  • 何時選用關(guān)系型數(shù)據(jù)庫,何時選用非關(guān)系型數(shù)據(jù)庫。
  • 選用非關(guān)系型數(shù)據(jù)庫,使用哪種非關(guān)系型數(shù)據(jù)庫。

首先是第一個話題,關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫的選擇,在我理解里面無非就是兩點(diǎn)考慮:

第一點(diǎn),不多解釋應(yīng)該都理解,非關(guān)系型數(shù)據(jù)庫都是通過犧牲了 ACID 特性來獲取更高的性能的,假設(shè)兩張表之間有比較強(qiáng)的一致性需求,那么這類數(shù)據(jù)是不適合放在非關(guān)系型數(shù)據(jù)庫中的。

第二點(diǎn),核心數(shù)據(jù)不走非關(guān)系型數(shù)據(jù)庫,例如用戶表、訂單表,但是這有一個前提,就是這一類核心數(shù)據(jù)會有多種查詢模式。

例如用戶表有 ABCD 四個字段,可能根據(jù) AB 查,可能根據(jù) AC 查,可能根據(jù) D 查,假設(shè)核心數(shù)據(jù),但是就是個 KV 形式,比如用戶的聊天記錄,那么 HBase 一存就完事了。

從這幾年的工作經(jīng)驗來看,非核心數(shù)據(jù)尤其是日志、流水一類中間數(shù)據(jù)千萬不要寫在關(guān)系型數(shù)據(jù)庫中,這一類數(shù)據(jù)通常有兩個特點(diǎn):

  • 寫遠(yuǎn)高于讀
  • 寫入量巨大

一旦使用關(guān)系型數(shù)據(jù)庫作為存儲引擎,將大大降低關(guān)系型數(shù)據(jù)庫的能力,正常讀寫 QPS 不高的核心服務(wù)會受這一類數(shù)據(jù)讀寫的拖累。

接著是第二個問題,如果我們使用非關(guān)系型數(shù)據(jù)庫作為存儲引擎,那么如何選型?

其實上面的文章基本都寫了,這里只是做一個總結(jié)(所有的缺點(diǎn)都不會體現(xiàn)事務(wù)這個點(diǎn),因為這是所有 NoSQL 相比關(guān)系型數(shù)據(jù)庫共有的一個問題):

但是這里特別說明,選型一定要結(jié)合實際情況而不是照本宣科,比如:

  • 企業(yè)發(fā)展之初,明明一個關(guān)系型數(shù)據(jù)庫就能搞定且支撐一年的架構(gòu),搞一套大而全的技術(shù)方案出來。
  • 有一些數(shù)據(jù)條件查詢多,更適合使用 ElasticSearch 做存儲降低關(guān)系型數(shù)據(jù)庫壓力,但是公司成本有限,這種情況下這類數(shù)據(jù)可以嘗試?yán)^續(xù)使用關(guān)系型數(shù)據(jù)庫做存儲。
  • 有一類數(shù)據(jù)格式簡單,就是這個 KV 類型且增長量大,但是公司沒有 HBase 這方面的人才,運(yùn)維上可能會有一定難度,出于實際情況考慮,可先用關(guān)系型數(shù)據(jù)庫頂一陣子。

所以,如果不考慮實際情況,雖然確實有些存儲引擎更加合適,但是強(qiáng)行使用反而適得其反,總而言之,適合自己的才是最好的。

 

責(zé)任編輯:武曉燕 來源: 五月的倉頡
相關(guān)推薦

2019-08-14 14:54:19

MySQLPostgreSQL數(shù)據(jù)庫

2021-06-15 05:52:59

SQLNoSQL數(shù)據(jù)庫

2014-07-30 10:29:13

大數(shù)據(jù)NoSQL

2017-10-17 09:55:16

數(shù)據(jù)庫SQL Server規(guī)范集錦

2014-03-20 14:02:17

大數(shù)據(jù)

2024-07-30 11:40:00

數(shù)據(jù)庫NoSQLSQL

2019-10-25 09:01:09

物聯(lián)網(wǎng)Wi-Fi通信

2011-04-07 11:02:52

游標(biāo)

2020-12-18 09:11:43

數(shù)據(jù)庫SQLNoSQL

2024-10-12 09:33:24

消息隊列多線程并行編程

2014-11-05 10:08:50

2011-07-19 10:08:09

SQLNoSQL云計算

2017-12-17 20:17:23

NoSQLSQL數(shù)據(jù)

2023-09-27 10:23:19

NoSQL數(shù)據(jù)模型

2018-08-13 09:20:21

NoSQLSQL數(shù)據(jù)

2020-03-06 10:33:01

網(wǎng)絡(luò)欺詐在線支付網(wǎng)絡(luò)安全

2011-05-13 09:46:20

MySQLNoSQL

2021-03-31 06:37:03

WiFi 6路由器WiFi 5

2015-12-08 10:23:23

SDN軟件定義網(wǎng)絡(luò)

2011-04-06 10:06:13

數(shù)據(jù)不刪
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美老肥婆性猛交视频| 欧美偷拍一区二区| 精品国产一区二区三| 久久久精品福利| 成人av二区| 日韩午夜小视频| 777精品久无码人妻蜜桃| 国产主播福利在线| 国内精品伊人久久久久影院对白| 九九久久综合网站| 伊人网在线视频观看| 欧洲亚洲精品久久久久| 婷婷综合另类小说色区| 亚洲一区综合| 天天干天天舔天天射| 免费成人av在线播放| 色综合久久88| 91麻豆精品国产91久久综合| 深夜福利一区| 欧美私人免费视频| 国产www免费| 日韩精品毛片| 久久免费精品国产久精品久久久久| 成人h视频在线观看播放| 九九热在线免费观看| 综合av在线| 亚洲一区999| 精品1卡二卡三卡四卡老狼| 日本欧美在线| 色婷婷香蕉在线一区二区| av影院在线播放| av基地在线| av一本久道久久综合久久鬼色| 国产精品网站大全| 成人毛片18女人毛片| 欧美极品一区二区三区| 最新国产精品拍自在线播放| 女~淫辱の触手3d动漫| 亚洲精品一区国产| 8v天堂国产在线一区二区| 777米奇影视第四色| 懂色av一区| 亚洲免费在线视频一区 二区| 日韩av一区二区三区在线| 天堂网在线观看视频| 国产精品123区| 91牛牛免费视频| 中文字幕在线播出| 日韩电影免费在线观看网站| 欧亚精品在线观看| 久久99精品波多结衣一区| 欧美精品aa| 欧美多人乱p欧美4p久久| 成人涩涩小片视频日本| 久久成人综合| 色偷偷综合社区| 欧美做受高潮6| 国产精品三级| 亚洲一区二区福利| 欧美人妻一区二区三区| 激情综合网五月| 亚洲三级黄色在线观看| 黄色正能量网站| 免费精品国产| 亚洲图片欧美日产| 少妇无套高潮一二三区| 精品国产91| 综合av色偷偷网| 日日操免费视频| 日韩欧美高清| www.亚洲人.com| 亚洲国产美女视频| 欧美va天堂在线| 久久久久久久久电影| 国产精品成人国产乱| 在线成人h网| 欧美专区福利在线| 一级黄色av片| 精品影视av免费| 91九色对白| 欧美 日韩 国产 在线| 97se亚洲国产综合在线| 农村寡妇一区二区三区| 黄色三级视频在线播放| 婷婷五月综合激情| 91在线你懂得| 无遮挡亚洲一区| 麻豆视频免费在线观看| 亚洲制服丝袜在线| 欧美性猛交内射兽交老熟妇| 男人添女人下部高潮视频在线观看 | 国产午夜亚洲精品羞羞网站| 无码免费一区二区三区免费播放| www久久日com| 欧美日韩国产丝袜美女| 成年人视频网站免费观看| 黑人一区二区三区| 日韩欧美国产一区二区在线播放| 免费观看一级一片| 欧美r级电影| 77777少妇光屁股久久一区| 中文文字幕一区二区三三| 国产精品77777竹菊影视小说| 精品一区日韩成人| 国产在线观看av| 黑人精品xxx一区| 无限资源日本好片| 国产福利一区二区精品秒拍| 中文字幕亚洲二区| 亚洲一区 视频| 九一九一国产精品| 欧美一区二区在线| 国产探花在线观看| 欧美日本视频在线| 亚洲第一成人网站| 国产一区亚洲| 91影视免费在线观看| 三级av在线| 一区二区免费在线| 999精品视频在线| 都市激情亚洲| 日韩一区二区三区在线播放| 黄网在线观看视频| 国产成人精品免费| 中文字幕久久综合| 午夜日韩成人影院| 亚洲精品白浆高清久久久久久| 成人信息集中地| 久久久久免费| 激情视频在线观看一区二区三区| 97超碰资源站在线观看| 欧美午夜精品久久久| 特级西西人体wwwww| 国产精品分类| 亚洲精品免费在线视频| 瑟瑟视频在线| 欧美中文字幕久久| 亚洲区自拍偷拍| 99pao成人国产永久免费视频| 亚洲va国产va天堂va久久| 成人精品一区二区三区免费 | 日韩一区二区高清视频| 午夜精品久久久久久毛片| 国产亚洲日本欧美韩国| 国产成人在线免费视频| 99国产精品一区| 霍思燕三级露全乳照| 中文字幕久久精品一区二区| 久久97精品久久久久久久不卡| 中文字幕永久在线观看| 国产精品成人一区二区艾草 | 中国一级免费毛片| 成人免费av在线| 日本欧美视频在线观看| 九色精品蝌蚪| 欧美肥婆姓交大片| 精品国精品国产自在久不卡| 亚洲欧美一区二区三区极速播放 | 精品亚洲国产视频| 久久夜靖品2区| 久久综合九色综合97婷婷女人| 久久黄色片视频| 亚洲国产合集| 国产精品美女网站| а√中文在线8| 欧美成人艳星乳罩| 国产第100页| 91老司机福利 在线| 黄色一级大片在线观看| 成人综合专区| 147欧美人体大胆444| 欧美aaaaaaa| 日韩精品高清在线观看| 亚洲大片免费观看| 亚洲欧美怡红院| 又色又爽又黄18网站| 日韩午夜高潮| 日韩欧美精品久久| 国模大尺度视频一区二区| 欧美激情欧美激情在线五月| 亚洲日本在线播放| 精品视频在线免费| 欧美三级小视频| 91亚洲精华国产精华精华液| 黄www在线观看| 久久精品国产www456c0m| 成人免费在线看片| 免费福利视频一区二区三区| 日韩中文字幕在线| 亚洲精品国产精品国| 色婷婷综合久久久| 亚洲国产成人精品综合99| 久久婷婷久久一区二区三区| 中文字幕视频三区| 中文亚洲字幕| 欧美亚洲视频一区| 日韩美女毛片| 亚洲一区二区三区在线视频| 国产精品一区二区日韩| 搡老女人一区二区三区视频tv| 蜜桃av噜噜一区二区三区麻豆| 91精品1区2区| 久久久久久免费观看| 欧美国产禁国产网站cc| 免费在线观看日韩av| 人人狠狠综合久久亚洲| 国产天堂视频在线观看| 成人同人动漫免费观看| 国产精品区一区| 四虎视频在线精品免费网址| 欧美在线一区二区三区四| a毛片在线看免费观看| 亚洲天堂久久av| 丰满肉肉bbwwbbww| 欧美巨大另类极品videosbest | 欧美色手机在线观看| 久久久精品国产sm调教网站| 亚洲国产精品av| 添女人荫蒂视频| 国产精品12区| 亚洲免费黄色录像| 日韩中文字幕1| 无码专区aaaaaa免费视频| 中文字幕免费一区二区三区| 日韩中文字幕av在线| 欧美福利在线播放网址导航| 亚洲一区二区三区香蕉| 欧美黄色网络| 国产97免费视| 麻豆mv在线看| 久久久久久久影院| caopen在线视频| 日韩亚洲国产中文字幕| 91在线品视觉盛宴免费| 亚洲美女av在线播放| 手机看片一区二区| 精品国内二区三区| 成人av手机在线| 日韩一卡二卡三卡四卡| 国产免费不卡视频| 欧美三日本三级三级在线播放| 日韩电影在线观看一区二区| 五月综合激情婷婷六月色窝| 日本少妇xxxx动漫| 亚洲福利一区二区| 国产亚洲精品女人久久久久久| 亚洲女同女同女同女同女同69| 蜜桃av.com| 亚洲丝袜自拍清纯另类| 性生交大片免费全黄| 中文一区在线播放| 成人午夜免费影院| 亚洲视频在线观看一区| 亚洲国产美女视频| 一区二区三区精品在线观看| 久久综合激情网| 亚洲成av人综合在线观看| 日韩三级av在线| 欧美日韩亚洲视频一区| 无码人妻精品一区二区50| 在线视频一区二区免费| 99久久久无码国产精品免费蜜柚| 欧美午夜在线观看| 亚洲综合网av| 日韩午夜在线观看| 四虎免费在线观看| 亚洲欧美制服第一页| 在线免费观看的av网站| 在线观看成人黄色| 成人video亚洲精品| 欧美激情高清视频| 理论片午夜视频在线观看| 国产成一区二区| 涩涩涩久久久成人精品| 97人人模人人爽人人少妇| 精品视频高潮| 婷婷五月色综合| 欧美啪啪一区| 丰满爆乳一区二区三区| 日韩电影免费在线看| 波多野结衣免费观看| 99国产精品99久久久久久| 午夜精产品一区二区在线观看的| 国产精品欧美久久久久无广告| 91高清免费观看| 亚洲第一激情av| 天天爱天天做天天爽| 7777精品伊人久久久大香线蕉完整版| 亚洲av无码乱码国产精品久久| 日韩电影免费观看在线观看| av片在线免费观看| 久久免费福利视频| 日本精品网站| 国产精品日韩一区二区| 国语产色综合| 欧美人成在线观看| 免费成人在线观看| 中文字幕一区三区久久女搜查官| 国产欧美精品国产国产专区 | 欧美日韩国产在线| 一区精品在线观看| 亚洲精品国产综合久久| 香蕉视频在线免费看| 91国内精品久久| 精品入口麻豆88视频| 欧美一区2区三区4区公司二百| 一区二区三区网站| 男人天堂成人在线| 丁香六月久久综合狠狠色| 欧美国产日韩一区二区在线观看 | 亚洲欧洲精品天堂一级| 日本在线视频免费| 欧美日韩黄视频| 日韩电影在线观看完整版| 久久99精品久久久久久噜噜| av免费在线一区| 麻豆蜜桃91| 黄色成人91| 99视频在线观看视频| 国产亚洲1区2区3区| 日韩无码精品一区二区三区| 91精品欧美一区二区三区综合在| 成人在线二区| 欧美在线播放视频| 久久久亚洲欧洲日产| 四虎精品欧美一区二区免费| 美女网站色91| www久久久久久久| 一本大道综合伊人精品热热| 无码精品人妻一区二区| 欧美疯狂做受xxxx高潮| 国产精品777777在线播放| 亚洲午夜久久久影院伊人| 视频一区中文字幕国产| 欧美bbbbb性bbbbb视频| 亚洲国产精品久久久久秋霞影院| 99精品免费观看| 色偷偷偷亚洲综合网另类| 国产综合av| 日韩美女一区| 美女网站色91| 萌白酱视频在线| 欧美视频在线一区二区三区 | 91成人在线播放| 国产精品极品| 男女私大尺度视频| www.一区二区| 精品国产免费观看| 亚洲精品久久久久久下一站 | 国产欧美日韩中文| 精品视频黄色| 亚洲国产日韩欧美在线观看| 国产精品视频看| 亚欧美在线观看| 国产精品黄色| 国产精品一区二区无码对白| 亚洲成人1区2区| 婷婷色在线观看| 日韩美女福利视频| 欧美日韩国产在线观看网站 | 一本色道久久综合亚洲精品婷婷 | 在线观看日本www| 1区2区3区国产精品| 999精品国产| 欧美大片在线看免费观看| 欧美黑人做爰爽爽爽| 久久久久久久久久福利| 中文字幕av资源一区| 97人妻一区二区精品免费视频 | 伊人久久av| 欧美日韩精品免费在线观看视频| 三级一区在线视频先锋| 中国美女黄色一级片| 日韩午夜激情av| 丝袜老师在线| 亚洲精品第一区二区三区| 国产一区二区中文字幕| 日本三级视频在线| 尤物tv国产一区| 欧美成人精品午夜一区二区| 狠狠干 狠狠操| 国产精品精品国产色婷婷| 亚洲精华国产精华精华液网站| 欧美中文在线字幕| 婷婷精品进入| 亚洲男女在线观看| 精品视频免费在线| 丁香花在线观看完整版电影| 日韩精品国内| 高潮精品一区videoshd| 免费看毛片网站| 美女精品视频一区| 久久爱www成人| 动漫av在线免费观看| 色噜噜久久综合| 久久99亚洲网美利坚合众国| 日本一区二区三区免费观看| 国产精品456露脸| 亚洲天堂视频在线播放| 久久久免费观看|