OLTP類系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)更優(yōu)實踐
本文著重介紹了京東數(shù)據(jù)結(jié)轉(zhuǎn)平臺的技術(shù)架構(gòu),及OLTP類系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)更優(yōu)實踐,探討解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問題。
一、 背景介紹
業(yè)務(wù)系統(tǒng)在長期運行的過程中會積累大量的數(shù)據(jù),這些數(shù)據(jù)有些是需要長期保存的,例如一些訂單數(shù)據(jù),有些只需要短期保存,例如一些日志信息。業(yè)務(wù)數(shù)據(jù)一般都會有一個生命周期,生命周期內(nèi)的我們叫生產(chǎn)數(shù)據(jù),生命周期之外(即業(yè)務(wù)已經(jīng)關(guān)閉)的叫歷史數(shù)據(jù),我們這里提到的數(shù)據(jù)結(jié)轉(zhuǎn),指的是將需要長期保存的歷史數(shù)據(jù)從生產(chǎn)庫遷移到歷史庫(轉(zhuǎn)),而將需要短期保存的數(shù)據(jù)定期刪除(結(jié))。
我們已經(jīng)進(jìn)入了大數(shù)據(jù)時代,但在OLTP類系統(tǒng)中,關(guān)系型數(shù)據(jù)庫依然占據(jù)主導(dǎo)地位,在關(guān)系型數(shù)據(jù)庫中,如果不及時進(jìn)行數(shù)據(jù)結(jié)轉(zhuǎn),會嚴(yán)重影響系統(tǒng)的性能。
關(guān)系型數(shù)據(jù)庫單機(jī)容量有限,因此業(yè)界普遍的做法是進(jìn)行垂直分庫和水平分片,一些大型互聯(lián)網(wǎng)企業(yè)由于業(yè)務(wù)量龐大,僅分片的集群規(guī)模就能達(dá)到上千節(jié)點,再加上分庫的集群,規(guī)模非常巨大。傳統(tǒng)的數(shù)據(jù)歸檔方法往往針對單庫操作,難以處理如此大規(guī)模集群的數(shù)據(jù)歸檔。
同時,在大型互聯(lián)網(wǎng)企業(yè),每日的數(shù)據(jù)增長量非常大,數(shù)據(jù)結(jié)轉(zhuǎn)的頻率遠(yuǎn)大于傳統(tǒng)行業(yè),這些行業(yè)的IT系統(tǒng)往往是7*24小時不間斷提供服務(wù),而且全天24小時的并發(fā)量都很大,因此數(shù)據(jù)結(jié)轉(zhuǎn)操作必須盡量減少對生產(chǎn)庫的性能影響。
為此,我們自主研發(fā)了數(shù)據(jù)結(jié)轉(zhuǎn)平臺,以解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問題。
二、 技術(shù)架構(gòu)
2.1 設(shè)計要點
(1)盡量減少對生產(chǎn)庫的影響
數(shù)據(jù)結(jié)轉(zhuǎn)操作沒有復(fù)雜的業(yè)務(wù)邏輯,因此對數(shù)據(jù)庫性能的影響主要體現(xiàn)在IO方面,減少對生產(chǎn)庫的影響,最主要的就是減少對生產(chǎn)庫的IO操作。目前我們采用的方案是通過從庫查詢數(shù)據(jù),將數(shù)據(jù)插入歷史庫,然后再從主庫中刪除,如圖1數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖所示,將查詢的IO操作轉(zhuǎn)嫁到從庫上,可以大大減輕對主庫的影響。為了保障數(shù)據(jù)庫的高可用,業(yè)內(nèi)基本都采用了主從部署模式,因此這個方案具有很高的通用性。
圖1 數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖
(2)支持分庫分片集群
我們希望數(shù)據(jù)結(jié)轉(zhuǎn)平臺的配置足夠簡單并且易于理解。在和用戶的溝通過程中,我們發(fā)現(xiàn)他們最強烈的需求就是分庫分片集群的數(shù)據(jù)結(jié)轉(zhuǎn)。傳統(tǒng)的單機(jī)數(shù)據(jù)結(jié)轉(zhuǎn)操作可以抽象描述為:將數(shù)據(jù)庫實例A中表B的歷史數(shù)據(jù)結(jié)轉(zhuǎn)到歷史庫C,用戶的配置主要有4個元素:生產(chǎn)庫實例A、結(jié)轉(zhuǎn)表B、結(jié)轉(zhuǎn)條件和歷史庫。對于大規(guī)模的分庫分片集群規(guī)模,如果采用傳統(tǒng)單機(jī)數(shù)據(jù)結(jié)轉(zhuǎn)的配置方式,每一個數(shù)據(jù)庫實例都要配置4個元素,配置量非常大。
在我們的方案中,按照圖2所示對數(shù)據(jù)庫集群進(jìn)行劃分,將主庫、從庫、歷史庫作為一個結(jié)轉(zhuǎn)單元,對于分片的數(shù)據(jù)庫集群,表結(jié)構(gòu)相同,我們將其作為一個分組,對于分庫的集群,表結(jié)構(gòu)不同則劃分為不同的分組。用戶進(jìn)行配置的時候不是面向一個數(shù)據(jù)庫實例,而是面向一個分組,數(shù)據(jù)結(jié)轉(zhuǎn)操作抽象為:結(jié)轉(zhuǎn)分組X中表B的歷史數(shù)據(jù),用戶的配置元素有3個:分組X、結(jié)轉(zhuǎn)表B和結(jié)轉(zhuǎn)條件。分組信息僅需配置一次。這樣大大簡化了用戶的配置工作。
(3)支持水平擴(kuò)展
由于數(shù)據(jù)庫集群規(guī)模較大,數(shù)據(jù)結(jié)轉(zhuǎn)平臺應(yīng)該具備水平擴(kuò)展能力。我們采用的方案是將數(shù)據(jù)結(jié)轉(zhuǎn)最核心的組件定時任務(wù)和數(shù)據(jù)庫操作(數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器)獨立出來,進(jìn)行分布式部署。如下圖3所示,
圖2 數(shù)據(jù)庫集群模型
配置中心為用戶的入口,用戶通過配置中心定義數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù),任務(wù)的關(guān)鍵屬性包括:觸發(fā)條件、執(zhí)行條件、目標(biāo)分組等,配置中心將結(jié)轉(zhuǎn)任務(wù)分發(fā)給代理程序,同時對代理程序的執(zhí)行狀態(tài)進(jìn)行監(jiān)控。結(jié)轉(zhuǎn)任務(wù)的觸發(fā)條件配置在代理程序中的定時任務(wù)中,而執(zhí)行條件和目標(biāo)分組則作為數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器的執(zhí)行參數(shù)。通過水平擴(kuò)展代理程序,我們對更多的數(shù)據(jù)庫進(jìn)行結(jié)轉(zhuǎn)。
圖3 數(shù)據(jù)結(jié)轉(zhuǎn)組件關(guān)系圖
2.2 總體架構(gòu)
綜合上面提到的3個設(shè)計要點,我們得到圖4所示的總體架構(gòu),需要特別說明的是,對于水平分片的分組,我們采用的是多線程結(jié)轉(zhuǎn),對于不同結(jié)轉(zhuǎn)單元不存在數(shù)據(jù)共享問題,所以無需考慮并發(fā)鎖等問題。
三、 一些經(jīng)驗總結(jié)
a) 配置中心與代理程序之間的信息同步
圖4 數(shù)據(jù)結(jié)轉(zhuǎn)總體架構(gòu)圖
配置中心和代理程序在我們的方案中被設(shè)計為一種松耦合結(jié)構(gòu):在系統(tǒng)的運行過程中,代理程序宕機(jī)不會影響配置中心的運行,同樣配置中心短暫的不可用也不會影響代理程序的運行。松耦合結(jié)構(gòu)可以大大增強系統(tǒng)的可用性,而且配置中心、代理程序升級的時候不會影響整個系統(tǒng)的正常運行。
為了實現(xiàn)松耦合的結(jié)構(gòu),配置中心與代理程序之間的信息同步我們都是采用的異步處理,比如配置中心向代理程序分發(fā)結(jié)轉(zhuǎn)任務(wù),實際處理的時候我們采用的是拉的方式,而不是推的方式,我們在配置中心和代理程序之間維持了一個心跳,心跳的內(nèi)容是代理程序負(fù)載的所有結(jié)轉(zhuǎn)任務(wù)的校驗碼(該校驗碼在代理程序向配置中心發(fā)送心跳信息時由配置中心計算),當(dāng)代理程序發(fā)現(xiàn)從配置中心得到的校驗碼和本地校驗碼不同時,則說明用戶對結(jié)轉(zhuǎn)任務(wù)進(jìn)行了修改(包括新增、修改、刪除),此時代理程序主動向配置中心發(fā)起同步結(jié)轉(zhuǎn)任務(wù)的請求。這樣做的好處是,代理程序在發(fā)生宕機(jī)重啟后,會自動進(jìn)行任務(wù)的同步。
b) 進(jìn)度可視化
結(jié)轉(zhuǎn)任務(wù)的進(jìn)度在我們的方案中是實時匯總到配置中心的,我們稱為進(jìn)度可視化,代理程序通過一個獨立的線程來異步處理進(jìn)度可視化,一方面這樣可以降低對結(jié)轉(zhuǎn)任務(wù)性能的干擾,另一方面可以避免由于網(wǎng)絡(luò)問題、配置中心暫時不可用等問題導(dǎo)致結(jié)轉(zhuǎn)任務(wù)異常。進(jìn)度可視化對于用戶來說非常重要,用戶在第一次定義結(jié)轉(zhuǎn)任務(wù)并執(zhí)行該任務(wù)的時候,進(jìn)度可視化信息是用戶和系統(tǒng)互動的唯一窗口,對用戶來說是莫大的心理安慰。
c) 異常可視化
代理程序在執(zhí)行數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù)時,會遇到各種異常信息,比如數(shù)據(jù)庫URL配置錯誤,歷史庫生產(chǎn)庫表結(jié)構(gòu)不一致等,對于這些異常信息,除了在本地記錄日志外,我們還將它們發(fā)送到了配置中心。將這些異常可視化,而不是讓用戶在大量的日志中去檢索,這種方式非常便于在線問題的診斷。
d) 事務(wù)一致性
將生產(chǎn)庫數(shù)據(jù)轉(zhuǎn)到歷史庫本身是一個分布式的事務(wù),在我們的方案中,不能保證數(shù)據(jù)的強一致性,比如在歷史數(shù)據(jù)Insert到歷史庫的瞬間,用戶修改了生產(chǎn)庫的數(shù)據(jù),我們的方案不會檢測這種變化,會導(dǎo)致用戶的修改并不會反映到歷史庫中,造成數(shù)據(jù)不一致。雖然在生產(chǎn)庫中刪除歷史數(shù)據(jù)時,可以增加強一致性的校驗,以解決這種問題,但是這樣會對生產(chǎn)庫造成一定的壓力,同時考慮到這種情況發(fā)生的概率極低,因此并沒有進(jìn)行特殊處理。
歷史數(shù)據(jù)Insert到歷史庫后,可能由于某種異常導(dǎo)致生產(chǎn)庫執(zhí)行Delete操作時失敗,此時會造成數(shù)據(jù)冗余(生產(chǎn)庫和歷史庫存在相同數(shù)據(jù))。對于這種問題,我們的方案是利用Redo Log(重做日志)機(jī)制,在結(jié)轉(zhuǎn)任務(wù)重新執(zhí)行時根據(jù)Redo Log恢復(fù)異常現(xiàn)場,糾正異常數(shù)據(jù)。
e) 結(jié)轉(zhuǎn)數(shù)據(jù)的回滾
我們提供了一個數(shù)據(jù)回滾功能,可以將已經(jīng)結(jié)轉(zhuǎn)到歷史庫的數(shù)據(jù)逆向回滾到生產(chǎn)庫,用戶可以配置Where條件精確指定需要回滾的數(shù)據(jù)。有些特殊情況,業(yè)務(wù)上需要對已經(jīng)結(jié)轉(zhuǎn)的歷史數(shù)據(jù)進(jìn)行修改,該功能主要用于處理這種情況。同時在測試階段,我們可以通過該功能快速恢復(fù)測試數(shù)據(jù),方便對數(shù)據(jù)結(jié)轉(zhuǎn)平臺的測試。
f) 代理程序的自動升級
代理程序和配置中心本質(zhì)上是一種典型的C/S(客戶端/服務(wù)端)結(jié)構(gòu),客戶端是多實例部署,服務(wù)器端是集群部署,為了系統(tǒng)能夠平滑地進(jìn)行升級,我們需要對客戶端的版本進(jìn)行統(tǒng)一管理,同時我們提供了代理程序的自動升級功能,系統(tǒng)管理員可以通過配置中心對代理程序部署實例進(jìn)行升級。自動升級功能,統(tǒng)一了代理程序的版本,使得我們可以不用被兼容性問題羈絆,是我們能夠進(jìn)行快速迭代開發(fā)有力支撐。































