巨杉數(shù)據(jù)庫:近線數(shù)據(jù)服務(wù)平臺,激活金融業(yè)務(wù)創(chuàng)新
近年來,大數(shù)據(jù)概念早已在國內(nèi)銀行業(yè)中大規(guī)模普及,越來越多的企業(yè)開始嘗試借助大數(shù)據(jù)技術(shù)的力量,來推動企業(yè)內(nèi)部與外部的創(chuàng)新。但是,由于大數(shù)據(jù)與傳統(tǒng)技術(shù)的理念與技術(shù)差異,導(dǎo)致很多銀行和企業(yè)在實(shí)施大數(shù)據(jù)戰(zhàn)略的過程當(dāng)中,遇到各種各樣的問題。因此,如何使用正確的方法和步驟運(yùn)用大數(shù)據(jù)技術(shù),是眾多金融服務(wù)機(jī)構(gòu)在試水大數(shù)據(jù)技術(shù)時首先遇到的難題。
近線數(shù)據(jù)服務(wù)平臺,是大數(shù)據(jù)技術(shù)在銀行業(yè)中的一類平臺性應(yīng)用。其核心的理念在于,以大數(shù)據(jù)技術(shù)為基礎(chǔ),將全量數(shù)據(jù)從離線與近線系統(tǒng)中統(tǒng)一復(fù)制到近線平臺,使得該平臺保存企業(yè)中全量核心數(shù)據(jù)。近線數(shù)據(jù)服務(wù)平臺的業(yè)務(wù)價值目標(biāo)包括“離線數(shù)據(jù)近線化”與“近線數(shù)據(jù)瘦身”。
離線數(shù)據(jù)近線化:銀行中的離線數(shù)據(jù)一般包括2年或以上的歷史數(shù)據(jù)。當(dāng)這些數(shù)據(jù)不需要被在線或近線系統(tǒng)訪問時,它們會被從生產(chǎn)庫卸載并被存放于磁帶或光盤庫等靜態(tài)介質(zhì)中。一般來說,當(dāng)行內(nèi)人員需要訪問這些數(shù)據(jù)時,需要花費(fèi)大量的精力和時間找到并將這些數(shù)據(jù)恢復(fù)到臨時訪問環(huán)境。而離線數(shù)據(jù)近線化,則是借助大數(shù)據(jù)海量存儲空間以及對這些數(shù)據(jù)的計(jì)算能力,將原本無法被直接訪問的數(shù)據(jù),以相對低廉的成本做到近線化,對行內(nèi)行外人員提供歷史數(shù)據(jù)查詢檢索服務(wù)。
近線數(shù)據(jù)瘦身:很多銀行的近線數(shù)據(jù)存儲在ODS或數(shù)倉中。而隨著業(yè)務(wù)規(guī)模的擴(kuò)大,企業(yè)一方面需要不斷對近線數(shù)據(jù)進(jìn)行歸檔,另一方面需要不斷對這些系統(tǒng)進(jìn)行擴(kuò)容。而以傳統(tǒng)關(guān)系型數(shù)據(jù)庫為基礎(chǔ)的ODS或數(shù)倉的擴(kuò)容成本相當(dāng)高昂,因此,以大數(shù)據(jù)分布式計(jì)算存儲為平臺,將部分ODS或數(shù)倉的功能轉(zhuǎn)移至近線數(shù)據(jù)平臺,可以實(shí)現(xiàn)對當(dāng)前ODS或數(shù)倉系統(tǒng)的瘦身。
除了“離線數(shù)據(jù)近線化”與“近線數(shù)據(jù)瘦身”兩大業(yè)務(wù)目標(biāo)外,近線數(shù)據(jù)服務(wù)平臺的搭建圍繞著初期投入小、見效快、以及安全可靠三大目標(biāo)建設(shè)。
近線數(shù)據(jù)服務(wù)平臺的整體架構(gòu)包括“近線數(shù)據(jù)歸檔區(qū)”、“固定模式訪問區(qū)”、“自由查詢數(shù)據(jù)區(qū)”以及“數(shù)據(jù)加工調(diào)度區(qū)”四大模塊。
典型近線數(shù)據(jù)平臺架構(gòu)圖
近線數(shù)據(jù)歸檔區(qū):其中,近線數(shù)據(jù)歸檔區(qū)作為外部數(shù)據(jù)在近線數(shù)據(jù)平臺中的拷貝,除了作為數(shù)據(jù)源提供給數(shù)據(jù)加工調(diào)度區(qū)進(jìn)行加工外,還承載著對關(guān)鍵業(yè)務(wù)數(shù)據(jù)的歸檔功能。業(yè)務(wù)數(shù)據(jù)一旦進(jìn)入近線數(shù)據(jù)歸檔區(qū),便無法通過任何方式進(jìn)行改變。因此,該區(qū)域可以替代傳統(tǒng)磁帶的部分功能。
數(shù)據(jù)加工調(diào)度區(qū):數(shù)據(jù)加工調(diào)度區(qū)作為另外三大數(shù)據(jù)存儲區(qū)的銜接層,一方面負(fù)責(zé)對近線數(shù)據(jù)歸檔區(qū)中的數(shù)據(jù)進(jìn)行加工、清洗、去范式化等操作,以提供給固定模式訪問區(qū)進(jìn)行定制化查詢;另一方面則負(fù)責(zé)將自由查詢數(shù)據(jù)區(qū)中不存在、或被刪除的數(shù)據(jù)在訪問時動態(tài)地實(shí)時復(fù)制到指定區(qū)域。
固定模式查詢區(qū):固定模式查詢區(qū)則提供對銀行內(nèi)外部應(yīng)用的固定查詢。例如,對于ECIF、回單等模式較為固定的查詢業(yè)務(wù),完全可以通過數(shù)據(jù)加工調(diào)度區(qū)將原始?xì)w檔數(shù)據(jù)定期去范式化并構(gòu)建索引,來滿足銀行對歷史數(shù)據(jù)在線檢索查詢的需求。去范式化后的寬表數(shù)據(jù)可以被存儲在固定模式查詢區(qū),以獨(dú)立的硬件和網(wǎng)絡(luò)滿足高并發(fā)對外業(yè)務(wù)的查詢功能,保證自由查詢與離線分析對該區(qū)域的業(yè)務(wù)不會造成任何影響。
自由查詢數(shù)據(jù)區(qū):自由查詢數(shù)據(jù)區(qū)則是近線數(shù)據(jù)歸檔區(qū)的子集,包含近線數(shù)據(jù)歸檔區(qū)內(nèi)全部表的定義以及每個表的全部或部分?jǐn)?shù)據(jù)。該區(qū)域的數(shù)據(jù)可以開放給行內(nèi)用戶進(jìn)行自由查詢分析,并通過數(shù)據(jù)加工調(diào)度區(qū)動態(tài)識別需要訪問表的數(shù)據(jù)范圍,并動態(tài)地將不存在于自由查詢區(qū)內(nèi)的數(shù)據(jù)從近線數(shù)據(jù)歸檔區(qū)進(jìn)行復(fù)制。該區(qū)域與近線數(shù)據(jù)歸檔區(qū)進(jìn)行隔離的目的在于,確保任何數(shù)據(jù)訪問均不會對已經(jīng)歸檔的數(shù)據(jù)造成影響。同時,當(dāng)該數(shù)據(jù)區(qū)空間占用較多時,可以通過腳本將不常訪問的表中的數(shù)據(jù)清除以釋放空間。
通過近線數(shù)據(jù)服務(wù)平臺的歸檔與自由查詢區(qū),企業(yè)可以實(shí)現(xiàn)對傳統(tǒng)離線與近線數(shù)據(jù)的近線化與瘦身操作。同時,固定模式查詢區(qū)甚至可以將這些數(shù)據(jù)提供給銀行對最終用戶的應(yīng)用。譬如,銀行可以從這四個方面實(shí)現(xiàn)以近線數(shù)據(jù)平臺為基礎(chǔ)的應(yīng)用創(chuàng)新:
1)離線數(shù)據(jù)近線化:業(yè)務(wù)系統(tǒng)數(shù)據(jù)同意歸檔、歷史交易流水在線查詢等;
2)自由查詢:行內(nèi)自助報表系統(tǒng)、司法查詢系統(tǒng)等;
3)生產(chǎn)系統(tǒng)瘦身:數(shù)倉與ODS瘦身、T+0用戶實(shí)時資產(chǎn)視圖;
4)分布式影像平臺:影像憑證管理、遠(yuǎn)程開戶錄像等。
SequoiaDB巨杉數(shù)據(jù)庫,結(jié)合Spark大數(shù)據(jù)技術(shù),能夠滿足近線數(shù)據(jù)服務(wù)平臺端到端的搭建工作。SequoiaDB提供的分布式框架滿足分布式、高可用、高性能、易維護(hù)等特性,同時其多維分區(qū)、靈活索引、雙引擎內(nèi)核、以及標(biāo)準(zhǔn)SQL支持等特性為企業(yè)級近線數(shù)據(jù)服務(wù)平臺奠定了***的數(shù)據(jù)存儲與計(jì)算基礎(chǔ)。
SequoiaDB 2.6 社區(qū)版已經(jīng)正式發(fā)布,為SequoiaDB 2.0之后收個社區(qū)版本,增加更多新功能,歡迎前往下載試用和吐槽!



























