關(guān)于數(shù)據(jù)增量抽取模擬實現(xiàn)原理

作者：bq_wang 2009-01-16 14:22:27

ETL是數(shù)據(jù)倉庫的一個重要處理環(huán)節(jié)，Extract即是從業(yè)務(wù)數(shù)據(jù)庫中抽取數(shù)據(jù),Transform即是根據(jù)業(yè)務(wù)邏輯規(guī)則對數(shù)據(jù)進行加工的過程，Load即是把數(shù)據(jù)加載到數(shù)據(jù)倉庫的過程。

通常為了盡可能的減少對業(yè)務(wù)系統(tǒng)的壓力和性能影響，或者因為網(wǎng)絡(luò)傳輸異構(gòu)數(shù)據(jù)庫等原因，一般都是根據(jù)特定的增量抽取原則，將數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫導(dǎo)出到flat文本文件或者XML文件中，也叫數(shù)據(jù)緩存區(qū)或者數(shù)據(jù)登臺區(qū)(這名字起得特別別扭)。本文討論的是從業(yè)務(wù)數(shù)據(jù)庫直接抽取到數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是一種體系架構(gòu)，而不是一種純粹的技術(shù)。實際上，大多數(shù)數(shù)據(jù)庫都提供了類似的不同數(shù)據(jù)庫直接連接的接口，例如SQL Server的鏈接數(shù)據(jù)庫，Oracle的透明網(wǎng)關(guān)等等。

關(guān)于數(shù)據(jù)的增量抽取也是一個重要的討論話題，其原因主要是在超大數(shù)據(jù)量情況下任何關(guān)系數(shù)據(jù)庫都無法滿足數(shù)據(jù)處理的要求。在《數(shù)據(jù)倉庫》(Inmon)一書中，主要描述了以下3種方法：

1.數(shù)據(jù)增量抽取，主要是基于時間戳的；

2.掃描增量文件，實際上就是關(guān)系數(shù)據(jù)庫的歸檔日志；

3.前后映像對比。

當(dāng)然每種方法都有其優(yōu)勢和劣勢，本文旨在討論基于時間戳的數(shù)據(jù)增量抽取的實現(xiàn)，無意探討和比較這三種方法的優(yōu)劣。

當(dāng)然在進行基于時間戳的數(shù)據(jù)增量處理之前，首先要滿足以下假設(shè)：

1.假設(shè)在業(yè)務(wù)數(shù)據(jù)庫中存在著一個特定的時間屬性，作為增量抽取的唯一標(biāo)識；

2.假設(shè)在這個字段上存在著索引字段。這樣我們的數(shù)據(jù)增量抽取模擬腳本就不會遭遇到性能瓶頸。當(dāng)然我們還會通過將大事務(wù)盡可能變成小事務(wù)的原則進行優(yōu)化；

3.假設(shè)業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫能夠以某種方式直接連接；

4.抽取過程中，盡量避免數(shù)據(jù)轉(zhuǎn)換、清洗的動作，以減少對業(yè)務(wù)數(shù)據(jù)庫的性能影響；

在滿足了以上條件之后，我們才能進一步考慮數(shù)據(jù)增量抽取腳本的實現(xiàn)。

1.建立鏈接數(shù)據(jù)庫；

2.首先需要定義一張數(shù)據(jù)字典表，定義需要進行處理的任務(wù)，其中主要包括業(yè)務(wù)數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫的表名、字段列表、以及where條件等；

3.有了這張字典表就可以開始進行工作了，為了方便表達，暫時處理成偽代碼形式，同時只以一個表的處理為例。

◆獲取數(shù)據(jù)倉庫目標(biāo)表目前的***時間(讀取字典表或者當(dāng)前表均可)

◆獲取業(yè)務(wù)數(shù)據(jù)庫業(yè)務(wù)表目前的***時間(需要到業(yè)務(wù)系統(tǒng)中去讀取)

◆如果業(yè)務(wù)數(shù)據(jù)庫業(yè)務(wù)表數(shù)據(jù)為空，退出執(zhí)行

◆如果數(shù)據(jù)倉庫為空，業(yè)務(wù)數(shù)據(jù)庫不為空，則再次讀取業(yè)務(wù)數(shù)據(jù)庫最小時時間

◆如果均不為空，則設(shè)置開始抽取最小時間和***時間

◆***時間設(shè)置為整點

◆根據(jù)控制事務(wù)處理大小的粒度，進行循環(huán)抽取

◆拼寫SQL語句，寫成類似以下的形式

INSERT INTO TargetTable (TargetFieldList) 
　　SELECT SourceFieldList FROM SourceTable 
　　WHERE WhereFieldName> BeginDate 
　　AND WhereFieldName< BeginDate+粒度

◆處理狀態(tài)寫入該字典表

4.有一點要主要的是，在SQL Server中有兩種使用鏈接數(shù)據(jù)庫的方法：

OPENQUERY ( linked_server , 'query' )

linked_server_name.catalog.schema.object_name的四部分名稱

這兩種方法各有利弊，第二種容易閱讀一些;***種方法據(jù)說把語句提交到源數(shù)據(jù)庫執(zhí)行的，效率可能會高些(實際的資料并未找到)。

其次這兩種方法在使用起來語法有點差別，***種方法采用的是宿主數(shù)據(jù)庫的語法形式，第二種方法采用的是SQLServer本身的語法形式。因此在寫腳本的時候也會有所不同。主要差別是在字段列表和條件處，暫時采用***種方式。

【編輯推薦】

Oracle 11g R1中AWR基線增強
Oracle 11g R1中大小寫敏感的密碼
解析Oracle 11g閃回數(shù)據(jù)歸檔新功能

責(zé)任編輯：楊鵬飛來源：百度blog

ETL Extract 數(shù)據(jù)增量抽取數(shù)據(jù)庫