打破數(shù)據(jù)統(tǒng)一的七大原則
數(shù)據(jù)統(tǒng)一在數(shù)據(jù)分析領(lǐng)域里是個(gè)長期的挑戰(zhàn),從事數(shù)據(jù)分析的從業(yè)者希望在數(shù)據(jù)分析之前,來自不同實(shí)體的數(shù)據(jù)能夠在同一個(gè)地方呈現(xiàn)出來。數(shù)據(jù)統(tǒng)一由七部分組成:1、獲取數(shù)據(jù) 2、清洗數(shù)據(jù) 3、轉(zhuǎn)換數(shù)據(jù)、4、模式集成 5、重復(fù)數(shù)據(jù)刪除、6、分類 7、導(dǎo)出。
一般而言,企業(yè)實(shí)現(xiàn)數(shù)統(tǒng)一有兩種方法,提取轉(zhuǎn)換加載(ETL)和主數(shù)據(jù)管理(MDM)。
提取轉(zhuǎn)換加載(ETL)具有靈活性的優(yōu)勢,適合不同的數(shù)據(jù)來源,使程序員可以手工編寫轉(zhuǎn)換程序,能夠確保源數(shù)據(jù)模式與集中式數(shù)據(jù)倉庫項(xiàng)目采用的全局模式匹配。但由于自動(dòng)化程度低,提取轉(zhuǎn)換加載帶寬能超過20個(gè)數(shù)據(jù)源沒有多少家公司。
主數(shù)據(jù)管理(MDM),它與ETL類似的地方在于,預(yù)設(shè)一個(gè)“主記錄”,每一個(gè)有專門的類別選項(xiàng)。如客戶、部件和供應(yīng)商等的所有文件符合主記錄格式。但和ETL有所區(qū)別的是,MOM不是使用手動(dòng)的定制腳本,而是依靠一套“模糊合并”規(guī)則,把所有不同的文件轉(zhuǎn)換成主格式。
可難解的是,在數(shù)據(jù)量過大的情況下,不管是ETL還是MDM,都無法解決數(shù)據(jù)統(tǒng)一難題。加上大數(shù)據(jù)集的龐大規(guī)模以及對程序員的苛刻要求任何的可規(guī)模化數(shù)據(jù)統(tǒng)一項(xiàng)目都必須在很大程度上實(shí)現(xiàn)自動(dòng)化,不能依靠手動(dòng)編寫的程序。
著名計(jì)算機(jī)科學(xué)家、Tamr聯(lián)合創(chuàng)始人兼***技術(shù)官邁克爾·斯通布雷克(Michael Stonebraker)針對數(shù)據(jù)統(tǒng)一存在的限制難題,提出數(shù)據(jù)統(tǒng)一的七條原則。
一、所有的可規(guī)模化系統(tǒng),都必須自動(dòng)進(jìn)行絕大多數(shù)的操作。
二、模式為先(schema-first)的產(chǎn)品永遠(yuǎn)無法規(guī)模化。唯一的選擇是采用‘模式為后’(schema-last)的產(chǎn)品。
三、需要進(jìn)行具體的域操作時(shí),只有協(xié)作性的系統(tǒng)才可實(shí)現(xiàn)規(guī)模化。
四、為了實(shí)現(xiàn)可規(guī)模化,任何的統(tǒng)一計(jì)算必須在多個(gè)核心和多個(gè)處理器上運(yùn)行。
五、盡管存在第四條原則,但真正的可擴(kuò)展應(yīng)用需要復(fù)雜性低于N ** 2的并行算法。
六、規(guī)則系統(tǒng)實(shí)現(xiàn)是無法規(guī)模化的。只有機(jī)器學(xué)習(xí)系統(tǒng)才能將規(guī)模擴(kuò)展到大公司所需要的程度。
七、必須支持實(shí)時(shí)增量統(tǒng)一。























