馬蜂窩大數據架構詳解：小白都能懂的數據倉庫與數據中臺

作者：馬蜂窩技術團隊 2019-12-17 14:59:27

開發架構大數據數據倉庫中臺

最近幾年，數據中臺概念的熱度一直不減。2018 年起，馬蜂窩也開始了自己的數據中臺探索之路。數據中臺到底是什么?要不要建?和數據倉庫有什么本質的區別?相信很多企業都在關注這些問題。

一、馬蜂窩數據倉庫與數據中臺

最近幾年，數據中臺概念的熱度一直不減。2018 年起，馬蜂窩也開始了自己的數據中臺探索之路。

數據中臺到底是什么?要不要建?和數據倉庫有什么本質的區別?相信很多企業都在關注這些問題。

我認為數據中臺的概念非常接近傳統數據倉庫+大數據平臺的結合體。它是在企業的數據建設經歷了數據中心、數據倉庫等積累之后，借助平臺化的思路，將數據更好地進行整合與統一。

所以，數據中臺更多的是體現一種管理思路和架構組織上的變革。在這樣的思想下，我們結合自身業務特點建設了馬蜂窩的數據中臺，核心架構如下：

在中臺建設之前，馬蜂窩已經建立了自己的大數據平臺，并積累了一些通用、組件化的工具，這些可以支撐數據中臺的快速搭建。作為中臺的另一大核心部分，馬蜂窩數據倉庫主要承擔數據統一化建設的工作，包括統一數據模型，統一指標體系等。下面介紹馬蜂窩在數據倉庫建設方面的具體實踐。

二、數據倉庫核心架構

馬蜂窩數據倉庫遵循標準的三層架構，對數據分層的定位主要采取維度模型設計，不會對數據進行抽象打散處理，更多注重業務過程數據整合。現有數倉主要以離線為主，整體架構如下：

如圖所示，共分為 3 層：業務數據層、公共數據層與應用數據層，每層定位、目標以及建設原則各不相同。

三、數據模型設計

3.1 方法選擇

數據模型是對現實世界數據特征的抽象，數據模型的設計方法就是對數據進行歸納和概括的方法。目前業界主要的模型設計方法論有兩種，一是數據倉庫之父 Bill Inmon 提出的范式建模方法，又叫 ER 建模，主張站在企業角度自上而下進行數據模型構建;二是 Ralph Kimball 大師倡導的維度建模方法，主張從業務需求出發自下而上構建數據模型。

大數據環境下，業務系統數據體系龐雜，數據結構多樣、變更頻繁，并且需要快速響應各種復雜的業務需求，以上兩種傳統的理論都已無法滿足互聯網數倉需求。

在此背景下，馬蜂窩數據倉庫采取了「以需求驅動為主、數據驅動為輔」的混合模型設計方式，來根據不同的數據層次選擇模型。

3.2 設計流程

馬蜂窩數倉模型設計的整體流程涉及需求調研、模型設計、開發測試、模型上線四個主要環節，且規范設計了每個階段的輸出與輸入文檔。

3.3 主題分類

基于對目前各個部門和業務系統的梳理，馬蜂窩數據倉庫共設計了 4 個大數據域(交易、流量、內容、參與人)，細分為 11 個主題：

以馬蜂窩訂單交易模型的建設為例，基于業務生產總線的設計是常見的模式，即首先調研訂單交易的完整過程，定位過程中的關鍵節點，確認各節點上發生的核心事實信息。模型是數據的載體，我們要做的就是通過模型(或者說模型體系)歸納生產總線中各個節點發生的事實信息。

訂單生產總線：

如上圖所示，我們需要提煉各節點的核心信息，為了避免遺漏關鍵信息，一般情況下抽象認為節點的參與人、發生時間、發生事件、發生協議屬于節點的核心信息，需要重點獲取。以下單節點為例，參與人包括下單用戶、服務商家、平臺運營人員等;發生時間包括用戶的下單時間、商家的確認時間等;發生的事件即用戶購買了商品，需要記錄圍繞這一事件產生的相關信息;發生協議即產生的訂單，訂單金額、約定內容等都是我們需要記錄的協議信息。

在這樣的思路下，總線架構可以在模型中不斷添加各個節點的核心信息，使模型支撐的應用范圍逐步擴展、趨于完善。因此，對業務流程的理解程度將直接影響產出模型的質量。