華為Universe大數據平臺以及華為的開發案例——潘慶寶
大家好,我是華為Universe平臺的潘慶寶。下面由我來給大家講解一下華為Universe大數據平臺以及我們的開發案例。這是我要演講的內容:***是Universe大數據平臺;第二是案例講解;***是我們的合作案例。
首先介紹一下華為Universe大數據平臺的整體架構。最下面是基礎設施部分,我們Universe平臺可以運行在很多主流Hadoop平臺之上。我們有四個統一和一個洞察。四個統一是:統一分析運行平臺、統一運行開放平臺,統一運行開發平臺,統一治理數據平臺;一個洞察是我們的客戶洞察,上面是我們的分析應用,主要包含營銷管理系統。這是華為Universe平臺的整體架構,大家可以對我們平臺有一個了解。
下面介紹一下我們的主要技術組件,讓大家對我們的平臺功能有進一步的了解。我們的平臺技術組件主要有這么多,給大家簡要介紹一下。
***個是BDI,數據集成,用于批量數據采集處理和統一調度。第二是數據挖掘,提供分布式數據挖掘以及常用挖掘算法。第三是流式處理,實時數據采集處理和實時分析。第四是客戶知識管理,包括客戶畫像、客戶群、屬性和標簽。第五是知識庫、知識發現,互聯網數據爬蟲和客戶上網行為標注。第六是營銷管理,提供一站式營銷管理,實時營銷、精準營銷都可以配置。第七是統一門戶,也就是Universe的訪問入口。第八是策略中心,提供實時決策。第九是數據資產管理。第十是ISA多維報表分析,后面的AS是面向業務人員的自助分析。我們基本上涵蓋了主要的功能。
什么是客戶洞察?主要分兩個組件,***個是Corpus,第二個是Persona。Corpus是知識庫,Persona是客戶管理系統,包括客戶畫像和客戶標簽,創建和訂閱客戶標簽、查詢客戶畫像,快速分析客戶特征,通過客戶畫像可以更好的了解客戶全貌,洞察客戶需求。下面這個圖,就是我們抽象的客戶畫像以及系統展示的過程。我們有一個位置和互聯網數據客戶,隨著標簽越來越細致,就形成了人物畫像。有了位置和客戶畫像,我們就可以做我們的案例了。舉個例子,中間的這個王小小的標簽是非常豐富的,基本上把整個人物畫像已經刻畫好了,她是高工資,單身,喜歡逛國貿商圈,這都是她的標簽,這么多標簽組合在一起就可以完整客戶的畫像,可以分析客戶的全貌,洞察他的需求。這個數據可以提供給上層業務做分析使用。
實時客戶畫像之后肯定有實時數據處理,接下來介紹一下流計算處理架構。我們的流計算是這樣的,實時數據通過流采集進入到我們這里面,通過加工得到時實處理結果,比如說實時決策和實時營銷都需要實時數據支撐的。
下面結合我們的案例,給大家講解一下我們系統是怎么做到的。我們的實時客戶畫像,以前對客戶畫像分析是基于歷史數據的,隨著對業務要求越來越高,實時性也就被提到很重要的位置。這就要求我們對實時人流進行客戶畫像,這是我們實時人流客戶畫像的整體架構。數據員是O域數據,包含互聯網位置和上網數據。通過我們的實時采集進入了我們的系統。這個實時數據一方面供實時流使用,實時流經過我們的處理,就可以生成實時位置數據,也就是我們說的實時人流。另一方面,實時數據會通過數據集成、數據庫和畫像服務就形成了客戶畫像,我們可以通過Streaming的聚合匯總就可以提供實時客戶畫像。我們的結果輸出是輸出到Oracle。這是我們的整體架構。
下面介紹一下這個通過我們系統是怎么實現的。剛才說我們Universe有一個登錄界面,有好多功能都可以在這里配置出來。這是我們的登錄界面,輸入用戶名和密碼就可以登錄了。登錄之后,我們會看到一個數據治理和實時采集的功能。因為是大數據,肯定要有數據,所以數據采集是我們的***步。我們的Universe數據實時采集已經實現了可配置無碼化。我們實時采集的這些都是非常豐富的,我們實時采集的是Sdtp source,根據移動集團規范我們自主開發的實時采集系統。Sdtp規范是移動集團的統一DPI技術規范,也是統一合成接口規范,大家如果想了解也可以線下了解一下。通過我們的sdtp sourse可以把O域等等實時接進來。包括我們還有過濾等好多處理,可以同時形成卡夫卡(音)和SDVS(音)。這就是我們的數據采集,有了數據之后就可以做下一步,下一步就是客戶畫像了。
客戶畫像的***步是必須要有標簽,所以我們的***步就是配置標簽。配置標簽肯定要有規則,比如說什么時間、什么地點、做了什么事情的人,這就是規則。我們這里有一個標簽的匹配規則。這個規則是什么呢?我們有一個組合匹配規則,就是多個規則會聚在一起,我們定義的組合匹配規則就是什么時間、什么地點、用什么、做了什么事情,這就是我們的組合匹配規則。
大家可以看一下我們組合規則的配置頁面,比如說15點到17點的時候,在火車站附近使用了iPad,訪問了起點APP,訪問起點中文網,行為是瀏覽,閱讀的主題是穿越的小說。這里有時間、有位置、有終端,還有行為,包括做了什么事情。這就是一個組合規則,通過組合規則可以生成對應的標簽,有了標簽之后才能對客戶進行客戶畫像,這是一個整體的流程。APP網站、行為是怎么來的?包括起點、美團這些怎么來的?我們通過波測得到原始數據,通過分析構建最終形成了一個知識庫。
我們定義好組合規則是不是有標簽了?不是,定義好規則之后,點了提交之后,后臺會自動生成兩個流程,一個是數據流,一個是控制流,大家可以看到。什么是數據流,什么是控制流呢?數據流就是大家現在看到的界面,點開數據流之后會生成這樣一個流程。數據流是我們對哪一些數據做分析處理,處理完之后,最終放到什么地方去,比如說我對剛剛采集的數據做處理,根據我們配置的標簽組合規則,處理完之后就會生成我們定義的標簽,這就是我們的數據流。這個數據流什么時候執行呢?是由我們剛才說的控制流來控制。大家可以看一下我們的控制流,控制流可以設置執行時間,主要是兩個時間,***個是數據什么時候執行;第二個是執行什么時候的數據。比如說我定義今天下午15點執行分析昨天的數據,在這里就可以配置。配置好之后,15點的時候就會自動執行我的數據流。當我的數據流執行完之后,我們的標簽就生成了。標簽生成之后就可以進行客戶畫像了。這是我們的客戶畫像界面,我們可以新建客戶畫像。客戶畫像肯定要用標簽,客戶畫像這里可以選擇多個標簽。當這個人物的客戶畫像完成之后,就可以根據手機號去搜索,搜索了之后可以展現出這個人物的客戶畫像。這是我們客戶畫像整個的系統設計,從數據采集到客戶畫像標簽的整體流程。
下面講一下獲得數據的數據流程。首先,我們采集到的數據是什么樣的?這是我們的模擬數據,主要包含幾個信息,***個是手機號,標識是唯一的一個人。第二個是經緯度,主要是標識客戶的位置。第三個是互聯網訪問,這是構造客戶畫像。
我們的位置信息是怎么來的呢?大家知道我們上網的基站的工程施工表可以知道確定位置,有了位置可以確定手機號,出現在基站的是哪個人,可以確定一個位置,當然這是一個位置范圍。有了位置之后,我們就能得到實時人流了,然后就有了可取畫像。實時人流+客戶畫像,組合在一起,那就是實時人流客戶畫像。下面是結果輸出,比如說哪個位置閱讀了全程的流程,根據我們的標簽配置規則,有幾個人也可以統計出來。
這是我們的案例,給大家講案例的目的是展示一下平臺的能力,主要是云計算和客戶畫像這一部分。希望大家能夠對我們的Universe平臺有一個大概的了解。
接下來講一下我們的合作案例,講一下用我們Universe已經做了一些什么,包括已經做好的成果。這是我們與海捷科技合作的一個基于電信數據的旅游分析應用。這個界面是分析當前入島人數。這個是利用我們Universe平臺的采集和實時處理、客戶畫像等能力做的一個分析。大家可以看到,這個界面可以實時統計當前的入島人數,比如說廣東、上海這個時間點累計有多少人入島。右邊展示的是***0的省份,比如說廣東人最多,上海第二。另外,我們還可以對入島人的性別和年齡做實時分析,所以可以用到客戶畫像和數據庫等內容。
下一個案例是熱點地區的實時人流,這就展示了海南島每個區域的實時人流情況。這是怎么做的呢?我們根據電信領域的實時數據,通過我們的Streaming的實時采集,再經過我們Universe的處理,然后就得到了每個區域的實時人流數據。以前一般都是對歷史數據做分析,實時性是遠遠不夠的,現在可以對實時數據做分析,從數據采集到分析完出結果,我們是秒級別的,一般30秒以內可以從實時數據到結果輸出。這是海南島每個區的實時人流,包括熱門景點的具體人流數,包括這個***0。
***這個是海南島的輿情分析,用了Universe的知識庫、知識發現和互聯網爬蟲等功能。第二個是輿情的TOP5,包括輿情趨勢。
上面介紹了Universe的功能、架構和主要能力,包括我們的案例,***也介紹了合作樣例,希望大家能對Universe大數據有一個整體的理解,也歡迎大家報名參加華為Universe大數據的賽題。





















