阿里數(shù)據(jù)治理進(jìn)化論:基于瓴羊Dataphin的多引擎兼容與統(tǒng)一資產(chǎn)消費實踐
隨著十四五“數(shù)字中國”規(guī)劃的不斷深入,我國企業(yè)對數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)建設(shè)的廣闊需求依然亟待激活。不過,由于數(shù)據(jù)分析領(lǐng)域長期處于高速發(fā)展階段,加上國內(nèi)參差不齊的供給現(xiàn)狀,“看不懂”、“跟不上”、“學(xué)不會”、“用不起”仍是大多數(shù)企業(yè)的真實感受。
從ELT、Data Fabric、Semantic Layer、DataOps,再到Lakehouse和流批一體,近幾年,全球數(shù)據(jù)分析領(lǐng)域的“熱詞”層出不窮、令人目不暇接。行業(yè)發(fā)展脈絡(luò)存在共性,細(xì)究其中,可以提煉出三大主題:統(tǒng)一的基礎(chǔ)設(shè)施、統(tǒng)一的中間層、統(tǒng)一的數(shù)據(jù)資產(chǎn)。
瓴羊「數(shù)據(jù)薈」數(shù)據(jù)Meet Up 第3站線上開講,來自中國信通院、瓴羊與企業(yè)大數(shù)據(jù)團(tuán)隊的多位技術(shù)專家齊聚一堂,共話大模型時代的數(shù)據(jù)治理創(chuàng)新實踐。阿里云智能集團(tuán)瓴羊高級技術(shù)專家江嵐以Dataphin為例,從多引擎兼容、混合云架構(gòu)、統(tǒng)一資產(chǎn)消費的應(yīng)對策略,分享了“開放、兼容的數(shù)據(jù)建設(shè)與治理平臺”的技術(shù)架構(gòu)與實踐路徑。
作為阿里巴巴全資子公司瓴羊的代表產(chǎn)品,Dataphin長期專注于數(shù)據(jù)治理環(huán)節(jié),通過運用阿里巴巴“OneData”方法論,持續(xù)打造統(tǒng)一的數(shù)據(jù)基建、高質(zhì)量的數(shù)據(jù)資產(chǎn)。近日,瓴羊Dataphin宣布全新功能升級,推出Dataphin敏捷版、半托管及DataAgent智能體,以更普惠、可擴展性和開放性的架構(gòu)更新,為廣大企業(yè)“建好數(shù)據(jù)”、“用好數(shù)據(jù)”打好基礎(chǔ)。分析人士認(rèn)為,瓴羊Dataphin的本輪升級,是其一次意義重大的變化,反映了能力架構(gòu)、底層技術(shù)的全面演進(jìn)。
一、從混合云架構(gòu)到安全管控,企業(yè)數(shù)據(jù)治理面臨哪些挑戰(zhàn)?
瓴羊,脫胎于阿里巴巴這座“超級工廠”的數(shù)字化實踐,旨在將內(nèi)部經(jīng)驗系統(tǒng)化、產(chǎn)品化地向千行百業(yè)進(jìn)行輸出。作為瓴羊旗下的智能數(shù)據(jù)建設(shè)與治理工具,Dataphin能夠提供一站式的采、建、管、用的大數(shù)據(jù)能力,涵蓋企業(yè)數(shù)據(jù)資產(chǎn)的建設(shè)、治理、消費等不同環(huán)節(jié)。自2018年上線以來,瓴羊Dataphin已服務(wù)了百余家客戶,覆蓋了餐飲、通信、乳品、汽車等多個行業(yè)。
以往,用戶在使用Dataphin時,首要任務(wù)是配置集成管道,將業(yè)務(wù)庫數(shù)據(jù)同步至數(shù)據(jù)庫,并通過代碼研發(fā)、規(guī)范建模等多種方式對數(shù)據(jù)進(jìn)行加工處理。加工后的數(shù)據(jù)或通過集成管道任務(wù)回流至用戶生產(chǎn)庫,或通過配置數(shù)據(jù)服務(wù)API供下游系統(tǒng)使用。
在服務(wù)合作伙伴的過程中,瓴羊Dataphin發(fā)現(xiàn),由于部署環(huán)境、引擎類型、治理目標(biāo)等方面的差異,企業(yè)數(shù)據(jù)治理的需求變得越發(fā)精細(xì)和復(fù)雜,給平臺既有的功能提出了諸多挑戰(zhàn)。

一方面,許多企業(yè)迫切需要打通整個數(shù)據(jù)生產(chǎn)消費鏈路,不只限于傳統(tǒng)的數(shù)據(jù)倉庫環(huán)節(jié),而是實現(xiàn)全域的數(shù)據(jù)資產(chǎn)治理。另一方面,不少企業(yè)的數(shù)據(jù)資產(chǎn)不再處于單一云環(huán)境,而是既涉及公共云、也涉及線下IDC機房,因而需要支持混合云架構(gòu)的數(shù)據(jù)治理工具。同時,不少企業(yè)開展信創(chuàng)工作,眾多國產(chǎn)化的引擎確實給兼容適配帶來了不小的挑戰(zhàn)。
因此,本輪產(chǎn)品升級的背后,是瓴羊Dataphin圍繞數(shù)據(jù)治理的一線場景需求,通過持續(xù)的研發(fā)投入和自我迭代,實現(xiàn)了“多引擎適配”、“混合云統(tǒng)一調(diào)度”、“統(tǒng)一消費出口”三個層面的全新升級,從而與諸多企業(yè)伙伴共同進(jìn)步,更好順應(yīng)“統(tǒng)一基建”、“全域治理”的行業(yè)發(fā)展趨勢。
二、從多引擎兼容到統(tǒng)一資產(chǎn)消費,Dataphin的成果與經(jīng)驗
企業(yè)所使用的引擎各不相同,如果沒有一個設(shè)計良好的多引擎中間件,就有可能帶來重復(fù)的引擎對接成本,乃至潛在的類沖突和處理邏輯不一致的風(fēng)險。如何適配數(shù)據(jù)庫產(chǎn)業(yè)生態(tài)現(xiàn)存的眾多引擎,是擺在瓴羊Dataphin面前的第一項難題。
目前,多引擎適配模式存在富客戶端、輕客戶端兩種模式。富客戶端直接對接引擎,網(wǎng)絡(luò)開銷少,且無單點瓶頸的風(fēng)險;輕客戶端壓力小,無類沖突風(fēng)險,且服務(wù)端可實現(xiàn)統(tǒng)一版本管理。

瓴羊Dataphin結(jié)合富/輕客戶端兩者優(yōu)勢,通過“多引擎SDK+插件”的模式,提煉出了SQL、File、Schema三大API接口,每種插件相互獨立的同時,還增設(shè)了類隔離的機制,確保多引擎的處理邏輯對業(yè)務(wù)代碼沒有侵入,最終通過JAR包的合并,有效減少了部署資源。截至目前,瓴羊Dataphin不僅支持公共云多租戶、獨立部署、私有云部署等環(huán)境,還實現(xiàn)了對MaxCompute、EMR、CDH等十余種主流大數(shù)據(jù)計算引擎的適配,通過插件化模式,也降低了后續(xù)新引擎的兼容成本。
混合云架構(gòu)方面的挑戰(zhàn)則更加復(fù)雜:有的企業(yè)出于信息安全性考慮,部分業(yè)務(wù)只能存于線下IDC機房,同時擁有公共云和私有云環(huán)境,導(dǎo)致管理和運維的難度大大增加。

為此,瓴羊Dataphin采用了外部調(diào)度集群技術(shù)可以同時管理多個Kubernetes集群的資源,由調(diào)度模塊負(fù)責(zé)在指定的集群上拉取任務(wù)配置并調(diào)起任務(wù)。這一設(shè)計使得平臺能夠高效地在混合云環(huán)境中調(diào)度和執(zhí)行數(shù)據(jù)任務(wù),有效避免跨網(wǎng)絡(luò)的訪問限制,并大大提升集成性能。
具體而言,在數(shù)據(jù)集成場景,瓴羊Dataphin實現(xiàn)了一套集群對多個云環(huán)境的調(diào)度,僅任務(wù)調(diào)度需要跨網(wǎng)絡(luò),而數(shù)據(jù)本身無需經(jīng)過專線網(wǎng)絡(luò)傳輸,降低了跨網(wǎng)絡(luò)傳輸?shù)某杀竞蛷?fù)雜性。而在資產(chǎn)采集場景,平臺通過配置元數(shù)據(jù)采集任務(wù),手動或周期性地運行采集任務(wù),將采集到的資產(chǎn)元數(shù)據(jù)寫入存儲,以供后續(xù)的數(shù)據(jù)消費鏈路使用。此外,瓴羊Dataphin通過于外部集群中拉起的數(shù)據(jù)服務(wù)常駐容器,確保了數(shù)據(jù)服務(wù)場景的靈活性、安全性和隱私性。
在數(shù)據(jù)資產(chǎn)消費時,企業(yè)常常面臨著資產(chǎn)分散、權(quán)限管理不一致、使用鏈路長等問題。為了實現(xiàn)統(tǒng)一的資產(chǎn)消費,瓴羊Dataphin提供了標(biāo)準(zhǔn)的JDBC接口,通過多引擎插件對接底層數(shù)據(jù)庫,打造了唯一的消費出口,實現(xiàn)了對底層數(shù)據(jù)的統(tǒng)一訪問。

更值得注意的是,Dataphin還實現(xiàn)了瓴羊旗下BI工具——QuickBI的無縫對接,資產(chǎn)消費可以自動創(chuàng)建QuickBI的數(shù)據(jù)源以及數(shù)據(jù)集,并且減少用戶查看數(shù)據(jù)的操作成本。
目前,Dataphin提供了豐富的資產(chǎn)消費方式,不論是自助取數(shù)、數(shù)據(jù)探查還是接口調(diào)用,企業(yè)無需復(fù)雜處理鏈路,即可輕松實現(xiàn)數(shù)據(jù)分析和可視化展示。

三、從全域資產(chǎn)運營到AI+,數(shù)據(jù)資產(chǎn)運營將去向何方?
在企業(yè)數(shù)字化浪潮中,有越來越多企業(yè)通過瓴羊Dataphin,實現(xiàn)了數(shù)據(jù)資產(chǎn)的采、建、管、用,在數(shù)據(jù)洞察力提升的同時,也挖掘出了隱藏在資產(chǎn)之中的價值。
相較以前,如今的瓴羊Dataphin功能架構(gòu)得到了多重升級,不僅引擎兼容性增強,支持多種類型的數(shù)據(jù)源,還豐富了資產(chǎn)消費的形式,此外,瓴羊Dataphin還新增支持了混合云的部署模式和公共云半托管模式,能讓企業(yè)以最小的成本實現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境下的部署,由此,平臺的覆蓋范圍不再局限于數(shù)據(jù)倉庫,而是朝著實現(xiàn)全域資產(chǎn)運營的目標(biāo)邁進(jìn)。

在未來,瓴羊Dataphin將持續(xù)深化采、建、管、用的一體化平臺定位,沿著數(shù)據(jù)資產(chǎn)建設(shè)-治理-消費的路徑不斷完善。在建設(shè)方面,平臺將對接更多種類的引擎、支持更大規(guī)模的統(tǒng)一調(diào)度和運維,還將上線拖拽式標(biāo)簽工廠等;在治理方面,平臺將打造統(tǒng)一的元數(shù)據(jù)中心,讓企業(yè)的數(shù)據(jù)資產(chǎn)“標(biāo)準(zhǔn)可循、質(zhì)量可靠、安全可控、成本經(jīng)濟(jì)”;在消費方面,瓴羊Dataphin已經(jīng)推出資產(chǎn)目錄管理、資產(chǎn)搜索及查看等運營功能,未來還將上線資產(chǎn)門戶、質(zhì)量報告等。
隨著大模型時代到來,瓴羊Dataphin也將積極擁抱AI技術(shù),探索“數(shù)智結(jié)合”的資產(chǎn)運營手段。比如,在智能問數(shù)的幫助下,用戶無需技術(shù)背景即可問詢需要的數(shù)據(jù),極大地降低了數(shù)據(jù)分析的門檻;通過智能特征識別、智能分類分級等手段,提高資產(chǎn)質(zhì)量和生產(chǎn)效率。

在產(chǎn)業(yè)、政策、技術(shù)等多種因素的影響下,我國的數(shù)據(jù)治理領(lǐng)域仍然方興未艾,如何在高速變化的外部環(huán)境下,為不同企業(yè)提供個性、易用、專業(yè)、安全的治理體驗,仍然是橫亙在產(chǎn)業(yè)各方面前的重要課題。未來,依托阿里巴巴數(shù)字化轉(zhuǎn)型經(jīng)驗,瓴羊Dataphin有望以持續(xù)的迭代和演進(jìn),為企業(yè)打造全生命周期的數(shù)據(jù)資產(chǎn)解決方案,幫助千行百業(yè)“建好數(shù)據(jù)”、“用好數(shù)據(jù)”。
























