阿里云數(shù)據(jù)安全治理實踐

一、數(shù)據(jù)安全治理與法律法規(guī)
下面和大家分享下數(shù)據(jù)安全治理與相關(guān)的法律法規(guī)。
1、逐步完善的法律法規(guī)
近年來,數(shù)據(jù)安全相關(guān)的法律法規(guī)正在逐步完善。

相關(guān)立法之前普遍是以國家或者行業(yè)的推薦性標準的形式存在,我們所熟知的數(shù)據(jù)安全能力成熟度模型(DSMM)中也提到過,但是現(xiàn)今已經(jīng)明確立法,如果不遵守相關(guān)法律法規(guī),未履行數(shù)據(jù)安全保護義務(wù),可能會被立案處罰。

我們也可以看到,當(dāng)今的企業(yè)開展相關(guān)業(yè)務(wù)時,只要存在數(shù)據(jù)收集行為,就需要重點關(guān)注以及遵守上圖所示的法律法規(guī)(網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法、個性信息保護法、民法典,還有一個強制性的國家標準即等保2.0),企業(yè)開展數(shù)據(jù)安全治理可以參照相關(guān)行動指南(例如DSMM、特定行業(yè)相關(guān)標準等),從而使得企業(yè)的經(jīng)營合法合規(guī)。
2、法律條文中的數(shù)據(jù)安全治理
數(shù)據(jù)安全法中,第四條、第十一條都分別提到了數(shù)據(jù)安全治理,可見在政企單位數(shù)據(jù)安全建設(shè)中,建立數(shù)據(jù)安全治理體系的重要性。

- 例如下圖中所示,數(shù)據(jù)安全法第21條,應(yīng)該對數(shù)據(jù)實行分類分級保護,之前也是存在于國家或者行業(yè)的一些推薦性標準,目前已明確寫入到了數(shù)據(jù)安全法中。
- 同樣下圖所示,數(shù)據(jù)安全法第24條,提到了數(shù)據(jù)安全審查,落地到數(shù)據(jù)安全治理中,就是操作審計,第29條提到了發(fā)現(xiàn)數(shù)據(jù)安全缺陷、漏洞等風(fēng)險時應(yīng)當(dāng)立即采取的補救措施,發(fā)生數(shù)據(jù)安全事件時應(yīng)當(dāng)立即采取的處置措施,對應(yīng)到數(shù)據(jù)安全治理中就是對風(fēng)險的響應(yīng),主要包括告警、阻斷、審批等方面。

接下來我們一起討論一下數(shù)據(jù)安全治理的本質(zhì)和方向。
二、數(shù)據(jù)安全治理的本質(zhì)與方向
提到數(shù)據(jù)安全治理,首先會想到保護企業(yè)自己的資產(chǎn),數(shù)據(jù)資產(chǎn)最主要的就是數(shù)據(jù)表,但是數(shù)據(jù)安全治理保護的重點不是數(shù)據(jù)表本身,而是其中對應(yīng)的信息,保護信息的手段是通過控制數(shù)據(jù)的訪問(信息存儲在數(shù)據(jù)中,數(shù)據(jù)存儲在IAAS層)來實現(xiàn)的,如下圖所示:

所以說,數(shù)據(jù)安全治理的本質(zhì)是處理好身份、行為、資產(chǎn)之間的關(guān)系。
說到數(shù)據(jù)安全治理,它實際上是一系列運營體系,管理體系,技術(shù)體系融合起來的一系列活動,以前企業(yè)做數(shù)據(jù)安全治理的目的更多是從風(fēng)險的角度出發(fā),保證企業(yè)數(shù)據(jù)資產(chǎn)不被泄漏,不被濫用,隨著現(xiàn)在監(jiān)管越來越嚴格,更多是為了合規(guī)性考慮,但是僅僅是為了合規(guī)性,就有些舍本逐末了,做數(shù)據(jù)安全治理更多的是一種社會責(zé)任的體現(xiàn),同時也是企業(yè)命脈的保護。

針對數(shù)據(jù)安全治理思路,從過去到現(xiàn)在是有一個本質(zhì)的變化,以前更多的是南北向安全,也即企業(yè)南北向的數(shù)據(jù)訪問和傳輸安全,防止外部入侵。現(xiàn)在更多的是東西向安全,涉及到了過程安全技術(shù),實際上是對人員行為的管控,是一種零信任的理念,始終不信任,一直在驗證,通過一些基線規(guī)則、檢查規(guī)則,或者是機器學(xué)習(xí)的風(fēng)險行為識別模型等進行攔截管控。

因為是對人員行為的管控,所以做數(shù)據(jù)安全治理就需要組織的建設(shè),制度的建設(shè)和技術(shù)工具的建設(shè),我們討論的更多是技術(shù)工具的建設(shè),以及基于技術(shù)工具的最佳實踐的經(jīng)驗分享。
在開展數(shù)據(jù)安全治理之前,管理者都應(yīng)該清楚下圖所示的6個問題:

如果想要較好地回答上面的6個問題,就需要從身份鑒別,用戶管理,訪問控制,操作審計,資產(chǎn)管理,風(fēng)險管理這幾個方面做安全能力的建設(shè)。
三、阿里云DataWorks數(shù)據(jù)治理實踐
接下來分享Dataworks如何幫助管理者去解決上述6個問題。
首先介紹一下什么是Dataworks,如下圖所示:

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大數(shù)據(jù)引擎,為數(shù)據(jù)倉庫、數(shù)據(jù)湖、湖倉一體等解決方案提供統(tǒng)一的全鏈路大數(shù)據(jù)可視化開發(fā)治理平臺。從2009年起,DataWorks不斷沉淀阿里巴巴大數(shù)據(jù)建設(shè)方法論,支撐數(shù)據(jù)中臺建設(shè),DataWorks十多年沉淀了數(shù)百項核心能力,通過智能數(shù)據(jù)建模、全域數(shù)據(jù)集成、高效數(shù)據(jù)生產(chǎn)、主動數(shù)據(jù)治理、全面數(shù)據(jù)安全、數(shù)據(jù)分析服務(wù)六大全鏈路數(shù)據(jù)治理的能力,幫助企業(yè)治理內(nèi)部不斷上漲的“數(shù)據(jù)懸河”,釋放企業(yè)的數(shù)據(jù)生產(chǎn)力。這次主要分享的是Dataworks中數(shù)據(jù)安全相關(guān)的功能。
接下來我們具體看下上面提到的6個問題:
1、問題1 – 誰?通過什么方式來使用大數(shù)據(jù)系統(tǒng)

這個問題比較好理解,就是本公司內(nèi)部的開發(fā)、運維、分析師,資產(chǎn)管理員,CIO或者開發(fā)者寫的程序來訪問大數(shù)據(jù)系統(tǒng),Dataworks支持自主可用的登錄認證體系,例如:部分企業(yè)傾向于統(tǒng)一管理一套本地賬號(通過AD,LDAP等),而不愿去管理另一套云賬上的子賬號。DataWorks滿足這樣的訴求,即:允許用戶通過本地賬號扮演一個RAM Role,以角色扮演的方式登錄至阿里云管控臺上使用DataWorks;RAM Role可被加入至DataWorks空間作為空間成員,一個RAM Role可以被多人扮演,也可以被一個人扮演。通過這樣的方式企業(yè)實現(xiàn)統(tǒng)一認證管理,做到自主可控。當(dāng)然Dataworks也支持普通的云賬號登錄方式,RAM同時也支持U2F實體密鑰,多因素鑒別等。登錄完成之后,Dataworks開發(fā)平臺與后端的大數(shù)據(jù)引擎(自研Maxcompute, 開源EMR,CDH等)對接時,身份都可以做到一一映射,保證用戶的身份是可靠的。
2、問題2 – 用戶在哪、通過哪個入口訪問大數(shù)據(jù)系統(tǒng)

跟大多數(shù)產(chǎn)品一樣,用戶會在自己的辦公地點、住宅、或者公網(wǎng),通過VPN或者公網(wǎng)訪問,Dataworks的入口有管控臺,命令行OpenAPI,Web端,大部分用戶是通過Web端去訪問的,對于不同類型的用戶,可以限制訪問某一個云上的入口。
3、問題3 – 用戶在什么時候會訪問大數(shù)據(jù)系統(tǒng)

如果按照自然人維度來看,分為工作時間和非工作時間訪問,根據(jù)業(yè)界相關(guān)統(tǒng)計,在非工作時間產(chǎn)生的數(shù)據(jù)風(fēng)險,尤其是非工作目的的數(shù)據(jù)訪問行為會占較大比例,在做一些數(shù)據(jù)審計時,要求著重去分析非工作時間的訪問行為,例如:0點至凌晨5點的訪問行為會不會存在風(fēng)險。
如果從資產(chǎn)維度來看,對數(shù)據(jù)表申請訪問時,一般會填寫數(shù)據(jù)表使用時長,另外數(shù)據(jù)表本身也有生命周期,在這兩個時間段內(nèi),都是可以正常去訪問數(shù)據(jù)表資產(chǎn)。
4、問題4 – 哪些資產(chǎn)對象會被操作

資產(chǎn)操作一般是對數(shù)據(jù)表的操作,除了數(shù)據(jù)表之外,還有對很多其他實體的訪問也會間接地產(chǎn)生數(shù)據(jù)風(fēng)險,例如UDF,有些UDF會有讀表的邏輯,如果UDF授權(quán)不當(dāng)?shù)脑挘蜁性綑?quán)訪問的風(fēng)險,另外Dataworks上也可以配置數(shù)據(jù)源,如果數(shù)據(jù)源不做訪問控制,也是很危險的,還有數(shù)據(jù)服務(wù),Dataworks有發(fā)布數(shù)據(jù)服務(wù)API的能力,可以把某張數(shù)據(jù)表快速生成HTTP Restful的API,發(fā)布出去的API也需要做訪問管控。除了以上這些比較典型的資產(chǎn)對象,還有很多其他類型的,比如數(shù)據(jù)計算任務(wù),如果提交到生產(chǎn)的SQL除了寫入之外,還有讀操作,這樣也可以在運維界面直接讀出數(shù)據(jù)。還有審批策略,如果策略配置不當(dāng),會產(chǎn)生越權(quán)審批,另外還有數(shù)據(jù)質(zhì)量規(guī)則,如果配置不當(dāng),會導(dǎo)致產(chǎn)生臟數(shù)據(jù)或者資損等,所以上圖中列出資產(chǎn)對象都是需要得到保護和訪問管控的。
5、問題5 – 用戶在何時何地可能產(chǎn)生哪些行為

這些行為總結(jié)下來,讀寫主要是對數(shù)據(jù)表的讀寫,執(zhí)行主要是對軟件功能的執(zhí)行,例如查出的結(jié)果下載到本地,或者發(fā)起一個數(shù)據(jù)跨境導(dǎo)出、流動任務(wù),新增主要是新增導(dǎo)出任務(wù),新增發(fā)布API等,刪除更是比較敏感,如果沒有備份,刪除操作后一般都無法恢復(fù),這些行為如果不當(dāng)組合的話,會導(dǎo)致數(shù)據(jù)風(fēng)險,數(shù)據(jù)安全治理的目的也就是逐步收斂這些風(fēng)險。
6、問題6 – 如何治理

所以企業(yè)的CIO或者安全合規(guī)部門應(yīng)該都非常明確,誰應(yīng)該在什么地方,應(yīng)該在什么時候,應(yīng)對哪些對象,應(yīng)該做些什么,后面會著重來講述,如何支持這個“應(yīng)該”的“應(yīng)”,來實現(xiàn)和落地。
如下圖所示,首先數(shù)據(jù)安全治理的第一步都是去梳理資產(chǎn),哪些對象應(yīng)該被保護,應(yīng)該被訪問,相應(yīng)的在Dataworks平臺上做開發(fā)和治理,第一步就是劃分工作空間和項目空間,因為所有的代碼和數(shù)據(jù)都會存儲在項目空間中,目前有三種劃分方式,方式一是按照業(yè)務(wù)場景劃分,方式二是按照數(shù)倉層次劃分,方式三是按照業(yè)務(wù)部門劃分,目前采用最多的是方式二,其中ODS層,一般來說只需要業(yè)務(wù)系統(tǒng)開發(fā)的人員,用來配置相關(guān)數(shù)據(jù)集成(業(yè)務(wù)庫數(shù)據(jù)源配置和同步),數(shù)倉開發(fā)人員不需要加入,其他層例如CDM,ADS層主要是數(shù)倉開發(fā)人員做數(shù)據(jù)開發(fā),這個也可以按照各企業(yè)實際情況進行劃分。只要把不同的人員加入不同的空間,就可以做到隔離。

數(shù)據(jù)安全治理的第二步是需要梳理另外一個很重要的資產(chǎn)就是數(shù)據(jù),數(shù)據(jù)梳理就是對數(shù)據(jù)做分級分類,目前Dataworks中OEM了螞蟻集團的數(shù)據(jù)保護傘敏感數(shù)據(jù)保護的能力,用戶可以通過配置關(guān)鍵字,正則表達式,或者內(nèi)置專家模版,語義特征模版,內(nèi)容識別模版等,快速幫助用戶識別敏感信息,如下圖所示:

管理者只需要6步簡單的配置,就可以完成敏感數(shù)據(jù)規(guī)則識別的配置,如果是金融企業(yè)的用戶,還可以根據(jù)內(nèi)置金融行業(yè)模版一鍵完成設(shè)置,如下圖所示:

接下來,我們來看下“誰應(yīng)該對哪些對象應(yīng)該做什么”這個問題的答案。
DataWorks在產(chǎn)品管控、功能使用等方面提供了完善的權(quán)限管控體系,其中產(chǎn)品管控通過阿里云RAM Policy實現(xiàn),管控對象是控制臺操作,如創(chuàng)建工作空間等;功能使用權(quán)限通過RBAC實現(xiàn),通過定義成員角色并授權(quán)來管控功能使用,并根據(jù)產(chǎn)品功能范圍分為全局級和空間級。
對于企業(yè)的IT運維團隊,可以對工作空間或者獨享資源組,進行細粒度的授權(quán),例如,工作空間列表頁面中創(chuàng)建空間、禁用空間、刪除空間等操作;資源組列表頁面中的創(chuàng)建獨享資源組、配置獨享資源組網(wǎng)絡(luò)等操作;報警配置頁面的配置聯(lián)系人等操作,如下圖所示:

對于數(shù)據(jù)團隊,做數(shù)據(jù)開發(fā)的時候,可以根據(jù)DataWorks預(yù)設(shè)的部分全局角色和空間級角色,可以直接使用這些角色給用戶授權(quán),也可以根據(jù)需要,自定義全局角色或空間級角色。用戶、角色、權(quán)限之間的對應(yīng)關(guān)系,如下圖所示:

推薦最佳實踐是按照下圖所示的去做,如圖是標準模式的開發(fā)流程,首先一個DW空間對應(yīng)了兩個引擎環(huán)境,一個用于開發(fā),另一個用于生產(chǎn)。
在數(shù)據(jù)建模鏈路,先由數(shù)據(jù)團隊主管定義好建模過程中可能使用到的數(shù)據(jù)標準,隨后由數(shù)據(jù)建模人員設(shè)計模型,并對模型進行提交,最后經(jīng)由數(shù)據(jù)團隊主管、運維或部署人員審核無誤后即可發(fā)布到生產(chǎn)環(huán)境。
在數(shù)據(jù)開發(fā)與生產(chǎn)鏈路,開發(fā)人員在開發(fā)環(huán)境先執(zhí)行代碼開發(fā)、依賴配置與調(diào)試,冒煙測試無誤后可執(zhí)行提交發(fā)布申請,此時應(yīng)由一個運維/部署/管理員角色來進行代碼Review,確認無誤后即可執(zhí)行發(fā)布到生產(chǎn)環(huán)境,讓規(guī)范、安全的代碼在生產(chǎn)環(huán)境定期運行產(chǎn)出數(shù)據(jù)。

這里面需要注意的一點是針對不同角色的人員,只分配對應(yīng)的角色給相應(yīng)的角色,例如不可以給數(shù)據(jù)開發(fā)人員空間管理員的角色,或者既分配開發(fā)角色又分配運維角色,而是只分配開發(fā)角色。
對于數(shù)據(jù)分析師,經(jīng)常會用到數(shù)據(jù)開發(fā)人員開發(fā)好的新的數(shù)據(jù)表,默認都是沒有權(quán)限的,這時可以在Dataworks安全中心里面,進行表或者字段權(quán)限申請,如果企業(yè)已經(jīng)做了數(shù)據(jù)分級分類,還可以自定義數(shù)據(jù)審批流程,例如對于級別較低的表,表Owner審批就可以了,對于級別較高的表,需要部門安全負責(zé)人審批,級別最高的表,需要CIO的審批,這樣就不容易出現(xiàn)越權(quán)審批的情況。

接下來是回答“誰應(yīng)該在什么地方來訪問”這樣一個問題,這個問題也是很多高安全要求的企業(yè)的強訴求,目前Dataworks中支持了IP白名單訪問,以及訪問具體哪個入口(Web端和API端),如下圖所示:

前面講述的都是事前安全,這樣就足夠了嗎?很明顯,是不夠的。當(dāng)今主流趨勢是過程安全,也就是之前提到的零信任。
在Dataworks中,也基于機器學(xué)習(xí)模型,統(tǒng)計模型,還有一些基線分析方法,構(gòu)建了用戶行為識別機制,幫助管理者找出風(fēng)險點,以及設(shè)置對這些風(fēng)險點進行響應(yīng),如下圖所示:

其中響應(yīng)的方式有審批、去標識化(即脫敏)、告警和阻斷。
下面主要來看下對于數(shù)據(jù)直接風(fēng)險行為的響應(yīng),也即大家所熟知的脫敏,在很多法律法規(guī)中稱為去標識化,目前支持了加密、掩蓋、哈希的脫敏,場景一般分為數(shù)據(jù)分析場景和開發(fā)測試場景,如下圖所示:

在數(shù)據(jù)分析場景下,數(shù)據(jù)分析師一般來說是不需要查詢明細數(shù)據(jù)的,如果需要查詢明細數(shù)據(jù),例如查詢手機號,可以把手機號中間的字符,替換成類似“*”這樣的字符,用來掩蓋。對于開發(fā)測試場景,開發(fā)人員在生產(chǎn)環(huán)境中導(dǎo)出數(shù)據(jù)進行開發(fā)或者測試的時候,導(dǎo)出的操作可以通過靜態(tài)脫敏來支持,導(dǎo)出的數(shù)據(jù)以脫敏的形式寫入到開發(fā)環(huán)境的存儲中。
下圖是一個實際的效果:

另外一個對數(shù)據(jù)直接風(fēng)險行為的響應(yīng)是告警和阻斷。這個也是近期一直在探索的,對于告警的行為,可以在Dataworks數(shù)據(jù)保護傘中做自定義的配置,也可以通過默認的規(guī)則模版,例如非工作時間去訪問數(shù)據(jù),可以把非工作時間段設(shè)置為0點-6點,如果有這樣的訪問,就可以把它通過告警報出來,而針對阻斷來說,對于大規(guī)模查詢結(jié)果展示、下載、復(fù)制的阻斷,用戶可以對不同的角色設(shè)定不同的閾值,如果超過閾值,可以阻止這些行為,如下圖所示:

下面所展現(xiàn)的是針對數(shù)據(jù)通過非直接的訪問行為導(dǎo)致的風(fēng)險的響應(yīng),目前是通過審批策略來支持,例如數(shù)據(jù)導(dǎo)出,開發(fā)者可以創(chuàng)建數(shù)據(jù)同步任務(wù),目前支持管理者把任意的數(shù)據(jù)源配為源端和目的端來實施管控,也可以配置不同的人來進行審批,也包括數(shù)據(jù)API的發(fā)布(不同的數(shù)據(jù)源構(gòu)建的API可以通過不同的人進行管控和審批)和數(shù)據(jù)跨境傳輸(由企業(yè)合規(guī)管理員去審批,后面也會幫助用戶自動識別哪些同步鏈路是跨境的)。
下圖是Dataworks安全能力概覽圖,其中標黃的部分是之前沒有提到的,例如成員離職轉(zhuǎn)交,風(fēng)險處置等。

下面介紹四個不同類型的重點客戶數(shù)據(jù)安全治理的案例。
四、阿里云數(shù)據(jù)安全治理場景與案例
具體案例以及詳細內(nèi)容如下面4張圖所示:




總之,數(shù)據(jù)安全治理體系是從制度,產(chǎn)品和運營三個方面來進行的,需要三個部分的共同協(xié)作,缺一不可。制度上確定了哪些是可以做的,哪些是不能做的,隨后用產(chǎn)品去具象化這些制度,最后運營根據(jù)這些制度去獎懲、優(yōu)化。這樣就可以形成一個制度、產(chǎn)品、運營協(xié)同的數(shù)據(jù)安全治理體系的閉環(huán)。
阿里云DataWorks結(jié)合各引擎為企業(yè)提供一站式開箱即用的安全能力,這些能力可以覆蓋DSMM中所述的幾個重要的數(shù)據(jù)安全過程:傳輸、存儲、處理、交換、通用等。從另一個維度來看,Dataworks產(chǎn)品安全能力也覆蓋了事前、事中、事后結(jié)合的工作周期,從事前與事中的規(guī)范化開發(fā)生產(chǎn)、數(shù)據(jù)可用不可見,到數(shù)據(jù)風(fēng)險行為管控,再到事后的敏感數(shù)據(jù)管控,為企業(yè)提供了周全的數(shù)據(jù)風(fēng)險控制能力。
五、Q&A
Q1:開發(fā)和生產(chǎn)環(huán)境兩套環(huán)境中,開發(fā)環(huán)境數(shù)據(jù)是怎么來的?
A:開發(fā)環(huán)境的數(shù)據(jù)可以自行造一些數(shù)據(jù),或者使用Dataworks數(shù)據(jù)集成工具,從業(yè)務(wù)生產(chǎn)庫中同步數(shù)據(jù),同時開啟靜態(tài)脫敏。也可以通過命令行或者頁面自行上傳數(shù)據(jù)。
Q2:數(shù)據(jù)分類的方法,一般是線分類還是面分類,有些場景線分類不一定能Cover?
A:需要根據(jù)不同行業(yè)的規(guī)章制度來看。
Q3:不同行業(yè)有無分級分類的指南,例如廣告行業(yè)?
A:金融行業(yè)比較多,保險、醫(yī)療、健康、汽車行業(yè)都有,廣告行業(yè)不是很清楚,需要進一步了解。
































