如何避開數(shù)據(jù)湖中的"鱷魚"陷阱

數(shù)據(jù)湖顧名思義就是龐大的數(shù)據(jù)存儲庫,它們用于容納海量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)通常未經(jīng)篩選,往往存在重復,通常未解析且粒度較低(例如日志文件、系統(tǒng)狀態(tài)記錄、網(wǎng)站點擊流數(shù)據(jù))。隨著物聯(lián)網(wǎng)傳感器的普及,以及智能體輸出的不斷涌入,這類數(shù)據(jù)正以前所未有的規(guī)模流入數(shù)據(jù)湖。
總體來說,數(shù)據(jù)湖被認為是一件好事,它讓企業(yè)能夠確保捕獲所有可能在IT堆棧各個業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的數(shù)據(jù)。對于任何一家企業(yè)的首席數(shù)據(jù)科學家來說,能在需要時調(diào)用尚未被充分利用的數(shù)據(jù)儲備,無疑是一種安心。作為企業(yè)數(shù)據(jù)戰(zhàn)略的重要舉措,數(shù)據(jù)湖同樣體現(xiàn)了數(shù)據(jù)的民主化:這是一個極深的數(shù)據(jù)池——只要穿好“救生衣”(即遵循安全與合規(guī)規(guī)范),包括業(yè)務(wù)用戶在內(nèi)的任何人都可以隨時下水探索。
數(shù)據(jù)湖同樣可以存儲結(jié)構(gòu)化數(shù)據(jù),例如來自CRM系統(tǒng)或ERP系統(tǒng)的信息流,但這一角色往往較少被提及。
在當下“AI無處不在”的大環(huán)境下,企業(yè)需要實現(xiàn)對自身業(yè)務(wù)和客戶行為的端到端可視化。數(shù)據(jù)湖幫助實現(xiàn)了這一目標,同時確保企業(yè)可以圍繞一個集中式存儲庫進行運作,從而避免數(shù)據(jù)孤島的滋生——這也是它的價值所在。
危險:深水暗涌
和幾乎所有技術(shù)一樣,數(shù)據(jù)湖也有“陰陽兩面”。回想千禧年前(或至少上云之前),一家企業(yè)可能運行著40多個數(shù)據(jù)庫。用戶要訪問數(shù)據(jù),就必須掌握這40多個數(shù)據(jù)庫的屬性,以及對應(yīng)的安全措施和流程。而在單一數(shù)據(jù)湖中,理論上只要有人擁有合適的憑據(jù),就可能通過一個入口訪問所有數(shù)據(jù)。
許多公司追求的所謂“單一視窗”戰(zhàn)略,意在統(tǒng)一數(shù)據(jù)、應(yīng)用和業(yè)務(wù)操作的洞察與管理,然而,同樣的“單一視窗”,對入侵者來說,只需打破這一扇窗,就能進入核心數(shù)據(jù)資產(chǎn)。
這一現(xiàn)實由Perforce公司AI與SaaS產(chǎn)品主管Steve Karam特別強調(diào)。Perforce是一家以企業(yè)級版本控制、應(yīng)用測試與生命周期管理為傳統(tǒng)優(yōu)勢的DevOps平臺公司。Karam在本周的一場數(shù)據(jù)分析圓桌會議上指出,水下的危險遠不止如此。
“別忘了,幾乎每家企業(yè)都有一個‘Sam’。他們可能在公司工作了幾十年,在此期間構(gòu)建了一個只有他們自己知道的數(shù)據(jù)庫。現(xiàn)在Sam離開了,這個數(shù)據(jù)庫就成了一個‘黑箱’。如果把Sam的數(shù)據(jù)庫放進數(shù)據(jù)湖,后果可能非常嚴重。”Karam舉例說,“如果Sam的數(shù)據(jù)存儲包含重復的個人可識別信息(PII),而這些字段已無人追蹤?這無疑成了湖底‘鱷魚’的溫床——本就破碎的流程被進一步放大。”
Karam進一步提醒,當AI介入后,情況更加復雜。相比那些能夠精準編寫查詢、精細化處理數(shù)據(jù)的分析師,如今的AI表現(xiàn)出一種“貪婪無度”的胃口(他甚至創(chuàng)造了一個新詞——datavore,數(shù)據(jù)食者),它想要吞掉所有數(shù)據(jù),還像個“話癆”,泄露的秘密可能比醉酒節(jié)日晚宴上的健談親戚還要多。由此,風險格局隨之急劇擴張。
回歸現(xiàn)實:價值與風險并存
“這確實是個難題:企業(yè)各個團隊依賴快速的數(shù)據(jù)訪問來構(gòu)建和測試軟件、加快上市速度并優(yōu)化戰(zhàn)略,但數(shù)據(jù)湖本身又確實非常有用。”Karam指出。
例如,滿足客戶體驗個性化需求,越來越需要調(diào)用細粒度數(shù)據(jù),然而,風險同樣真實存在。Karam援引市場研究結(jié)果稱,大約有一半的企業(yè)報告稱,他們已經(jīng)在非生產(chǎn)環(huán)境中經(jīng)歷過涉及敏感數(shù)據(jù)的數(shù)據(jù)泄露或竊取事件。
解法:分層與編目
那么該如何應(yīng)對?Karam認為,數(shù)據(jù)編目與分層管理是一個良好的起點,并以Microsoft提出的Medallion架構(gòu)為例。
微軟實際上將其稱為Medallion數(shù)據(jù)湖倉架構(gòu)(Data Lakehouse Architecture),它融合了數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢:既保留數(shù)據(jù)湖的容量與靈活性,又具備數(shù)據(jù)倉庫的數(shù)據(jù)管理和事務(wù)處理能力。本質(zhì)上,它是一種用于邏輯化組織數(shù)據(jù)的數(shù)據(jù)設(shè)計模式。
微軟在其學習平臺上解釋道:
“Medallion架構(gòu)定義了一系列數(shù)據(jù)層,用于表示湖倉中數(shù)據(jù)的質(zhì)量。Azure Databricks推薦采用多層方法,構(gòu)建企業(yè)數(shù)據(jù)產(chǎn)品的‘單一事實來源’,這一架構(gòu)確保了數(shù)據(jù)的原子性、一致性、隔離性與持久性(ACID),數(shù)據(jù)在經(jīng)過多層驗證與轉(zhuǎn)換后,最終以優(yōu)化布局存儲,以支持高效分析。”
下一步是合成,但又真實可感。
數(shù)據(jù)脫敏與合成數(shù)據(jù)
“下一步是找到一種方式,為非生產(chǎn)團隊(這里指的是我們的軟件應(yīng)用開發(fā)同事)提供真實可用的數(shù)據(jù),同時又不帶來風險,這意味著要采用數(shù)據(jù)脫敏以及合成數(shù)據(jù)等技術(shù)。合成數(shù)據(jù)在真實數(shù)據(jù)不足以匹配新業(yè)務(wù)場景,或者合規(guī)要求完全禁止訪問生產(chǎn)數(shù)據(jù)時,尤其有價值。它的生成速度快,并且特別適合大規(guī)模使用場景,例如單元測試。”Perforce的Karam解釋道。
靜態(tài)數(shù)據(jù)脫敏會用合成但逼真的數(shù)值替換掉敏感數(shù)據(jù)(例如個人可識別信息——還記得Sam和PII的隱患嗎?),這些數(shù)值具有確定性和持久性,因此可以維持引用完整性和人口統(tǒng)計特征,這意味著,軟件開發(fā)人員既能獲得真正有用的數(shù)據(jù),又不會冒著意外泄露客戶敏感信息的風險。
一個實際例子是:銀行的開發(fā)團隊可以看到客戶賬戶余額,以便發(fā)現(xiàn)異常、波動或其他離群點,但他們完全不知道這些余額屬于哪位客戶。出生日期、社會安全號、銀行賬號以及其他個人標識信息都會被脫敏。許多企業(yè)往往會同時采用數(shù)據(jù)脫敏和合成數(shù)據(jù),并借助高度自動化的工具來支持,從而避免額外增加開發(fā)人員的工作負擔。
風險規(guī)避:干凈且合規(guī)的數(shù)據(jù)環(huán)境
“新的AI應(yīng)用場景也能發(fā)揮作用。除了合成數(shù)據(jù),AI還可以通過自然語言處理來支持自動化測試,幫助測試團隊擺脫編寫測試腳本和維護生產(chǎn)數(shù)據(jù)關(guān)系的負擔。”Karam說道。
“即使一家企業(yè)已經(jīng)全面投入數(shù)據(jù)湖,它仍然應(yīng)該把軟件開發(fā)和質(zhì)量保證數(shù)據(jù)視為獨立的數(shù)據(jù)環(huán)境,保持風險規(guī)避、健壯、干凈、合規(guī)并且快速交付,讓團隊可以放心構(gòu)建。數(shù)據(jù)湖本身也應(yīng)為非生產(chǎn)團隊劃分獨立的工作空間,保證其中的數(shù)據(jù)合規(guī)且安全,使團隊能夠無障礙地直接使用。這就像在湖的淺水區(qū)專門劃出一塊兒童泳池給非生產(chǎn)使用,而湖的深水區(qū)——生產(chǎn)部分——則嚴格禁止進入。”
數(shù)據(jù)湖生態(tài)中的主要玩家
數(shù)據(jù)湖領(lǐng)域的主要提供商包括:
? Amazon:其AWS S3簡單存儲服務(wù)是眾多數(shù)據(jù)湖的底層技術(shù)
? Microsoft Azure:擁有Azure Data Lake及其數(shù)據(jù)湖分析服務(wù)
? Google:提供BigLake,深受希望構(gòu)建基于Apache Iceberg湖倉的用戶歡迎
? Snowflake:AI數(shù)據(jù)云公司
? Databricks:與Microsoft建立了密切合作關(guān)系
雖然Perforce在這次討論中沒有推銷自家產(chǎn)品,但它在版本控制領(lǐng)域與Git、Atlassian Bitbucket Data Center、Apache Subversion和Mercurial等競爭,在軟件測試領(lǐng)域與BrowserStack、Sauce Labs、LambdaTest等廠商同臺競技,而在應(yīng)用生命周期管理方面,則需要面對IBM Engineering Lifecycle Management等對手。
安全下水:在風險與價值之間找到平衡
采取上述步驟與方法,有助于識別、隔離并緩解數(shù)據(jù)湖帶來的風險,在保護需求與使用價值之間取得平衡。
湖里的“鱷魚”(惡意攻擊者與不懷好意之人)可能依舊徘徊,但如果我們清楚該穿什么樣的“防護衣”,依舊能安全地下水,這些措施也許無法徹底消滅潛伏在湖底的鱷魚,但至少可以迫使其中一些退回岸邊。























