福布斯:沒有數據治理的人工智能只是昂貴的噪音
首席技術官兼技術策略師Gabriel Gonzalez為全球公司提供有關人工智能、云和數據的建議,以推動創新和數字化轉型。
在人工智能和機器學習占據科技頭條的時代,令人驚訝的是,許多組織仍在基礎數據治理方面苦苦掙扎。盡管在高級分析和人工智能項目上投入了數百萬美元,但許多公司卻在不穩固的基礎上構建這些復雜的系統。就像在沙地上建造摩天大樓一樣,其結果可想而知是成問題的。
作為一名曾將眾多數據環境從災難邊緣拯救出來的技術高管,我親眼目睹了即使是大型企業也會忽視基本的數據管理原則。這些原則可以避免代價高昂的故障,并釋放巨大的價值。
基礎設施的重要性
這種脫節令人震驚。企業熱衷于采用尖端人工智能技術,卻忽視了這些系統所依賴的基礎設施。數據通常駐留在老化的服務器、孤立的數據庫和分散的系統中,有時缺乏高可用性或適當的備份協議。
災難發生時,恢復可能需要 24 到 48 小時,從而導致嚴重的業務中斷和財務損失。這種疏忽不僅風險高昂,而且代價高昂。企業錯失了利用現有數據資產的機會,同時增加了運營成本和安全漏洞。如果沒有合適的數據基礎設施,即使是最復雜的人工智能模型也會得出不可靠的結果。垃圾輸入,垃圾輸出,規模如此之大。
數據完整性和單一事實來源
數據完整性的核心在于擁有準確、一致且在整個生命周期內保持有效性的信息。然而,許多組織甚至難以識別其擁有的數據,更不用說有效地管理它們了。
令人驚訝的是,許多企業缺乏數據字典。數據字典是一個重要的工具,它記錄了數據存在哪些內容、含義是什么、存儲在哪里、所有者是誰以及數據與其他信息的關系。如果沒有數據字典,組織每次啟動新項目時都會浪費大量時間重新發現自己的數據資產。數據分散在各個系統之間,造成數據不一致和效率低下。
為關鍵業務信息建立單一真實來源,可以消除矛盾并降低維護成本。這并不一定意味著將所有數據集中到一個位置,而是需要實施清晰的層級結構和規則,以定義權威來源。
數據不斷演變。適當的版本控制、更新程序和審計跟蹤可確保更改不會損害完整性或造成意外的后續影響。自動化數據質量檢查應在數據管道的每個階段驗證完整性。明確的質量問題處理策略有助于維護對數據的信任。
實時訪問和分析
在需要時無法訪問的數據實際上毫無價值。我職業生涯的大部分時間都花在金融服務和銀行業,數據的獲取時機可能決定著能否抓住機會,還是徹底錯失良機。
如果客戶的信用記錄在入職流程中晚到兩秒,您可能會錯過有關付款歷史的關鍵風險指標,從而導致糟糕的貸款決策,并產生連鎖后果。數據可用性的戰略性方法需要在性能需求和成本考量之間取得平衡。為了滿足交易處理、風險評估和欺詐檢測等運營需求,實時數據必須在幾毫秒內交付。
歷史數據應進行優化,以便進行深度分析和預測建模。這通常采用“銅、銀、金”模式來實現,即對原始數據進行保存、結構化、驗證,并最終為業務使用做好準備。
云彈性
利用云的彈性至關重要。云平臺提供幾乎無限的資源,并可根據需求擴展。云服務無需過度配置本地基礎設施,而是可以根據實際需求進行動態調整。
架構設計應考慮容錯和自動恢復,以確保高彈性。Lakehouse 模型將數據湖的靈活性與傳統數據倉庫的性能和治理相結合,為現代數據平臺提供了統一高效的基礎。
生命周期管理和優化
大多數組織產生的數據量遠超其實際使用量。一個周全的數據生命周期策略,結合生命周期管理、優化的存儲格式和自動化的管道,可以將這些數據轉化為預測性資產,而不會增加成本或復雜性。
數據訪問的民主化和促進實驗也至關重要。現代安全技術和人工智能驅動的界面如今允許業務用戶使用自然語言與數據交互,從而發現原本隱藏的洞見。
我曾合作過的一家機構管理著400萬客戶20年來的信用卡交易,產生了海量數據,需要進行優化。我們實施了一項轉型策略,首先確定了訪問量最大、最頻繁的表。我們創建了自動化數據管道來處理這些信息,并生成按日和月組織的優化Parquet文件。
隨后,我們將歷史數據遷移到云端數據湖,并調整了現有查詢以訪問新的存儲層。冗余數據被安全地從生產系統中移除,同時保留了引用完整性。這種方法將查詢時間縮短了 10 倍,同時顯著降低了存儲成本和系統復雜性。
我們將數據庫占用空間縮減至僅10%,僅保留必要的交易數據作為主要事實來源。更重要的是,這使得業務分析師能夠解答此前因性能限制而無法解決的問題,從而從現有數據資產中挖掘新的洞察。
實現數據治理
將數據視為戰略資產是第一步。數據應該享有與金融資產同等程度的保護和管理,制定明確的、由高管支持的戰略至關重要。
簡化技術堆棧有助于降低復雜性和維護成本。實施 Lakehouse 架構為數據工程、分析和機器學習提供了統一的基礎。最后,適當的備份程序和定期的恢復過程測試可確保數據的彈性。
在邁向人工智能驅動的未來之際,企業不應忽視這些先進技術得以實現的基本要素。掌握基礎數據治理的企業將更有能力從其信息資產中獲取真正的價值,同時最大限度地降低成本和風險。
好消息是,這些挑戰主要并非技術層面,而是組織層面的。只要管理層下定決心,并采取有條不紊的方法,任何公司都能將數據從被忽視的資源轉化為競爭優勢。




























