用DataOps釋放數據項目的潛力
譯文譯者 | 布加迪
審校 | 重樓
各行各業的公司越來越關注收集數據,并尋找創新的方法以獲得寶貴的見解。企業組織愿意投入大量的時間和資金來實現這一目標。

據IDC公司聲稱,數據和分析軟件以及云服務市場在2021年達到了900億美元,隨著企業繼續投入于人工智能和機器學習以及現代數據項目,預計到2026年將增加一倍以上。
然而,盡管投入了大量資金,數據項目獲得的結果卻常常不盡人意。最近,麥肯錫對前沿的主要分析項目進行了一項調查,結果發現企業將80%的時間用于數據準備之類的重復性任務,而這類任務的增值效果非常有限。此外,麥肯錫發現只有10%的公司認為已經控制了這個問題。
那么,為什么盡管加大了投入和關注力度,數據項目的失敗率還是如此之高?
許多變化因素會影響項目的成功。常被提到的因素包括項目復雜性和人才儲備有限。數據科學家、云架構師和數據工程師在全球范圍內供不應求。企業也認識到,許多數據項目之所以失敗,是由于很難在生產環境中讓數據項目大規模運作起來。
這導致DataOps這種新框架應運而生,以克服常見的挑戰。DataOps將敏捷工程和DevOps最佳實踐運用于數據管理領域,幫助企業組織迅速將新的見解轉化為完全可操作的生產交付成果,從而從數據中釋放業務價值。DataOps工具和方法可以幫助你充分利用數據投入。但是如果你想確保DataOps取得成功,必須能夠對數據進行操作。
數據編排方面的挑戰
大多數數據管道工作流非常復雜,牽涉許多不同的應用程序、數據源和基礎設施技術,需要協同工作才能成功。雖然目標是在生產環境中自動化處理這些流程,但現實情況是,如果沒有強大的工作流編排平臺,在企業環境下實現這些項目可能會非常昂貴,常常需要花費大量的時間處理手動工作。
數據工作流編排項目有四個關鍵階段:
攝取包括從傳統數據源收集數據,比如企業資源規劃(ERP)和客戶資源管理(CRM)解決方案、財務系統及其他許多記錄系統,并從現代數據源收集數據,比如眾多設備、物聯網傳感器和社交媒體。
存儲增加了復雜性,這歸因于作為數據管道一部分的許多不同工具和技術。存儲數據的位置和方式在很大程度上取決于持久性、數據集的相對價值、分析模型的刷新率以及將數據轉移到處理系統的速度。
處理也面臨許多同樣的挑戰。需要多少純粹的處理?它是恒定的還是變量?它是計劃的、事件驅動的還是臨時的?如何使成本最小化?這樣的例子不勝枚舉。
提供見解需要將數據輸出轉移到分析系統。這一層也很復雜,越來越多的工具成了數據管道中的最后一英里。
隨著新的數據和云技術不斷引入,公司不斷重新評估其技術堆棧。這種不斷的創新帶來了壓力和變化,因為公司需要輕松地采用新技術,并在生產環境中擴展規模。最終,如果新的數據分析服務沒有在生產環境中大規模運用,公司無法獲得寶貴的見解或實現價值。
實現規模化生產
成功地在生產環境中大規模運行關鍵業務工作流不是偶然出現的。合適的工作流編排平臺可以幫助你簡化數據管道,并獲得所需的寶貴見解。
考慮到這一點,以下是在工作流編排平臺中需要物色的八項基本功能:
1. 支持異構工作流:公司在迅速向云遷移;在可預見的未來,工作流將橫跨高度復雜的混合環境。對于許多公司來說,這將包括支持跨數據中心和多個私有云及/或公共云的大型機和分布式系統。如果你的編排平臺無法處理應用程序和底層基礎設施的多樣性,你將擁有一個高度分散的自動化策略,許多自動化孤島需要繁瑣的自定義集成來處理跨平臺的工作流依賴關系。
2. 服務級別協議(SLA)管理:從預測風險的機器學習模型到財務結算和支付結算,業務工作流都有相應的SLA,這些SLA有時由監管機構設定的指導方針加以管理。你的編排平臺必須能夠理解并通知你復雜工作流中的任務失敗和延遲,它需要能夠將問題與更廣泛的業務影響結合起來。
3. 錯誤處理和通知:在生產環境中運行時,即使設計再好的工作流也會出現失敗和延遲。通知相應的團隊至關重要,這樣可以避免僅僅為了搞清楚誰需要解決問題而進行長時間的作戰室討論。你的編排平臺必須在合適的時間自動向合適的團隊發送通知。
4. 自我修復和補救:當團隊響應業務工作流中的作業失敗時,他們會采取糾正措施,比如重新啟動作業、刪除文件或者清空緩存或臨時表。你的編排平臺應該使自動化工程師能夠配置這類操作,以便下次出現同樣的問題時自動執行。
5. 端到端可見性:工作流跨混合技術堆棧執行相互連接的業務流程。你的編排平臺應該能夠清楚地顯示工作流的邏輯順序。這對于幫助你理解應用程序和它們支持的業務流程之間的關系極為重要。這對于變更管理也很重要。進行變更時,需要查看流程的上下游發生了什么。
6. 針對多個用戶角色的自助服務用戶體驗:工作流編排是一項集體工作,涉及許多利益相關者,比如數據團隊、開發人員、運營和業務流程所有者等。對于如何與編排工具交互,每個團隊都有不同的用例和偏好。這意味著你的編排平臺必須為每個團隊提供合適的用戶界面和用戶體驗,以便他們能夠得益于技術。
7. 生產標準:在生產環境中運行工作流需要遵守標準,這意味著使用正確的命名約定和錯誤處理模式等。你的編排平臺應該有一種機制,提供一種非常簡單的方式來定義這樣的標準,并在用戶構建工作流時引導他們使用適當的標準。
8. 支持DevOps實踐:隨著公司企業采用諸多DevOps實踐,比如持續集成和持續部署(CI/CD)管道、工作流開發、修改,甚至工作流的基礎設施部署,你的編排平臺應該能夠適應現代發布實踐。
組織對數據的需求在上升,絲毫沒有減弱的跡象,這意味著能夠存儲、處理和操作數據對任何組織的成功都至關重要。與強大的編排功能相結合的DataOps實踐可以幫助企業編排數據管道、簡化數據交付過程,并改進業務結果。
原文標題:Unlock Your Data Initiatives with DataOps,作者:Guy Eden


























