
譯者 | 核子可樂
審校 | 重樓
如今,平臺工程師負責解決的需求正在迅速演變,由最初DevOps自然演化的產物發展成一門職責不斷擴展的獨特學科。當下的平臺工程師不僅需要管理日益復雜的云原生環境,還要為整個企業構建AI基礎設施。
Gartner指出,到2026年,80%的大型軟件工程組織都將建立起平臺工程團隊,充分可復用服務、組件及應用交付工具的內部提供方——這一比例顯著高于2022年的45%。到2027年,平臺工程更將顯著影響基礎設施與運營團隊的技術選型,影響超過半數決策。
一路走來,從DevOps到平臺工程的演變
DevOps作為一種文化與技術運動的產物,旨在打破開發與運營團隊之間的隔閡。它奠定了至關重要的基礎,即建立CI/CD管線、基礎設施即代碼與責任共擔模型。但隨著云原生架構的廣泛落地,大規模分布式系統的管理復雜性迫使人們進行新的專業化分工。
平臺工程正是為了應對這種復雜性而誕生。平臺團隊不可能指望每位開發者都成為K8s專家,也不要求每位運營工程師都了解現代應用程序框架間的細微差別,而是建立抽象層來簡化基礎設施使用。他們建立起內部開發者平臺,通過API、接口與自動化機制將復雜基礎設施轉化為自助功能。
而隨著AI應用快速成為主流,新一波需求也隨之而來。AI工作負載與傳統應用程序有著根本不同,對于現有平臺工程實踐提出了新的要求:
- 統一訪問實時數據與歷史數據:AI系統,特別是自主決策系統,需要無縫訪問流式數據(用于實時上下文)及歷史數據(用于訓練及提取廣泛模式);
- 跨數據域的一致治理:當AI系統訪問多個來源的數據時,權限、模式或沿襲跟蹤方面的不一致可能導致結果不可靠或治理失敗;
- 高效數據移動:將流式基礎設施與數據倉庫彼此分離的傳統架構,迫使系統間進行持續且昂貴的數據移動,由此產生延遲并令成本呈指數級增長;
- 橫向擴展以實現經濟效益的可預測性:AI工作負載往往以難以預測的方式急劇擴展,因此需要在成本線性增加的前提下對基礎設施進行橫向擴展。
種種因素的疊加,導致平臺工程師們面臨一個悖論:如何在保持運營穩定性、治理和成本效率的同時,快速實現AI創新。
平臺工程師的新使命
現代平臺工程師必須將基礎設施的復雜性抽象出來,轉化為精心設計的API與自助接口。對于AI工作負載而言,這意味著構建平臺,使數據科學家和機器學習工程師能夠以編程方式訪問具有適當計算資源的訓練環境、針對延遲或吞吐量進行優化的推理環境、跨流式及批量域的統一數據訪問,同時提供標準化的可觀察性與監控支持。
成功的平臺團隊應該創造出讓AI開發者專注于模型和應用程序、而非基礎設施配置的順暢體驗。為此,我們最需要關注的技能包括:
- 數據鄰近性設計。數據鄰近性原則(即立足數據所在位置處理數據,而非移動數據)對于AI基礎設施至關重要。平臺工程師應當實現統一的存儲格式,例如Apache Iceberg或Delta Lake,以便在流式與批量工作負載間無縫協作。通過將云原生對象存儲作為各種數據類型的核心基礎,團隊可以為各類工作流程建立一致的基礎層。這種方法還應輔以區域感知處理能力,以最大限度減少昂貴的跨區域數據傳輸,并配合無主導架構消除昂貴的復制流量。總之,這些策略能夠將基礎設施成本降低一個數量級,同時提升AI工作負載性能。
- 統一數據治理。對流式數據及歷史數據的訪問,帶來了獨特的治理挑戰。平臺工程師必須建立統一的目錄和治理機制,確保所有數據源的一致訪問控制,同時提供集中式模式管理與演進體系。這些系統應在整個數據生命周期內保持端到端數據沿襲跟蹤及標準化的合規性與監管控制。通過實施涵蓋實時及批量數據域的目錄,平臺工程師可以顯著降低AI系統的治理失敗風險,同時簡化開發者體驗。
- 基礎設施的自動擴展與優化。AI工作負載對于資源需求往往具有不可預測性,這要求平臺團隊建立復雜的自動化體系。高效平臺應將基于實際資源利用率的彈性擴展及資源分配的自動優化結合起來,并將其擴展至基于使用量的定價與計費模型,以便在保持亞當性的同時建立問責制度。此外,基于數據局部性的工作負載智能布局則可確保最佳性能,同時最大限度減少不必要的數據移動。這些功能間協同起效以控制成本,并確保AI應用程序在必要時能夠精準獲取所需資源、全程無需人為干預。
- 促進跨職能協作與技能發展。更重要的是,平臺工程師有望彌合可能阻礙AI應用的傳統組織孤島,推動數據工程、機器學習工程和運營團隊立足統一術語與協作實踐開展合作。成功的平臺團隊會跨領域部署通用工具,并設計出能夠適應不同專業水平(從新手數據科學家到經驗豐富的機器學習工程師)的平臺。通過建立全面的學習資源與說明文檔,賦能不同背景的開發人員,最終打造出有利于AI創新蓬勃發展的內部環境。
面向AI時代的統一基礎設施
最具前瞻性的平臺工程師正逐漸摒棄專為流式傳輸、批量及AI工作負載使用的獨立基礎設施技術棧。他們開始構建統一基礎設施,結合通用抽象、存儲格式及治理模型高效處理不同工作負載。
這種統一方法帶來了三大關鍵優勢:
- 大幅降低成本:通過消除冗余的基礎設施及昂貴的數據移動,組織可以將AI基礎設施的總成本降低達80%。
- 加速創新:開發者可以通過一致接口訪問所有數據,而無需等待復雜的ETL流程,進而快速迭代AI應用程序。
- 增強治理與合規:統一方法可在所有數據域內實現一致的安全性、隱私性與監管控制。
隨著AI成為企業中的新核心,平臺工程師們開始掌握AI可持續應用與集成的鑰匙。通過重構新時代基礎設施,即優先考量數據鄰近性、統一治理與開發者體驗,工程師們可以在保障卓越運營的同時高效推動AI創新。
原文標題:Today’s Platform Engineer Needs to Build AI-Ready Infrastructure,作者:Sijie Guo


























