2025年K8s用戶對AI的真實看法
2025年Kubernetes生產環境現狀報告顯示,AI成為Kubernetes的新重心,推動邊緣Kubernetes發展,并有望作為成本控制策略。90%的受訪者預計Kubernetes上AI工作負載將增長。AI是集群放置的第三大驅動因素。
譯自:What K8s Users Really Think About AI in 2025[1]
作者:Ant Newman
我已經連續四個春天都在研究大量的研究數據電子表格,并梳理從業者的訪談記錄,為我們年度的“Kubernetes生產環境現狀”報告做準備。
每一年都有一個標志性的驚喜:2022年是技能差距[2]的深度;2023年是DevEx的切膚之痛[3];去年則是云原生領域中風險和波動性[4]的影響。
2025年最明顯的標題是AI。不是炒作周期的猜測,而是真實的工作負載、真實的預算,以及——至關重要的是——真實的運維難題。
以下是對今年455名受訪者調查中關于AI發現的引導性介紹。(這只是我們在完整的44頁報告中探討的五個主題之一,但卻是大家第一個問到的。)
1. AI 成為 Kubernetes 的新重心
一位受訪者,美國醫療保健行業的云工程經理,稱 AI 為“現代淘金熱”,領導層“將公司的未來增長押注于大規模采用 AI”。
當然,從 IT 的角度來看,當我們談論企業擁抱 AI 時,我們真正談論的是新的應用程序工作負載。而工作負載必須在某個地方運行。
整整 90% 的受訪者預計,未來 12 個月內他們在 Kubernetes 上運行的 AI 和機器學習 (ML) 工作負載數量將會增長——這是整個調查中最強勁的增長信號。
AI 工作負載的需求也在改變組織的環境策略——他們選擇構建和運行集群的位置。
AI 是集群放置的第三大驅動因素(僅次于多云策略和本地環境恢復的需求)。事實上,28% 的人表示他們已經將集群放置在專門的 GPU 云中。
然而,熱情并非普遍存在。一位公共部門的 CIO 警告說,讓算法對核心業務流程進行運營控制(在他的例子中,紅綠燈變綠或變紅)“對于交通運輸機構來說感覺很冒險”。 最重要的結論是:高管看到收入; 運營人員看到延遲、成本和合規性。
2. 邊緣 Kubernetes 并駕齊驅
我們一直認為,對于許多工作負載來說,AI 的天然歸宿是在邊緣,在那里,實時推理(例如計算機視覺)可以緊鄰它需要處理的數據,并提供實時的、低延遲的決策。正如一位受訪者所說:
“需要實時決策的 AI 推理工作負載——想想自動駕駛汽車——屬于邊緣,盡可能靠近數據源,因為毫秒級的延遲是不可談判的。”
今年,來自 AI 的推動首次使邊緣 Kubernetes 進入多數生產用途。現在,一半的企業都在邊緣運行生產集群,高于去年的 38%。在這些邊緣采用者中,81% 的人預計他們的足跡將在 2025 年增長。
當我們詢問 2025 年邊緣 Kubernetes 的難點是什么時,答案發生了巨大變化。 傳統的擔憂,如執行 Day 2 運營和現場工程挑戰,消失了; 相反,我們看到了圍繞設備性能、連接性和模型管理的痛點。
41% 的人報告說管理 AI 工作負載存在問題,高于去年的 25%。
[5]
我們逐年看到用戶在使用邊緣 K8s 時面臨的最大挑戰的變化。今年,一切都與處理強大的 AI 工作負載有關。(來源:Spectro Cloud。)
一位美國制造商總結了新的現實:
“性能確實是我認為 AI 和 Kubernetes 最大的問題。對于 AI 來說,它與正常的 K8s 工作負載完全不同。LLM [大型語言模型] 需要強大的馬力……我們花了很多時間調整容器設置和節點配置文件,以達到我們的速度目標。”
換句話說,可能曾經專注于輕量級物聯網 (IoT) 遙測的邊緣用例現在與計算機視覺管道和實時推理有關,這些推理會融化較弱的硬件并需要定期更新。
3. AI 作為一種成本控制策略——真的
Kubernetes 的總體擁有成本 (TCO) 正在快速上升(88% 的受訪者表示他們的賬單在過去 12 個月內上漲了),并且成本是他們今年感受到的最大挑戰。
有了新的 AI 工作負載,以及在多個不同云和其他環境中運行的更多集群,支出很容易失控。
每年,我們都會詢問我們的受訪者認為在 K8s 運營中提高效率的最大機會是什么。今年,AI 是大多數人認為有效的唯一效率杠桿。
一半——51%——選擇“使用 AI 來改進運營”作為提高 K8s 效率的首要機會,超過了自動擴展和云支出優化。
AI 已成為推動 K8s 運營效率的主要機會。
[6]
AI 已成為推動 K8s 運營效率的主要機會。(來源:Spectro Cloud。)
他們告訴我們這不僅僅是異想天開,而是他們正在積極追求的東西。 令人驚訝的是,92% 的人表示他們已經在投資下一代 AI 驅動的優化工具。
我們的一些受訪者興高采烈地闡述了他們如何將 AI 助手視為一個機會,可以調整集群的大小以消除超支,或自動排除故障和修復問題。
“最大的挑戰是應用程序團隊認為他們知道自己想要什么,但我們最終得到的集群并沒有得到充分利用。AI 絕對可以提供幫助。 使用自然語言提示,您可以問,‘我們應該如何重新配置和優化它?’ AI 甚至可以生成 YAML 清單:描述您的應用程序——多少個集群、節點、大小——然后它會返回建議。 您可以與它聊天并獲得所需的信息。 這能否像今天的 AI 編碼助手一樣成為 Kubernetes 助手? 是的,絕對可以——100% 可以。”
仍然存在懷疑論者。 一位英國電信公司主管表示,“該平臺有太多變量位于系統控制之外”,因此助手不可信。 如果 AI 開始關閉工單,一位美國公共部門的 CIO 擔心工會強烈反對,而不是代碼質量。 盡管如此,支出趨勢很明顯:AI 不僅僅是一種工作負載; 它是解決 Kubernetes 價格沖擊的希望解藥。
那又怎樣?
雖然“AI”可能是 IT 領域最大的流行語,但它并不是一回事。
首先,它是這場“淘金熱”中新應用程序需求的驅動力。 并且每個工作負載都需要正確的基礎設施,無論是 GPU 云還是邊緣盒子。 您傳統的環境和硬件可能不夠。 AI 工作負載還引入了新的管理要求,主要是需要每周移動大型模型的新版本。
其次,它是一種成本壓力。 在新地方的新應用程序意味著更多的硬件、更多的軟件,最重要的是,更多的人力來管理基礎設施資產。 成本一直是運營 Kubernetes 的一個問題,現在變得更加困難。
第三,AI 有望成為運營方面的靈丹妙藥。 將 AI 仙塵灑入 FinOps 工具或管理平臺中的助手是解決在不同環境中大規模管理集群的挑戰和成本的希望解決方案。 如果我們可以讓 AI 處理 YAML 地獄、治愈我們的過度配置問題并調查最深奧的根本原因,那將是一件美妙的事情。 現實會達到預期嗎? 嗯,歷史告訴我們,Kubernetes 的復雜性和成本并不容易解決。 時間會證明一切。
繼續探索
我只介紹了我們“2025 Kubernetes 生產環境現狀”研究中的一小部分數據。 完整的報告包含 40 多頁的數據、圖表和訪談故事,涵蓋了采用基準、運營最佳實踐以及 AI 和 KubeVirt[7] 等熱門話題。
引用鏈接
[1] What K8s Users Really Think About AI in 2025:https://thenewstack.io/what-k8s-users-really-think-about-ai-in-2025/[2]技能差距:https://thenewstack.io/new-research-shows-the-future-is-bright-for-edge-kubernetes/[3]切膚之痛:https://thenewstack.io/the-2023-state-of-kubernetes-in-production/[4]風險和波動性:https://thenewstack.io/kubernetes-48-of-users-struggle-with-tool-choice/[5]:https://cdn.thenewstack.io/media/2025/07/cc0bd2ad-k8s-challenges_spectrocloud.png[6]:https://cdn.thenewstack.io/media/2025/07/b8e48e62-k8s-efficiency_spectrocloud.png[7]KubeVirt:https://thenewstack.io/how-to-migrate-your-vms-to-kubevirt-with-forklift/[8]“2025 Kubernetes 生產環境現狀”報告:http://spectrocloud.com/state-of-kubernetes-2025[9]注冊并加入我們的直播網絡研討會:https://www.brighttalk.com/webcast/19922/649377


































