駕馭AI可觀測性：掌控全局，制勝未來

作者：岱軍 2025-10-09 00:00:00

AI正在快速發展。事實上，AI的進步和普及速度超過了我們自云原生以來所見過的任何變革。新模型、新工具和新用例似乎每周都在涌現。Gartner預測，到2026年，超過80%的企業將在生產環境中使用生成式AI (GenAI)[2]。對于運行生產系統的團隊來說，這種速度意味著可觀測性[3]必須跟上。

AI高速發展，對可觀測性帶來新挑戰。需關注模型行為、成本、GPU等，以確保AI系統可靠、安全、高效。控制遙測數據是關鍵。

譯自：Taming AI Observability: Control Is the Key to Success^[1]
作者：Dan Juengst

AI正在快速發展。事實上，AI的進步和普及速度超過了我們自云原生以來所見過的任何變革。新模型、新工具和新用例似乎每周都在涌現。Gartner預測，到2026年，超過80%的企業將在生產環境中使用生成式AI (GenAI)^[2]。對于運行生產系統的團隊來說，這種速度意味著可觀測性^[3]必須跟上。

挑戰何在？對于AI，監控不僅僅是關于正常運行時間和響應能力，盡管這些仍然很重要。大多數AI系統都構建在云原生堆棧^[4]之上。在云原生系統已經造成的巨大規模、成本和數據問題之上，我們現在還需要關注：

? 模型行為（幻覺、漂移、毒性）

? Token經濟學（每個答案的成本）

? GPU基礎設施（隊列、利用率和吞吐量）

AI可觀測性^[5]引入了一整套新的遙測數據來理解這些新領域。換句話說，在AI可觀測性中，挑戰和規模都在演變和復合。現在，你比以往任何時候都更需要控制你的AI可觀測性遙測數據，以便控制成本^[6]、提高性能并更快地排除故障^[7]。

可觀測性遙測控制旨在最大化價值密度：保留每美元投入帶來最高可見度的信號。要實現這一點，你需要了解你的可觀測性數據如何被使用，以及其成本，這樣你才能決定是否值得保留。控制是關于能夠并排理解使用情況和成本。

AI引入了大量新的遙測數據，以及一系列前所未見的運維挑戰，而可觀測性必須幫助解決這些挑戰。站點可靠性工程師 (SRE) 現在發現自己負責AI和推理事件，而不僅僅是傳統的インフラ故障。非確定性AI系統引入了新的、高度可見的故障模式，使得可觀測性比以往任何時候都更加關鍵。

隨著風險的增加，對AI的信心始于可觀測性和控制。

我們所處的AI時代

AI領域已經從數十年的研究和周期性的AI寒冬，轉變為投資和部署的疾速循環。GPU解鎖了現代AI所需的并行計算能力，而生成模型將這種能力帶入了日常產品，推動了各行各業的普及。最終效果是：“AI軍備競賽”、迅速擴張的供應商格局，以及工程團隊需要管理的數據和應用復雜性的巨大轉變。

我們所指的AI

AI有許多分支。我在這里關注的是GenAI，特別是大型語言模型 (LLM)。LLM是經過海量文本訓練的AI模型，用于為聊天、代碼助手和支持機器人等界面生成上下文感知的響應。這就是在生產環境中引發新可靠性^[8]、安全性和成本擔憂的領域。

如何看待可觀測性與AI

AI + 可觀測性可以通過兩個視角來看待：

? AI可觀測性： 將現代可觀測性應用于AI工作負載和用例。

? AI輔助可觀測性： 在可觀測性平臺內部使用AI來加速調查和結果。

隨著AI的普及，用戶正在這兩個方面進行投資。例如，由模型上下文協議 (MCP) 服務器^[9]促進的AI輔助可觀測性，使客戶能夠將LLM和智能體與其現有系統集成，從而以編程方式實現可觀測性結果。

在本文中，我將重點關注AI可觀測性以及最需要它的AI用例。

為什么AI改變了可觀測性問題

AI工作負載并非從零開始。它們繼承了我們在云原生系統中已經面臨的每一個難題：

? 巨大規模，處理數十億的請求。

? 分布式架構，出了名的難以排查故障。

? 高基數^[10]，導致標簽維度爆炸式增長。

? 存儲和處理PB級遙測數據帶來的持續成本壓力。

云原生可觀測性本身就已經是一個難以逾越的高門檻，它需要復雜的工具、持續的權衡以及某種方法來控制你的可觀測性遙測數據，以兼顧成本和性能。

AI將這個門檻提得更高。除了上述所有問題，團隊現在還必須應對GPU飽和和排隊、LLM特有的延遲和吞吐量問題，以及像檢索增強生成 (RAG) 流水線或智能體鏈等多步依賴，這些都引入了新的故障點。

還有一個新的經濟維度：token核算以及基礎設施使用與每個請求成本的緊密耦合。而且與傳統系統不同，AI工作負載引入了行為風險，如幻覺、偏見、漂移和毒性，這些不僅影響可靠性，還影響信任和安全。

AI工作負載的可觀測性挑戰

云原生環境現有的可觀測性挑戰	新的AI特定可觀測性挑戰 ?
巨大規模數十億請求，PB級數據量	模型行為問題漂移、偏見、幻覺、毒性
關鍵任務可靠性零停機期望	Token經濟學使用跟蹤、成本優化、預算超支
高性能亞秒級響應要求	復雜依賴多步驟工作流、RAG流水線、智能體鏈
系統和故障排除復雜性微服務、分布式架構、關聯性	模型性能延遲、吞吐量、質量下降
可觀測性成本和數據量工具蔓延、數據保留、許可費、數據增長	GPU基礎設施利用率、排隊、資源爭用
高基數無限標簽組合、維度爆炸	評估和訓練性能行為、一致性、延遲、質量下降

這里是可靠性、安全性與單位經濟學匯聚之處，也是可觀測性挑戰不僅演變，而且在復雜性和緊迫性上都日益增長的領域。

幸運的是，存在OpenInference和OpenLLMetry等開源SDK，它們使得獲取理解和解決這些AI特定挑戰所需的遙測數據變得更容易。它們通過以行業標準OpenTelemetry格式提供洞察來簡化這一過程。此外，NVIDIA DCGM能夠以Prometheus格式導出GPU性能和利用率指標，這使得將它們整合到可觀測性平臺變得簡單。

4種AI用例及可觀測性的體現

AI市場分為四個常見的用例。每個用例都需要量身定制的可觀測性方法：

用例	細分描述	可觀測性要求
模型構建者	基礎模型團隊，運行訓練流水線和評估循環。	需要在訓練和推理流水線中實現可見性，并能快速檢測模型性能下降、評估失敗和基礎設施瓶頸。
GPU提供商	平臺團隊，運營多租戶GPU集群和調度器。	需要實時遙測數據來了解共享集群中的分配、飽和度、作業健康狀況和租戶性能，以保持艦隊的充分利用。
AI原生企業	快速迭代并推出LLM驅動應用的產商。	應對提示鏈盲點、檢索邏輯退化、延遲熱點和內存壓力。
功能構建者	在現有服務中添加AI功能的傳統企業。	需要從AI層到基礎設施層的內聚端到端可見性和準確的成本歸因。

需要一個基礎的AI可觀測性策略

對于所有AI用例，一個基礎策略包括：

? 關注重要的工作負載。

? 圍繞用戶體驗、成本和安全建立清晰的服務級別目標 (SLO)。

? 通過使用OpenTelemetry，使相關信號成為一流的。

? 通過對可觀測性遙測數據應用控制技術，優化成本和性能。

這就是隨著AI普及的激增，你如何快速交付、控制開支并保持高信任度的方法。或者換句話說：在AI與規模相遇的地方應用可觀測性，因為那正是工程和業務影響復合增長之處。

AI的可觀測性是可靠、安全且經濟高效的LLM、RAG和GPU系統的操作系統。通過控制使其成為一流，其余自然水到渠成。

引用鏈接

[1] Taming AI Observability: Control Is the Key to Success:https://thenewstack.io/taming-ai-observability-control-is-the-key-to-success/

[2]生成式AI (GenAI):https://thenewstack.io/genai-is-quickly-reinventing-it-operations-leaving-many-behind/

[3]可觀測性:https://thenewstack.io/introduction-to-observability/

[4]云原生堆棧:https://thenewstack.io/introduction-to-cloud-native-computing/

[5]AI可觀測性:https://chronosphere.io/solutions/scale-ai-operations/?utm_source=TNS&utm_medium=sponsored-content

[6]控制成本:https://chronosphere.io/solutions/control-costs/?utm_source=TNS&utm_medium=sponsored-content

[7]更快地排除故障:https://chronosphere.io/platform/ddx/?utm_source=TNS&utm_medium=sponsored-content

[8]引發新可靠性:https://chronosphere.io/platform/scalable-and-reliable-data-stores/?utm_source=TNS&utm_medium=sponsored-content

[9]模型上下文協議 (MCP) 服務器:https://github.com/chronosphereio/chronosphere-mcp?utm_source=TNS&utm_medium=sponsored-content [

10]高基數:https://chronosphere.io/learn/what-is-high-cardinality/?utm_source=TNS&utm_medium=sponsored-content

責任編輯：武曉燕來源：云云眾生S

AI 可觀測性 LLM

云原生環境現有的可觀測性挑戰	新的AI特定可觀測性挑戰 ?
巨大規模數十億請求，PB級數據量	模型行為問題漂移、偏見、幻覺、毒性
關鍵任務可靠性零停機期望	Token經濟學使用跟蹤、成本優化、預算超支
高性能亞秒級響應要求	復雜依賴多步驟工作流、RAG流水線、智能體鏈
系統和故障排除復雜性微服務、分布式架構、關聯性	模型性能延遲、吞吐量、質量下降
可觀測性成本和數據量工具蔓延、數據保留、許可費、數據增長	GPU基礎設施利用率、排隊、資源爭用
高基數無限標簽組合、維度爆炸	評估和訓練性能行為、一致性、延遲、質量下降