駕馭AI可觀測性:掌控全局,制勝未來
AI高速發展,對可觀測性帶來新挑戰。需關注模型行為、成本、GPU等,以確保AI系統可靠、安全、高效。控制遙測數據是關鍵。
譯自:Taming AI Observability: Control Is the Key to Success[1]
作者:Dan Juengst
AI正在快速發展。事實上,AI的進步和普及速度超過了我們自云原生以來所見過的任何變革。新模型、新工具和新用例似乎每周都在涌現。Gartner預測,到2026年,超過80%的企業將在生產環境中使用生成式AI (GenAI)[2]。對于運行生產系統的團隊來說,這種速度意味著可觀測性[3]必須跟上。
挑戰何在?對于AI,監控不僅僅是關于正常運行時間和響應能力,盡管這些仍然很重要。大多數AI系統都構建在云原生堆棧[4]之上。在云原生系統已經造成的巨大規模、成本和數據問題之上,我們現在還需要關注:
? 模型行為(幻覺、漂移、毒性)
? Token經濟學(每個答案的成本)
? GPU基礎設施(隊列、利用率和吞吐量)
AI可觀測性[5]引入了一整套新的遙測數據來理解這些新領域。換句話說,在AI可觀測性中,挑戰和規模都在演變和復合。現在,你比以往任何時候都更需要控制你的AI可觀測性遙測數據,以便控制成本[6]、提高性能并更快地排除故障[7]。
可觀測性遙測控制旨在最大化價值密度:保留每美元投入帶來最高可見度的信號。要實現這一點,你需要了解你的可觀測性數據如何被使用,以及其成本,這樣你才能決定是否值得保留。控制是關于能夠并排理解使用情況和成本。
AI引入了大量新的遙測數據,以及一系列前所未見的運維挑戰,而可觀測性必須幫助解決這些挑戰。站點可靠性工程師 (SRE) 現在發現自己負責AI和推理事件,而不僅僅是傳統的インフラ 故障。非確定性AI系統引入了新的、高度可見的故障模式,使得可觀測性比以往任何時候都更加關鍵。
隨著風險的增加,對AI的信心始于可觀測性和控制。
我們所處的AI時代
AI領域已經從數十年的研究和周期性的AI寒冬,轉變為投資和部署的疾速循環。GPU解鎖了現代AI所需的并行計算能力,而生成模型將這種能力帶入了日常產品,推動了各行各業的普及。最終效果是:“AI軍備競賽”、迅速擴張的供應商格局,以及工程團隊需要管理的數據和應用復雜性的巨大轉變。
我們所指的AI
AI有許多分支。我在這里關注的是GenAI,特別是大型語言模型 (LLM)。LLM是經過海量文本訓練的AI模型,用于為聊天、代碼助手和支持機器人等界面生成上下文感知的響應。這就是在生產環境中引發新可靠性[8]、安全性和成本擔憂的領域。
如何看待可觀測性與AI
AI + 可觀測性可以通過兩個視角來看待:
? AI可觀測性: 將現代可觀測性應用于AI工作負載和用例。
? AI輔助可觀測性: 在可觀測性平臺內部使用AI來加速調查和結果。
隨著AI的普及,用戶正在這兩個方面進行投資。例如,由模型上下文協議 (MCP) 服務器[9]促進的AI輔助可觀測性,使客戶能夠將LLM和智能體與其現有系統集成,從而以編程方式實現可觀測性結果。
在本文中,我將重點關注AI可觀測性以及最需要它的AI用例。
為什么AI改變了可觀測性問題
AI工作負載并非從零開始。它們繼承了我們在云原生系統中已經面臨的每一個難題:
? 巨大規模,處理數十億的請求。
? 分布式架構,出了名的難以排查故障。
? 高基數[10],導致標簽維度爆炸式增長。
? 存儲和處理PB級遙測數據帶來的持續成本壓力。
云原生可觀測性本身就已經是一個難以逾越的高門檻,它需要復雜的工具、持續的權衡以及某種方法來控制你的可觀測性遙測數據,以兼顧成本和性能。
AI將這個門檻提得更高。除了上述所有問題,團隊現在還必須應對GPU飽和和排隊、LLM特有的延遲和吞吐量問題,以及像檢索增強生成 (RAG) 流水線或智能體鏈等多步依賴,這些都引入了新的故障點。
還有一個新的經濟維度:token核算以及基礎設施使用與每個請求成本的緊密耦合。而且與傳統系統不同,AI工作負載引入了行為風險,如幻覺、偏見、漂移和毒性,這些不僅影響可靠性,還影響信任和安全。
AI工作負載的可觀測性挑戰
云原生環境現有的可觀測性挑戰 | 新的AI特定可觀測性挑戰 ? |
巨大規模 | 模型行為問題 |
關鍵任務可靠性 | Token經濟學 |
高性能 | 復雜依賴 |
系統和故障排除復雜性 | 模型性能 |
可觀測性成本和數據量 | GPU基礎設施 |
高基數 | 評估和訓練性能 |
這里是可靠性、安全性與單位經濟學匯聚之處,也是可觀測性挑戰不僅演變,而且在復雜性和緊迫性上都日益增長的領域。
幸運的是,存在OpenInference和OpenLLMetry等開源SDK,它們使得獲取理解和解決這些AI特定挑戰所需的遙測數據變得更容易。它們通過以行業標準OpenTelemetry格式提供洞察來簡化這一過程。此外,NVIDIA DCGM能夠以Prometheus格式導出GPU性能和利用率指標,這使得將它們整合到可觀測性平臺變得簡單。
4種AI用例及可觀測性的體現
AI市場分為四個常見的用例。每個用例都需要量身定制的可觀測性方法:
用例 | 細分描述 | 可觀測性要求 |
模型構建者 | 基礎模型團隊,運行訓練流水線和評估循環。 | 需要在訓練和推理流水線中實現可見性,并能快速檢測模型性能下降、評估失敗和基礎設施瓶頸。 |
GPU提供商 | 平臺團隊,運營多租戶GPU集群和調度器。 | 需要實時遙測數據來了解共享集群中的分配、飽和度、作業健康狀況和租戶性能,以保持艦隊的充分利用。 |
AI原生企業 | 快速迭代并推出LLM驅動應用的產商。 | 應對提示鏈盲點、檢索邏輯退化、延遲熱點和內存壓力。 |
功能構建者 | 在現有服務中添加AI功能的傳統企業。 | 需要從AI層到基礎設施層的內聚端到端可見性和準確的成本歸因。 |
需要一個基礎的AI可觀測性策略
對于所有AI用例,一個基礎策略包括:
? 關注重要的工作負載。
? 圍繞用戶體驗、成本和安全建立清晰的服務級別目標 (SLO)。
? 通過使用OpenTelemetry,使相關信號成為一流的。
? 通過對可觀測性遙測數據應用控制技術,優化成本和性能。
這就是隨著AI普及的激增,你如何快速交付、控制開支并保持高信任度的方法。或者換句話說:在AI與規模相遇的地方應用可觀測性,因為那正是工程和業務影響復合增長之處。
AI的可觀測性是可靠、安全且經濟高效的LLM、RAG和GPU系統的操作系統。通過控制使其成為一流,其余自然水到渠成。
引用鏈接
[1] Taming AI Observability: Control Is the Key to Success:https://thenewstack.io/taming-ai-observability-control-is-the-key-to-success/
[2]生成式AI (GenAI):https://thenewstack.io/genai-is-quickly-reinventing-it-operations-leaving-many-behind/
[3]可觀測性:https://thenewstack.io/introduction-to-observability/
[4]云原生堆棧:https://thenewstack.io/introduction-to-cloud-native-computing/
[5]AI可觀測性:https://chronosphere.io/solutions/scale-ai-operations/?utm_source=TNS&utm_medium=sponsored-content
[6]控制成本:https://chronosphere.io/solutions/control-costs/?utm_source=TNS&utm_medium=sponsored-content
[7]更快地排除故障:https://chronosphere.io/platform/ddx/?utm_source=TNS&utm_medium=sponsored-content
[9]模型上下文協議 (MCP) 服務器:https://github.com/chronosphereio/chronosphere-mcp?utm_source=TNS&utm_medium=sponsored-content [
10]高基數:https://chronosphere.io/learn/what-is-high-cardinality/?utm_source=TNS&utm_medium=sponsored-content
































