G行智能運維機器人探索與實踐
引言
2023年初ChatGPT以其驚人的自然語言理解和生成能力席卷全球,重新定義了人機交互。在金融科技領域,G行敏銳地捕捉到這一趨勢,開始了智能運維機器人的深度探索。2025年初DeepSeek等國產大模型的成熟,其輕量化架構、開放的生態以及優異的性能表現,讓原本復雜的模型部署變得簡單,這也加速了G行專屬智能運維機器人的落地實踐。
G行智能運維機器人貫穿運維事前巡檢、事中應急、事后分析等全流程,同時整合行內通用知識,通過自然語言解析、大模型、檢索增強等技術,實現海量數據精準關聯分析與知識檢索、隱性知識快速挖掘,運維人員通過簡單的交互問答就能得到精準的知識答案,實現了對傳統運維模式的升級。本文主要從建設背景、建設路徑、應用場景、思考與挑戰等方面介紹。
一、建設背景
隨著企業IT系統復雜度指數級增長,全局性風險管控的難度增加。通過內部調研溝通后發現運維面臨多重困難。
- 運維工具系統比較多,系統之間缺乏聯動性,內容整合困難。運維人員需頻繁登錄不同領域系統(如監控、配置、日志系統)手動過濾、關聯數據,導致數據獲取效率低下。
- 專業門檻與知識傳遞難,事件處置依賴運維人員的專業經驗,而隱性知識(如專家經驗、非常規操作技巧)難以系統化傳遞,新人上手慢,資深人員壓力大。
- 海量運維信息檢索難,故障與原因的關聯往往藏在海量信息背后,缺乏高效的整合與關聯分析手段,導致事件定位滯后、決策依據不足。
通過對當下智能運維機器人技術的調研及應用場景研究,智能運維機器人在以下4個方面提升運維管理和事件處置的效率。
- 提升運維工具內數據獲取效率。通過機器人的對話入口以及多agent模式打破運維工具系統的數據壁壘,實現一個對話入口獲取多個運維領域數據綜合分析,提升運維數據獲取效率。
- 提高各領域數據準確性。通過各個智能agent精確獲取到各個領域的核心運維知識,通過智能算法對各領域數據進行分析,得到客觀和準確的分析數據。
- 提高事件處置決策效率。通過NLP、大模型等智能技術的語言理解和總結能力,實現對于用戶問題的快速分解和agent的自動調用,并對各個agent的結果進行歸納總結,從而在事件處置中對決策者提供更加可靠的數據。
- 提升運維知識檢索效率。使用大模型及RAG技術可以對運維的各領域數據如制度文件、操作手冊、應急預案、匯報材料以及IT服務數據等進行知識庫管理和檢索,實現用戶問題的精準問答。
二、技術路線
G行智能運維機器人主要包括三大核心技術路線,構建了基于智能化的系統整體技術分層架構,實現了智能運維機器人整體規劃設計;利用基于Multi-Agent的檢索架構設計,奠定了智能運維機器人的核心檢索技術;通過分布式的功能模塊策略設計,實現了系統研發和部署的基本框架,保障了技術方案的落地。
基于智能化的技術分層架構
如圖1,在智能運維機器人技術分層架構的設計方面,G行根據需求設計以及現有的大模型等智能化技術能力,設計了從接入層、解析層、調度層、總結層、反饋層、模型層、存儲層的七層技術架構,并從結構、功能和技術三方面對核心的產品功能和使用技術進行了規劃和設計。其中大模型技術的應用貫穿整個技術架構,并發揮著舉足輕重的作用。例如,在接入層需要使用多模態大模型對用戶的文字、語音、圖片、文本等內容進行解析;在解析層的語義修正環節,需要使用大模型對用戶的提問進行錯別字糾正和基于歷史問答的語義修正等,從而保證后續的調度、檢索和總結更加準確;在調度層環節則使用大模型來進行場景識別,以及各個agent的調度;在總結層則使用大模型對多個agent的檢索結構進行總結,并使用多種模態的方式形成答案;在反饋層則使用大模型對用戶的點贊、點踩等反饋信息進行強化學習、提示層優化等模型的優化;模型層則會根據不同環節和同agent對于模型的需求,采用基礎大模型和領域小模型相結合的方式。
圖1 技術分層架構圖
基于Multi-Agent檢索架構設計
如圖2所示,智能運維機器人總體架構設計采用Multi-Agent的設計模式,用戶的問題通過語義理解agent進行總體調度,觸發多個場景agent獲取領域數據并分析計算出初步答案,最終再經過語義生成大模型對數據進行統一加工輸出。其中agent總共分為三層。
圖2 檢索架構設計圖
第一層agent為語義理解agent,主要功能是對用戶的問題進行理解、重寫、分類等以及對后續場景進行總調度。
第二層agent分為實時分析場景agent、行內知識問答agent、通用大模型agent。實時分析場景agent主要實時調度各種運維生產數據進行場景分析;行內知識問答agent主要根據我行的知識庫(領域web知識、本地制度手冊、專家經驗知識)進行知識問答;通用大模型agent主要使用模型底座基礎知識實現通用知識問答、代碼編寫、邏輯運算、文字翻譯等通用大模型功能。
第三層agent主要集中在實時分析agent里面用于調度各個生產數據的agent,其中主要有配置查詢agent、交易分析agent、日志分析agent、報警分析agent、批量分析agent、容量分析agent、流程分析agent等。各個agent分別通過api的方式調用各運維工具系統。
基于分布式策略的功能模塊設計
如圖3所示,智能運維機器人內部功能模塊分為5個管理中心,22個功能模塊。
- 通訊中心是智能運維機器人的通訊底座。核心功能就是圍繞以我行專有的內部通訊平臺“光大通”為入口的通訊管理,利用光大通高并發、高安全度、高開放的特點,為智能運維機器人提供便捷的消息通訊功能。
- 對話中心是智能運維機器人的總調度中心,主要負責對話內容的解析、理解、分類、存儲以及結果的輸出等。
- 模型中心是智能運維機器人的模型底座,其中不僅包括了用于調度實時分析場景的各個agent模型,也包括了用于知識庫問答的問答大模型,同時還有語義理解大模型和語義生成大模型等。從算法角度看,模型中心不僅有基于傳統機器學習和深度學習的場景模型,還有基于Transformer的多模態大模型。
- 配置中心是智能運維機器人的后臺管理中心。主要目標是對用戶問答內容的預配置,以及環境配置管理。
- 監控中心是智能運維機器人的安全保障。其中除了對于各個通訊服務和agent模型的健康度檢查,還有用戶問答反饋到大模型的自回饋機制。
這五個中心共同組成了智能運維機器人的整個內部服務框架,各個中心通過開發協議相互獨立并相互配合。
圖3 功能模塊設計圖
三、應用場景及效果
G行智能運維機器人貫穿運維全流程,在事前主要是日常巡檢工作,包括交易業務指標、CUP和內存等性能指標的趨勢分析,容量指標、報警信息、異常檢測信息的查詢等,還有對日常行為的合規檢查,保證日常操作和流程的符合行內制度要求和滿足監管要求,以及變更風險評估等;在事中主要是事件的快速定位和解決問題,需要快速的獲取應用系統的交易、性能、日志、報警信息等各項內容,然后整合分析,進行問題定位,并出具合適的解決方案進行問題修復;在事后主要對事件進行復盤,包括事件描述、影響分析、處置操作、后續優化工作等內容。
如圖4,通過匯總整合用戶需求,同時結合智能運維機器人的能力,把用戶需求場景設計為運維巡檢報告、運維異常分析、運維事件處置、運維信息查詢4個運維應用場景,并結合知識問答、日常聊天、生活工具共7大場景。
圖4 應用場景設計圖
下面將在運維信息查詢、巡檢報告生成、異常分析、行內知識問答四個方面對典型場景舉例展示實現效果。
運維信息查詢
在整個運維過程中,查詢類場景貫徹整個環節,主要分為三類:
- 狀態類信息查詢:應用系統交易狀態、系統資源使用狀態、系統端口運行狀態、批量運行狀態、變更詳情等;
- 配置類信息查詢:管理角色配置信息、系統硬件配置信息、系統軟件配置信息;
- 告警類信息查詢:告警信息查詢、關聯系統告警、歷史告警對比。
這些信息分布在不同的系統中,如配置管理系統、批量管理系統、容量管理系統等,當前用戶需要登錄不同的系統進行操作和查詢,智能運維機器人則可以通過統一的入口直接查詢,效果案例見圖5。
圖5 運維信息查詢效果圖
巡檢報告生成
用戶會定期或者隨時對系統整體狀態、日常巡檢內容、特定的運維信息等生成一些報告,用于系統巡檢、事件分析、監管報送等,這些報告主要有系統交易分析報告、系統巡檢日報、容量周報、SDP分析報告、變更風險評估報告等。
這些報告的生成以往需要登錄不同系統,輸入不同的參數信息進行查詢、生成,現在用戶可以通過智能運維機器人輸入一句描述,后臺就能夠解析獲取到參數去查詢、生成報告。根據交易數據生成的業務影響分析報告如圖6。
圖6 業務影響分析報告
異常分析
在系統發生異常前后,往往需要對交易、性能、日志、鏈路等內容進行異常預測、實時判斷、分析定位等。具體的場景有某系統某時間的交易異常分析和定位、高斯平臺離群節點檢測和根因分析、日志錯誤關鍵字分析、故障的關聯報警等。智能運維機器人可以獲取不同專業領域的異常分析數據,從而加快異常判斷和定位。
例如,在異常交易分析方面,如圖7,智能運維機器人可以解析用戶問題中系統名稱、時間范圍等信息,后臺通過agent自動查詢并分析系統在時間區間的交易異常情況。
圖7 異常交易分析
在告警分析方面,如圖8,智能運維機器人中的AI告警分析智能體,可以實時監測告警信息,并自動調度交易、變更、日志、配置等agent,并通過大模型的思維鏈為故障排查提供AI建議。
圖8 AI告警分析智能體
行內知識問答
運維中往往都會形成自己的知識庫,其內容包括運維制度、知識庫、專家經驗等,用戶在日常工作中會進行查詢。智能運維機器人可以將專家腦海里的知識、我行專業文檔里的知識錄入到知識庫管理系統中,然后再通過知識問答模型進行訓練學習,最終通過智能運維機器人為用戶提供便捷、專業的知識問答。場景效果如圖9。
圖9 行內知識問答場景
四、風險問題及應對措施
智能運維機器人是利用大模型的底座,結合行內的知識庫、生產數據為用戶提供運維領域的各種問答服務。在風險方面主要集中在查詢權限風險、數據集風險、大模型解釋性風險和開源軟件漏洞風險四個方面。在各個風險方面,在機器人建設的前期會從大模型的選型、權限的控制、大模型的應用場景、以及軟件評估方面控制風險。
1、查詢權限風險
查詢權限風險主要是指智能運維機器人的應用場景數據主要來自于行內的生產數據以及專業文檔,在智能運維機器人使用過程中容易發生不同用戶檢索到非自我權限范圍內信息的情況。在應對方面,智能運維機器人主要利用資源端的用戶權限進行數據控制,同時在智能運維機器人的推廣方面前期應主要集中在行員以及主要的行內通訊群。
2、數據集風險
數據集風險主要指基礎開源大模型的原始訓練數據,目前開源的大模型均采用互聯網中公開的數據集進行訓練,如維基百科、百度百科、新聞網站等,這些數據通過模型訓練后可能會出現宗教、政治、性別等歧視風險。在應對方面,可以從以下四方面進行。
1)大模型選型方面,選擇在國內可靠的大模型如DeepSeek等,這些大模型的訓練數據集多來自于國內權威網站并在國內多個同業及政府部門引入使用。
2)數據集審核。對大模型的底座數據進行預審、檢查和排除不合規性數據。
3)大模型安全測試。使用大模型評測軟件進行大模型算法偏見等方面的安全測試。
4)機器人輸出的風險過濾。在智能運維機器人的問答返回前面加一個“風險攔截器”,對機器人輸出的內容進行安全檢測。
3、大模型解釋性風險
大模型解釋性風險是指大模型是一個具有多層神經網絡的深度學習模型,由于其網絡層和參數量非常大,故模型的訓練過程很難進行追蹤和解釋,因此就具有可解釋、可控性風險。從風險控制方面可以從兩方面入手。
1)限制基礎大語言模型(LLM)的應用主要應用于我行運維任務上,采用多agent的模型對我行的專有數據進行訓練形成一個個“專有任務大模型”,可以進行分散風險。
2)各領域專家提供數據和模型校驗功能讓模型更準確。在大模型選訓練和應用方面主要采用專家提供的數據和樣例進行模型訓練,并采用強化反饋(RLHF)的方式讓智能運維機器人更加專業化和持續學習能力。
4、開源軟件漏洞風險
開源軟件漏洞風險是指智能運維機器人會用到包括大模型等多個人工智能開源技術,這些開源軟件在行內應用將面臨開源軟件引入的各種風險。從風險控制上一方面讓行內風險管理和開源軟件管理的專業人士進行評估并做積極引入,另一方面要經常關注開源軟件的各種版本和漏洞發布情況,及時進行漏洞修復和版本升級。
五、總結
本文智能運維機器人的探索實踐是基于我行運維算法實驗平臺進行自主研發的,建設過程中涉及NLP、Transformer、大模型等算法模型,是一款以我行即時通訊平臺為交互入口、以智能運維為業務場景、完全自主研發的智能化運維產品。
未來,隨著大模型能力的迭代與場景的深化,智能運維機器人將在變更風險分析、AI告警分析、故障決策推薦、預測性維護等領域發揮更大價值,為銀行業務連續性與安全運營提供更強支撐,助力運維質效提升。





























