淺談運維場景下多方信息協作管理系統的設計與建設
隨著銀行業務場景數字化程度的提升,新技術、新產品、新框架被持續引入,IT系統運維場景日益復雜。隨著云、容器相關虛擬化技術的蓬勃發展,在提供高可用部署方式同時,信息系統運行的集中性風險隨之擴大。隨之而來的問題就是,在緊急故障處置、集中投產、系統切換、重要業務保障等場景下,多技術領域、多地點、多團隊的相關方進行聯動處理,信息的傳遞轉換為網狀分布式交互,多環節的信息如何收集、展示,各崗位角色的信息需求如何滿足,面對海量數據,保證關鍵信息迅速、準確交互,成為了銀行業IT運維信息協作關注的重點。
一、當下運維場景中的痛點
1.信息收集和過濾效率低
在多方參與的運維場景下,對信息的清洗、解釋、分析、匯總會消耗大量資源,一些看似不重要但關鍵的信息在緊急場景下很容易被忽略掉。并且重要的指令下達后,對應的執行人員出于種種原因可能無法做到快速響應。
2.協處置與反饋的矛盾
對于參與處置人員,在埋頭排查問題的同時,還要響應調度和管理層多次的信息反饋要求,經常面對的情況是同一個問題要解釋匯報多次,或者需要其他領域技術人員提供諸如IP地址、流水號、進程號等信息,無法快速得到回應,打亂處置節奏和思路,拖慢處置速度。
3.協作秩序難以保證
在緊急情況下,人員召集效率低,熱點人員電話始終占線,管理層或其他領域人員的指令或需求難以有效傳達到對應人員。在處置過程中,各崗位間的配合以及關鍵決策點靠人來調度,難免會出現由于個別人員緊張度不足或恢復優先級不明確等問題拖慢整體處置進度的情況。
4.人員能力差異
對于運維操作中已經成型的工具預案和操作流程,不同人員的執行效果存在差異,緊急情況下,可能會拖慢故障的恢復速度,甚至出現誤操作,擴大故障影響。
二、建設目標
隨著近年來G行自建的視頻、語音、生物識別、影響分析、歷史經驗輔助、運營日志中心等類型的平臺紛紛建成,結合在運維標準化、自動化和智能化方面深耕多年的豐富經驗,為解決以上痛點提供了可行的技術方案以及相對完善的理論體系。
信息協作管理系統建設,旨在提升在緊急故障處置、集中投產、系統切換、重要業務保障等各類運維場景下多人、多地協同處置的信息交互效率,提升處置人員操作的準確度和時效性,為決策層提供直觀、快速的信息獲取渠道和便捷、有效的指令發布途徑。包括以下幾個方面:
1. 重要信息的定義能力
將各崗位人員對重要信息的識別經驗數字化,對各場景下重要信息的特征進行定義,在協作發生時直觀迅速地展示給所需的角色,使參與者將更多精力投入到協作主體上。
2. 跨平臺數據集成能力
作為重要信息識別經驗數字化的載體,協作系統打通與各運維場景涉及的平臺類系統數據接口,對多平臺的各類重要數據實現自動整合,使離散的數據按照時間進程匯總呈現給參與者,有效展示關鍵信息之間的時序及關聯關系。
3. 協作處置的標準化能力
基于事件、變更、災備等領域運維人員積累的處置經驗,在決策信息收集、工具預案執行等方面,為不同場景、不同領域人員在特定時點需完成的標準動作進行提示或提供參考,從而提升協做處置過程的質量和效率。通過人臉、聲紋等生物識別技術,語音轉文字等手段,結合場景特點定制界面操作,替代原有的文字輸入、身份驗證等繁瑣操作。
4. 全過程數字化記錄和展示能力
在跨平臺數據集成的基礎上,對整個協作周期進行完整的記錄和展示,并持續提升數字化覆蓋度,為處置決策和事后優化提供數據支撐。
5. 運維協作場景全覆蓋
全面覆蓋故障處置、切換、變更、演練等各類運維場景,通過移動端功能的持續完善,降低非現場人員遠程協作時的距離感。
6.抗干擾、健壯性保障
保證系統本身從基礎設施到應用功能上的獨立性,支持脫離關聯系統或平臺獨立運行,最大限度地保證協作相關功能的可用性。充分考慮網絡信號不佳情況下的協作場景,提供后備手段。
三、重點功能實現
針對以上的建設目標,提供以下功能進行支撐:

圖1 業務流程

圖2 技術架構
1. 數據整合
(1)本系統作為運維部門各配置及日志類平臺的數據消費終端之一,具備處理各個外部關聯數據系統的信息導入和維護的類ETL功能,包括聯機交易接口、批量文件等形式,覆蓋人員、系統、崗位關系,業務交易、監控、云桌面、堡壘機、遠程安全接入、運維自動化等各類數據,實現多維數據信息在同一維度內根據協作場景需要關聯整合,提升消息傳遞效率以及關鍵信息捕獲的準確度。
(2)通過低代碼形式配置外部數據。建立支持多類型數據的統一導入模塊,基于配置表對整理后的數據內容進行展示和使用,用戶可以通過前臺頁面完成特定場景下所需數據的特征和關系配置,持續提升外部數據的使用價值,降低數據導入與消費等需求導致的變更數量。
2. 處置輔助
(1)對接科技運營日志平臺,通過數據接口對涉及服務器的日志完成數據初步篩選并傳輸,系統根據處置場景配置對諸如關鍵交易成功率、響應時間、網絡狀況、服務器資源等運行指標進行展示。
(2)獲取運維數據中處置對象近期發生的變更、切換、問題等情況,進行關聯信息視圖調閱,與歷史同類事件處置情況參考比對,為參與處置人員提供數據參考。
3. 協作任務模板
(1)以時間順序將標準的影響判斷、故障定位、基本處置、進度匯報等應急操作按照不同崗位以及時效要求組合成任務模板,會議召開時系統根據故障現象或業務影響等不同因素對模板吻合度進行加權排序,選定模板后任務自動分配到各崗位人員。
(2)任務與模板解耦。支持在協作過程中疊加或撤銷模板,模板發生替換時,已完成過的操作在時效性內自動替換到新模板,避免重復操作。
4. 會議中心
(1)實現處置人員快速召集,支持按照系統、告警信息、人員組來確認人員范圍發起協作會議,可選擇電子語音、短信、移動APP消息等多種通知方式,一鍵完成入會通知,移動端可通過點擊會議通知消息完成一鍵入會。
(2)人員組:以故障處置場景為例,考慮到每次處置會議啟動時都需要拉入一些固定人員,采用享元設計模式思想,將人員按照班次、崗位、職級等設計成多個用戶組,支持會議啟動或進行中組合邀請,簡化通知通報流程。
(3)對參會人員的范圍、在線狀態、參與處置的方式(現場、遠程)等信息按照崗位分組展示??梢灾貜秃艚形慈霑藛T。
(4)通過虛擬仿真終端實現對監控視圖、終端屏幕等參考信息投放共享的遠程控制。
5. 協作中心
(1)除視頻會議外,同時創建基于websocket+socketjs的信息協作群,實現與會人員的信息共享以及任務模板下發,輸入方式上支持語音輸入提升輸入效率。
(2)協作群中的信息可以作為任務派發或轉化為匯報信息。
6. 虛擬仿真終端
部署在客戶端的服務程序,接收服務端發送的指令信息,并根據指令信息執行相應的模擬操作。分為有人值守機器人和無人值守機器人。
(1)有人值守機器人部署在現場處置人員使用的ECC終端上。可以在沒有用戶感知的情況下監控用戶的操作,在H264編碼模式下通過ffmpeg開源庫記錄活動時的屏幕影像,支持視頻采集、視頻加水印等功能,實時上傳錄屏文件到服務端,通過視頻會議軟件提供的SDK自動打開視頻客戶端,加入指定會議,以及共享處置人員終端桌面等。
(2)無人值守機器人被部署到無需用戶操作的設備上。使用模擬用戶操作模式,通過windows提供的UIAutomatio自動控制界面,可以操作桌面窗口,模擬鼠標和鍵盤,支持遠程打開多個web界面,進行分屏處理,共享到視頻會議中。使用windows提供的第三方登錄界面開發的COM組件可以監控系統啟動、帳戶解鎖和帳戶鎖定,實現對多地應急終端的遠程控制。
7. 信息公告板
以時間軸的形式全程記錄并顯示任務完成情況、現場和遠程處置人員終端輸入的操作指令和屏幕錄像,為決策層實時提供所需參考信息,為事后復盤提供數據支持。公告板內容支持跨協作會議發送,便于多個會議協同時的信息共享。

圖3 信息公告板
8.通訊能力保障
自動判斷參會人網絡狀況,支持自動或主動切換以視頻或電話方式參與協作處置。
四、發展和展望
目前,信息協作管理系統以提供安全、標準化、可視化、數字化的多方協作平臺為目標,提升在各類運維場景下通知通報、信息共享、影響分析、決策支持等各個環節的協同作業水平,通過對整個協作過程的完整數字化記錄,為后續流程優化以及自動化和智能化工具的建設提供數據基礎。未來,一方面持續提升信息協作管理系統平臺能力,將技術創新轉化為標準化進程,提供開放性服務,支撐全行運維場景。另一方面強化頂層設計,依托AI技術,以數字化信息互通為抓手,構建與周邊平臺的共生能力,增強縱橫融合深度,實現能力互補與拓展,促進多元化智能運維場景的衍生和創新,持續推進移動化、開放化、生態化服務能力建設。





















