智能化運維的探索與實踐——Tech Neo 技術(shù)沙龍第十八期
原創(chuàng)【51CTO.com原創(chuàng)稿件】回顧運維發(fā)展,可劃分為腳本、工具、平臺和智能化四大時代。之所以有這樣的演進主要原因有二:其一是大小型機,PC服務(wù)器,虛擬機,容器等基礎(chǔ)設(shè)施的逐步增多;其二是分布式,微服務(wù)等軟件規(guī)模暴增,調(diào)用關(guān)系也越來越復(fù)雜。面對如此龐大、復(fù)雜、多變的諸多系統(tǒng),人力已經(jīng)無法維護,開始探索新的方式:智能化運維。
Tech Neo 技術(shù)沙龍第十八期現(xiàn)場
今天, 由51CTO 主辦的第十八期以“Tech Neo”為主題的技術(shù)沙龍活動如期舉行,此次沙龍邀請了來自京東金融資深研發(fā)工程師張晨、日志易產(chǎn)品總監(jiān)饒琛琳、資深云計算專家王強。三位老師分享不僅有智能化運維的方式方法,還有在各自領(lǐng)域的實踐案例,希望可以給運維人員帶來一些新的思考。
異常檢測與根因分析
首位演講的是從事智能運維監(jiān)控平臺的研發(fā)與實踐多年的京東金融資深研發(fā)工程師張晨老師,他參與并主導(dǎo)了APM等產(chǎn)品的研發(fā)與應(yīng)用,經(jīng)歷了多次618和雙11的***TPS的運維保障,他分享的主題是異常檢測與根因分析。
張晨·京東金融資深研發(fā)工程師
張晨的分享以智能運維的背景,難點,優(yōu)勢及適用于運維哪些領(lǐng)域為開端,過程中主要圍繞采用異常檢測的手段,從基礎(chǔ)到高級的過程,根因分析從大量的數(shù)據(jù)中尋找造成故障的根本原因為核心展開。
張晨表示,傳統(tǒng)異常檢測存在適配性差、不同的應(yīng)用和場景的閾值存在異同、大量個性化配置,人工基本不可維護等不足。面對這樣的情況,就要采用動態(tài)閾值的異常檢測、引入機器學習來應(yīng)對。
在根因分析方面,常用技術(shù)方案存的不足主要體現(xiàn)在:基于的是網(wǎng)狀的業(yè)務(wù)拓撲圖降維后的數(shù)條鏈路,由于其具有不確定性;拓撲圖只能反映出模塊B調(diào)用了模塊C,模塊C調(diào)用了模塊D;在哪條鏈路中的調(diào)用,無法確定是否連續(xù)調(diào)用,可能會導(dǎo)致根源分析的錯誤,造成誤報;
針對這些不足,張晨分享了根因分析的改進方式、根因警告的原理、步驟和一些相關(guān)的真實案例。
HSLT項目--機器人智能化運維前身
第二位分享者是有十年IT生涯,兩年高級管理,八年研發(fā)管理經(jīng)驗(云計算,平臺,產(chǎn)品化),三年國家工程項目開發(fā)管理實施經(jīng)驗的王強老師。他先后就職于中軟國際,IBM,青云等知名企業(yè),分享主題為HSLT項目--機器人智能化運維前身。
王強·資深云計算專家
HSLT是IBM早期的一個Cloud項目,但是它的核心理念到現(xiàn)在依然領(lǐng)先,并且QingCloud青云借鑒其諸多設(shè)計原則,很多領(lǐng)域真正做到大規(guī)模線上復(fù)雜分布式系統(tǒng)故障無人干預(yù)自動恢復(fù)與處理。
王強介紹,HSLT目標是希望利用自動化,機器人,人工智能的技術(shù)達到極少數(shù)人管理超大規(guī)模系統(tǒng)環(huán)境的目的,從***層的IAAS開始,到PAAS,SAAS層。集群規(guī)模大,產(chǎn)品和服務(wù)質(zhì)量優(yōu)先,偏向產(chǎn)品化平臺化,行業(yè)監(jiān)控允許等是HSLT經(jīng)驗適用范圍和界限。
后續(xù)演講圍繞HSLT設(shè)計原則展開,過程中提到 Design for failure,ASAP,Scalable everything,Dependence inversion,Devops,TDD。
王強的分享還涉及很多互聯(lián)網(wǎng)公司智能化運維的實踐,如合理的架構(gòu)分層、單元化部署、業(yè)務(wù)連續(xù)性管理等。
數(shù)據(jù)驅(qū)動的智能運維平臺
***分享的是日志易產(chǎn)品總監(jiān)饒琛琳老師,他在運維領(lǐng)域深耕近十載,在監(jiān)控、自動化運維、日志分析和智能運維等領(lǐng)域均有較深的研究和大規(guī)模實踐經(jīng)驗,他分享的主題是數(shù)據(jù)驅(qū)動的智能運維平臺。
饒琛琳·日志易產(chǎn)品總監(jiān)
整個分享,從運維需求的本質(zhì)出發(fā),推導(dǎo)AIOps的架構(gòu)設(shè)計和組成。過程中詳細介紹其中最重要的幾個場景:時序預(yù)測,異常檢測,模式概要的分析原理與實現(xiàn)方式,以及對應(yīng)的開源項目選擇。
饒老師表示,更靈活、更易用的訪問和分析數(shù)據(jù),能分析過去散落在各組件中未利用上的業(yè)務(wù)數(shù)據(jù)和上下文,快速的探索和實驗平臺提供獨特的洞擦力,是AIOps的三大作用。
從『系統(tǒng)組成』看AIOps架構(gòu)可分為數(shù)據(jù)湖、自動化系統(tǒng)、記錄系統(tǒng)、交互系統(tǒng)和監(jiān)控生態(tài)圈幾大模塊。
智能運維的作用:異常檢測、歸因分析、智能警報、未來預(yù)測、能力分配、數(shù)據(jù)概要和主動監(jiān)控。
智能運維的路徑:異常檢測 -> 主動監(jiān)控;數(shù)據(jù)概要 -> 異常檢測 -> 主動監(jiān)控;未來預(yù)測 -> 容量規(guī)劃 / 異常檢測;根因分析 -> 智能警報 -> 自動化;
因大家熱情高漲,不斷地和三位老師就異常檢測、監(jiān)控報道、歸因分析等內(nèi)容進行探討,不知不覺中,時間流走,本應(yīng)十七點結(jié)束的沙龍,最終近十八點***一波人才意猶未盡的離開。
透過這次交流,更加肯定的是實現(xiàn)運維智能化是運維工作未來的發(fā)展方向。但實現(xiàn)運維工作的流程化、標準化、自動化是實現(xiàn)運維智能化的前提,企業(yè)可以合理規(guī)劃,前瞻性的布局。通過一段時間的積累和優(yōu)化,逐步對信息系統(tǒng)進行改造,早日達到標準化、自動化的模式,為最終的智能化建立良好的基礎(chǔ)。
51CTO于2016年開始舉辦主題為Tech Neo的技術(shù)沙龍,意指在于為IT技術(shù)人員提供一個高質(zhì)量的學習交流的線下平臺,目前僅限北京地區(qū),周期為每月1次,每期圍繞一個話題進行探討,涉及人工智能、大數(shù)據(jù)、云計算、區(qū)塊鏈、物聯(lián)網(wǎng)等多個技術(shù)領(lǐng)域。
更多AI內(nèi)容,請關(guān)注公眾號:AI推手
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】






















