助力云環(huán)境標(biāo)準(zhǔn)運(yùn)行:三種能救急的網(wǎng)絡(luò)監(jiān)控工具
譯文云監(jiān)控服務(wù)可以收集提供商的生態(tài)系統(tǒng)里面服務(wù)器、存儲(chǔ)系統(tǒng)及其他服務(wù)的一系列性能數(shù)據(jù)。遺憾的是,這些工具擁有的網(wǎng)絡(luò)監(jiān)控功能常常很有限,這就意味著它們發(fā)現(xiàn)不了你的云環(huán)境中的嚴(yán)重性能問(wèn)題。為了密切關(guān)注你的網(wǎng)絡(luò),并且發(fā)現(xiàn)潛在問(wèn)題,應(yīng)該使用成熟可靠的網(wǎng)絡(luò)監(jiān)控工具,以便跟蹤并報(bào)告性能方面更深入的數(shù)據(jù)。
網(wǎng)絡(luò)監(jiān)控工具分為三個(gè)類別:基本監(jiān)控、可視化及報(bào)告以及高級(jí)的異常檢測(cè)。先進(jìn)的產(chǎn)品擁有涵蓋多個(gè)類別的功能特性。但是如果你關(guān)注可視化或高級(jí)的異常檢測(cè)和安全,不妨特別留意單個(gè)產(chǎn)品中的那些功能特性。
能完成任務(wù)的基本的網(wǎng)絡(luò)監(jiān)控工具
Nagios是一款開(kāi)源網(wǎng)絡(luò)監(jiān)控工具,它一向以用起來(lái)難度大而著稱,不過(guò)功能也很全面。它可以捕獲網(wǎng)絡(luò)協(xié)議,監(jiān)控網(wǎng)絡(luò)服務(wù),并且通過(guò)短信、電子郵件或執(zhí)行自定義腳本來(lái)生成警報(bào)。報(bào)告模塊詳細(xì)地記載了以往的服務(wù)停運(yùn)事件以及這些停運(yùn)事件的應(yīng)對(duì)措施。
對(duì)于想要Nagios的監(jiān)控功能,但是又不需要管理方面學(xué)習(xí)新知識(shí)的那些用戶來(lái)說(shuō),基于Nagios的第三方實(shí)用工具也許是合適的選擇。借助Opsview Ltd.等公司提供的服務(wù),你就能獲得先進(jìn)的功能特性、服務(wù)支持以及幾種不同的方案:從免費(fèi)的開(kāi)源核心方案到企業(yè)級(jí)方案,不一而足。后者包括統(tǒng)一儀表板、企業(yè)報(bào)告以及多臺(tái)分布式主服務(wù)器整合數(shù)據(jù)的功能。
面向IT基礎(chǔ)設(shè)施(包括網(wǎng)絡(luò)監(jiān)控)的另一種開(kāi)源方案來(lái)自Zabbix ISA。借助Zabbix監(jiān)控工具,管理員就能夠收集服務(wù)器和網(wǎng)絡(luò)設(shè)備方面的詳細(xì)的度量指標(biāo)。它提供了可視化功能,可以顯示采用易于評(píng)估的格式的大量數(shù)據(jù)。代理能夠?qū)崿F(xiàn)分布式監(jiān)控,并且同時(shí)提供了基于代理的監(jiān)控方案和不需要代理的監(jiān)控方案。
分析大量數(shù)據(jù)的可視化工具
網(wǎng)絡(luò)監(jiān)控服務(wù)面臨的挑戰(zhàn)之一在于,它會(huì)生成大量的數(shù)據(jù)。報(bào)告工具可以對(duì)數(shù)據(jù)進(jìn)行過(guò)濾并整合處理。可視化可以整合大量數(shù)據(jù),并且清楚地呈現(xiàn)數(shù)據(jù),從而顯示存在的顯著關(guān)系。
說(shuō)到可視化,云管理員可以想使用PRGT之類的開(kāi)源網(wǎng)絡(luò)監(jiān)控工具,這種基于RRDtool而建的工具可用于數(shù)據(jù)日志和應(yīng)用程序繪圖。Paessler為PRTG提供了商業(yè)支持。Cacti是另一種基于RRDtool的可視化工具,可以從AWS Marketplace合作伙伴JumpBox處獲得。Cacti包括一個(gè)界面,可以支持圖形模板和多種數(shù)據(jù)采集方法。
提高更高級(jí)網(wǎng)絡(luò)監(jiān)控的異常檢測(cè)
不過(guò),光靠可視化手法并不總是夠用。網(wǎng)絡(luò)流量中的一些模式比較細(xì)微。比如說(shuō),平均流量模式方面的變化可能表明有問(wèn)題,但是在典型的管理報(bào)表和可視化圖表中并不顯示出來(lái)。這就需要采用異常檢測(cè)手法。異常檢測(cè)應(yīng)用軟件可以識(shí)別偏離預(yù)期范圍的網(wǎng)絡(luò)行為,從而提供更高級(jí)的搶先式監(jiān)控。
異常檢測(cè)對(duì)需要應(yīng)用程序和網(wǎng)絡(luò)性能一致的服務(wù)來(lái)說(shuō)很重要。成功的營(yíng)銷活動(dòng)會(huì)給網(wǎng)絡(luò)帶來(lái)訪問(wèn)量激增的情況。即便部署了負(fù)載均衡系統(tǒng),客戶訪問(wèn)還是有可能存在延遲增加的問(wèn)題。像Numenta的Grok這些工具就能識(shí)別訪問(wèn)量激增及其他異常現(xiàn)象。
理想情況下,如果啟用了自動(dòng)擴(kuò)展功能,你的應(yīng)用程序就會(huì)自動(dòng)為起用集群添加節(jié)點(diǎn),從而處理增加的負(fù)載。諸如Grok之類的工具就能識(shí)別潛在的性能問(wèn)題,讓系統(tǒng)管理員能夠手動(dòng)添加額外的服務(wù)器,或者確保自動(dòng)擴(kuò)展機(jī)制能夠積極應(yīng)對(duì)增加的負(fù)載。






















