微軟研究人員發(fā)布 AIOpsLab:面向 AIOps 代理的開源綜合人工智能框架 原創(chuàng)
01、概述
隨著云計(jì)算技術(shù)的不斷演進(jìn)和復(fù)雜化,企業(yè)對(duì)云基礎(chǔ)設(shè)施的依賴越來越深。如今,幾乎所有大型企業(yè)都依靠云平臺(tái)確保業(yè)務(wù)順利運(yùn)營。然而,隨著微服務(wù)架構(gòu)和無服務(wù)器計(jì)算的興起,云計(jì)算環(huán)境的復(fù)雜度也隨之加劇,給云計(jì)算的可靠性和運(yùn)維帶來了前所未有的挑戰(zhàn)。站點(diǎn)可靠性工程師(SREs)和DevOps團(tuán)隊(duì)肩負(fù)著保障云平臺(tái)的穩(wěn)定性、故障檢測、診斷及修復(fù)等重要任務(wù)。然而,隨著服務(wù)模型的復(fù)雜化,傳統(tǒng)的運(yùn)維方式顯得捉襟見肘,無法有效應(yīng)對(duì)日益增加的故障點(diǎn)和潛在的風(fēng)險(xiǎn)。
例如,像Amazon AWS這樣的大型云平臺(tái),如果出現(xiàn)一小時(shí)的宕機(jī),可能會(huì)帶來巨大的財(cái)務(wù)損失。盡管在通過自動(dòng)化IT運(yùn)維的手段,如AIOps代理,來提升效率方面已經(jīng)取得了一定進(jìn)展,但現(xiàn)有的AIOps技術(shù)依然存在一些瓶頸,尤其是缺乏標(biāo)準(zhǔn)化、復(fù)現(xiàn)性以及在實(shí)際場景下的評(píng)估工具。這使得目前的解決方案往往只能針對(duì)運(yùn)維中的特定方面進(jìn)行優(yōu)化,缺乏全面的、可實(shí)際操作的框架來測試和改進(jìn)AIOps工具的有效性。
在這種背景下,微軟研究院和來自加利福尼亞大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、印度科學(xué)研究院以及阿格尼斯·斯科特學(xué)院的研究團(tuán)隊(duì)共同開發(fā)了一個(gè)名為AIOpsLab的評(píng)估框架。該框架旨在解決AIOps工具在實(shí)際應(yīng)用中面臨的可復(fù)現(xiàn)性、標(biāo)準(zhǔn)化和可擴(kuò)展性等問題,為AIOps代理的設(shè)計(jì)、開發(fā)和提升提供系統(tǒng)化支持。
02、AIOpsLab:讓云運(yùn)維更加智能和高效
AIOpsLab是一個(gè)開放源代碼的框架,旨在為研究人員和實(shí)踐者提供一個(gè)標(biāo)準(zhǔn)化、可復(fù)現(xiàn)且可擴(kuò)展的測試平臺(tái),幫助他們?cè)u(píng)估和優(yōu)化AIOps工具。該框架的核心思想是將真實(shí)世界的工作負(fù)載和故障注入能力與云環(huán)境中的代理接口相結(jié)合,從而模擬接近生產(chǎn)環(huán)境的實(shí)際場景,并覆蓋云運(yùn)維的整個(gè)生命周期——從故障檢測到故障解決。

AIOpsLab的技術(shù)優(yōu)勢
1)多模塊化設(shè)計(jì)
AIOpsLab的架構(gòu)設(shè)計(jì)非常靈活,核心模塊是一個(gè)調(diào)度器(Orchestrator),它負(fù)責(zé)調(diào)度和協(xié)調(diào)代理與云環(huán)境之間的交互。調(diào)度器提供任務(wù)描述、操作API和反饋機(jī)制,能夠確保測試代理能夠在實(shí)際環(huán)境中發(fā)揮作用。
2)故障和工作負(fù)載生成器
AIOpsLab通過故障生成器和工作負(fù)載生成器來模擬現(xiàn)實(shí)世界中的復(fù)雜情形,挑戰(zhàn)被測試的AIOps代理。這些生成器能夠模擬不同的故障情景,如微服務(wù)的配置錯(cuò)誤、網(wǎng)絡(luò)延遲等,幫助研究人員測試代理的應(yīng)對(duì)能力。
3)可觀察性模塊
可觀察性是AIOpsLab的一個(gè)關(guān)鍵組成部分。它提供了全面的遙測數(shù)據(jù),包括日志、度量指標(biāo)和追蹤信息,幫助故障診斷。在處理復(fù)雜的云運(yùn)維環(huán)境時(shí),實(shí)時(shí)的、精確的遙測數(shù)據(jù)能夠有效地揭示故障的根本原因,并為代理提供改進(jìn)的方向。
4)標(biāo)準(zhǔn)化的評(píng)估
AIOpsLab通過標(biāo)準(zhǔn)化的評(píng)估框架,確保了測試環(huán)境的一致性和可復(fù)現(xiàn)性。無論是傳統(tǒng)的虛擬化平臺(tái),還是當(dāng)前流行的Kubernetes和微服務(wù)架構(gòu),AIOpsLab都能與這些環(huán)境無縫對(duì)接,保證在各種架構(gòu)下進(jìn)行穩(wěn)定可靠的測試。

03、AIOpsLab的應(yīng)用與前景

AIOpsLab不僅僅是一個(gè)理論框架,它在實(shí)際的案例研究中展現(xiàn)了其強(qiáng)大的能力。在一項(xiàng)使用DeathStarBench中的SocialNetwork應(yīng)用程序進(jìn)行的案例研究中,研究人員引入了一個(gè)真實(shí)世界的故障——微服務(wù)配置錯(cuò)誤,并使用基于ReAct框架和GPT-4驅(qū)動(dòng)的AIOps代理進(jìn)行測試。測試結(jié)果表明,AIOpsLab能夠有效地模擬實(shí)際環(huán)境,代理在36秒內(nèi)識(shí)別并解決了問題,展示了AIOpsLab框架在真實(shí)場景中的有效性。
在這個(gè)案例中,詳細(xì)的遙測數(shù)據(jù)起到了至關(guān)重要的作用,幫助研究人員迅速定位并解決問題。調(diào)度器的API設(shè)計(jì)也為代理在探索性和針對(duì)性行動(dòng)之間提供了平衡,有效地加速了故障診斷和解決的過程。這些實(shí)驗(yàn)證明了AIOpsLab作為一個(gè)穩(wěn)健基準(zhǔn)框架的潛力,能夠在不斷優(yōu)化的過程中提升AIOps代理的性能,推動(dòng)云運(yùn)維自動(dòng)化的發(fā)展。
04、結(jié)語
AIOpsLab的推出,無疑為當(dāng)前的AIOps工具提供了一個(gè)嶄新的評(píng)估標(biāo)準(zhǔn)和發(fā)展方向。它彌補(bǔ)了現(xiàn)有工具中的一些不足,尤其是在可復(fù)現(xiàn)性、標(biāo)準(zhǔn)化和實(shí)際應(yīng)用場景模擬方面的挑戰(zhàn)。隨著云計(jì)算的規(guī)模和復(fù)雜度不斷擴(kuò)大,類似AIOpsLab這樣的框架將變得越來越重要,它不僅能幫助研究人員和開發(fā)者優(yōu)化AIOps代理,還能推動(dòng)整個(gè)云運(yùn)維行業(yè)向智能化、自動(dòng)化的方向發(fā)展。
此外,作為一個(gè)開源框架,AIOpsLab鼓勵(lì)全球的研究人員和實(shí)踐者共同參與進(jìn)來,推動(dòng)這一領(lǐng)域的創(chuàng)新與合作。未來,隨著云平臺(tái)的不斷發(fā)展和運(yùn)維需求的變化,像AIOpsLab這樣的框架將成為保障云平臺(tái)穩(wěn)定性和提升AI在IT運(yùn)維中的作用的關(guān)鍵工具。它為我們展現(xiàn)了一個(gè)更加智能、高效和可靠的云運(yùn)維未來,推動(dòng)著人工智能在IT運(yùn)維中的深度應(yīng)用。
通過AIOpsLab,云運(yùn)維的智能化將不僅僅是未來的夢想,它已經(jīng)邁出了堅(jiān)實(shí)的一步,正引領(lǐng)著我們進(jìn)入一個(gè)更加高效、可靠且智能化的云計(jì)算時(shí)代。
參考:
- ??https://arxiv.org/pdf/2407.12165??
- ??https://github.com/microsoft/AIOpsLab/?tab=readme-ov-file??
- ??https://www.microsoft.com/en-us/research/blog/aiopslab-building-ai-agents-for-autonomous-clouds/??
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯

















