阿里云到底怎么了?

2023年11月12日,晚6點(diǎn)又發(fā)生重大故障了,早在2022年12月18日,阿里云香港Region可用區(qū)C發(fā)生大規(guī)模服務(wù)中斷事件,對很多客戶業(yè)務(wù)產(chǎn)生重大影響,影響面擴(kuò)大到香港可用區(qū)C的EBS、、OSS、、RDS等更多云服務(wù)。
這次影響更大,在這一個(gè)多小時(shí)里 ,餓了么都下不了單,騎手進(jìn)不了系統(tǒng),點(diǎn)不了外賣、停車場不抬桿、超市無法結(jié)賬 !

受影響產(chǎn)品包括:機(jī)器學(xué)習(xí)、圖像搜索、智能推薦AlRec、智能開放搜索OpenSearch、云行情、數(shù)據(jù)總線DataHub、檢索分析服務(wù)Elasticsearch版、企業(yè)級分布式應(yīng)用服務(wù)、 消息隊(duì)列MQ、微服務(wù)引擎、鏈路追蹤、應(yīng)用高可用服務(wù)、應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)、Prometheus監(jiān)控服務(wù)、消息服務(wù)、消息隊(duì)列Kafka版;
圖計(jì)算服務(wù)Graph Compute、實(shí)時(shí)計(jì)算Flink版、智能數(shù)據(jù)建設(shè)與治理Dataphin、開源大數(shù)據(jù)平臺(tái)E-MapReduce、云原生大數(shù)據(jù)計(jì)算服務(wù)MaxCompute、實(shí)時(shí)數(shù)倉Hologres.大數(shù)據(jù)開發(fā)治理平臺(tái)DataWorks、智能媒體服務(wù)、媒體處理、視頻點(diǎn)播、對象存儲(chǔ)、文件存儲(chǔ)NAS、表格存儲(chǔ)、日志服務(wù)、云存儲(chǔ)網(wǎng)關(guān)、API 網(wǎng)關(guān)、數(shù)據(jù)傳輸、數(shù)據(jù)庫自治服務(wù)、數(shù)據(jù)庫備份、物聯(lián)網(wǎng)平臺(tái)、NAT網(wǎng)關(guān)、負(fù)載均衡、云解析PrivateZone、彈性公網(wǎng)IP、共享帶寬、轉(zhuǎn)發(fā)路由器、私網(wǎng)連接、高速通道、IPv6網(wǎng)關(guān)、專有網(wǎng)絡(luò)VPC、云企業(yè)網(wǎng)、VPN網(wǎng)關(guān)、FPGA云服務(wù)器;
超級計(jì)算集群、批量計(jì)算、無影云桌面、文件存儲(chǔ)HDFS版、塊存儲(chǔ)、混合云備份服務(wù)、密鑰管理服務(wù)、云防火墻、數(shù)據(jù)庫審計(jì)、加密服 務(wù)、運(yùn)維安全中心(堡壘機(jī))、 容器鏡像服務(wù)、容器服務(wù)Ku bernetes版、彈性伸縮、彈性容器實(shí)例、彈性裸金屬服務(wù)器、資源編排;
云原生數(shù)據(jù)倉庫Analyti cDB PostgreSQL版、圖數(shù)據(jù)庫、云原生內(nèi)存數(shù)據(jù)庫Tair、云 數(shù)據(jù)庫Redis 版、云原生關(guān)系型數(shù)據(jù)庫PolarDB、云數(shù)據(jù)庫專屬集群、云數(shù)據(jù)庫MySQL版、云原生數(shù)據(jù)倉庫AnalyticD B MySQL版、云原生分布式數(shù)據(jù)庫PolarDB-X、云數(shù)據(jù)庫 ClickHouse、云原生多模數(shù)據(jù)庫L indorm、云數(shù)據(jù)庫Postgr eSQL版、云數(shù)據(jù)庫SQL Server 版、云數(shù)據(jù)庫MongoDB版、云數(shù)據(jù)庫HBase版;
云服務(wù)器EC S、輕量應(yīng)用服務(wù)器、函數(shù)計(jì)算、Serverless 應(yīng)用引擎、云托付、專有宿主機(jī)、GPU云服務(wù)器、彈性高性能計(jì)算、操作審計(jì)、服務(wù)器遷移中心、運(yùn)維編排、智能計(jì)算靈駿、云呼叫中心、交通云控平臺(tái)、客服工作臺(tái)、視覺智能開放平臺(tái)、智能外呼機(jī)器人、智能語音交互、智能對話機(jī)器人、智能用戶增長、運(yùn)維事件中心、新零售智能助理。

影響服務(wù)之多,涉及范圍之大,已經(jīng)刷新阿里云史上最大事故!阿里系的產(chǎn)品影響面這么廣,其他互聯(lián)網(wǎng)大小廠不知道都遭受什么大影響。
在阿里云最近的大規(guī)模服務(wù)中斷事件中,我們見證了技術(shù)不穩(wěn)定性的直接后果。從餓了么無法下單到超市結(jié)賬系統(tǒng)癱瘓,影響之廣泛令人震驚。這不僅是技術(shù)故障的問題,更是阿里云管理策略和技術(shù)投入的問題。長期以來,人員流動(dòng)和技術(shù)疏忽導(dǎo)致了系統(tǒng)的脆弱性,這次事故是必然的結(jié)果。
難以置信的是,阿里云作為技術(shù)巨頭,其技術(shù)水平如今竟然飽受質(zhì)疑。不僅如此,此次故障也暴露了許多互聯(lián)網(wǎng)公司在研發(fā)資源上的短視和節(jié)約。他們忽視了一個(gè)基本事實(shí):在技術(shù)穩(wěn)定性面前,任何節(jié)約都是短視的。只有投入足夠的資源和精力,才能確保系統(tǒng)的穩(wěn)定和可靠。
作為行業(yè)的一部分,我們必須吸取這次事件的教訓(xùn)。我們需要重視技術(shù)研發(fā),保持團(tuán)隊(duì)的穩(wěn)定,不斷追求技術(shù)革新。只有這樣,我們才能避免未來出現(xiàn)類似的災(zāi)難,確保我們的服務(wù)穩(wěn)定可靠,滿足用戶的需求。這不僅是對我們自身的要求,更是對社會(huì)的責(zé)任。

























