百度亮相 SREcon25:搜索穩定背后的秘密,微服務雪崩故障防范
近日,全球 SRE 領域具有高度影響力的國際會議 SREcon25 在愛爾蘭都柏林舉行。該會議由計算機科學領域權威機構 USENIX 主辦,已成為全球可靠性工程師(SRE)交流的頂級盛會。本屆大會匯聚了來自 Google、Meta、AWS、百度等全球領先企業的技術專家,共同探討分布式系統的穩定性演進、可觀測性與自治運維的未來方向。
在此次大會上,百度智能云運維部與百度搜索架構部聯合發表主題報告 《Preventing Avalanche Failures in Large-Scale Microservice Systems》(《大規模微服務系統中的雪崩故障防范》),系統闡述了團隊在微服務穩定性治理、系統級防崩潰機制及韌性架構設計方面的實踐成果,標志著百度在全球 SRE 領域的工程創新與可靠性治理能力獲得國際同行認可。
1.從靈活到脆弱:復雜微服務系統的雪崩故障風險
分布式技術使得系統具備高并發、高彈性、可擴展能力,但同時復雜的調度鏈、耦合的高可用機制也使得系統在特定場景下變得更加脆弱,帶來了新的故障模式,其脆弱性體現在:
- 系統邊界行為不可知:在突發場景中,系統不同機制耦合導致的系統行為不可預測;
- 級聯容量風險:單一服務故障可能沿調用鏈放大其影響;
- 高可用機制的副作用:部分高可用機制(如重試)在極端情況下放大負載,加劇系統惡化;
圖片
圖片
2.雪崩并非突發,而是「非穩態」的必然結果
雪崩故障生命周期大致可劃分為四個階段:
- 系統進入非穩態:此階段系統表面指標正常,但系統已接近雪崩臨界點,處于非穩態,任何一個擾動都有可能使得系統越過臨界點;
- 擾動觸發雪崩:輕微擾動(流量抖動、網絡抖動、緩存失效、小的故障等)導致系統跨越雪崩臨界點,系統可用性進入不可逆的死亡螺旋;
- 雪崩發展:此階段系統高可用機制相互作用形成正反饋環路,如可用性下降 → 重試 → 負載增加 → 可用性繼續下降的死亡螺旋;
- 徹底雪崩:此階段系統做無效計算,有效吞吐大幅下降,系統無法依靠自身恢復,必須通過外力打破正反饋通路才能恢復系統;
在快速且復雜的雪崩故障發展路徑中,雪崩觸發源事件并非雪崩的根本原因,而在于系統在多種機制耦合作用下的脆弱性、系統整體反饋強度越過了系統服務能力邊界。
圖片
圖片
圖片
圖片
3.理論模型:系統極限吞吐模型
為刻畫系統極限吞吐,基于 Little’s Law(利特法則) 構建了系統吞吐約束模型。
圖片
在此模型下,每個微服務的吞吐上限由「線程并發度」和「請求延遲」共同決定。一旦局部延遲上升、線程被占滿,RPS 約束被打破,整個系統鏈路將進入「正反饋不穩定區」。
該模型被進一步擴展為將服務視為連續的「請求隊列 + 工作線程 + 后端依賴」三層結構,使得該模型可以在深調度鏈中適用。
圖片
4.微觀視角的系統雪崩過程
以「網關 → 服務 A → 服務 B → 服務 C」的典型調用鏈為例,當服務 C 出現延遲上升時:
- 服務 A 和 B 的線程利用率與延遲幾乎同時飆升,這是原始故障的直接傳導過程;
- 服務 B 的隊列長度開始積壓,服務 A 的隊列也出現同步增長,系統進入隊列積壓階段;
- 由于 B 超時,A 對 B 觸發重查,導致 B 負載進一步上升,系統有效吞吐下降,進入「反饋 - 惡化 - 反饋」的正反饋結構;
- 最終網關超時,觸發對 A 的重查,B 上收到的流量進一步增加,系統有效吞吐繼續下降,持續處于「反饋 - 惡化 - 反饋」的正反饋結構;
- 系統在這種「自我強化機制」下迅速走向無有效吞吐且不可自我恢復,系統徹底崩潰;
圖片
以上所有過程可在數十秒內完成,傳統的可用性手段已無法應對如此快速的故障發展過程,抑制雪崩故障的關鍵在于抑制或打破此類指數級的反饋結構。
5.防雪崩工程實踐 —— 讓系統「自愈」而非「被救」
早期預警:發現非穩態
為了在雪崩發生前發現早期信號,團隊構建了一套多層監控體系,實時跟蹤系統健康指標,包括:
- 全鏈路失敗數與請求延遲分布;
- 隊列長度、線程使用率;
- 各關鍵服務的百分位延遲(P95/P99)。
這些指標均以秒級粒度采集,并結合異常檢測模型進行自動告警,實現「秒級檢測、分鐘級處置」。
核心干預措施:抑制雪崩發展、加速雪崩退出
基于雪崩生命周期不同階段的特點,建設了一套系統化的干預框架,從系統微觀機制層面改造反饋通路,抑制反饋強度,確保系統在常態下具有正常反饋,在故障場景下反饋強度適度。
- Retry Budget(重試預算)通過在 RPC 組件層實現全鏈路重試預算池,區分「直接重試」和「間接重試」,并為不同來源設定預算閾值。當預算耗盡時自動快速失敗,從機制層面抑制重查風暴,系統重試流量從指數增長退化為線性增長。
- Queue Throttling(隊列節流)服務端請求隊列按優先級劃分,擁塞時僅保留高優任務。限流器根據實時處理速率自適應調整放行,同時清除超時請求,避免隊列堵塞。
- Global TTL Control(全局 TTL 控制)每個請求自入口攜帶生命周期 TTL,沿調用鏈傳播并動態遞減。當 TTL 耗盡時,后續請求自動終止,避免無效調用消耗寶貴計算資源。
- Multi-Dimensional Intervention(多層干預體系)當系統檢測到關鍵指標(P99 延遲、失敗率、線程利用率等)越界時,觸發快速干預機制,包括跨 IDC 流量切換、系統內部流量裁剪、服務策略裁剪、動態砍超時重查。通過「秒級決策 + 自動執行」實現系統自愈。
上述機制的設計理念是:不試圖消除反饋結構,而是控制反饋強度。
圖片
圖片
圖片
圖片
6.結語
歷經體系化治理,百度搜索已實現大規模微服務體系的穩定性躍升。通過微觀機制改造、預案建設并經生產環境驗證,百度在過去多個季度中消除了系統雪崩事件。
本次 SREcon25 的主題分享,不僅展現了團隊在微服務可靠性與韌性架構領域的系統化研究成果,也向國際同行展示了百度工程團隊在大規模系統穩定性治理上的深厚積累與方法論創新。
未來,運維部與搜索架構部將繼續深耕自治運維、穩定性建模與智能化自愈機制的研究,攜手全球 SRE 社區,共同推動可靠性工程從經驗驅動走向科學驅動,為 AI 時代的基礎設施穩定性奠定堅實基石。


















