當我們談論容災時是在談些什么？

作者：天涯咫尺TGH 2024-03-28 14:16:43

說起容災，很多同學腦子里冒出”同城雙活”，“兩地三中心”，“RPO”，“RTO”等等。其實這些名詞背后均隱射一層含義，面對一些災難時候，業務如何做冗余來快速恢復業務。

容災是一個非常傳統的話題，是在產生IT系統的第一天開始就必須要考慮的問題。總的來說它主要是指“數據中心災難、區域性災難和人為誤操作”三個方面造成對IT系統的災難時的恢復工作。

將容災這個詞，分開來看“容”和“災”。“災“可大可小，某種意義上來講就是"單點"問題，例如核心業務部署單臺服務器上，這臺服務器宕機起不來了，對業務來講就是一場災難；而“容”，是解決各種"單點"問題。以資源部署粒度來看，一直在解決單點問題路上，如下圖：

業務容災方案有很多種，但是萬變不離其宗，本質上都是通過“冗余”來解決"單點"問題；從而不同維度的單點問題，方案決策因素和成本差異會非常大。

1）為什么要做容災？

梳理當前系統“災”，主要有哪些痛點，并對其優先級排序。例如單點隱患，難擴展性，運維成本高等等現狀，結合現狀進行排序，對后續方案選擇至關重要。

2）容災要做到什么程度能滿足當前要求？

設計當前系統“容”，對當前系統潛在災難逃生通道進行冗余設計，當災難真正發生，預計多長時間能恢復，或者業務穩定性SLA，如SLA=99.999%。

基于容災范圍和目標，在設計容災方案重點從以下三方面來考慮評估。

1）成本，包括人力，時間以及資金。對于成本和恢復耗時成反比，業務恢復時間越少，成本也會越高，這是強正相關。

2）可用性，首先考慮引入方案對現有系統增加哪些不確定因素，評估這些不確定對穩定性影響。當前是是單可用區部署，主從數據同步使用強同步；客戶計劃實現同地域不同AZ粒度容災。這樣一個變化會引入不確定因素，例如AZ之間網絡延時和穩定性，如果AZ間網絡時常抖動，等待從節點返回ack有延時，線上業務時常被hang。其次考慮當前方案能否滿足容災切換和恢復目標。

3）擴展性，主要為后續業務容災平滑演進。從某種意義來講，無論是自建idc還是云廠家在建設數據中心時候都不能無限大，在物理機房限制條件下，如果業務發展足夠好，就會存在資源不夠，擴展受物理設施限制。因此在容災方案選擇的時候，要有前瞻性，對于set化進行提前布局。

容災的分類和關鍵指標rpo和rto。

傳統容災的主要技術

從成本，可用性以及可擴展性做橫向對比，容災主要有以下四種實現方案。

在國內，“兩地三中心”的容災架構已經廣泛的被企業級用戶認可，成為企業級容災架構的標準，但由于建設成本高，周期長等原因，實際按照此標準建設的企業少之又少。混合云容災架構，就是在云環境中實現“兩地三中心”，同時利用！云中資源的彈性大幅度降低資源成本和建設以及運維的復雜性。

軟件定義一切，云容災解放企業IT生產力

如果企業客戶已經在自己的數據中心中完成了容災環境的搭建，勢必消耗了大量了資源，包括機架空間、電力、IT資源、人力資源等等，而容災環境本身是一個并不產生經濟效應的保障性系統，對企業資源的占用巨大。

云資源池通過軟件定義的方式，能夠打造與企業內部完全相同的復雜IT環境，實現企業級應用的完整鏡像，隨著應用容災系統遷移至云中，可以將企業現有的容災中心轉變成生產中心，從而擴大客戶自建數據中心的承載能力，或大幅降低IT資源的運營成本。

隨時容災演練，確保備用環境可用性

在傳統的容災環境中，容災演練是一個令人頭疼的大問題，因為容災環境的建設不是“一錘子買賣”，隨著生產環境和數據的不斷變化，容災環境必須跟隨生產環境改變，否則在發生災難時就無法實現業務的快速切換和啟動，因此，定期的容災演練是必須的。而傳統環境中的容災演練要配合硬件和軟件廠商，耗時耗力，效果還往往不盡如人意。

在云環境中，能夠輕松實現容災環境的復制，從而與生產環境并行的實現容災環境的測試演練，通過實際的演練來驗證容災環境的可用性以及數據的完整性，在演練結束后可以隨時將演練環境刪除或關停，演練成本和復雜程度都大幅降低。

云容災實現秒級回滾，解決人為錯誤

在生產環境中，由于人為的誤操作、系統升級、補丁等操作造成的對IT系統以及數據的破壞很難防范，尤其是有一些操作和BUG導致系統在運行一段時間后才能發現故障，而此時容災環境的數據有可能已經被覆蓋，難以恢復。

在云中實現的容災環境能夠借助數據快照、數據日志等功能，除了能夠保存最新的業務數據意外，還能夠實現數據的秒級回滾。在發現系統出現故障后，不但能夠切換到容災環境中的最新數據，還能夠選擇過去24小時中的任意時間點進行恢復，從而解決了容災系統中的臟數據問題。

利用容災環境切換，實現生產系統的平滑上云

現有的IT生產系統環境往往錯綜復雜且數據量大，這樣的系統往往需要冗長的數據搬遷和環境搭建時間，生產系統面臨長時間的停機，無法接受。

在云環境中，容災解決方案能夠與生產系統并行地傳輸生產數據，并在云中搭建與企業內部結構相同的生產系統鏡像環境，待云中數據與生產中心數據同步一致后，以容災切換的方式使生產業務切換至云上，最大限度地降低了生產環境的停機時間，實現了平滑上云。

容災雖然是一個非常古老和傳統的IT業務，但隨著云計算技術的不斷成熟和普及，它恰恰成為了一個非常適合率先在公有云中實現的業務。

首先它的建設風險低，與生產系統完全并行，前期投入小，無需提前采購，而且它還能夠成為企業上云過程中建設自身團隊云能力的一個絕好機會，經過云容災項目之后，企業對云資源、云技術都會有一個全面的了解，且能夠利用這個機會驗證云環境承載企業生產系統的能力到底如何，再逐步實現企業級IT環境的云轉型。

云容災行業面臨的挑戰

取代傳統容災思維，將“如何有效利用云資源構建高效可靠的容災服務，保障IT基礎架構設施的安全性和穩定性，從而確保業務的持續性穩定增長”，作為企業高效安全智能地保護數據、賦能業務增長而思考的首要問題。在當前情況下，云容災行業將面臨全新挑戰：

1.云原生能力

我們不難發現云原生帶給IT產業一次重新洗牌，從應用開發過程到 IT 從業者的技術能力，都是一次顛覆性的革命。在此基礎上，出現了基于云原生平臺的 Open Application Model 定義，在云原生平臺基礎上進一步抽象，更加關注應用而非基礎架構。同時，越來越多的公有云開始支持 Serverless 服務，更加說明了未來的發展趨勢：應用為核心，輕量化基礎架構層在系統建設過程中的角色。

這種大的趨勢下，傳統的遷移和容災仍然停留在數據搬運的層次上，而忽略了面向云的特性和用戶業務重新思考和構建。云計算的愿景是讓云資源像水、電一樣按需使用，所以基于云上的遷移和容災也理應順應這樣的歷史潮流。

傳統的容災往往以存儲為核心，擁有對存儲的至高無上的控制權。并且在物理時代，對于計算、存儲和網絡等基礎架構層也沒有有效的調度方法，無法實現高度自動化的編排。而基于云原生構建的應用，核心變成了云原生服務本身。當用戶業務系統全面上云后，用戶不再享有對底層存儲的絕對控制權，所以傳統的容災手段，就風光不在了。

在構建云原生容災的解決方案上，要以業務為核心去思考構建方法，利用云原生服務的編排能力實現業務系統的連續性。云原生架構也可以更好的提升業務穩定性，最大程度的降低了企業內耗。

2.多云的支持能力

國外的云計算市場穩定成熟，比如，公有云市場最主要的云運營商只有AWS、微軟Azure、和Google Cloud，可謂“三足鼎立”。而我國云計算市場則是大相徑庭：我國實際運營的公有云至少在10朵以上，這個局面更像是“群雄逐鹿”；再加上專有云、私有云的各種產品，讓用戶在第一時間無從選擇。

國內云市場紛繁復雜，很多企業用戶為避免單一廠商鎖定的問題而選擇混合云作為長期的云平臺建設戰略。混合云目前是用戶建設云平臺的首選方案，采用多云策略的企業將面臨更大的云容災挑戰，這就要求云容災工具能夠更好的對多云環境進行適配，滿足用戶跨云容災的需求，真正實現用戶的業務數據跨云流轉成為常態。

3.更復雜的混合云場景

傳統IT架構和云并存的情況下，企業用云的環境更加復雜。從本地到云，從云到云（包括公有云，私有云），上云，下云的容災，都給容災廠商帶來一些新的場景下的挑戰，需要改變傳統思維，來滿足多樣化的需求。

4.及時恢復能力提升

數據恢復的快慢，很大程度上制約著業務恢復的進度，容災恢復過程中不對原始備份數據產生任何影響，最大限度減少因災難或故障造成核心業務中斷的情況發生，有效保證原始備份數據安全的同時，也為備份數據的驗證奠定基礎。在用戶大量使用公有云和線路的情況下，及時恢復的解決方案面臨更大的挑戰。

5. CDP（continual data protection）連續數據保護能力提升

CDP（continual data protection）連續數據保護，是一種在不影響主要數據運行的前提下，可以實現持續捕捉或跟蹤目標數據所發生的任何改變，并且能夠恢復到此前任意時間點的方法采用CDP技術以后，用戶不必再留出專門的系統備份時間，即使發生故障，數據也可以在短時間內(秒級)恢復到故障之前的任意時刻。用戶的數據量與日俱增，一些關鍵應用的損失會給用戶帶來巨大損失，因此在追求更高的業務連續性上的要求始終在提升。

責任編輯：華軒來源：數字化助推器

容災云計算

當我們談論容災時 是在談些什么？