深信服:解決網絡瓶頸 提高災備效率
隨著企業的發展,ERP、CRM、電子商務等應用的部署,在企業效率提高的同時,大量的數據也會伴隨著產生,并具有越來越重要的地位。據Gartner Group發布了一份報告,揭示了數據對企業運營的重要性:在經歷了數據完全丟失而導致系統停運的企業中,有2/5再也沒能恢復運營,余下的企業也有1/3在兩年內宣告破產。也就是說,六成企業因數據完全丟失而倒閉。
為保障數據的安全性,容災建設必不可少,各種異地災備中心、同城災備中心,都在如火如荼的建設中。
災備系統的影響因素
在災備系統的建設中,主要的影響因素有一下幾點:
存儲空間:
急速增長的數據量給災備系統帶來的最直觀的問題是不足,需要購買更多的存儲介質(磁帶或磁盤)。
配套設施:
除了購買介質本身的支出外,設備部署空間、降溫、電能消耗等等附帶需求也隨之迅速增長。
處理性能:
與存儲介質不同,系統的處理能力(如CPU、I/O總線等)一般較難擴展,通常只能通過硬件整體升級完成,如果不能通過技術手段有效平抑數據量增長對系統處理能力的壓力,系統可靠性將面臨頻繁硬件升級的嚴峻挑戰。
網絡傳輸:
災備系統通常都需要異地部署。數據量的增加要求遠程數據傳輸具有更高的帶寬;由于傳輸帶寬的限制,傳輸時間的延長可能會降低系統運行效率,甚至無法及時完成異地數據傳輸,造成災備系統不能發揮功效。
災備系統木桶模型
實際的容災系統設計過程中,我們重點關注的是RTO和RPO兩個指標。
RTO全稱為:Recovery Time Objective,即:恢復時間目標。RTO表示了從災難發生直到業務流程再次運行(即被恢復)的時間。RTO有兩個組成部分,明確災難發生后指示恢復流程開始的決策時間(Decision Time)和進行災難恢復流程的實施時間(Deployment Time)。一般來說,恢復時間(RTO)越短,那么災難恢復方案的成本就越高,但是由于災難造成的業務損失就越小;反之,恢復時間(RTO)越長,災難恢復方案的成本較低,但是由于災難造成的業務損失就較大;
RPO全稱為:Recovery Point Objective,即:恢復點目標。 RPO是災難發生后業務能夠容忍的數據丟失量,或者說災難發生造成的數據丟失量。一般來說, RPO越高(即,丟失的數據越少),容災的成本越高,但是由于災難造成的業務損失就越小;反之,RPO越低(即,丟失的數據較多),容災的成本越低,但災難造成的業務損失也越大。
災備系統的各種因素都會影響到RTO和RPO指標的實現,但是,最終制約RTO和RPO目標實現的將會是各種因素中最弱的因素,即:災備系統的性能可以用木桶模型來解釋。
從存儲空間、配套設施、處理性能、網絡傳輸四個方面來分析,可以得到如下結果:
雖然企業對存儲空間的需求越來越大,但是隨著IOBS、RAIDS技術的發展,磁盤陣列的存儲容量和數據安全性都得到了很明顯的提高,基本可以滿足大多數企業的需求;
配套設置會影響災備系統的運營成本,但是并不直接影響RTO和RPO指標的實現;
目前,高性能的CPU,處理能力很強,處理性能也比較容易滿足。
但是網絡傳輸由于帶寬、價格、丟包、時延等問題,往往成為災備系統中的短板,并直接對RTO和RPO目標的實現產生重要影響。接下來我們著重分析網絡傳輸這個災備系統存在的瓶頸問題。
廣域網傳輸問題淺析
由于災備系統通常需要異地部署,在不同的數據中心,需要采用廣域網進行連接。通常廣域網的連接,主要有專線接入和VPN兩種方式,但是兩種方式,在傳輸過程中,都存在一些需要優化的問題:
1.數據帶寬有限,但是傳輸數據量較大
由于專線的租賃價格比較貴,往往從主數據中心的到災備中心的專線只有僅僅10Mbps,但是每日需傳輸的災備數據量大,經常以百G來計,數據無法在指定時間內完成傳輸。并且,隨著業務的不斷增多,數據滯后也越來越多,數據的丟失風險也不斷攀升,RPO難保證……
在大多數情況,有限的帶寬和較大的傳輸數據量的矛盾在災備系統建設中,經常容易出現。
2.公網環境復雜,丟包延時嚴重
公網環境比較復雜,不可控因素更多,尤其是異地部署的災備系統,廣域網傳輸,中間節點較多,丟包和延時情況難免,同時由于我國過存在多個運營商,在跨運營商傳輸的情況下,丟包和延時情況更為嚴重。
網絡環境對傳輸影響是非常巨大的,一條2Mb/s帶寬的ADSL線路,在不同延時情況下的數據吞吐情況如下圖所示:

可見,當延時達到200ms左右,實際的吞吐量只能達到帶寬所允許的最高數據吞吐量的10%左右。另外的100Mb/s帶寬的線路上面進行相同的測試,得到的結果顯示在網絡延時大于200ms以后,100Mb/s帶寬線路的數據吞吐量和2Mb/s的線路幾乎下降到同樣的水平,所以說在網絡延時較大的時候,網絡帶寬不論大小,傳輸能力都會大大降低。
3.傳輸機制需要優化:
廣域網中使用最廣泛的傳輸協議就是TCP(Transfer Control Protocol)協議,TCP協議傳輸數據的時候,一端到另一端所正在傳輸的數據量受數據報窗口的大小限制,當該窗口滿了以后,發送方就無法發送更多的數據,直到接受方確認已經接收了窗口中的部分數據。在部分對數據傳輸要求非常高的企業,主數據中心和災備中心之間通過1Gbps的專線互聯,延時只有25ms,網絡帶寬足質量好,但是災備系統在運作時,速度極限只能跑到尷尬的180Mbps,徒有大帶寬卻白白浪費,RTO不達標……
所以,廣域網中最廣泛使用的TCP協議也需要優化。
深信服災備優化方案
作為國內規模最大、創新能力最強的應用層網絡設備供應商,深信服經過十幾年的技術積累和對先進網絡的深刻研究和認知之后,并結合客戶災備系統遇到的主要問題,率先在國內提出了災備優化方案,針對廣域網傳輸存在的問題,深信服提出了相對應的解決方案。
高效的流緩存壓縮和數據消減技術解決數據量大與窄帶寬之間的矛盾。
深信服WOC容災網絡優化方案采高細粒度冗余數據消除技術解決,無損數據削減的方式,減少網絡中需要傳輸容災數據總量,在有限的帶寬內實現高效的傳輸,從而提升災備速率。數據削減采用的技術為基于碼流特征的數據優化技術,以及無損數據流壓縮技術,實現bit級重復數據刪除,災備需傳輸流量可達到60%-90%的削減。
某檢驗檢疫局,主數據中心在省會城市A,并在地市局B建立災備中心,A到B之間只有4Mbps的專線互聯,每日災備數據需要從晚上完成到A到B的傳輸。但由于數據量大,往往在規定的備份時間窗口之內無法完成傳輸,需要到第二天中午才把災備數據傳輸完。而災備數據和業務鏈路為共用專線,導致第二天上網B局人員訪問業務系統速度非常慢。通過深信服WOC容災網絡優化方案對災備傳輸進行優化,原有需要傳輸整晚甚至到第二天中午才傳完的數據,部署后兩三個小時既已完成災備數據的傳輸,加快了災備效率,降低數據災難風險。
優化網絡的質量,解決丟包延時等問題對網絡傳輸的影響。
在丟包存在、延時較高的情況下,網絡實際吞吐性能將大打折扣;同時,災備需傳輸的數據量大,也是耗時長、RTO不達標的一個原因。針對這個問題,深信服WOC容災網絡優化提出鏈路質量優化+無損數據削減的方案解決。針對公網線路,尤其跨運營商線路中的丟包延時問題,通過鏈路質量優化功能,采用改進性的HTP算法優化TCP協議,在丟包延時環境下大大提升網絡的吞吐性能;并通過基于碼流特征的數據優化技術,以及無損數據流壓縮技術,大大消除災備需傳輸的數據量,提升帶寬吞吐、削減傳輸數據量,從而實現災備網絡的加速。
某媒體集團,主數據中心在北京,災備中心在廣州,出口分別電信和聯通的公網線路,主要傳輸的數據類型為音視頻數據。由于受到跨運營商的影響,原有NetApp災備系統受到網絡影響比較嚴重,傳輸速度平均為6Mbps,峰值只有10Mbps。通過深信服WOC容災網絡優化方案的部署,解決網絡質量問題,傳輸速度從6Mbps一下提高到了50Mbps,網絡性能得到顯著的提高。
優化TCP傳輸機制,提高TCP連接的吞吐量,有效利用帶寬。
在一對災備系統之間,往往是通過單TCP連接或是僅幾條TCP連接相連,而TCP本身因為受到傳輸窗口等協議本身的限制,速度存在上限值。傳統的TCP協議傳輸窗口為64KB,在網絡延時為20ms時,單條TCP連接吞吐僅為25Mbps。雖然許多災備系統基于Unix開發,對TCP協議進行了一部分優化,但相對于1Gbps這樣的大帶寬,吞吐還是出于160Mbps-200Mbps這樣的低位,無法完全利用帶寬保障RTO。
針對TCP本身的低效性,深信服WOC災備優化方案通過TCP協議優化+無損冗余數據削減功能,可大大提升整個網絡的吞吐。在某金融機構實際測試中,對于一對災備設備之間的廣域網傳輸,性能從160Mbps大幅提升至600Mbps,并可擴展提升至2.5Gbps,滿足大帶寬災備需求。


















