?用最簡單的方式解決海量數(shù)據(jù)存儲問題:解讀數(shù)據(jù)壓縮的三大誤區(qū)
原創(chuàng)在數(shù)字經(jīng)濟時代的今天,數(shù)據(jù)已經(jīng)成為企業(yè)的核心資產(chǎn),推動著企業(yè)的業(yè)務(wù)創(chuàng)新與可持續(xù)發(fā)展。隨著云計算、物聯(lián)網(wǎng)、5G等新興技術(shù)的落地應(yīng)用,企業(yè)獲取數(shù)據(jù)的方式變得越來越簡單,數(shù)據(jù)量呈現(xiàn)出爆炸式增長的態(tài)勢。IDC預(yù)測,2024年全球?qū)a(chǎn)生157ZB數(shù)據(jù)。其中,中國新增數(shù)據(jù)39ZB,占全球24.8%。另外,中國數(shù)據(jù)增量的復(fù)合增長率達26.3%。

高速增長的數(shù)據(jù),給企業(yè)的存儲系統(tǒng)帶來了巨大的壓力。為了應(yīng)對數(shù)據(jù)存儲挑戰(zhàn),企業(yè)一方面需要根據(jù)需求構(gòu)建靈活的存儲擴容解決方案,另一方面也要選擇更加合理的數(shù)據(jù)管理方式。其中,數(shù)據(jù)壓縮便是一種不錯的選擇。
數(shù)據(jù)壓縮及其優(yōu)勢
所謂數(shù)據(jù)壓縮,是在不丟失有用信息的前提下,通過不同的工具去除掉數(shù)據(jù)中間的多余成分,即冗余度,用最少的硬盤空間存儲最多數(shù)字信息的技術(shù)。隨著音視頻、圖形圖像等非結(jié)構(gòu)化數(shù)據(jù)的大量產(chǎn)生,數(shù)據(jù)壓縮技術(shù)變得更加重要。
在個人電腦中,絕大部分用戶都使用過WinRAR、ZIP這類的壓縮工具,它們能夠?qū)⒋罅康臄?shù)據(jù)進行壓縮,以減少硬盤空間的使用率。實際上,除了這些比較常用的軟件之外,還有一些專門針對圖片、視頻、PDF等文件的壓縮工具,它們能夠?qū)⒁粋€1GB以上的文件輕松地壓縮到幾百兆,如果不在意壓縮后的文件質(zhì)量,甚至能夠?qū)?GB的文件壓縮到幾十兆。
在數(shù)據(jù)中心內(nèi)部,龐大的數(shù)據(jù)量讓數(shù)據(jù)壓縮技術(shù)更能夠大顯身手。對于企業(yè)而言,借助數(shù)據(jù)壓縮技術(shù)不但能夠顯著降低數(shù)據(jù)存儲的成本,而且有助于提高網(wǎng)絡(luò)傳輸性能,降低帶寬成本,帶來更好的數(shù)據(jù)使用體驗,這也成為目前很多優(yōu)秀的存儲產(chǎn)品具備成熟的數(shù)據(jù)壓縮解決方案主要原因。
不過,時至今日仍舊有很多用戶對數(shù)據(jù)壓縮存在很多的認識誤區(qū)。因此,我們必須通過打破他們關(guān)于數(shù)據(jù)壓縮和策略的三個最常見的誤區(qū),來讓數(shù)據(jù)管理更加清晰。
數(shù)據(jù)壓縮的三大誤區(qū)
誤區(qū)一:數(shù)據(jù)壓縮會造成不必要的性能損失
毋庸置疑,數(shù)據(jù)壓縮肯定會帶來數(shù)據(jù)中心主機性能的損失,但隨著SSD在數(shù)據(jù)中心的廣泛應(yīng)用,數(shù)據(jù)壓縮所帶來的性能損失越來越小。這是因為我們可以通過對閃存存儲的優(yōu)化,讓數(shù)據(jù)在寫入過程中進行壓縮,并在數(shù)據(jù)讀取時進行解壓縮,以此來減少對主機性能的影響。
實際上,隨著技術(shù)的發(fā)展,數(shù)據(jù)壓縮不但不會影響數(shù)據(jù)中心性能,還會對主機性能帶來積極的影響:
1)壓縮后數(shù)據(jù)讀取和寫入硬盤的信息更小,能夠提高持續(xù)的隨機寫入性能,增強混合工作負載下的讀取延遲,提高寫入速度。與此同時,即使能夠利用最小的數(shù)據(jù)可壓縮性,也可以顯著提高硬盤的性能和耐久性,尤其是在高 IOPS 環(huán)境中特別明顯。
2)當(dāng)數(shù)據(jù)具有高度可壓縮性,且混合 IO 中的工作負載越重,則能夠突破硬盤容量的物理極限,提高存儲密度并降低數(shù)據(jù)存儲成本,同時顯著提高性能,降低存儲能耗。
3)數(shù)據(jù)壓縮還能夠有效提高網(wǎng)絡(luò)傳輸?shù)男剩岣呔W(wǎng)絡(luò)性能,降低網(wǎng)絡(luò)延遲和帶寬成本。
誤區(qū)2:數(shù)據(jù)壓縮只有一條途徑
很多企業(yè)認為數(shù)據(jù)壓縮只有一條路徑,那就是靠主機上的CPU執(zhí)行處理,來完成數(shù)據(jù)的壓縮。實際上并非如此。
隨著數(shù)據(jù)類型變得更加復(fù)雜多樣,結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),企業(yè)需要根據(jù)自己的實際情況來選擇數(shù)據(jù)壓縮的方式,既可以選擇通過直接在SSD中對數(shù)據(jù)執(zhí)行壓縮,以此來釋放CPU資源,并降低讀寫延遲,也可以選擇利用CPU、GPU等進行計算資源進行數(shù)據(jù)壓縮,以提高數(shù)據(jù)壓縮的效率。
可以說,技術(shù)的發(fā)展讓數(shù)據(jù)壓縮技術(shù)變得更加多樣化,不同的企業(yè)需要根據(jù)自身的實際情況,從數(shù)據(jù)性能和數(shù)據(jù)生命周期管理的角度來選擇合適的數(shù)據(jù)壓縮方式,尋找最適合的一種數(shù)據(jù)壓縮方法,滿足對于數(shù)據(jù)利用、數(shù)據(jù)管理的獨特需求。
誤區(qū)3:數(shù)據(jù)壓縮技術(shù)復(fù)雜且壓縮比例小
很多企業(yè)之所以沒有將數(shù)據(jù)壓縮視為解決數(shù)據(jù)存儲和數(shù)據(jù)管理的工具,是因為他們認為數(shù)據(jù)壓縮技術(shù)復(fù)雜,且壓縮比例小,不值得關(guān)注。
實際上,作為一種最簡單、最實用的底層基礎(chǔ)技術(shù),數(shù)據(jù)壓縮技術(shù)并不復(fù)雜,甚至很多成熟的存儲系統(tǒng)廠商都提供數(shù)據(jù)壓縮解決方案。并且,由于目前幾乎所有的數(shù)據(jù)都是可壓縮的,即使壓縮比較小,由于其并不會額外消耗過多的資源,也能夠帶來顯著的效果。尤其是對圖形圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的壓縮比較大,能夠顯著地節(jié)省存儲空間。
寫在最后:
降本增效已經(jīng)成為今年的熱點。面對數(shù)字化時代的到來,企業(yè)需要思考如何才能降低基礎(chǔ)架構(gòu)的總體擁有成本?如何在降低功耗的同時提高存儲容量和性能?面對這些問題時,數(shù)據(jù)壓縮技術(shù)可以成為不錯的選擇。
這是因為,隨著AIGC時代的到來,企業(yè)管理者一方面需求迫切的獲取更多的數(shù)據(jù),以此來獲取洞察,另一方面,又要努力提高存儲的使用效率,降低IT基礎(chǔ)設(shè)施的成本。作為一項最基礎(chǔ)的數(shù)據(jù)管理技術(shù),數(shù)據(jù)壓縮能夠讓企業(yè)用最小的成本,獲取最大的收益。
當(dāng)然,我們建議企業(yè)要根據(jù)不同的數(shù)據(jù)存儲需求,來選擇最適合自己的數(shù)據(jù)壓縮解決方案,以此來平衡計算、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施資源之間的權(quán)衡,最大化降低企業(yè)的TCO。






















