為什么道熵分布式存儲(chǔ)是PACS存儲(chǔ)的更優(yōu)選擇
前言
道熵分布式存儲(chǔ)是業(yè)界率先實(shí)現(xiàn)無人值守自動(dòng)化運(yùn)維與數(shù)據(jù)自修復(fù)的分布式存儲(chǔ),采用雙重RAID數(shù)據(jù)保護(hù)機(jī)制,具備高容錯(cuò)的Fail-in-Place特性,是PACS醫(yī)療影像存儲(chǔ)的更優(yōu)選擇。
一、醫(yī)療PACS影像存儲(chǔ)現(xiàn)狀
醫(yī)院存儲(chǔ)的數(shù)據(jù)80%-85%來自于影像數(shù)據(jù),隨著醫(yī)療影像設(shè)備的激增、拍片設(shè)備單次拍片量的增加,以及拍片設(shè)備分辨率的不斷提高,醫(yī)院的醫(yī)療PACS數(shù)據(jù)量預(yù)計(jì)每年增長15%,五年翻一番,并呈加速增長的態(tài)勢(shì)。PACS系統(tǒng)所收集的B超、X射線、CT、核磁等影像數(shù)據(jù)飆升,三甲綜合性醫(yī)院或胸科、肺科、骨科等三甲專科醫(yī)院,一年的新增拍片量在50TB ~ 60TB。并且,根據(jù)國家電子病歷保存相關(guān)規(guī)定,醫(yī)療機(jī)構(gòu)保管保存醫(yī)療影像數(shù)據(jù)時(shí)間要求不少于15年。無論是從業(yè)務(wù)發(fā)展還是合規(guī)要求方面,醫(yī)療影像數(shù)據(jù)的存儲(chǔ)都對(duì)存儲(chǔ)系統(tǒng)提出了更高需求。
目前醫(yī)院的醫(yī)療PACS數(shù)據(jù)普遍采用傳統(tǒng)陣列存儲(chǔ)FC SAN或NAS,并采用在線、近線、離線的三級(jí)存儲(chǔ)架構(gòu)。這種PACS存儲(chǔ)架構(gòu)普遍面臨以下問題:
1、性能/容量擴(kuò)展困難
PACS影像的典型特征是大部分文件都是小文件,其中MR文件平均大小為60KB左右;CT文件平均大小為300KB左右,也是小文件。長期以來,小文件存儲(chǔ)都是存儲(chǔ)系統(tǒng)面臨的挑戰(zhàn):小文件讀寫性能低,且當(dāng)存儲(chǔ)的文件數(shù)量增多時(shí)性能會(huì)不斷下降。
目前在線存儲(chǔ)使用傳統(tǒng)陣列存儲(chǔ)系統(tǒng)時(shí),PACS圖像調(diào)閱的速度最快僅為每秒80幅左右。典型的MR檢查,平均每次檢查產(chǎn)生約3000~5000張小圖片,調(diào)閱圖片需要數(shù)十秒以上;在大型醫(yī)院的業(yè)務(wù)高峰期,數(shù)百位門診、臨床醫(yī)生同時(shí)閱片時(shí),對(duì)存儲(chǔ)系統(tǒng)產(chǎn)生高并發(fā)訪問,閱片等待時(shí)間更長。
2、系統(tǒng)架構(gòu)復(fù)雜、數(shù)據(jù)訪問不便
三級(jí)存儲(chǔ)架構(gòu)下,PACS影像數(shù)據(jù)分散保存在三套不同的存儲(chǔ)系統(tǒng)中。這會(huì)導(dǎo)致以下問題:
在患者進(jìn)行復(fù)查時(shí),醫(yī)生需要調(diào)閱半年前或一年前的檢查影像,這些影像位于近線存儲(chǔ)中,需要將這些影像先遷移到在線存儲(chǔ)中再調(diào)閱,操作繁瑣,難以讓醫(yī)生立即調(diào)閱。
三級(jí)架構(gòu)導(dǎo)致的數(shù)據(jù)隔離,難以將積累的大量PACS數(shù)據(jù)用于如AI輔助診療、影像數(shù)據(jù)分析與影像智能診斷等科研活動(dòng),使數(shù)據(jù)價(jià)值難以充分發(fā)揮。
不同存儲(chǔ)系統(tǒng)之間的數(shù)據(jù)難以統(tǒng)一管理,數(shù)據(jù)遷移工作繁重。
3、總體擁有成本較高
傳統(tǒng)中高端磁盤陣列存儲(chǔ)設(shè)備的購置成本較高,尤其是后期擴(kuò)容成本難以控制。此外,分級(jí)存儲(chǔ)帶來的數(shù)據(jù)遷移工作量巨大,三套存儲(chǔ)的運(yùn)維也增加了醫(yī)院信息中心的運(yùn)維成本。
二、道熵分布式存儲(chǔ)在醫(yī)療PACS上的應(yīng)用優(yōu)勢(shì)
道熵分布式存儲(chǔ)是一種具有Fail-in-Place高容錯(cuò)特性的陣列式分布式存儲(chǔ),每個(gè)存儲(chǔ)節(jié)點(diǎn)是一個(gè)RAID陣列,通過分布式技術(shù)將多個(gè)RAID陣列融合為一個(gè)統(tǒng)一的存儲(chǔ)平臺(tái),同時(shí)具備磁盤陣列高性能、高穩(wěn)定性與分布式存儲(chǔ)的高擴(kuò)展性、易管理的特點(diǎn)。
道熵分布式存儲(chǔ)相對(duì)于傳統(tǒng)陣列存儲(chǔ),在大規(guī)模在線擴(kuò)展、百億級(jí)小文件管理、高性能數(shù)據(jù)吞吐、敏捷化運(yùn)維管理、TCO成本優(yōu)化等方面具有明顯的技術(shù)優(yōu)勢(shì),可以有效解決目前醫(yī)療PACS在存儲(chǔ)上遇到的性能瓶頸、數(shù)據(jù)孤島、運(yùn)維困難、成本較高等問題,成為醫(yī)療機(jī)構(gòu)存儲(chǔ)架構(gòu)的更優(yōu)選擇。
數(shù)據(jù)安全性
道熵分布式存儲(chǔ)采用雙重RAID架構(gòu),同時(shí)具備節(jié)點(diǎn)內(nèi)RAID保護(hù)和節(jié)點(diǎn)間副本雙重保護(hù)機(jī)制。而無論是傳統(tǒng)磁盤陣列還是三副本分布式存儲(chǔ),都只有單層數(shù)據(jù)保護(hù),因此數(shù)據(jù)安全性比同類產(chǎn)品高出一個(gè)數(shù)據(jù)級(jí)。
存儲(chǔ)硬件錯(cuò)誤類型非常多,包括磁盤壞道、Firmware bug、靜默錯(cuò)誤導(dǎo)致數(shù)據(jù)損壞無法及時(shí)發(fā)現(xiàn)、電壓不穩(wěn)定導(dǎo)致數(shù)據(jù)未寫入但返回成功、SSD長時(shí)間下線導(dǎo)致數(shù)據(jù)丟失、網(wǎng)絡(luò)傳輸錯(cuò)誤導(dǎo)致數(shù)據(jù)通過網(wǎng)卡后產(chǎn)生bits反轉(zhuǎn)等。
道熵分布式存儲(chǔ)通過對(duì)每個(gè)數(shù)據(jù)塊產(chǎn)生一個(gè)256位校驗(yàn)碼,作為數(shù)據(jù)塊的元數(shù)據(jù)分開保存,并在數(shù)據(jù)讀出時(shí)進(jìn)行校驗(yàn),并利用RAID功能對(duì)數(shù)據(jù)進(jìn)行自修復(fù)。雙重RAID機(jī)制結(jié)合數(shù)據(jù)自修復(fù)功能,可確保醫(yī)療影像數(shù)據(jù)最少保存15年而不損壞。
性能提升
道熵分布式存儲(chǔ)對(duì)PACS應(yīng)用場景進(jìn)行了針對(duì)性優(yōu)化:PACS影像文件的大小集中在32KB或以上,因此道熵在存儲(chǔ)底層采用32KB塊大小來匹配工作流,每個(gè)小文件的讀寫只需消耗1到2次讀寫操作,使得其性能顯著高于傳統(tǒng)存儲(chǔ)和同類分布式存儲(chǔ)。
PACS影像數(shù)據(jù)具有典型的雙模工作流特征,即數(shù)據(jù)在剛產(chǎn)生時(shí)的一段時(shí)間內(nèi)屬于熱數(shù)據(jù),要求迅速讀取,而當(dāng)熱數(shù)據(jù)冷卻后雖然極少訪問卻需要長期保存。道熵分布式存儲(chǔ)采用高速度的固態(tài)硬盤(SSD)來保存熱數(shù)據(jù),采用大容量的機(jī)械硬盤(HDD)來保存冷數(shù)據(jù),并通過智能緩存算法,自動(dòng)識(shí)別并管理熱數(shù)據(jù)。每個(gè)存儲(chǔ)節(jié)點(diǎn)可在線增加SSD緩沖容量,以提升性能。
統(tǒng)一存儲(chǔ)平臺(tái)
道熵分布式存儲(chǔ)可同時(shí)提供塊存儲(chǔ)、對(duì)象存儲(chǔ)、POSIX文件系統(tǒng)以及大數(shù)據(jù)分析存儲(chǔ)等,并實(shí)現(xiàn)各種數(shù)據(jù)存儲(chǔ)的統(tǒng)一管理。支持FC、iSCSI、NFS、Samba、FTP、SFTP、S3、HDFS、Openstack Cinder/Nova/Glance、VMware VAAI等多種存儲(chǔ)協(xié)議,除了支持PACS醫(yī)療影像系統(tǒng),還可支撐醫(yī)院信息系統(tǒng)HIS、實(shí)驗(yàn)室信息系統(tǒng)LIS、電子病歷EMR、臨床信息系統(tǒng)CIS等醫(yī)院多種業(yè)務(wù)系統(tǒng)。
按需擴(kuò)容,持續(xù)演進(jìn)
道熵分布式存儲(chǔ)采用分布式元數(shù)據(jù)管理,使擴(kuò)容變得極為簡單:只需要通過加入新的硬盤或者服務(wù)器即可實(shí)現(xiàn)擴(kuò)容,支持設(shè)備內(nèi)增加任意數(shù)量的硬盤,性能隨存儲(chǔ)節(jié)點(diǎn)數(shù)線性提升,數(shù)據(jù)的遷移通過集群內(nèi)部高效率的完成,用最少的操作步驟將業(yè)務(wù)影響程度降到了最低。
使用道熵分布式存儲(chǔ)后,原來在線、近線、離線三層架構(gòu)簡化為一套存儲(chǔ),所有PACS影像都可在線調(diào)閱,并且調(diào)閱性能無差異,消除了PACS數(shù)據(jù)孤島,有效支撐影像大數(shù)據(jù)分析、AI輔助診療等科研和新興業(yè)務(wù)需求。
道熵分布式存儲(chǔ)支持持續(xù)性硬件生命周期管理,可在線更換老舊磁盤、老舊服務(wù)器等硬件,而不影響業(yè)務(wù)連續(xù)性。新增的服務(wù)器品牌、種類可以不同,支持異構(gòu)擴(kuò)展。存儲(chǔ)硬件的升級(jí)換代,只需要通過將新節(jié)點(diǎn)上線、舊節(jié)點(diǎn)下線、數(shù)據(jù)自動(dòng)遷移就能實(shí)現(xiàn),無需人工數(shù)據(jù)遷移。
運(yùn)維簡化,成本節(jié)省
道熵分布式存儲(chǔ)實(shí)現(xiàn)了無人值守的自動(dòng)化運(yùn)維,具有自動(dòng)化報(bào)警、自動(dòng)化故障診斷和極強(qiáng)的自我修復(fù)能力。支持平滑的在線擴(kuò)容能力,使隨需擴(kuò)容成為可能。
由于PACS影像數(shù)據(jù)量在快速增長,同時(shí)PACS影像按合規(guī)要求保存的時(shí)間更長,PACS影像數(shù)據(jù)的存儲(chǔ)成本問題逐漸顯現(xiàn)出來。采用性能和擴(kuò)展性更高,TCO成本更經(jīng)濟(jì)的分布式存儲(chǔ)將成為越來越多醫(yī)聯(lián)體或大型醫(yī)療機(jī)構(gòu)的考慮方案。

























