雙流行將至,機器學習算法如何助力新冠肺炎病毒的快速檢測
原創【51CTO.com原創稿件】秋冬季節臨近,流感與新冠肺炎的高發季再次到來。全球再度面臨“雙流行”的嚴峻考驗。
目前為止,檢測新冠肺炎病毒的最好標準,依然是進行病原學檢測或免疫學檢測,也就是我們常說的核酸檢測。
但由于核酸檢測的復雜性問題,正常的檢測流程最快也需要24小時才能夠獲得結果,且準確率僅能保證在50%—70%,這樣的檢測效果并不十分理想。那么是否有其他技術或方法能夠幫助我們更加快速準確的對新冠肺炎病毒進行檢測區分呢?
其實早在2020年,國內相關科研團隊已經就該方向進行了進一步的研究并取得了一定的理論成果。
研究中,科研團隊通過更為普遍快捷的血常規、PCT(降鈣素原)、CRP(C反應蛋白)等檢驗進行數據指標的獲取,并創新性的嘗試利用機器學習算法對系統進行病毒檢測分類的訓練。
在實驗初期的數據預處理層面,研究人員利用患者的可鑒別數據建立原始特征庫并進行初步篩選。根據具體情況對初步篩選后的數據進行異常值與噪聲處理,利用獨立樣本t檢驗的方法,成功對新冠肺炎病毒的多項異常指標進行了確認。
而后,在病毒檢測算法的評估過程中,研究人員采取數據特征直方圖、密集分布圖對數據進行分析,并根據結果對數據進行正態化處理,通過Box-Cox轉換提高模型準確度。
成功獲取準確模型后,針對邏輯回歸算法(LR)、線性判別分析(LDA)、分類與回歸算法(CART)、支持向量機(SVM)、貝葉斯分類器(NB)、K近鄰算法(KNN)六種線性與非線性算法,隨機森林(RF)、極端隨機樹算法(ET)、AdaBoost(AB)、隨機梯度上升(GBM)四種集成算法,統一采用10折交叉驗證進行數據分離工作。
使用不同算法對數據進行鑒別分類訓練時,根據反饋作出懲罰系數C、徑向基函數kernel以及估計量estimators的參數調整。利用準確度比較算法進行結果對比,以找到能夠對新冠肺炎進行最優檢測的算法。
最終,研究人員通過對十種算法的訓練準確度進行對比評估發現,在懲罰系數 C=2.0且徑向基函數kernel為rbf 時,支持向量機算法對正態化數據的檢測分類具有最優的準確率95%。
這意味著,當滿足以上條件時,利用該算法對檢測系統進行訓練,能夠使系統對新冠肺炎病毒的檢測準確率達到95%。這一結果已經遠超傳統核算檢測50%—70%的準確率。
而檢測效率方面,基于機器學習的快速鑒別方法也實現了對傳統核酸檢測的完全超越,通過更為簡便快捷的血液檢測流程,僅需幾分鐘時間便可通過系統獲取到準確的檢驗結果。
研究團隊表示,該系統的測試應用普遍獲得了臨床醫生的肯定。在疫情影響的特殊時期,我們更應當繼續加大研發力度,推動技術不斷走向成熟和完善。
雖然由于在疾病推理覆蓋面、用戶體驗、靜態知識庫方面還需進一步優化和提升,該系統還沒有正式實現大范圍普及。但是相信在不久的將來,這項基于機器學習算法的創新技術定會成為我們徹底戰勝疫情的有力武器。
時至今日,我們已經正式進入了一個“算法”的時代。各式算法應用在各領域中大放異彩。現如今,在產業的信息化、數字化、乃至更火爆的智能化過程中,算法能起到多大作用,算法應用還有哪些成功案例,產業互聯網與消費互聯網中算法的應用有哪些不同?敬請關注WOT全球技術創新大會2022“算法與AI應用”專題。
☆ WOT全球技術創新大會2022 ☆
2022/4/9-4/10
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】





















