ShiZhenGPT:面向中醫藥領域的多模態大型語言模型 精華
?摘要
盡管大型語言模型(LLMs)在各個領域取得了成功,但由于兩個關鍵障礙,它們在中醫藥(TCM)領域的潛力仍未被充分探索:
(1)高質量中醫藥數據的稀缺性;
(2)中醫藥診斷固有的多模態特性,包括觀察、聽診、嗅聞和脈診。這些感官豐富的模態超出了傳統LLMs的范圍。為了應對這些挑戰,我們提出了石真GPT,這是首款專為中醫藥定制的多模態大型語言模型。為了克服數據稀缺問題,我們整理了迄今為止最大的中醫藥數據集,包括100GB以上的文本和200GB以上的多模態數據,涵蓋120萬張圖片、200小時的音頻和生理信號。
ShizhenGPT經過預訓練和指令微調,以實現對中醫藥知識的深入理解和多模態推理。為了評估,我們收集了最新的國家中醫藥資格考試,并構建了藥物識別和視覺診斷的視覺基準。實驗表明,石真GPT在規模和性能上優于同類大型語言模型,并且能與更大的專有模型競爭。此外,它在現有的多模態大型語言模型中在中醫視覺理解方面領先,并展示了跨模態如聲音、脈象、氣味和視覺的統一感知能力,為中醫的整體多模態感知和診斷鋪平了道路。數據集、模型和代碼都是公開可用的。我們希望這項研究能激發該領域的進一步探索。
??https://github.com/FreedomIntelligence/ShizhenGPT??
核心速覽
研究背景
1.研究問題:這篇文章要解決的問題是如何利用大型多模態語言模型(LLM)來處理傳統中醫(TCM)中的復雜診斷問題。盡管大型語言模型在各個領域取得了顯著的成功,但由于高質量TCM數據的稀缺性和TCM診斷的多模態特性,這些模型在TCM領域的潛力尚未得到充分探索。
2.研究難點:該問題的研究難點包括:
?高質量TCM數據的稀缺性。現有的TCM特定LLM訓練數據通常小于1GB,遠低于現代醫學領域使用的數據量。
?TCM診斷的多模態特性。TCM依賴于視覺、聽覺、嗅覺和脈診等多種感官信息,這些信息超出了傳統文本模型的范疇。
3.相關工作:該問題的研究相關工作包括:
?現有的TCM特定LLM模型由于訓練數據量小,僅限于文本場景,缺乏多模態感知能力。
?通用LLM雖然在某些視覺或音頻任務上表現出色,但不適用于TCM,且僅提供有限的支持。
研究方法
這篇論文提出了ShizhenGPT,第一個專門為TCM定制的多模態LLM。具體來說,
1.數據收集與預處理:為了解決數據稀缺問題,研究者構建了一個迄今為止最大的TCM數據集,包括超過100GB的文本數據和超過200GB的多模態數據,涵蓋1.2百萬張圖像、200多小時的音頻和各種生理信號。
2.模型架構:ShizhenGPT由三個主要組件組成:LLM骨干、視覺編碼器和信號編碼器。
?LLM骨干:使用Qwen-2.5-7B和Qwen-2.5-32B作為基礎LLM,處理來自多個模態的輸入并生成響應。
?視覺編碼器:從Qwen-2.5-VL初始化,支持高分辨率圖像,使用2D-RoPE和窗口注意力機制。
?信號編碼器:使用Whisper-large-v3作為初始信號編碼器,非音頻信號首先轉換為波形表示,然后重采樣為16kHz的128通道梅爾頻譜圖。
3.預訓練:采用兩階段預訓練策略:
?第一階段:專注于文本學習,使用11.9B令牌進行預訓練,包括6.3B的TCM語料庫和5.6B的普通語料庫。
?第二階段:使用3.8B的多模態數據進行預訓練,包括TCM和普通圖像-文本和音頻-文本數據。
4.指令微調:在預訓練后,模型獲得基礎TCM知識和多模態能力。指令微調數據涵蓋四個類別:TCM文本指令、視覺指令、音頻指令和生理信號指令。最終通過全參數調優進行微調,生成最終的ShizhenGPT模型。
實驗設計
1.數據收集:預訓練數據集包括TCM文本語料庫、TCM圖像-文本數據和TCM音頻-文本數據。具體來說,TCM文本語料庫從3256本TCM書籍和在線來源收集,經過過濾和處理后得到21.2GB的高質量網絡語料庫。TCM圖像-文本數據從TCM書籍和微信文章中提取,經過過濾和合成后得到140.7GB的網絡圖像-文本數據。TCM音頻-文本數據從Huatuo-26M數據集中提取,并通過高保真TTS系統合成音頻,得到58K的對齊音頻-文本對。
2.實驗設置:訓練了兩個版本的ShizhenGPT:ShizhenGPT-7B和ShizhenGPT-32B,分別基于Qwen2.5-7B和Qwen2.5-32B骨干。實驗在兩個DGX節點上進行,每個節點有8個A100 GPU。
3.基準測試:比較了ShizhenGPT與多種基線模型,包括通用LLM和多模態LLM。視覺基準測試使用了七個權威圖譜,涵蓋中藥識別和視覺診斷等子領域。人類評估邀請了6位有執照的TCM實踐者對模型響應進行評估。
結果與分析
1.TCM專業知識評估:在最新的國家TCM職業資格考試中,ShizhenGPT-7B在小規模類別中平均得分最高,超過了其他TCM特定模型和較大的通用LLM。ShizhenGPT-32B在中規模類別中表現最強,平均得分為78.1,超過了多個70B+模型。
2.視覺能力評估:在TCM視覺基準測試中,ShizhenGPT-32B在所有基線模型中得分最高,達到了63.6,展示了其在TCM視覺理解方面的強大能力。
3.一般語音能力評估:在標準語音基準測試中,ShizhenGPT展示了強大的語音理解能力,與Qwen2-Audio-Instruction的表現相當。
4.信號模態評估:在嗅覺、心音和脈搏等信號模態上,ShizhenGPT均優于隨機基線,展示了其統一的多模態感知能力。例如,在脈搏信號的妊娠檢測中,準確率達到了80%。
5.消融研究:預訓練數據規模的增加顯著提高了模型在TCM專業知識和視覺理解方面的能力。多模態數據的集成在某些任務中帶來了適度的增益,同時保留了單模態的強性能。

總體結論
這篇論文介紹了ShizhenGPT,第一個專門為TCM定制的多模態LLM,并展示了其在TCM專業知識、視覺理解和多模態感知方面的強大能力。通過大規模數據集和兩階段預訓練策略,ShizhenGPT成功地克服了TCM數據稀缺和多模態特性的挑戰。該研究為TCM領域的進一步探索提供了重要的數據和見解,推動了AI在TCM中的應用。
論文評價
優點與創新
1.數據集規模:論文發布了迄今為止最大的中醫藥(TCM)數據集,包含超過100GB的文本數據和超過200GB的多模態數據,顯著緩解了數據稀缺的問題。
2.多模態模型:提出了ShizhenGPT,第一個專為中醫藥定制的多模態大型語言模型(LLM),能夠理解圖像、聲音、氣味和脈搏等多種模態。
3.領域專業知識:通過領域特定的預訓練和指令微調,ShizhenGPT獲得了深厚的中醫藥知識和多模態推理能力。
4.視覺診斷任務:在中醫藥視覺任務中,ShizhenGPT領先于現有的多模態LLMs,并在七個生理信號數據集上展示了有效的多模態感知能力。
5.公開數據集和代碼:數據集、模型和代碼均公開發布,鼓勵進一步的研究和探索。
6.全面評估基準:構建了一個全面的中醫藥多模態基準套件,涵蓋文本、視覺、信號和人類評估,系統性地評估LLMs在中醫藥中的應用。
不足與反思
1.信號數據不足:盡管文本和圖像數據規模龐大,但高質量的信號數據(如氣味、脈搏)仍然稀缺,主要來自有限的公共數據集,限制了模型在這些模態中的完全發展和泛化能力。
2.缺乏實際臨床測試:盡管進行了專家評估,ShizhenGPT尚未在實際臨床環境中進行測試,缺乏患者級別的反饋,限制了對其實際有效性和安全性的理解。
3.模態覆蓋不完整:當前的模態包括視覺、聲音和部分生理信號,但其他模態如觸覺仍然缺失。
關鍵問題及回答
問題1:ShizhenGPT的模型架構是如何設計的?各組件的具體功能是什么?
ShizhenGPT由三個主要組件組成:LLM骨干、視覺編碼器和信號編碼器。
?LLM骨干:使用Qwen-2.5-7B和Qwen-2.5-32B作為基礎LLM,處理來自多個模態的輸入并生成響應。LLM骨干是模型的核心推理引擎,負責理解和生成文本。
?視覺編碼器:從Qwen-2.5-VL初始化,支持高分辨率圖像,使用2D-RoPE和窗口注意力機制。視覺編碼器負責處理圖像輸入,將圖像轉換為模型可以理解的向量表示。
?信號編碼器:使用Whisper-large-v3作為初始信號編碼器,非音頻信號首先轉換為波形表示,然后重采樣為16kHz的128通道梅爾頻譜圖。信號編碼器負責處理音頻和生理信號,將這些信號轉換為模型可以處理的格式。
問題2:ShizhenGPT在預訓練階段采用了哪些策略?這些策略如何幫助模型學習TCM知識?
ShizhenGPT在預訓練階段采用了兩階段預訓練策略:
?第一階段:文本預訓練:專注于文本學習,使用11.9B令牌進行預訓練,包括6.3B的TCM語料庫和5.6B的普通語料庫。這一階段的目的是建立模型的基礎語言能力,并注入初步的TCM知識。
?第二階段:多模態預訓練:使用3.8B的多模態數據進行預訓練,包括TCM和普通圖像-文本和音頻-文本數據。這一階段的目的是引入視覺和音頻知識,使模型能夠理解和處理多模態數據。
這些策略幫助模型通過大規模數據集的學習,逐步積累和深化對TCM知識的理解,從而在后續的指令微調階段能夠更好地應用于具體的TCM任務。
問題3:ShizhenGPT在實驗中表現如何?與其他模型相比有哪些優勢?
1.TCM專業知識評估:在最新的國家TCM職業資格考試中,ShizhenGPT-7B在小規模類別中平均得分最高,超過了其他TCM特定模型和較大的通用LLM。ShizhenGPT-32B在中規模類別中表現最強,平均得分為78.1,超過了多個70B+模型。
2.視覺能力評估:在TCM視覺基準測試中,ShizhenGPT-32B在所有基線模型中得分最高,達到了63.6,展示了其在TCM視覺理解方面的強大能力。
3.一般語音能力評估:在標準語音基準測試中,ShizhenGPT展示了強大的語音理解能力,與Qwen2-Audio-Instruction的表現相當。
4.信號模態評估:在嗅覺、心音和脈搏等信號模態上,ShizhenGPT均優于隨機基線,展示了其統一的多模態感知能力。例如,在脈搏信號的妊娠檢測中,準確率達到了80%。
總體而言,ShizhenGPT在TCM專業知識、視覺理解和多模態感知方面表現出色,展示了其在處理復雜TCM診斷問題上的潛力。
本文轉載自??????知識圖譜科技??????,作者:Wolfgang

















