阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學(xué)理解與推理的通用基礎(chǔ)模型

核心速覽
多模態(tài)大型語言模型(MLLMs)在理解常見視覺元素(如風(fēng)景、家居用品和公共事件)方面展現(xiàn)了令人印象深刻的能力,這主要歸功于其大規(guī)模數(shù)據(jù)集和先進的訓(xùn)練策略。然而,由于醫(yī)學(xué)場景中的數(shù)據(jù)和任務(wù)與一般領(lǐng)域存在固有差異,它們在醫(yī)學(xué)應(yīng)用中的有效性仍然有限。具體來說,現(xiàn)有的醫(yī)學(xué)MLLMs面臨以下關(guān)鍵限制:(1)對醫(yī)學(xué)知識(超出影像學(xué)范圍)的覆蓋有限;(2)由于數(shù)據(jù)策展流程不佳,容易產(chǎn)生幻覺;(3)缺乏針對復(fù)雜醫(yī)學(xué)場景定制的推理能力。為了應(yīng)對這些挑戰(zhàn),我們首先提出了一個全面的數(shù)據(jù)策展程序,該程序(1)不僅從醫(yī)學(xué)影像,還從廣泛的醫(yī)學(xué)文本和一般領(lǐng)域數(shù)據(jù)高效獲取豐富的醫(yī)學(xué)知識數(shù)據(jù);以及(2)合成準確的醫(yī)學(xué)字幕、視覺問答(VQA)和推理樣本。因此,我們構(gòu)建了一個富含廣泛醫(yī)學(xué)知識的多模態(tài)數(shù)據(jù)集。在策劃的數(shù)據(jù)基礎(chǔ)上,我們推出了專注于醫(yī)學(xué)的MLLM:Lingshu。Lingshu經(jīng)過多階段訓(xùn)練,以嵌入醫(yī)學(xué)專業(yè)知識并逐步提升其解決問題的能力。此外,我們初步探索了應(yīng)用可驗證獎勵范式的強化學(xué)習(xí)來增強靈書的醫(yī)學(xué)推理能力。同時,我們開發(fā)了MedEvalKit,一個統(tǒng)一的評估框架,它整合了領(lǐng)先的多模態(tài)和文本醫(yī)學(xué)基準測試,用于標準化、公平且高效的模型評估。我們在三個基本醫(yī)學(xué)任務(wù)上評估了Lingshu的表現(xiàn):多模態(tài)問答、基于文本的問答和醫(yī)學(xué)報告生成。結(jié)果顯示,Lingshu在大多數(shù)任務(wù)上持續(xù)超越現(xiàn)有的開源多模態(tài)模型。此外,我們進行了五個緊密與現(xiàn)實世界場景對齊的案例研究,展示了Lingshu在醫(yī)學(xué)背景下實際應(yīng)用的潛力。
主頁:??https://alibaba-demo-academy.github.io/lingshu/??

核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何在多模態(tài)醫(yī)學(xué)理解中實現(xiàn)統(tǒng)一的多模態(tài)基礎(chǔ)模型。現(xiàn)有的多模態(tài)大型語言模型(MLLMs)在通用領(lǐng)域表現(xiàn)出色,但在醫(yī)學(xué)領(lǐng)域的應(yīng)用效果有限,主要由于醫(yī)學(xué)數(shù)據(jù)與任務(wù)的復(fù)雜性和特異性。
- 研究難點:該問題的研究難點包括:醫(yī)學(xué)知識的覆蓋范圍有限,數(shù)據(jù)質(zhì)量參差不齊,缺乏針對復(fù)雜醫(yī)學(xué)場景的推理能力。
- 相關(guān)工作:該問題的研究相關(guān)工作有:將通用LLM或MLLMs與醫(yī)學(xué)多模態(tài)數(shù)據(jù)結(jié)合構(gòu)建專用模型,采用蒸餾技術(shù)改進模型性能,以及利用強化學(xué)習(xí)提高推理能力。
研究方法
這篇論文提出了Lingshu模型用于解決醫(yī)學(xué)多模態(tài)理解問題。具體來說,
數(shù)據(jù)收集與合成:首先,提出了一個全面的數(shù)據(jù)收集和合成流程,包括從醫(yī)學(xué)影像、醫(yī)學(xué)文本和通用領(lǐng)域數(shù)據(jù)中高效獲取豐富的醫(yī)學(xué)知識數(shù)據(jù),并生成準確的醫(yī)學(xué)字幕、視覺問答(VQA)和推理樣本。

多階段訓(xùn)練:基于收集的數(shù)據(jù),提出了多階段訓(xùn)練方法,逐步注入醫(yī)學(xué)專業(yè)知識并增強模型的解決問題能力。具體階段包括:淺層醫(yī)學(xué)對齊、深層醫(yī)學(xué)對齊、醫(yī)學(xué)指令調(diào)優(yōu)和醫(yī)學(xué)導(dǎo)向的強化學(xué)習(xí)。

- 強化學(xué)習(xí):初步探索了將可驗證獎勵的強化學(xué)習(xí)(RLVR)應(yīng)用于提升Lingshu的醫(yī)學(xué)推理能力,開發(fā)了Lingshu-RL版本。
- 評估框架:提出了MedEvalKit,一個統(tǒng)一的評估框架,整合了主流的多模態(tài)和文本醫(yī)學(xué)基準,支持多種問題格式,確保評估的標準化和可重復(fù)性。

實驗設(shè)計
- 數(shù)據(jù)收集:從網(wǎng)絡(luò)中收集了多種開源醫(yī)學(xué)多模態(tài)數(shù)據(jù)集、醫(yī)學(xué)文本指令數(shù)據(jù)和通用領(lǐng)域數(shù)據(jù)集,并進行嚴格的質(zhì)量過濾和預(yù)處理。
- 數(shù)據(jù)合成:生成了長形式字幕、基于OCR的指令樣本、VQA實例和蒸餾推理示例,以提高模型的特定能力。
- 模型訓(xùn)練:基于Qwen2.5-VL模型架構(gòu),開發(fā)了7B和32B參數(shù)的Lingshu模型,并通過多階段訓(xùn)練框架進行訓(xùn)練。
- 評估:使用MedEvalKit框架對Lingshu進行評估,涵蓋多模態(tài)VQA、文本QA和報告生成任務(wù)。
結(jié)果與分析
多模態(tài)VQA任務(wù):在七個醫(yī)學(xué)多模態(tài)VQA任務(wù)上,Lingshu-32B模型的平均得分達到了66.6%,超過了所有其他模型,包括專有模型如GPT-4.1和Claude Sonnet 4。

- 文本QA任務(wù):在醫(yī)學(xué)文本QA任務(wù)上,Lingshu-7B模型在多個基準測試中表現(xiàn)出色,平均準確率達到52.8%,領(lǐng)先于其他開源模型。
- 報告生成任務(wù):在MIMIC-CXR、CheXpert Plus和IU-Xray三個報告生成基準上,Lingshu-32B模型在大多數(shù)指標上均表現(xiàn)最佳,特別是在IU-Xray任務(wù)上,得分接近130.4。
- 強化學(xué)習(xí)效果:盡管Lingshu-RL在部分任務(wù)上表現(xiàn)出微弱的改進,但整體效果有限,表明當(dāng)前RLVR訓(xùn)練在醫(yī)學(xué)領(lǐng)域的應(yīng)用仍需進一步優(yōu)化。
總體結(jié)論
這篇論文提出了Lingshu模型及其多階段訓(xùn)練框架,解決了醫(yī)學(xué)多模態(tài)理解中的關(guān)鍵挑戰(zhàn)。通過全面的實驗驗證,Lingshu在多個醫(yī)學(xué)任務(wù)上表現(xiàn)出色,顯著優(yōu)于現(xiàn)有開源模型。此外,MedEvalKit評估框架的引入進一步推動了醫(yī)學(xué)MLLMs的標準化和可重復(fù)性。總體而言,Lingshu和MedEvalKit為醫(yī)學(xué)領(lǐng)域的MLLMs提供了一個高性能模型、一個強大的評估工具以及數(shù)據(jù)收集、分階段訓(xùn)練和評估的經(jīng)驗指南。
論文評價
優(yōu)點與創(chuàng)新
- 數(shù)據(jù)收集與合成:提出了一種全面的數(shù)據(jù)收集和合成流程,能夠高效地獲取豐富的醫(yī)學(xué)知識數(shù)據(jù),并生成高質(zhì)量的醫(yī)學(xué)字幕、問答對和推理樣本。
- 多階段訓(xùn)練:開發(fā)了針對醫(yī)學(xué)領(lǐng)域的多階段訓(xùn)練框架,逐步注入醫(yī)學(xué)知識,增強模型的問題解決能力。
- 強化學(xué)習(xí)探索:初步探索了將可驗證獎勵的強化學(xué)習(xí)(RLVR)應(yīng)用于提升Lingshu的多模態(tài)醫(yī)學(xué)推理能力,開發(fā)了Lingshu-RL版本。
- 統(tǒng)一評估框架:提出了MedEvalKit,一個統(tǒng)一的評估框架,整合了主要的多模態(tài)和文本醫(yī)學(xué)基準,簡化了模型評估過程,推動了標準化性能評估的發(fā)展。
- 實驗驗證:通過嚴格的實驗驗證,Lingshu在多個多模態(tài)和文本醫(yī)學(xué)視覺問答任務(wù)以及報告生成任務(wù)中表現(xiàn)出色,顯著優(yōu)于現(xiàn)有的開源多模態(tài)模型。
- 案例研究:進行了五個與實際應(yīng)用場景緊密相關(guān)的案例研究,展示了Lingshu在實際醫(yī)療應(yīng)用中的潛力。
不足與反思
- 數(shù)據(jù)質(zhì)量和多樣性:盡管收集了大量的醫(yī)學(xué)多模態(tài)和文本數(shù)據(jù),但數(shù)據(jù)質(zhì)量和多樣性仍然有限。開源醫(yī)學(xué)多模態(tài)數(shù)據(jù)通常存在標注準確性低、圖像分辨率差和模態(tài)分布不均等問題。
- 模型性能和泛化能力:盡管Lingshu在多個醫(yī)學(xué)基準上取得了有希望的結(jié)果,特別是在問答和報告生成任務(wù)中,但與最先進的專有模型相比仍有差距。其在大規(guī)模、更多樣化的醫(yī)學(xué)任務(wù)和更廣泛的泛化能力方面的探索仍不充分。
- 訓(xùn)練范式和強化學(xué)習(xí):盡管驗證了數(shù)據(jù)策略和訓(xùn)練范式的有效性,但最佳的數(shù)據(jù)混合和訓(xùn)練配置仍需進一步探索。當(dāng)前在醫(yī)學(xué)背景下的RLVR應(yīng)用的初步探索效果有限,需要更深入的理解。
關(guān)鍵問題及回答
問題1:Lingshu模型在數(shù)據(jù)收集和合成方面采取了哪些具體措施來確保醫(yī)學(xué)知識的全面性和高質(zhì)量?
數(shù)據(jù)收集
- 從網(wǎng)絡(luò)中收集了多種開源醫(yī)學(xué)多模態(tài)數(shù)據(jù)集,包括醫(yī)學(xué)字幕數(shù)據(jù)(如LLaVA-Med Alignment、PubMedVision等)和醫(yī)學(xué)多模態(tài)指令數(shù)據(jù)(如PathVQA、PMC-VQA等)。
- 收集了醫(yī)學(xué)文本指令數(shù)據(jù),如醫(yī)療事實問答、蒸餾推理數(shù)據(jù)、患者-醫(yī)生對話和一般醫(yī)學(xué)指令數(shù)據(jù)。
- 收集了醫(yī)學(xué)影像數(shù)據(jù),包括X光、CT、MRI、超聲、皮膚鏡、眼底、組織病理學(xué)和顯微鏡等不同醫(yī)學(xué)影像數(shù)據(jù)集。
- 還收集了通用領(lǐng)域數(shù)據(jù),如圖像字幕、文本和多媒體指令跟隨數(shù)據(jù),以增強模型的泛化能力。
數(shù)據(jù)合成
- 生成了長形式字幕,通過數(shù)據(jù)從醫(yī)學(xué)圖像分割和分類任務(wù)中提取結(jié)構(gòu)化的事實知識,生成詳細的醫(yī)學(xué)字幕。
- 基于OCR的指令樣本,收集了生物學(xué)和化學(xué)考試問題和答案,并使用Gemini-2.0-Flash-Thinking進行詳細推理步驟標注。
- 合成VQA實例,使用模板法和自指示法生成醫(yī)學(xué)VQA數(shù)據(jù),模板法通過手動設(shè)計問題模板和答案選項,自指示法通過GPT-4o生成問題和答案。
- 蒸餾推理示例,使用GPT-4o生成鏈式推理路徑,并通過LLM驗證過程確保推理路徑的一致性。
問題2:Lingshu模型的多階段訓(xùn)練框架是如何設(shè)計的,各階段的具體目標和訓(xùn)練內(nèi)容是什么?
醫(yī)學(xué)淺層對齊(Medical Shallow Alignment)
- 目標:建立醫(yī)學(xué)影像模態(tài)與其對應(yīng)文本描述之間的有效對齊。
- 訓(xùn)練內(nèi)容:使用粗略標注的醫(yī)學(xué)圖像-文本對,僅微調(diào)視覺編碼器和投影層。
醫(yī)學(xué)深層對齊(Medical Deep Alignment)
- 目標:全面整合醫(yī)學(xué)知識到MLLM中,增強其理解和適應(yīng)各種臨床上下文的能力。
- 訓(xùn)練內(nèi)容:解凍所有模型參數(shù),使用更大、更高質(zhì)量和語義更豐富的醫(yī)學(xué)圖像-文本對進行端到端微調(diào)。
醫(yī)學(xué)指令調(diào)優(yōu)(Medical Instruction Tuning):
- 目標:提高模型理解和執(zhí)行各種醫(yī)學(xué)用例任務(wù)的能力,增強其泛化到下游任務(wù)的能力。
- 訓(xùn)練內(nèi)容:使用廣泛的醫(yī)學(xué)和多模態(tài)指令數(shù)據(jù)集進行大規(guī)模、端到端優(yōu)化,包括多圖像推理任務(wù)、多輪對話和需要詳細推理過程的查詢。
醫(yī)學(xué)導(dǎo)向的強化學(xué)習(xí)(Medical-oriented Reinforcement Learning)
- 目標:通過可驗證獎勵的強化學(xué)習(xí)(RLVR)增強模型的醫(yī)學(xué)推理、問題解決能力和解釋性。
- 訓(xùn)練內(nèi)容:使用精心策劃的醫(yī)學(xué)可驗證數(shù)據(jù)集進行訓(xùn)練,采用Group Relative Policy Optimization(GRPO)方法,使用嚴格格式的獎勵和準確性獎勵。
問題3:MedEvalKit評估框架的主要特點是什么,它如何確保評估的標準化和可重復(fù)性?
多模態(tài)和文本醫(yī)學(xué)基準整合
- 整合了多個主流的多模態(tài)和文本醫(yī)學(xué)基準,包括VQA-RAD、SLAKE、PathVQA、PMC-VQA、OMnimedVQA、MMMU、MedXpertQA、MMLU、PubMedQA、MedMCQA、MedQA-USMLE、MedBullets、SuperGPQA、MIMIC-CXR、IU-Xray和CheXpert Plus。
支持多種問題格式
- 支持多選題、封閉式問題、開放式問題和醫(yī)學(xué)報告生成等多種問題格式。
標準化數(shù)據(jù)預(yù)處理和后處理協(xié)議
- 標準化了所有問題的輸入格式,遵循候選醫(yī)學(xué)MLLMs推薦的官方聊天模板。
- 使用規(guī)則基礎(chǔ)的評估與LLM作為評委的策略相結(jié)合的雙重驗證機制,結(jié)合客觀和主觀評估,提高評估的穩(wěn)定性和可靠性。
支持推理加速和高吞吐量評估
- 通過vLLM支持推理加速,支持高通量和并行評估,具有強大的可擴展性和工程可用性。
通過這些特點,MedEvalKit確保了評估過程的標準化和可重復(fù)性,使得不同模型之間的比較更加公平和可靠。
本文轉(zhuǎn)載自??知識圖譜科技??,作者:知識圖譜科技

















