解放軍總醫院聯合南大、吉大等機構,共同提出首個「脊柱診療大模型」SpineGPT
本研究由解放軍總醫院牽頭,聯合浙江大學醫學院附屬第二醫院、復旦大學附屬華山醫院等共 11 家國內頂尖三甲醫院,攜手南京大學、吉林大學兩所重點高校,并匯聚 Pi3Lab、上海三友醫療器械股份有限公司等產學研多方力量,共同完成了首個面向脊柱診療領域的大模型研發。
論文共同第一作者包括趙明、董文輝博士、張陽醫生,核心貢獻者包括來自浙江大學醫學院附屬第二醫院的陳其昕教授、夏順楷醫生,以及復旦大學附屬華山醫院的馬曉生教授、管韻致醫生等。通訊作者為解放軍總醫院骨科醫學部副主任孫天勝教授,共同通訊作者為南京大學智能科學與技術副院長單彩峰教授。
脊柱疾病影響全球 6.19 億人,是致殘的主要原因之一 。然而,現有 AI 模型在臨床決策中仍存在「認知鴻溝」。缺乏椎體級別(level-aware)、多模態融合的指令數據和標準化基準,是制約 AI 輔助診斷的關鍵瓶頸。
本文提出了一套統性的解決方案,包括首個大規模、具有可追溯性的脊柱指令數據集 SpineMed-450K,以及臨床級評測基準 SpineBench。基于此訓練出的專科大模型 SpineGPT,在所有任務上均實現了顯著提升,僅僅 7B 參數量,全面超越了包括 GLM-4.5V 和 Qwen2.5-VL-72B 在內的頂尖開源大模型 。

- 論文地址:https://arxiv.org/pdf/2510.03160
臨床痛點:通用 LVLM 的「認知鴻溝」
脊柱疾病的臨床診療,需要復雜的推理過程:整合 X 光、CT、MRI 等多模態影像的發現,并將病灶精確定位到特定的椎體層面(Level-Aware Reasoning),以確定嚴重程度并規劃干預措施 。這種集成推理能力,是現有通用視覺 - 語言大模型(LVLMs)的系統性弱點 。
在 SpineBench 的評測中,這一弱點暴露無遺 :

- 性能差距明顯: 即使是參數量達 72B 的 Qwen2.5-VL-72B,平均性能也僅為 79.88%。領先的開源模型 GLM-4.5V (83.26%) 與頂尖專有模型 Gemini-2.5-Pro (89.23%) 之間仍存在近 6 個百分點的差距。在醫療報告生成任務中,更是差距明顯,Qwen2.5VL-72B 和 Gemini-2.5-pro 差 30%。
- 跨模態對齊缺陷: 幾乎所有模型在多模態任務上的性能都有不同程度的下降 。例如,GPT5 在純文本 QA (87.41%) 與圖像 QA (79.97%) 之間的差距高達 7.44 個百分點 。這反映了現有模型在醫學圖像理解和視覺 - 語言對齊上的根本不足,限制了它們在需要綜合分析圖像和文本的臨床場景中的應用。
核心成果:構建臨床級 AI 的「基礎設施」
為填補現有數據與臨床需求之間的認知鴻溝,研究團隊與實踐中的脊柱外科醫生共同設計和構建了 SpineMed 生態系統。
1. SpineMed-450K:椎體級、多模態指令數據集
這是首個明確為椎體級推理而設計的大規模數據集。

- 規模與來源: 包含超過 450,000 條指令實例。數據來源極其豐富,包括教科書、外科指南、專家共識、開放數據集(如 Spark、VerSe 20202020),以及約 1,000 例去識別化的多模態醫院真實病例。真實病例來源于國內 11 家知名醫院,確保了患者來源的多樣性 。
- 生成管線: 數據生成采用了嚴謹的「臨床醫生介入」(Clinician-in-the-loop)流程。該流程涉及:
——使用 PaddleOCR 提取圖文信息;
——通過新型的圖像 - 上下文匹配算法,將圖像與其周圍的文本上下文精確綁定,保證可追溯性;
——利用 LLM 兩階段生成方法(起草和修訂)來生成高質量的指令數據,且臨床醫生參與了提示詞策略和修訂標準的審查。

- 任務多樣性: 涵蓋四種類型——多項選擇 QA(249k)、開放式 QA(197k)、多輪診療對話(1.1k)和臨床報告生成(821 例)。數據覆蓋七個骨科亞專科,其中脊柱外科數據占比 47%,并細分為 14 種脊柱亞疾病。

2. SpineBench:首個臨床顯著性評估基準
SpineBench 是一個與臨床深度結合的評估框架,旨在評估 AI 在細粒度、以解剖為中心的推理中犯下的、在實踐中至關重要的錯誤類型。
- 基準構成: 最終包含 487 道高質量多項選擇題和 87 個報告生成提示 。
- 嚴謹驗證: 為確保評估集的完整性,由 17 名骨科外科醫生組成的團隊,分成三個獨立小組進行了嚴格的驗證和校正。
- 報告評估: 針對臨床報告生成任務,設計了由專家校準的框架。評估從五大板塊、十個維度進行:
- 結構化影像報告(SIP):評估發現的準確性、臨床意義和定量描述 。
- AI 輔助診斷(AAD):評估主要診斷的正確性、鑒別診斷和臨床推理 。
- 治療建議(TR):分為患者指導(語言清晰度、共情、安撫)、循證計劃(理由、指南一致性)和技術可行性(手術細節、并發癥預防)。
- 風險與預后評估(RPM):評估圍手術期管理、隨訪安排和潛在問題策略 。
- 推理與免責聲明(RD):評估證據覆蓋范圍、相關性、細節粒度和邏輯連貫性。

實驗結果:專科 AI 模型 SpineGPT 的突破性表現
SpineGPT 基于 Qwen2.5-VL-7B-Instruct 模型,通過課程學習(Curriculum Learning)框架,分三階段在 SpineMed-450K 上進行微調,以逐步增強其在脊柱健康領域的適用性和專業性 。

1.超越開源,逼近頂尖專有模型: SpineGPT 達到了 87.44% 的平均分,大幅領先所有開源大模型 4.18 個百分點以上。在純文本 QA 任務上(89.46%),SpineGPT 甚至超越了所有參評模型,包括 GPT5 (87.41%) 。
2.專科數據的重要性(消融實驗):
- 模型僅在通用醫療數據上訓練時,性能顯著下降(74.95% vs 65.31%)。
- 納入精心策劃的非脊柱通用骨科數據后,性能得到大幅提升(82.14% vs 74.95%),驗證了領域對齊訓練數據的重要性。
- 最終,納入脊柱特異性訓練數據(包括對話、報告生成和長鏈推理指令)后,模型性能進一步增強至 87.89%。
3.臨床報告能力顯著增強: SpineGPT 在醫療報告生成任務上的總分為 87.24 分,而 Qwen2.5-VL-72B 僅為 63.80 分,ChatGPT-4o 為 64.04 分。
- 案例對比:在對「青少年特發性脊柱側凸」病例的分析中,SpineGPT 提供了包含 72 個詳細的臨床處理流程,涵蓋了完整的影像發現、AI 診斷、患者和醫生導向的治療建議、風險管理和術后問題管理。相比之下,ChatGPT-4o 的報告則更偏向于適合一般醫療文檔的基本診斷和治療建議。

4.人類專家高度認可: 人類專家對報告評分與 LLM 自動評分之間的 Pearson 相關系數達到 0.382 至 0.949,大多數維度相關性在 0.7 以上。這有力地驗證了 LLM 自動評分作為專家判斷代理的可靠性。
結論與展望
這項研究證明了:對于脊柱診斷這樣需要復雜解剖推理的專業領域,專科指令數據和「臨床醫生介入」的開發流程是實現臨床級 AI 能力的關鍵。
SpineMed-450K 和 SpineBench 的發布,為未來的 AI 研究提供了一個高實用性的基線。研究團隊計劃將拓展數據集、訓練大于 7B 參數的模型,并結合強化學習技術,繼續深化與領先專有模型的直接比較,以確立更清晰的性能基準。






























