一個模型讀懂所有醫學數據,Hulu-Med探索醫學大模型開源新范式 | 浙大x上交xUIUC
從影像診斷到手術指導,從多語言問診到罕見病推理——
醫學AI正在從“??浦帧边M化為“全能型選手”。
而這就是浙江大學(吳健/劉佐珠課題組)、上海交通大學(謝偉迪課題組)、伊利諾伊大學厄巴納-香檳分校(UIUC,Sun Jimeng課題組)聯合阿里巴巴、湖南大學、新加坡A*STAR、中國移動、時代天使、浙江省醫學影像人工智能重點實驗室等機構聯合提出的通用醫學視覺語言大模型Hulu-Med,首次實現在一個單一模型中對醫學文本、2D圖像、3D體積和醫學視頻的統一理解。
簡單來說,就是一個模型,看懂醫學世界的所有。

而且作為開源模型,其訓練數據均來自公開醫學數據集及自研合成數據,不僅能大幅度降低GPU訓練成本,更是在30項權威評測中展現出媲美GPT-4.1等閉源模型的優異性能。
這意味著學術機構及醫療開發者無需再依賴私有數據,即可復現并定制高性能醫學模型,顯著降低隱私與版權風險。

下面是有關Hulu-Med的更多詳細內容。
醫學AI的碎片化與透明度缺失
醫療人工智能的發展正處在一個關鍵的十字路口。
過去,AI在醫療領域的應用呈現出單任務/單模態的局限性。研究者們針對放射影像、病理切片或手術視頻等單一任務,開發了眾多性能卓越的專用模型(Specialized Models)。
然而,這些模型架構各異、數據獨立,如同一個個“信息孤島”。當臨床上需要綜合分析同一位患者的多模態數據時,就必須拼湊一套復雜、昂貴的系統,這不僅維護成本高昂,更限制了AI從跨模態關聯中學習和推理的能力。
如今,大語言模型和基礎模型的興起,為我們帶來了實現“通用醫學智能 (Generalist Medical AI)”的曙光,有望解決上述難題。
然而,這一浪潮也帶來了一個更嚴峻的挑戰:透明度的缺失(Lack of Transparency) 。許多領先的醫療AI系統,其訓練數據來源、處理方法、模型架構甚至評估細節都常常秘而不宣 。這種不透明性是阻礙AI在醫療領域廣泛應用的關鍵障礙 :
- 研究社區難以對其進行獨立的驗證和改進;
- 監管機構難以評估其安全性和公平性 ;
- 臨床醫生難以完全信任并將其融入高風險的決策流程 ;
- 數據隱私與版權方面也帶來了嚴重的潛在風險 。
正是在碎片化與不透明這兩大行業痛點并存的背景下,Hulu-Med應運而生,旨在提供一個真正統一(Unified)且完全透明(Transparent)的解決方案 。
邁向統一、透明、高效的醫學AI
研究團隊秉持三大核心設計原則進行研發:全模態理解(Holistic Understanding)、規?;?/span>(Efficiency at Scale) 與端到端透明(End-to-End Transparency) 。
Hulu-Med旨在成為一個“醫學多面手”,不僅能理解單一類型的數據,更能融會貫通,從整體上把握患者的健康狀況。
核心創新一:前所未有的透明度與開放性
Hulu-Med將透明度置于最高優先級,研究團隊深信,開源開放是推動醫學AI健康發展的必由之路。

- 完全開放的數據來源:
Hulu-Med的訓練完全基于公開可獲取的數據集和合成數據,擺脫對私有、敏感數據的依賴 。
研究團隊精心整理并構建了目前已知規模最大(1670萬樣本)的開放醫學多模態語料庫 ,該語料庫覆蓋了12個人體主要器官系統和14種主要醫學影像模態(包括CT, MRI, X光, 病理等60多種具體類型) 。
- 應對數據挑戰的合成策略:
公開數據往往存在模態覆蓋不均、圖文對齊質量參差不齊、長尾分布顯著等問題。
為了克服這些挑戰,研究團隊開發了5種專門的數據合成管線 ,能夠將簡短圖注擴寫為詳細描述 、為無標注圖像生成高質量長文本描述(尤其針對樣本稀疏的模態) 、構建多樣化的視覺問答對 、生成多語言長思維鏈(Long CoT)推理數據以及為缺乏標注的手術視頻生成時序描述 。
這些高質量的合成數據(總計約286萬樣本)極大地豐富了訓練語料,提升了模型的泛化能力和對復雜指令的理解力 。
- 端到端全流程開源:
研究團隊公開整個研發管線,包括詳細的數據篩選與合成流程、三階段訓練代碼、所有基準測試的評估腳本,以及最終訓練完成的所有模型權重 。
這意味著任何研究者都可以完全復現團隊的工作,并在其基礎上進行改進或針對特定應用進行微調。
- 規避風險,賦能社區:
這種徹底的開放性不僅有效規避了使用私有數據可能帶來的隱私泄露和版權糾紛風險 ,更重要的是,它賦能了整個研究社區,降低了高質量醫學AI的研發門檻,有助于催生更多定制化的、可信賴的醫療應用。
Hulu-Med在GitHub和HuggingFace上獲得的積極反饋,近兩周連續在HuggingFace medical trending榜單排名第一正是對開放策略的認可。
核心創新二:醫學多模態統一理解架構
Hulu-Med的核心技術突破之一在于其創新的統一架構,首次實現了在單一模型內原生處理文本、2D圖像、3D體積和醫學視頻四種核心模態。

傳統VLM通常需要為不同視覺模態(如2D圖像和3D體積)設計獨立的編碼器,或者采用將3D/視頻數據拆解為2D幀序列的折衷方法,這限制了模型對空間或時間連續性的深度理解。
Hulu-Med則另辟蹊徑:
- 旋轉位置編碼的創新應用:
采用先進的SigLIP視覺編碼器,并將其與二維旋轉位置編碼(2D RoPE)相結合。
2D RoPE能夠動態編碼Patch在二維空間中的相對位置信息,無需預設固定的輸入尺寸。
- 統一視覺編碼單元:
通過巧妙的設計,它將圖像Patch視為跨所有視覺模態(2D圖像、3D切片、視頻幀)的通用處理單元,使得模型能夠將3D體積數據視為切片序列、視頻數據視為幀序列。
并在統一的Transformer架構內自然地理解其空間或時間上的連續性與關聯性,而無需引入任何特定于3D或視頻的復雜模塊。
這種統一架構不僅支持任意分辨率的醫學影像輸入 ,還天然具備了強大的時空理解能力。
- 解耦的訓練方式:
基于獨立的視覺編碼器與大型語言模型(LLM)解碼器開展持續預訓練和后訓練,這提供了極大的靈活性,允許研究者根據具體需求,輕松替換或升級視覺編碼器或LLM骨干(如使用不同規?;蚰芰Φ腝wen系列模型),無需等待新版本通用VLM出現后再做醫學場景后訓練。
這種“原生”的多模態整合方式,相比于僅僅微調通用VLM的方法,更能保證數據使用的透明性,并強化領域特定的推理能力,是構建可靠臨床AI系統的關鍵。
核心創新三:兼顧效率與規?;?/span>
處理大規模醫學數據,尤其是包含大量切片或幀的3D體積和視頻數據,對計算資源提出了極高要求。
Hulu-Med通過一系列創新設計,成功實現了高性能與高效率的平衡。
- 醫學感知令牌壓縮(Medical-Aware Token Reduction):
針對3D和視頻數據中普遍存在的幀間/層間信息冗余問題,研究團隊提出了“醫學感知令牌壓縮”策略。

該策略結合了平面內雙線性插值降采樣和平面間基于L1距離的冗余令牌剪枝(Token Pruning),能夠在幾乎不損失模型性能的前提下,平均減少約55%的視覺令牌數量(如上圖)。
這一顯著的效率提升使得處理長達數小時的手術視頻成為可能,并且極大地降低了模型推理時的內存和計算開銷。
- 漸進式三階段訓練課程:
Hulu-Med采用了精心設計的漸進式三階段訓練流程。

第一階段,凍結LLM,僅訓練視覺編碼器和Projector,利用海量的2D圖像-短文本對建立基礎的視覺-語言對齊。
第二階段,進行持續預訓練,引入長文本描述、通用數據,并解凍所有模型參數,旨在注入豐富的醫學知識和通用視覺文本理解能力。
第三階段,進行混合模態指令微調,引入包括3D、視頻、多圖、圖文交錯在內的多樣化下游任務數據,全面提升模型的指令遵循和復雜推理能力。
這種“先易后難、逐步深入”的策略,充分利用了相對豐富的2D數據資源來構建強大的視覺表征基礎,使得模型在后續面對數據量相對較少的3D和視頻任務時能更快、更好地學習。
實驗證明,這種漸進式訓練顯著優于將所有模態混合在一起的訓練方式。
- 可控的訓練成本:
得益于高效的架構和訓練策略,Hulu-Med的訓練成本得到了有效控制。
即使是規模最大的32B參數模型,其總訓練耗時也僅約4萬個A100 GPU小時,而7B模型更是只需約4千GPU小時。

這意味著,在現實可及的計算預算內,即可開發出具備SOTA性能的通用醫學VLM,極大地提高了先進醫學AI技術的可及性。
樹立醫學VLM新標桿
為了全面評估Hulu-Med的能力,研究團隊在30個公開的醫學基準測試上進行了廣泛嚴謹的評估。
這些基準從基礎的文本問答、圖像分類,到復雜的視覺問答(2D、3D、視頻)、醫學報告生成(2D、3D),再到需要深度臨床知識和推理能力的多語言理解、罕見病診斷、多輪臨床對話等各種任務類型,并同時考察了模型在分布內(ID)和分布外(OOD)任務上的泛化能力。

最終Hulu-Med的表現令人矚目,如上圖所示,在參與比較的30項基準中,Hulu-Med在其中27項均超越了現有的開源醫學或通用VLM。
而且媲美甚至超越頂尖閉源系統,在其中16項基準中的性能優于強大的閉源模型GPT-4o。
尤其值得一提的是,盡管Hulu-Med是一個視覺語言模型,但在OpenAI最新提出的純文本臨床對話基準HealthBench上,其性能超越了GPT-4o,并與GPT-4.1持平 ,充分證明了其強大的文本理解和推理能力并未因多模態訓練而削弱。
此外,無論是在2D醫學VQA和報告生成(在體現臨床價值的RaTEScore指標上尤為突出),還是在需要空間理解的3D VQA和報告生成(優于專門的3D模型),抑或是需要時序推理的視頻理解任務(如MedFrameQA和多種手術VQA),Hulu-Med均展現了領先或極具競爭力的性能。

在模擬真實臨床挑戰的多語言醫學理解(MMedBench,六種語言)、罕見病診斷(RareBench)和多輪臨床安全對話(HealthBench)等任務上,Hulu-Med同樣表現出色。
尤其在結合思維鏈(CoT)提示時,其在多語言和罕見病診斷上的表現超越了包括GPT-4在內的多個頂尖閉源模型 ,展現了其巨大的臨床應用潛力(如上圖)。
Hulu-Med的成功驗證了通過系統性整合公開數據、采用統一高效架構、堅持完全開放透明的路徑,是可以構建出世界一流的通用醫學AI模型的。
盡管取得了顯著進展,Hulu-Med仍有很多提升空間,未來的研究方向包括:
- 融合更多模態數據:將基因組學、蛋白質組學等多尺度生物數據融入模型,實現從宏觀影像到微觀分子層面的真正多尺度疾病理解,邁向預測性和個性化醫療。
- 持續擴大開放數據規模:進一步聚合全球范圍內更多樣化的公開醫學數據集,有望繼續提升模型的性能和泛化能力。
- 深化臨床推理能力:利用更大規模、更多樣化的思維鏈數據,結合強化學習等先進訓練范式,進一步優化模型的臨床邏輯推理、可解釋性和可靠性。
- 建立高效的持續學習機制:確保模型能夠與快速發展的醫學知識保持同步。
- 推動臨床驗證與整合:將Hulu-Med作為基礎,與??颇P突蚨嘀悄荏w系統結合,在真實的臨床工作流中進行驗證,確保其安全性和有效性。
總的來說,Hulu-Med代表了邁向整體化、透明化、高效能醫學AI的重要一步,它不僅是一個高性能的模型,更是一個開源開放的研究起點和一份詳盡的技術藍圖。
研究團隊堅信,開放與協作是推動醫學AI領域可持續發展的關鍵,Hulu-Med在GitHub和HuggingFace等開源社區獲得的初步成功,也印證了這一理念的價值。
同時,該團隊也誠摯邀請相關領域的研究者、開發者和臨床醫生,利用Hulu-Med等開放模型和數據資源,共同探索、構建和驗證下一代精準、普惠、個性化的醫學人工智能系統!
論文鏈接:https://arxiv.org/abs/2510.08668
GitHub鏈接:https://github.com/ZJUI-AI4H/Hulu-Med
HuggingFace鏈接:https://huggingface.co/ZJU-AI4H/Hulu-Med-32B



































