讓OpenAI只領先5天,百川發布推理新模型,掀翻醫療垂域開源天花板
剛剛,全球最強開源醫療模型發布,來自中國。
百川開源最新醫療推理大模型Baichuan-M2-32B,在OpenAI發布的Healthbench評測集上,超越其剛剛發布5天的開源模型gpt-oss-120b。
不僅以小博大,而且領先除GPT5以外所有的開源閉源前沿模型。

落地門檻還非常低,支持RTX4090單卡部署。這意味著哪怕是中小型醫療機構,也有能力負擔起醫療大模型的私有部署。
現如今,AI醫療可謂是大模型落地趨勢中討論度最高的垂直領域之一。
它備受AI大佬以及硅谷頂尖公司關注,是OpenAI最重視的落地領域——比如在開源模型gpt-oss的評測中,醫療領域的表現排在數學、代碼等熱門能力之前展現;GPT-5發布會上,Altman就專門花時間體現了ChatGPT在醫療問診場景中的實際價值。
深度學習之父Hinton也一直篤信AI醫療的價值,前不久在中國的首次公開演講中,也再次提到了AI對醫療行業的深遠影響。
可以明顯感受到,大模型+醫療,正在成為一種全球共識。
而在這種共識大范圍形成之前,百川智能已經搶先all in AI醫療,成為國內第一個將目光聚焦于此的大模型公司。
這么做有必要嗎?能做成嗎?
百川用最技術的方式給出回答:推出最新模型、拿SOTA、曬評測表現。
具體如何?來看新鮮出爐的Baichuan-M2。
超越o3等閉源模型,測試越難表現越驚艷
Baichuan-M2是百川開源發布的第二個醫療增強模型。這是一個推理模型,為真實世界的醫療推理任務設計。
參數量32B,但在各項基準中都超越了比自己大數倍的開源/閉源模型。

百川主要展示了Baichuan-M2在HealthBench上的表現。
HealthBench是由OpenAI今年發布的一個醫療健康領域評估測試集,數據集中包含5000條多輪對話,模擬模型與個人用戶或醫療專業人士之間的真實交流。這些對話跨越多語言、多背景(如急診、臨床數據解讀、全球健康等)。
每段對話配有由262名醫生(來自60個國家)撰寫的具體評價準則,一共涉及48562條特點明確的標題標準(rubric criteria)。評分不僅涵蓋醫學準確性,還包括指令遵從、溝通能力等行為維度。

數據集包含2個版本:
- HealthBench:標準版本,包含5000條對話和對應準則。
- HealthBench Hard:包含1000個特別具有挑戰性的樣本。
對比的模型包含當前最領先的開閉源模型。
- 開源模型:gpt-oss-120b、Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Kimi-K2等;
- 閉源模型:o3、Gemini-2.5-pro、Claude-3.7-Sonnet、GPT-4o、Grok3等。
首先在HealthBench標準版上,Baichuan-M2全面超越當前所有開源模型,拿下SOTA。其中包含剛剛發布且參數規模翻4倍的gpt-oss-120B,以及DeepSeek-R1這樣的“開源明星”。

同時也領先當前頂級閉源推理模型,包括o3、Gemini-2.5-Pro、Grok3等。

對于HealthBench-Hard,這是一個專門針對困難場景的測試集,在它剛剛發布時沒有任何模型可以超過32分,甚至很多前沿模型都只是0分。
但是在這一基準中,Baichuan-M2的領先更加明顯了,完全超越gpt-oss-120b、o3等先進開閉源模型。
目前,Baichuan-M2和GPT-5是全球唯二超過32分的模型。

針對中國臨床診療場景的問題評測,Baichuan-M2的本土優勢更加明顯。

以肝癌治療場景為例,Baichuan-M2對比gpt-oss系列模型更貼合國內場景、也更遵循中國權威指南推薦。
要知道,不同國家的病理情況、臨床指南對診斷指標、影像學判讀標準都可能存在差異,更加本土化的醫學數據訓練,能夠讓大模型天生更適合在本土區域落地、更快速成為醫生的得力助手,給出的診斷建議和策略也更符合國內病患的實際需求。
比如有這樣一個病例:
患者李某,男性,55歲,因“右上腹隱痛3個月,加重伴體重下降1個月”入院。3個月前無明顯誘因出現右上腹隱痛,呈間歇性,未予特殊處理;近1個月來疼痛加重,伴食欲減退、乏力,體重下降約5kg,無黃疸、嘔血或黑便。既往有乙肝肝硬化病史10年,未規律抗病毒治療;否認酗酒史。查體:慢性肝病面容,皮膚鞏膜無黃染,腹平軟,肝肋下3cm可觸及,質硬,邊緣鈍,輕壓痛,脾肋下未及,移動性濁音陰性。輔助檢查:AFP 1200ng/ml;腹部增強CT示肝右葉可見兩個占位,大小分別是4.1cm×4.8cm,3.2×2.4cm,動脈期明顯強化,門脈期快速廓清,符合"快進快出"表現,門靜脈主干及分支未見癌栓;Child-Pugh A級。分期 CNLC IIa期,BCLC B期。
請問首選治療方案是什么?
針對CNLC IIa期(BCLC B期)的肝細胞肝癌患者,M2首選推薦在具備手術條件的情況下進行解剖性肝右葉切除(或根據腫瘤具體位置,可考慮擴大右半肝切除、右三葉切除等),目標是R0切除。原因在于依據國家衛健委發布的《原發性肝癌診療指南》(2024版),肝切除術是潛在根治性治療,可提供最佳的長期生存獲益。

同樣的案例,gpt-oss-120b建議首選治療經動脈化療栓塞術(TACE),理由是符合BCLCB期治療指南,當前情況下手術切除和移植風險不理想。

最后,由于醫療健康領域往往涉及個人敏感信息,私有化部署要求高。
Baichuan-M2同樣考慮到了這一點,以更低成本實現最優效果。
百川智能對Baichuan-M2進行了極致輕量化,量化后的模型精度接近無損,可以在RTX4090上單卡部署,相比DeepSeek-R1 H20雙節點部署的方式,成本降低了57倍。
相比于OpenAI最新開源的gpt-oss-120b,再一次前移了帕累托前沿,進一步提升了模型在真實醫療場景中的落地可能性與可擴展性。
值得一提的是,醫學專項能力突出,并不意味著Baichuan-M2的通用能力下降。
M2在數學、指令遵循、寫作等通用能力不降反增,各種基準都超過了Qwen3-32B,這意味著它還可以被用于醫療以外的其他領域。

首創患者模擬器和Verifier系統
那么問題關鍵來了,Baichuan-M2如何做到?
它創新性提出了患者模擬器和Verifier系統。核心基于一個大型的Verifier系統,能夠從真實存在的醫療問題出發,進行端到端強化學習訓練,能夠在保持模型通用能力同時大幅提升醫療領域表現。

首先來看核心架構上,百川提出了Large Verifier System。它將“可驗證性”作為RL提升LLM能力的前提,構建通用+醫療專用的Verifier體系,提升醫學這類可驗證任務表現。
它利用RLVR(Reinforcement Learning with Verifiable Rewards),這是近期很熱門的一種強化學習方法,過去一年被頭部大模型企業廣泛使用,在數學、編碼領域顯著提升了模型性能。
其核心在于通過“可驗證”的方式給予獎勵——即輸出是否正確可以被清晰判定為對或錯,而不依賴于主觀或模糊的評估信號。它尤其適合那些有標準答案的任務比如數學、編程——它們往往難以解決但是易于驗證。
然而,當將這一范式應用于醫療領域時,就會遇到顯著的局限性:傳統醫學題庫易于驗證的靜態答案無法真實再現診療過程的動態復雜性,無法達到預期的泛化能力和實用智能。真實臨床實踐是一個信息不完全,多輪探索的決策過程,很大程度依賴于醫生綜合臨床經驗,溝通技巧和倫理考量進行動態判斷。
這個過程相當于讓大模型從“醫學實習生”進化成一個要求極高、異常挑剔的專家。不過問題是,醫學大模型強化學習的獎勵設計很復雜、需要高質量數據,還要在安全性、法規合規、訓練穩定等因素之間找到平衡。這其中很考驗團隊對大模型本身以及醫療行業落地的深入理解。
為此,百川結合醫療場景特點設計了一套較為全面的醫療Verifier系統。數據上使用來自醫療關鍵子場景的醫生思維數據,使模型能夠和真實世界醫生思維對齊;然后結合來自真實世界的醫療任務,圍繞Large Verifier System開展端到端強化學習。
但問題是,在真實的臨床醫患對話場景中,患者的表達往往存在很多噪聲。比如不同年齡、文化水平的患者對于病癥的描述會存在比較大差異,這使得模型驗證標準答案存在很大挑戰。
百川引入了首創的患者模擬器。這項技術最早在今年1月亮相,它是一個基于真實病例數據構建的AI系統,用真實數據構造上萬個不同年齡性別癥狀的AI患者,模擬了數百萬次診療過程,最初基于該范式開源了Baichuan-M1,系行業首個醫療增強模型。
它的核心創新在于將強化學習的獎勵機制,從過去固定不變的“打分規則”,變成能根據真實臨床情境動態生成的系統。
具體而言,在多輪強化學習中,生成式Verifier實時生成評分標準,它主要參考具有個體差異和行為噪聲的虛擬醫患對話信息,能進行動態評分與策略優化。
這能讓醫療大模型在面對復雜多變的臨床環境時,更能做出適應性強、質量高的決策。
比如在患者的病情描述不清楚、缺失關鍵信息、前后矛盾時可以重新評估診斷假設;根據當前對話判斷后續回復策略,是該進一步追問?還是可以給出結論?總之都更加貼近真實醫患對話的感覺。

在具體訓練策略上,Baichuan-M2引入中期訓練(Mid-Training),沒有直接進行后訓練。這樣是為了讓模型在保持通用能力同時,輕量化提高醫療領域能力。
為此,團隊構建了多源高質量醫療語料,包含精選的高權威性公共醫學教材、臨床專著、藥品知識庫以及最新發布的診療指南和真實病例。
數據合成階段主要強化兩個維度:
- 結構化表達:基于知識保真原則,對原始醫學文本進行結構化改寫,提升表達的邏輯性和流暢度,同時嚴格控制改寫幻覺的引入。
- 深度推理增強:在知識密集段落和關鍵結論處,自適應插入深度思維筆記,包括知識關聯分析、批判性反思、論證驗證、案例推演等認知過程,讓模型學會“像醫生一樣思考”。
為了兼顧通用和專業醫療能力,訓練數據配比也很講究——高質量醫療數據:其他通用數據:數學推理數據=2:2:1。
并且引入領域自約束訓練機制,引入KL約束保持輸出分布穩定,防止過擬合醫療數據。
然后在強化學習部分,百川采用多階段強化學習策略(Multi-Stage RL),即分階段培養模型的能力,比如先培養基礎推理、再培養醫療&通用推理、最后培養醫學多輪交互能力。
這樣能讓每一步的獎勵信號更清晰,不被其他能力混淆;模型學到的能力也更穩定,更能應對不同數據類型。
在具體算法上,Baichuan-M2采用了改進版的GRPO算法,主要做了幾方面優化:
- 去掉KL約束(Eliminating KL divergence):KL散度會拖慢reward增長,還需要額外算參考模型→刪除后訓練更快,計算成本更低。
- Clip-higher:提高重要性采樣的上限閾值(下限不變),防止熵過早收斂,鼓勵模型探索更多解法。
- Loss normalization:不同來源的數據回答長度差異大→在計算token-level loss時用固定最大長度歸一化,消除長度偏差。
- Advantage normalization:多任務數據難度差異大→去掉優勢計算中的標準差歸一化,穩定多任務策略更新。
- Dynamic Length reward:為防止“獎勵黑客”行為,引入動態長度獎勵;當大部分樣本分數高于閾值時,對高分樣本給予與長度負相關的額外獎勵,既鼓勵短高質回答,又不死板限制探索。
最后在AI Infra部分,團隊采用多種PTQ量化策略對Baichuan-M2進行了權重4bit量化,疊加activation 8bit量化和kv cahe的8 bit量化。
量化后的模型可以直接使用SGLang/vLLM等開源推理引擎,在RTX4090上進行單卡部署,這顯著降低了用戶部署使用模型的門檻及成本。
同時團隊還基于基于Eagle-3訓練了MTP版本,單用戶場景下token吞吐可獲得74.9%%的提升。

技術第一性原理,應對AI醫療落地難題
以上是Baichuan-M2技術架構的全貌。在這之中,不僅可以看到百川對于AI醫療場景的洞見,也能看到他們對于大模型技術本身的深入理解。
要知道,AI醫療是一個非常特殊的落地場景,它容錯率低、臨床決策鏈條復雜、非常強調可驗證與可追溯等,這些問題是行業目前面臨的共同難題。
作為一家大模型初創公司,百川的思路是從技術本身出發解決一系列問題。
首先,通過底層技術創新,從根本上提升大模型在醫療場景的落地可用性。
Baichuan-M2強調了強化學習可驗證性的重要性,用動態機制代替靜態函數,進一步降低實際偏差;并將可驗證性本身當成“可學習能力”去訓練,這是一種把基礎原理提煉成可擴展工程框架的好思路;同時也更科學設計了訓練數據配比,強調了模型不能喪失通用能力,這對于專項模型訓練也是一種啟發。
其次通過改進模型訓練方法,使其更利于落地。
比如Baichuan-M2沒有盲目地直接后訓練,而是插入mid-training,這是因為醫學場景對于幻覺的容忍度更低,而mid-training可以避免純領域微調時知識覆蓋不足/幻覺放大問題。
以及多階段RL方案、GRPO的改進,也都更針對實際訓練中的痛點,不只是單純的學術優化。
最后,還有大模型落地中最被關注的問題——部署成本。
AI醫療通常需要進行私有化部署,但是高額的硬件設施成本對于很多醫療機構而言都是很大考驗。
所以能看到,Baichuan-M2模型選擇輕量小巧的32B參數量,同時支持進一步量化,使其可以單卡部署。
如上方方面面,幾乎涵蓋了AI醫療當前面臨的主要困境。也可以明顯感受到Baichuan-M2從提出的第一天起,就是為了解決實際問題而來。
目前,百川已經和北京兒童醫院、北京市海淀區衛健委等展開合作,實際落地兒科大模型、AI醫生等。

如今,包括OpenAI、Anthropic、谷歌在內的頂尖AI公司,都在重點布局且加大力度投入AI醫療。其前景已無需再反復論證,其挑戰也必須正面應對。
在這之中,模型本身的進化與迭代,是當前優先級最高的問題。這也解釋了全球為何如此多基座模型公司要投入其中。
百川作為國產代表,是最早旗幟鮮明all in的基座模型公司代表,并且選擇對外開源。
隨著Baichuan-M2上線,百川在AI醫療領域的思考、積累、決心也進一步對外釋出。
或許無論是否選擇進入垂直領域,對于一家從基座模型出發的技術公司而言,都還是那句話:
Talk is cheap,show you the model.
































