百川發布最強循證增強大模型M2 Plus,打造“醫生版ChatGPT”
10月22日,百川智能發布循證增強醫療大模型Baichuan-M2 Plus,同步升級配套應用百小應并開放API。這是百川自8月開源Baichuan-M2以來的又一次重要動作。評測顯示,M2 Plus的醫療幻覺率較通用大模型顯著降低,相比DeepSeek低約3倍,優于美國最火醫療產品OpenEvidence,可信度比肩資深臨床醫生水準。
通用大模型固有的幻覺問題導致其在嚴肅醫療場景中難以真實應用。國內眾多醫院雖積極嘗試部署和優化DeepSeek,但實際效果不盡人意。反觀大洋彼岸的現象級醫療大模型產品OpenEvidence,能給我們重要的啟示。該產品因符合醫學認知的循證增強,已有40%美國醫生在臨床場景中注冊使用,每月咨詢量達1650萬次。兩天前,該公司C輪融資2億美金,估值達60億美元。
百川M2 Plus首創六源循證推理(EAR)范式,打造“醫生版ChatGPT”,讓大模型技術在輔助臨床診療場景邁過“敢用、可用”關鍵門檻,不僅適合中國醫療環境,在美、日、英的醫療評測中均超過OpenEvidence,代表中國在世界大模型擂臺上再下一城。
首創六源循證推理范式,把循證做“全”、檢索做“準”、推理做“對”
(一)六源循證:打造從原始研究到真實世界的完整知識體系
循證醫學(Evidence-Based Medicine, EBM)作為現代醫學知識體系的核心范式,是確保醫療決策可信的關鍵。
通用大模型像一個“博學但不可靠”的專家,即便有搜索增強,也會因為知識來源混雜不符合循證醫學范式。
百川不僅主動屏蔽了互聯網的非專業信息來源,只使用權威來源的醫學證據,還在此基礎上構建了從證據、到實踐、再到真實世界反饋六層證據類型的知識體系:
- 原始研究層:索引海量醫學期刊論文4000余萬篇,超過PubMed收錄數量,涵蓋基礎與臨床研究成果,是循證鏈條的起點;
- 證據綜述層:整合系統評價和Meta分析等高等級證據,提供經過匯總的研究結論;
- 指南規范層:引入國際和國內權威機構發布的臨床指南、專家共識和行業標準,確保回答符合最新規范;
- 實踐知識層:包含臨床病例報道、一線專家經驗和診療技巧等實用知識,貼近醫療實踐場景;
- 公共健康教育層:匯集權威科普和公共衛生知識,如疾病預防宣教、健康指導等內容,服務大眾健康教育;
- 監管與真實世界層:涵蓋藥監部門公告、臨床試驗登記及大規模真實世界研究數據等信息,以反映最新的監管動態與人群研究結果;

這個金字塔形的“六源”,是一層一層演化而來:原始層回答“事實是否存在”、證據層回答“結論是否一致”、指南層回答“行業如何規范”、實踐層回答“醫生應如何決策”、公共層回答“患者應如何理解”、真實世界層回答“是否存在新風險”。這讓模型從“生成答案”走向“據實回答”,實現了從語言可信度到知識可信度的躍升。
(二)循證檢索:從“找得到”躍升到“找得準”
傳統的RAG檢索往往追求“找得到”,而循證檢索追求“找得準”。
M2 Plus采用PICO框架(人群Population、干預Intervention、對照Comparison、結局Outcome)思維,將查詢轉化為結構化醫學問題,并在六源數據庫中進行分層匹配。例如:當輸入“老年OSA患者使用CPAP能否改善高血壓?”時,系統優先在高等級證據(系統綜述、RCT元分析)中搜索,并自動辨識研究質量、樣本量、置信區間與結局指標。
這種方法克服了通用RAG的兩大缺陷:一是缺乏醫學語義理解(無法區分CPAP療效與依從性分析);二是無法辨別文獻可靠性(新聞與指南同權)。在此基礎上,M2 Plus能夠三步精準鎖定“鐵證”:
第一步,智能提問:自動將用戶問題拆解成多個專業的PICO查詢,進行“地毯式”證據搜索,兼顧精度與廣度。
第二步,精準鎖定:通過自研的Medical Contextual Retrieval技術,完整保留文獻的臨床因果鏈,避免信息割裂。
第三步,證據排序:內置“審稿人”模型,自動評估證據等級(如RCT、Meta分析),將最可信、最相關的“鐵證”優先呈現。
(三)循證推理:讓模型“像醫生一樣思考”
如果說“六源循證”解決了醫療AI知識從哪來的問題,“PICO智能檢索”解決了如何快速找到正確證據的問題,那么最關鍵的一步是如何確保AI在手握證據時,不會“自由發揮”、脫離事實胡亂回答。
百川智能在M2 Plus中引入“循證增強訓練”機制,為模型的回答過程“上了一道鎖”,從根本上改變了其生成邏輯,讓它學會“引用,而非臆測”。
首先,在訓練中獎勵“引用”,懲罰“臆測”,準確引用權威來源(如指南、文獻)時會獲得高分,一旦回答脫離了檢索到的證據就會受到懲罰;
其次,內置“證據評估器”,模型被訓練得能夠自動評估檢索到的證據質量,優先采納高可信度的信息(如RCT、Meta分析),并將其無縫嵌入到推理鏈中;
第三,句句有據,可回溯、可驗證:經過訓練,M2-Plus的回答風格發生了根本性改變,在輸出關鍵結論時,會自動附上參考文獻、指南出處等來源,這賦予了AI回答更高的可解釋性與可信賴度。
幻覺最低,達到與人類資深臨床專家同等可信度
這種“循證驅動”的生成邏輯,讓M2 Plus幾乎杜絕了無中生有的內容。在多場景評測中,其綜合幻覺率在所有大模型當中最低,相較DeepSeek R1最新版降低3倍,顯著領先OpenEvidence。不僅如此,在病史分析、診斷思路、治療方案等真實復雜的核心醫療場景中,達到了與人類資深臨床專家同等的可信度。

301醫院的姜醫生提問,“目前公認最有效的基因治療藥物靶向足細胞遞送方案有哪些?”很多通用大模型回答這個問題時都產生了明顯幻覺,而M2 Plus的回答不僅查到了全球最新研究成果,還能按納米系統 / AAV病毒載體等維度分類。姜醫生贊嘆:“引用文獻非常具有專業性、且信息源緊貼頂刊ERA等最新進展,對足細胞基因治療這么前沿的方向,能幫我快速了解國際熱點技術路線,少走彎路。”
北京天壇醫院的熊醫生,在研究目前PACAP在偏頭痛中的研究進展如何時發現,頭痛相關的研究越來越多,想找到真正有價值的文獻并不容易,多數大模型給出的答案都因幻覺問題而不可用。他試用百小應時看到,“能梳理全球PACAP偏頭痛研究,從機制到III期臨床試驗自動串聯證據鏈,不僅回答問題,更讓醫生站在未來看科研進展。”

無論是專業醫療問題還是常規醫療問答M2 Plus都會引用權威醫學證據
多國醫學考試斷崖領先,醫學知識運用能力超越人類醫生
美國執業醫師資格考試(USMLE)是評估臨床知識和推理能力的黃金標準,即便是經驗豐富的臨床專家,要突破90分也極具挑戰。在此項考試中,M2-Plus取得了驚人的97分,不僅遠超人類考生平均水平,更與GPT-5的成績持平,穩居全球第一梯隊,展示了其世界級的臨床問題解決能力。

中國執業醫師資格考試(NMLE)及格線為360分,對于廣大醫學生而言,能考到450分以上已是高分,超過500分則被視為“學神”級別。M2 Plus取得了568分的“碾壓級”成績,在所有公開測試的主流大模型中位列第一,充分證明其對中國臨床指南和醫療實踐的掌握已爐火純青。
如果說執醫考是“從業門檻”,那么中國碩士研究生招生考試臨床醫學綜合能力(西醫)考試則是頂尖醫學生競爭的“華山論劍”。該考試不僅知識面廣,且題目設計極為復雜,對臨床思維要求高。通常,能考到280分以上的考生,都是協和、北醫等頂尖學府的頭部學霸。M2 Plus在此項考試中取得了282分。同時,在日本、英國、澳大利亞等國高級醫師職稱晉升考試中,準確率85%以上,遠超各國及格線。
這些壓倒性的成績充分說明,M2 Plus 在復雜醫學知識運用上的能力,已經超越了人類醫生水準。
“醫生版ChatGPT”推動醫療AI邁入可信可用階段
接入M2 Plus的百小應已在各大手機應用商店更新,成為"醫生版ChatGPT"。為方便電腦端使用,網頁版(ying.ai)也同步上線。
除了需要高效地輔助臨床決策,醫生還開始面對新的挑戰:患者用DeepSeek自診和帶著DeepSeek就醫的現象越來越多。雖然知道大模型可能有幻覺和偏頗,但沒有時間和精力去甄別哪句對哪句錯。通過百小應,醫生有了面對通用模型挑戰的“專屬武器”。
對于希望深入理解診斷、治療、預后、病因、檢查等背后科學邏輯的患者及家屬,面對復雜的就醫環境和不同醫生給出的診療方案,百小應讓他們有機會獲得最新最權威的知識、頂尖專家的思維和視角,得到無限耐心的專業解答。
Baichuan-M2 Plus也提供了標準化API接口,醫院信息化部門、互聯網醫療、大健康服務等各類泛醫學機構,以及從事醫療AI行業的開發者,則可以通過API將循證推理接入服務場景,提升AI服務的醫學專業性。
通過開源Baichuan-M2、發布Baichuan-M2 plus、百小應,開放API,百川致力于持續提升AI醫療在真實臨床場景的可用性,推動大模型在嚴肅醫療場景進入落地可用新階段。
























