精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2025 | 清華、上海AI Lab提出專家級醫學基準MedXpertQA,看o3、R1哪家強

人工智能 新聞
MedXpertQA,一個高難度的、高臨床相關性的、全面的醫學基準、面向專家級醫學知識和高級推理能力的評估。當前研究已廣泛體現出推理能力對醫學 AI 模型的重要性。

本文作者來自于清華大學和上海 AI Lab,通訊作者為清華大學丁寧助理教授和清華大學講席教授、上海 AI Lab 主任周伯文教授。

圖片

  • 論文標題:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
  • 論文:https://arxiv.org/abs/2501.18362
  • 代碼: https://github.com/TsinghuaC3I/MedXpertQA
  • 榜單:https://medxpertqa.github.io

論文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用為評估基準。

圖片

基準地址:https://deepmind.google/models/gemma/medgemma/

為什么我們需要一個新的醫學基準?

前沿的 AI 模型距離應用于真實世界的醫療場景還有多遠?

1. 現有基準難度不足:前沿人工智能模型能力的提升,通常依賴于高難度且能夠合理評估模型表現的基準的引導與推動。然而,即使是最具代表性的高難度醫學基準 MedQA 也正在快速飽和(o1 已經 96 分)-> 現有醫學基準已難以有效評估和驅動前沿模型的進一步發展。

2. 現有基準臨床相關性不足:醫學人工智能的一個核心要求是能夠適應真實世界的臨床診斷場景。然而,現有的文本醫學基準普遍缺乏對真實臨床環境的充分覆蓋,而以往的多模態醫學基準則還停留在自動生成的簡單問答對,臨床相關性嚴重不足。

圖片

因此,我們提出了 MedXpertQA,包括涵蓋 17 個專業和 11 個身體系統的 4,460 個問題。它包括了兩個子集,分別是用于文本醫學評估的MedXpertQA Text 和用于多模態醫學評估的 MedXpertQA MM 。

為什么選 MedXpertQA?

怎么實現高難度和高臨床相關性?另外,對于一個醫學基準僅有這兩點還不夠。問題的多樣性如何?質量如何?

MedXpertQA 面向上述挑戰做出了重大改進:

  • 極具挑戰性,有效區分前沿模型:

a.MedXpertQA 引入了高難度醫學考試題目,并進行了嚴格的篩選和增強,有效解決了現有基準如 MedQA 難度不足的問題;

b.MedXpertQA 是目前最具挑戰性的醫學多選題(MCQA)評測基準 [1],甚至超越 Human's Last Exam (Medical) [2, 3]。下圖展示了前沿模型在各個基準上的表現:

圖片

  • 高臨床相關性,真實診斷場景:

a.權威且廣泛的數據來源:收集了累計超過 20 個美國醫學執照考試的問題,問題均由高水平專家設計,首次引入專科委員會問題,以提高臨床相關性和全面性。

  • 2 個美國醫師執照考試:USMLE 和 COMLEX
  • 17/25 個美國醫學專科委員會下屬專科的執照考試
  • 多個考察圖像理解的科目考試(歐洲放射學委員會等)
  • 初始收集了 37543 個問題,為 MedQA-USMLE 的 3 倍左右

圖片

  • 下一代多模態醫學評估:

a.MedXpertQA 使用真實場景的、專家設計的高難度問題構建多模態(MM)子集,相較傳統的多模態醫學評估基準做出重大改進;

b.包括多樣化的圖像和豐富的真實臨床信息,考察專家級知識和高級推理能力。而傳統醫學多模態基準為由圖像標題自動生成的簡單問答對,下圖展示了一個對比:

圖片

  • 「全面的」多樣性:

a.醫學屬性:覆蓋了超過 17 個醫學專科,覆蓋了權威醫學教科書中定義的所有身體系統(11 種);

b.模態:除了放射學,生命體征等醫學影像,還引入了醫生診斷過程中可能需要的文檔,表格等模態信息,完全貼近真實世界的臨床場景;

c.任務:覆蓋了真實診斷場景中的大量診斷任務。

圖片

  • 極低數據泄露:

a.我們進行數據合成以減輕數據泄露風險,并開展多輪專家評審以確保準確性和可靠性;

b.我們進行了數據污染分析,發現經過數據合成后數據泄露的風險進一步降低;

c.MedXpertQA 是目前數據污染程度最低的醫學評估基準 [1],可以極大程度上實現模型能力客觀和準確的評估。

  • 面向 o1 類模型的醫學推理能力評估:

a.MedXpertQA 中的大量題目不僅考察醫學知識記憶,更要求模型進行復雜推理。例如,部分題目需要模型整合文本與圖像中的多重信息線索,排除干擾,形成完整邏輯鏈以正確解答;

b.為此,我們根據題目考察的核心能力(Reasoning 或 Understanding),對每個問題進行了標注。大部分題目歸屬 Reasoning 子集,難點在于醫學場景下的復雜推理,尤其適合評估模型的醫學推理能力。

MedXpertQA 是怎么構建的?

在數據收集階段,我們以多樣性和臨床相關性為核心考量。而在后續的構建階段,我們主要考慮四大核心原則:挑戰性、魯棒性、未見性、準確性。

數據收集之后,MedXpertQA 的構建經過了過濾、增強和專家審查四個步驟:

  • 挑戰性:

a.三重過濾機制問題篩選:

1)人類作答分布:利用真實用戶回答的對錯分布,計算 Brier score 等指標分析問題的難易程度;

2)專家標注難度:醫學專家對問題難度進行分級;

3)AI 模型測試結果:選取 8 個領先的 AI 模型,完成 14 次獨立實驗,識別高難度問題。

b.選項擴充:額外生成干擾的錯誤項,文本(Text)子集擴充至 10 個選項,多模態(MM)子集擴充至 5 個選項。

  • 魯棒性:

a.相似問題過濾:從文本編輯距離和語義層面識別并移除高度相似的問題,降低模型識別 shortcut 進而 hacking 的風險。

  • 未見性:

a.問題改寫:為了降低數據泄漏風險,客觀評測模型能力,我們對每道題的表述進行了徹底的改寫。改寫后的句子內容保持信息完整,但形式上有明顯差異,有助于客觀評估模型的能力;

  • 準確性:

a.多輪專家審查:

1)持有醫學執照的專家組成審查組,對完整題庫進行了多輪審查,修正數據增強過程中引入的錯誤或原始數據錯誤,檢查并修復信息缺失、不一致、敘述混亂等問題;

2)發現并修改近千個問題,專家對問題進行了細致的統計,錯誤歸類與人工糾錯,保證最終基準的準確性。

經過嚴格篩選與審查,MedXpertQA 最終保留了原始題庫約 12% 的題目,共計 4,460 題,體現了對質量而非數量的優先考量。下表展示了和現存基準的對比,可以看到 MedXpertQA 展現出了巨大的優勢:

圖片

圖片

前沿模型表現如何?

我們在 MedXpertQA 上評測了領先的多模態及純文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分數細節可以參考 Leaderboard:https://medxpertqa.github.io。

圖片

  • 模型表現差距顯著: 多模態模型中,o1 得分最高,但在兩個子集上的總體準確率未超過 50%,表明前沿模型在醫學領域仍有較大提升空間。在 Text 子集上,DeepSeek-R1 是最優開源模型,但與 o1 存在一定差距;
  • 人類性能基線:我們根據構建基準時收集的每個問題的作答數據計算了人類醫學生在原始試題上的準確率,進而構建了一個人類性能的極限,其中每個問題的作答數量最高達到 23 萬個,因此具有高度代表性;
  • 推理增強模型在 Reasoning 子集優勢明顯: 對比三組基座模型及其推理模型版本得知,增強模型在 Reasoning 子集上展現出顯著且穩定的性能提升,而在 Understanding 子集上則沒有這一趨勢,這表明 Reasoning 子集尤其適合 o1 類模型評估;

圖片

  • 錯誤分析揭示推理密集特性: 我們利用 LLM 對 GPT-4o 的完整回復進行了錯誤類型標注,發現推理過程錯誤和圖像理解錯誤最為常見,純粹的醫學知識性錯誤則相對較少。

以上結果從多角度印證了 MedXpertQA 的價值,尤其凸顯了 Reasoning 子集的必要性。

總結

MedXpertQA,一個高難度的、高臨床相關性的、全面的醫學基準、面向專家級醫學知識和高級推理能力的評估。當前研究已廣泛體現出推理能力對醫學 AI 模型的重要性。

我們進一步提出:醫學作為一個復雜、豐富且至關重要的領域,有潛力成為評估模型推理能力的新場景,從而拓寬當前以數學和編程為主的評測范式。我們期待 MedXpertQA 能成為推動專業醫學模型與通用推理模型共同發展的重要資源。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-09 08:19:00

2025-06-10 05:00:00

2025-07-23 10:07:31

2025-03-10 08:10:00

AI研究安全

2025-02-17 09:33:00

AI算法模型

2025-08-15 14:53:43

2025-04-07 05:00:00

2025-06-25 09:02:05

2025-07-21 08:47:00

AI框架模型

2025-05-14 10:09:12

2025-04-10 09:38:37

2021-12-24 11:50:57

滲透測試工具安全工具 防御系統

2009-07-10 11:27:00

專家級程序員

2025-02-12 12:12:59

2020-04-25 20:57:37

機器學習機器學習工具

2025-06-04 04:25:00

Claude 4ChatGPT o3模型

2025-04-21 08:22:25

2025-01-08 13:08:55

2025-07-29 09:10:00

2025-04-22 09:12:00

AI模型數據
點贊
收藏

51CTO技術棧公眾號

午夜福利理论片在线观看| 妺妺窝人体色www聚色窝仙踪| 午夜欧美激情| 国产视频一区二区在线观看| 国产精品网红直播| 特级片在线观看| 青青一区二区| 欧美日韩大陆一区二区| 99久久久精品视频| 国产日产精品久久久久久婷婷| 久久99精品国产麻豆婷婷| 欧美肥老妇视频| 精品人妻一区二区三区蜜桃视频| 亚洲福利影视| 欧美色另类天堂2015| 一区精品在线| 男人天堂资源在线| 国产91富婆露脸刺激对白| 国产精品igao视频| 精品在线视频免费| 欧美黄色大片在线观看| 亚洲国产精品久久久久| 日韩av片专区| 原纱央莉成人av片| 亚洲制服丝袜在线| 异国色恋浪漫潭| 国家队第一季免费高清在线观看| 粉嫩av一区二区三区在线播放| 国产精品香蕉国产| 最近免费中文字幕大全免费版视频| 亚洲精品一区二区在线看| 亚洲人成网站777色婷婷| 理论片大全免费理伦片| 亚洲香蕉久久| 在线观看欧美日本| 亚洲色成人一区二区三区小说| 午夜影院免费在线| 综合分类小说区另类春色亚洲小说欧美 | 精品久久久久久久久久久久久久久久久 | 高清成人免费视频| 成人写真视频福利网| 这里只有精品999| 另类天堂av| 555www成人网| 日韩av无码中文字幕| 午夜久久久久| 欧美成人免费小视频| www.97视频| 欧美疯狂party性派对| 一个人看的www久久| 波多野吉衣中文字幕| 一区二区三区视频免费观看| 亚洲国产欧美一区二区丝袜黑人| 亚洲精品久久一区二区三区777| 久久精品一级| 日韩美女一区二区三区| 四川一级毛毛片| 亚洲综合影院| 日韩av网站电影| 熟女人妻在线视频| 性欧美lx╳lx╳| 亚洲视频免费一区| 国产性猛交xx乱| 日韩欧美不卡| 色偷偷噜噜噜亚洲男人| 欧美激情精品久久久久久免费| 婷婷成人基地| 欧美福利小视频| 日本在线观看中文字幕| 午夜一级在线看亚洲| 国产成人精品久久二区二区| 波多野结衣影片| 久久国产精品99精品国产| 91丝袜美腿美女视频网站| 精品国产乱码一区二区三 | mm131丰满少妇人体欣赏图| 一区二区美女| 精品激情国产视频| 欧美成人精品欧美一级私黄| 在线视频观看日韩| 日韩av大片在线| 91精品国自产| 成人高清视频在线观看| 日本精品免费| h片在线播放| 午夜亚洲国产au精品一区二区| 北条麻妃69av| 欧洲亚洲精品久久久久| 精品国产免费视频| 久久精品国产亚洲av久| 天天天综合网| 欧美亚洲国产日韩2020| 一级特黄aaa大片| 国产99久久久久久免费看农村| 久中文字幕一区| 日本暖暖在线视频| 天天色天天操综合| 色乱码一区二区三区在线| 亚洲精品视频一二三区| 亚洲人成77777在线观看网| 欧美做爰啪啪xxxⅹ性| 亚洲精选国产| 成人激情免费在线| 三级黄视频在线观看| 亚洲色欲色欲www在线观看| 狠狠干 狠狠操| 亚洲最大的免费视频网站| 亚洲精品国产精品国产自| 天天操天天摸天天舔| 99在线观看免费视频精品观看| 国产区精品视频| 亚洲色图欧美视频| 亚洲精品免费在线观看| 成人免费无码av| 91精品啪在线观看国产手机| 中文字幕国产亚洲2019| 亚洲男人第一av| 国产精品2024| 特级毛片在线免费观看| 欧美日韩视频网站| 亚洲第一中文字幕在线观看| 色哟哟一一国产精品| 日韩专区欧美专区| 国产一区二区三区av在线| 久cao在线| 欧美性做爰猛烈叫床潮| 久久无码人妻精品一区二区三区| 一区二区日韩欧美| 国产精自产拍久久久久久| 青青操在线视频| 亚洲国产一区二区三区青草影视| 午夜免费一级片| 欧美日韩激情在线一区二区三区| 91av视频在线免费观看| 午夜精品久久久久久久99| 一区二区中文视频| 91国产精品视频在线观看| 亚洲三级网页| 2019亚洲男人天堂| 亚洲欧洲综合在线| 五月激情六月综合| xxxx黄色片| 亚洲人成在线影院| 好吊色欧美一区二区三区| 色婷婷av在线| 日韩欧美国产电影| 黄色片在线观看网站| 国产精品综合久久| 国产欧美综合一区| 欧美黄视频在线观看| 久久视频在线直播| 国产人妻精品一区二区三| 一区在线中文字幕| 免费观看黄网站| 欧美日韩免费观看一区=区三区| 91夜夜未满十八勿入爽爽影院 | 国产福利一区视频| 精品一区二区三| 国产精品第七十二页| 成人精品福利| 欧美绝品在线观看成人午夜影视 | 亚洲成a人片综合在线| 亚洲黄色小说在线观看| 亚洲二区免费| 久久精品日韩| 国产精品久久亚洲不卡| 中文字幕九色91在线| 91国产免费视频| 亚洲精品成人少妇| 日韩av手机在线播放| 香蕉久久a毛片| 亚洲精品第一区二区三区| 日日夜夜一区| 久久久中文字幕| 欧美女优在线| 91.com视频| www.99re7.com| 久久久五月婷婷| 手机在线成人免费视频| 欧美一区高清| 麻豆av一区二区| 欧美xxxx性| 久久久在线观看| 国产一区二区三区福利| 91超碰这里只有精品国产| 久久精品人妻一区二区三区| 久久你懂得1024| 992kp免费看片| 国产一区二区三区久久久久久久久| 欧美日韩一区二区视频在线| 高清不卡一区| 清纯唯美日韩制服另类| 老司机精品视频在线观看6| 亚洲精品成人av| 伊人亚洲综合网| 亚洲成人www| 欧日韩不卡视频| av不卡在线观看| 天堂av8在线| 另类av一区二区| 国产精品三级一区二区| 欧美精品一区二区三区中文字幕| 91传媒视频免费| 欧美理论影院| 久久久久久久久久国产| 91青青在线视频| 亚洲精品国产精品国自产在线 | 一本久久a久久精品vr综合 | 青青草原网站在线观看| 台湾佬综合网| 成人av播放| 国产原创一区| 日韩av观看网址| 欧美xxxx做受欧美88bbw| 在线国产精品播放| 五月婷婷深深爱| 日韩久久精品一区| 97精品人妻一区二区三区| 欧美性猛交xxxx黑人猛交| 欧美毛片在线观看| 中文字幕日韩欧美一区二区三区| 97人妻精品一区二区免费| 丰满放荡岳乱妇91ww| 天堂中文av在线| 日韩极品在线观看| 国产二区视频在线播放| 狠狠色综合网| 大片在线观看网站免费收看| 欧美gay男男猛男无套| 日韩精品国内| 国产亚洲精品美女久久久久久久久久| 国产欧美日韩综合一区在线观看| 国产精品777777在线播放| 国产精品亚洲综合天堂夜夜| 欧美成a人片在线观看久| 高清欧美性猛交xxxx| 牛牛精品视频在线| 欧美精品免费在线| 91麻豆一二三四在线| 久久色在线播放| 国产精品实拍| 久久网福利资源网站| 毛片在线播放a| www.亚洲成人| 黄色网页网址在线免费| 久久国产精品视频| a级在线观看| 超碰91人人草人人干| 黄色免费在线观看| 欧美不卡视频一区发布| 色爱综合区网| 高清在线视频日韩欧美| 538视频在线| 18一19gay欧美视频网站| 中文字幕一区久| 国产精品久久中文| 在线高清欧美| 成人91免费视频| 婷婷五月色综合香五月| 欧美亚洲爱爱另类综合| av中文一区| 在线观看欧美亚洲| 欧美国产91| 国产美女主播在线播放| 久久成人免费| 制服丝袜综合网| 国产一区二区三区在线观看免费| 91精产国品一二三| a亚洲天堂av| 极品久久久久久久| 中文字幕日韩av资源站| 久久精品视频8| 欧美综合一区二区| 国产情侣一区二区| 亚洲国产欧美在线成人app| 国产在线小视频| 久久综合九色九九| а√在线中文在线新版| 欧美一级免费视频| 欧美成a人片免费观看久久五月天| 99久久自偷自偷国产精品不卡| 精品无人区一区二区| 视频一区视频二区视频三区视频四区国产 | 九色porny丨国产首页在线| 国产精品成人在线| 日本在线视频一区二区三区| 久久精品女人的天堂av| 99re6这里只有精品| 99在线精品免费视频| 人人超碰91尤物精品国产| 91传媒理伦片在线观看| 久久久不卡影院| 男女免费视频网站| 欧美日韩中文字幕一区二区| 亚洲国产精品欧美久久| 国产亚洲成av人片在线观看桃| 色婷婷在线播放| 国产精品久久久久久久久男| 丁香五月缴情综合网| 亚洲欧美日韩国产yyy| 亚洲激情自拍| 日本高清一区二区视频| 久久久久久久久久电影| 久久久久久久久久一区二区三区| 色8久久人人97超碰香蕉987| 午夜老司机福利| 色哟哟入口国产精品| 少妇视频在线观看| yy111111少妇影院日韩夜片| 日本一区二区在线看| 91专区在线观看| 国产老妇另类xxxxx| 国产精品美女高潮无套| 天天免费综合色| 亚洲第一页在线观看| 最近2019中文字幕一页二页| 亚洲精品国产精品国产| 国产精品区一区| 午夜久久免费观看| 国产三级国产精品国产专区50| 99re成人精品视频| 国产在线视频99| 日韩欧美在线不卡| 免费av在线网址| 国产欧美精品一区二区| 蜜桃视频欧美| 欧美日韩在线一| 99麻豆久久久国产精品免费| 欧美成人一二三区| 欧美一区二区三区在线观看| av影片免费在线观看| 国产精品久久久久久网站| 亚洲日产av中文字幕| 日韩人妻精品无码一区二区三区| 成人av在线资源网站| 久久精品久久精品久久| 日韩免费视频线观看| 亚洲性图自拍| 69堂成人精品视频免费| 在线国产一区二区| 久久综合在线观看| 亚洲黄色小视频| 国精产品一品二品国精品69xx| 久精品免费视频| 77成人影视| 国产手机免费视频| 99国产欧美久久久精品| 欧美一级特黄视频| 亚洲欧美日韩中文在线制服| 中文字幕 在线观看| 欧美一进一出视频| 奇米影视一区二区三区小说| 久久久精品成人| 欧美电影影音先锋| 青草视频在线免费直播 | japanese国产精品| 亚洲77777| 亚洲欧美一区二区三区国产精品| 国产口爆吞精一区二区| 久久成人免费视频| 风间由美中文字幕在线看视频国产欧美| 轻点好疼好大好爽视频| av网站免费线看精品| 亚洲精品国产无码| 色噜噜久久综合伊人一本| 免费一级欧美片在线观看网站| 欧美做受777cos| www.欧美.com| jizz国产在线| 美日韩精品免费视频| 高潮久久久久久久久久久久久久 | 久久av中文字幕片| 五月天激情丁香| 日韩av在线网| 草民电影神马电影一区二区| 黑人巨大国产9丨视频| 成人av手机在线观看| 日韩乱码一区二区三区| 欧美成人精品在线| 亚洲伊人春色| 亚洲精品成人在线播放| 亚洲国产毛片aaaaa无费看| 久久久pmvav| 91在线看www| 国产视频一区在线观看一区免费| 欧美老女人性生活视频| 日韩欧美在线网站| 欧美亚洲韩国| 成人手机在线播放| 99国产精品国产精品毛片| 在线播放一级片| 韩国精品美女www爽爽爽视频| 青青草91久久久久久久久| 国产婷婷在线观看| 欧美日本高清视频在线观看| sm久久捆绑调教精品一区| 在线视频欧美一区| 91浏览器在线视频| 99免费在线视频| 国产精品v片在线观看不卡|