精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福臨床醫療AI橫評,DeepSeek把谷歌OpenAI都秒了

人工智能
體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面,且26位臨床醫生對子類別分類達成96.7%的一致性。

斯坦福最新大模型醫療任務全面評測,DeepSeek R1以66%勝率拿下第一!

歪國網友紛紛被驚艷住了,原因在于該評測重點聚焦臨床醫生的日常工作場景,而非僅局限于傳統醫療執照考試題。

圖片圖片

要評測就要全 方 位。

團隊構建了含35個基準測試的綜合評估框架,覆蓋22個子類別醫療任務。

整個評測的分類體系還經過了臨床醫生驗證,由29名來自14個醫學專科的執業醫師共同參與開發。

光作者名單就老長,斯坦福大學醫學院、斯坦福醫療中心、斯坦福大學基礎模型研究中心(CRFM)、微軟的研究人員均在列。

圖片圖片

31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內的9個前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領先。

為當前的基準測試結果,團隊還打造了一個可公開訪問的排行榜。

圖片圖片

除DeepSeek R1領先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達到了63%、64%的勝率。

看了具體研究,網友表示這些評估很有幫助。

圖片圖片

下面來看更多細節。

大模型臨床醫療任務大考

此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發。

圖片圖片

研究核心貢獻之一是構建了一個經過臨床醫生驗證的分類體系。

該體系模擬了臨床醫生日常工作邏輯,包含三個層級:

  • 類別:醫療活動的廣泛領域(如“臨床決策支持”);
  • 子類別:類別下的相關任務組(如“支持診斷決策”);
  • 任務:醫療服務中的離散操作(如“生成鑒別診斷”)。

在初步擬定分類體系時,一名臨床醫生基于《美國醫學會雜志》(JAMA)綜述中梳理的任務,將這些任務重組為反映真實醫療活動的功能主題,形成了一個含5個類別、21個子類別、98項任務的框架。

然后團隊對這個初始分類體系進行驗證。

來自14個醫學專科的29名執業臨床醫生參與問卷調研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據反饋,體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面,且26位臨床醫生對子類別分類達成96.7%的一致性。

圖片圖片

核心貢獻二,在分類體系基礎上,團隊構建了一個含35個基準測試的綜合評估套件,包括:

  • 17個現有基準測試
  • 5個基于現有數據集重新構建的基準測試
  • 13個全新開發的基準測試

值得一提的是,13個全新開發的基準測試中有12個基于真實的電子健康記錄數據,有效彌補了現有評估中真實醫療數據使用不足的問題。

最終這整套基準測試,完全覆蓋了分類體系中的所有22個子類別,同時根據數據的敏感性和訪問限制,這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。

圖片圖片

考試題準備就緒后,研究團隊對9個前沿大語言模型進行了系統性評估。

評測結果如何?

評估顯示,模型表現存在顯著差異。

DeepSeek R1表現最佳,在兩兩對比中以66%的勝率領先,宏觀平均分為0.75,且勝率標準差較低(0.10)。

其中勝率指模型在全部35個基準測試的兩兩對比中表現更優的比例。勝率標準差(SD)衡量模型獲勝的穩定性(值越低=穩定性越高)。宏觀平均分是所有35個基準測試的平均性能得分。標準差(SD)反映模型在不同基準測試中的性能波動(值越低=跨基準一致性越高)。

o3-mini緊隨其后,在臨床決策支持類別基準中表現較優,以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。

另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標準差最低(0.08),顯示出最穩定的競爭表現。

圖片圖片

團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分,深綠色表示性能更高,深紅色表示低性能。

圖片圖片

結果顯示,模型在以下基準測試中表現較差:

  • MedCalc-Bench(從患者病歷中計算醫學值)
  • EHRSQL(根據自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數據集)
  • MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)

在NoteExtract基準測試(從臨床病歷中提取特定信息)中表現最佳。

更深入的分析顯示,不同類別的任務中模型表現呈現明顯的層次性差異。

在臨床病例生成任務中,大多數模型達到了0.74-0.85的高分表現;在患者溝通教育任務中表現同樣出色,得分在0.76-0.89之間;在醫學研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

這種差異反映了自由文本生成任務(如臨床病例生成、患者溝通)更適合發揮大語言模型的自然語言優勢,而結構化推理任務則需要更強的領域特定知識整合和邏輯推理能力。

圖片圖片

對于13個開放式基準測試,團隊采用了大語言模型評審團(LLM-jury)評估方法。

為評估該方法的有效性,團隊收集了臨床醫生對部分模型輸出的獨立評分。其中,從ACI-Bench中選取了31個實例,從MEDIQA-QA中選取了25個實例,以比較臨床醫生給出的分數與評審團的綜合評分。

圖片圖片

結果顯示,LLM陪審團方法與臨床醫生評分的一致性達到0.47的組內相關系數,不僅超過了臨床醫生之間的平均一致性(ICC=0.43),也明顯優于傳統的自動化評估指標如ROUGE-L(0.36)和BERTScore-F1(0.44)。

團隊由此認為,大語言模型評審團比標準詞匯指標更能反映臨床醫生的判斷,證明了其作為臨床醫生評分替代方法的有效性。

成本效益分析是該研究的另一個創新,基于2025年5月12日的公開定價,團隊結合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數和最大輸出token數,估算了每個模型所需的成本。

圖片圖片

正如預期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。

推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。

綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價比上表現良好,以較低成本實現了約0.63的勝率。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2505.23802

Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications

排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046

責任編輯:武曉燕 來源: 量子位
相關推薦

2019-12-16 14:33:01

AI人工智能斯坦福

2025-04-09 04:22:00

2025-04-08 13:16:34

2017-11-28 14:18:29

2024-04-24 09:47:36

2023-08-10 14:01:08

開源虛擬

2019-03-24 12:11:47

AI 數據人工智能

2018-01-23 16:48:47

AI

2025-02-28 09:52:00

2025-07-21 11:51:12

模型AI工具

2025-04-09 11:25:36

2025-01-14 12:22:10

2021-03-10 14:48:27

人工智能

2022-07-04 09:12:09

AI技術論文

2019-03-27 10:47:05

人工智能法律AI

2025-06-04 08:00:00

2021-03-05 10:57:33

AI 數據人工智能

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone
點贊
收藏

51CTO技術棧公眾號

丝袜中文在线| 一级做a爱片久久毛片| 久久亚洲精精品中文字幕| 亚洲午夜免费视频| 欧美久久电影| 国产三级漂亮女教师| 亚洲黄色一区| 综合久久五月天| 97精品人人妻人人| 99久久婷婷国产综合精品首页| 亚洲乱码中文字幕| 免费影院在线观看一区| 国产精品羞羞答答在线| 亚洲欧美日韩专区| 久久99精品国产99久久6尤物| 色欲av无码一区二区三区| 国产成人视屏| 91黄视频在线观看| 欧美成人高潮一二区在线看| 尤物网址在线观看| 97久久超碰精品国产| 亚洲a∨日韩av高清在线观看| 免费视频久久久| 欧美日韩网站| 久久九九热免费视频| 性欧美13一14内谢| 风间由美性色一区二区三区四区| 欧美日韩一二区| 91国视频在线| 国产盗摄一区二区| 自拍偷拍亚洲综合| 图片区小说区区亚洲五月| 亚洲成人一级片| 国产一区二区精品久久| 国产精品久久久久久亚洲调教| 日韩av男人天堂| 欧美精品91| 久久夜色精品国产| 99热这里只有精品4| 狠狠做六月爱婷婷综合aⅴ| 亚洲第一免费网站| 深田咏美中文字幕| 最新精品在线| 欧美电影免费提供在线观看| 在线观看日本www| 91精品国产一区二区在线观看| 在线这里只有精品| 91看片就是不一样| 性欧美hd调教| 欧美亚洲一区二区在线| 99视频在线免费| 欧美日韩免费观看视频| 91高清在线观看| 妓院一钑片免看黄大片| 欧美色网在线| 91成人看片片| 婷婷激情5月天| 国产精品免费精品自在线观看| 欧美美女一区二区在线观看| 污污视频网站在线| 麻豆视频久久| 亚洲成人亚洲激情| 久久人人爽人人爽人人片 | 91精品综合视频| 国产孕妇孕交大片孕| 国产精品一区三区| 国产精品免费在线| 天堂在线中文| 日本一区二区三区高清不卡| 最新欧美日韩亚洲| 黄色av免费在线| 亚洲一区在线播放| 日韩av资源在线| 日韩精品免费观看视频| 欧美美女直播网站| 国产精品熟妇一区二区三区四区 | 亚洲精品v天堂中文字幕| 久久久久成人精品无码中文字幕| 日韩高清电影免费| 在线精品视频视频中文字幕| 麻豆视频在线免费看| 一区二区三区精品视频在线观看| 日韩免费av一区二区| 国产精品视频无码| 不卡欧美aaaaa| 午夜精品一区二区在线观看| av在线导航| 婷婷亚洲久悠悠色悠在线播放| 麻豆传传媒久久久爱| 亚洲最大的免费视频网站| 精品99999| 欧美丰满老妇熟乱xxxxyyy| 综合天堂av久久久久久久| 久久久伊人日本| 自拍偷拍第八页| 国产不卡在线一区| 日韩欧美一区二区视频在线播放| 国产二区三区在线| 日本道精品一区二区三区| 亚洲国产综合av| 国产精品手机在线播放| 欧美人与性动交a欧美精品| 久久久久久久久黄色| 国产毛片精品视频| 日日骚一区二区网站| 国模私拍视频在线播放| 欧美午夜精品久久久久久超碰| 中文字幕第九页| 久久久人成影片免费观看| 人人做人人澡人人爽欧美| 国产视频第二页| 国产精品欧美极品| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 国产一区自拍视频| 秋霞午夜在线观看| 色噜噜狠狠一区二区三区果冻| 久久aaaa片一区二区| 日韩久久精品| 日本伊人精品一区二区三区介绍| 午夜精品久久久久久久99热黄桃| 国产精品乱码久久久久久| 日韩欧美视频网站| 超碰cao国产精品一区二区| 久久精品国产欧美激情| 国产91av在线播放| 91美女蜜桃在线| 久久精品无码中文字幕| 麻豆国产精品| 久久久久999| 伊人网免费视频| 国产欧美综合在线| 97在线播放视频| 欧美黑人巨大videos精品| 欧美黑人极品猛少妇色xxxxx| 亚洲综合精品国产一区二区三区| 久久天天做天天爱综合色| 妺妺窝人体色777777| 无人区乱码一区二区三区| 久久综合伊人77777蜜臀| 国产一区二区在线播放视频| 中文字幕 久热精品 视频在线| 美女av免费在线观看| 日韩aaa久久蜜桃av| 国自产精品手机在线观看视频| 国产高中女学生第一次| 一区二区三区四区激情| 麻豆精品国产传媒| 欧美另类综合| 国产伦精品一区二区三毛| 男女视频在线| 亚洲高清免费观看高清完整版| 日韩av在线播放观看| 99国产精品久久久久久久久久| 波多野结衣之无限发射| 啪啪国产精品| 日韩av快播网址| 国产中文字幕在线看| 欧美亚洲综合另类| 91香蕉一区二区三区在线观看| 国产又粗又猛又爽又黄91精品| 日韩视频在线免费播放| 欧美第一在线视频| 久久久久久美女| 五月天婷婷在线播放| 日本高清成人免费播放| 女人裸体性做爰全过| 国产在线播放一区二区三区| 草草视频在线免费观看| 色婷婷综合久久久久久| 国产成人a亚洲精品| 91高清在线| 欧美不卡一区二区三区四区| 国产成人在线观看网站| 久久精品一区四区| 女同激情久久av久久| 国产综合网站| 日本电影一区二区三区| 国产精品777777在线播放| 欧美精品久久久久久久免费观看 | 中文字幕资源网| 亚洲黄色av一区| 性色av蜜臀av色欲av| 日韩国产在线一| 欧美日韩激情四射| 天海翼精品一区二区三区| 国产一区二区在线免费| 超碰在线资源| 在线观看欧美日韩国产| 亚洲男女视频在线观看| 欧美中文字幕不卡| 久久久精品一区二区涩爱| 国产亚洲一区二区三区| 韩国三级丰满少妇高潮| 欧美亚洲网站| 国产女主播av| 国产一区不卡| 国产aⅴ精品一区二区三区黄| 日韩电影大全网站| 欧美激情女人20p| 成年人视频网站在线| 精品黑人一区二区三区久久| 在线免费观看av片| 欧美午夜女人视频在线| www色aa色aawww| 国产午夜亚洲精品理论片色戒| 深夜视频在线观看| 久久精品国产久精国产爱| 97国产在线播放| 国产精品videosex极品| 亚洲欧美在线网| 美女毛片一区二区三区四区最新中文字幕亚洲| 91丝袜美腿美女视频网站| 台湾佬成人网| 97久久精品视频| 亚洲第一图区| 色噜噜久久综合伊人一本| 日韩电影免费| 精品国产3级a| av中文字幕免费在线观看| 欧美在线|欧美| 国产无人区码熟妇毛片多| 亚洲综合丁香婷婷六月香| 精品一区二区6| 久久久久久久免费视频了| 国产精品入口麻豆| 大白屁股一区二区视频| 樱花草www在线| 蜜臀av性久久久久av蜜臀妖精 | 成人激情综合| 2021久久精品国产99国产精品| 色呦呦网站在线观看| 久久亚洲精品网站| 九义人在线观看完整免费版电视剧| 中文在线资源观看视频网站免费不卡| 久久天堂电影| 亚洲乱码一区二区| 天堂a√中文在线| 亚洲精品一区二三区不卡| 午夜福利视频一区二区| 亚洲成人久久电影| 色一情一乱一区二区三区| 精品免费视频.| 国产成人手机在线| 亚洲第一级黄色片| 少妇av一区二区| 亚洲电影av在线| 五月天激情开心网| 国产婷婷97碰碰久久人人蜜臀| 天堂中文在线看| 日韩精品视频免费| 日韩美女一级视频| 亚洲欧美在线免费| youjizz在线播放| 正在播放亚洲1区| 黄网址在线观看| 欧美国产日韩一区二区| av影院在线| 欧美孕妇性xx| 福利一区二区| 亚洲xxxx视频| 成人av激情人伦小说| 精品乱码一区| 精品免费av| 偷拍盗摄高潮叫床对白清晰| 欧美人成网站| 男人日女人下面视频| 热久久免费视频| 中文字幕人妻无码系列第三区| 国产suv精品一区二区6| 黄色国产在线观看| 欧美高清在线一区| 欧洲猛交xxxx乱大交3| 午夜激情久久久| 黄色av网站免费| 91精品国产高清一区二区三区蜜臀| 国产裸体无遮挡| 亚洲韩国欧洲国产日产av| 黄上黄在线观看| 欧美大成色www永久网站婷| www.51av欧美视频| 国产精品久久久久久久美男| 精品中文在线| 你懂的视频在线一区二区| 日韩精品一区二区三区免费观影 | 六月婷婷久久| 91精品国产麻豆国产在线观看 | 色综合视频二区偷拍在线| 中文精品久久| 国产一级不卡毛片| 成人美女视频在线看| 丁香激情五月少妇| 亚洲福利电影网| 亚洲天堂777| 亚洲精品456在线播放狼人| 95在线视频| 91tv亚洲精品香蕉国产一区7ujn| 日本中文字幕视频一区| 国产一区精品视频| 午夜精品影院| 在线免费视频a| 99久久久免费精品国产一区二区| 日韩欧美视频免费观看| 精品人伦一区二区三区蜜桃网站| 91中文字幕在线播放| 亚洲欧美日韩一区二区在线| 91网在线看| 国产欧美日韩中文| 国产成人手机高清在线观看网站| 国产专区在线视频| 久久97超碰国产精品超碰| 熟女俱乐部一区二区| 亚洲一级二级在线| 一道本无吗一区| 国产亚洲xxx| 亚洲精品日产| 国产伦精品一区二区三区四区免费| 99久久精品国产亚洲精品 | 国产乱码字幕精品高清av | 日本一区视频| 国模精品系列视频| 亚洲综合色婷婷在线观看| 中文字幕一区二区三区四区五区六区| 亚洲欧美日韩国产综合精品二区| 一级黄色免费视频| 一区二区三区欧美在线观看| 亚洲熟女乱色一区二区三区久久久| 亚洲欧美综合v| 小早川怜子影音先锋在线观看| 国产精品二区三区| 韩日成人在线| 一区二区三区四区影院| 亚洲乱码精品一二三四区日韩在线| 91av久久久| 色偷偷91综合久久噜噜| 123成人网| 色乱码一区二区三在线看| 日韩国产欧美一区二区三区| 国产中年熟女高潮大集合| 色哟哟精品一区| 国产主播福利在线| 国产精品视频yy9099| 日本在线电影一区二区三区| 亚洲综合色在线观看| 国产精品妹子av| 国产一区二区在线视频观看| 色视频www在线播放国产成人| 4438五月综合| 日本一本草久p| 国产成人精品1024| 国产午夜激情视频| 亚洲国产黄色片| 婷婷电影在线观看| 欧洲亚洲一区二区| 另类专区欧美蜜桃臀第一页| www欧美com| 精品国产乱码久久久久久免费 | 亚洲天堂网一区二区| 日韩欧美国产高清91| 国产美女性感在线观看懂色av| 国产精品久久久久久久av电影 | 久久综合免费视频影院| 日韩一区二区三区高清在线观看| 999一区二区三区| 9人人澡人人爽人人精品| www.国产一区二区| 最近2019中文字幕大全第二页| 91成人在线网站| 免费毛片网站在线观看| 久久久不卡网国产精品二区| 中文字幕理论片| 欧美巨大黑人极品精男| 久久成人福利| 天天综合网日韩| 一区二区三区在线观看欧美| 国产自产一区二区| 国产精品久久久久久久久久免费 | 午夜精品一二三区| 欧美在线视频免费播放| 日韩av二区| 久久久久久久久久久久国产精品| 欧美性高跟鞋xxxxhd| 91caoporm在线视频| 国产伦精品一区二区三区高清版| 久久精品人人| 久久久久久久久久99| 亚洲欧美国产日韩中文字幕| 色综合久久久| 国产成人精品视频免费看| 亚洲婷婷综合色高清在线| 天天干天天干天天干| 成人淫片在线看| 欧美一级播放| 欧美成人三级在线观看| 亚洲男女自偷自拍图片另类| 国产精品久久免费视频| 激情网站五月天| 一区二区三区四区乱视频| 中文字幕日本在线| 欧美高清视频一区二区三区在线观看 | 国产乱人伦精品一区|