MedChain:通過交互式順序基準測試橋接大模型Agent與臨床實踐之間的差距
摘要
臨床決策制定(CDM)是一個復雜、動態的過程,對醫療保健交付至關重要,然而對于人工智能系統而言仍是一個重大挑戰。盡管基于大型語言模型(LLM)的代理已經在使用許可考試和知識問答任務的一般醫學知識上進行了測試,但由于缺乏反映實際醫療實踐的綜合測試數據集,它們在現實世界場景中的CDM表現有限。為了彌補這一差距,我們提出了MedChain,一個包含12,163個臨床案例的數據集,涵蓋臨床工作流程的五個關鍵階段。MedChain以三個關鍵特征區別于現有基準測試,即現實世界臨床實踐的個人化、交互性和順序性。此外,為了應對現實世界的CDM挑戰,我們還提出了MedChain-Agent,一個整合了反饋機制和MCase-RAG模塊的AI系統,以從過往案例中學習并適應其響應。MedChain-Agent在動態收集信息和處理順序臨床任務方面展現了非凡的適應性,顯著超越了現有方法。相關數據集和代碼將在本文被接受后發布。

1 引言
在人工智能與醫療保健的交匯點,醫學面臨最復雜的挑戰之一:臨床決策制定(CDM)。在醫療服務過程中,CDM不僅需要綜合多種數據來源并持續評估不斷發展的臨床場景,還需要基于證據的診斷和治療判斷(Sutton等人,2020年)。盡管這對最佳患者護理至關重要,但這一復雜過程對醫療專業人員提出了重大的認知要求,使其成為人工智能輔助的理想候選(Sendak等人,2020年)。
基于大型語言模型(LLM)的代理的最新進展(OpenAI,2023年;Team等人,2023年;Gu等人,2023年;Shinn等人,2024年;Guan等人,2023年;Zhuang等人)已成為復雜決策任務的有效解決方案,從軟件開發(Qian等人,2024年)到辦公自動化(Wang等人,2024c年)。在醫學領域,這些代理在醫學執照考試(Singhal等人,2023年;Pal等人,2022年)和基于知識的評估(Gilson等人,2023年;Eriksen等人,2023年)中表現出色。盡管大型語言模型在這些評估中的得分一直遠高于及格門檻(Singhal等人……(2023年),重要的是要認識到,這些評估在三個關鍵方面未能捕捉到現實世界臨床決策支持系統(CDM)的復雜性。
首先,這些基準測試很少考慮患者特定信息,如過去的病史和當前病情(Pal等人,2022年),這在真實臨床場景中顯著影響臨床決策。這種遺漏未能捕捉到常常塑造個性化診斷的微妙背景。其次,不同于真實臨床場景中的決策建立在先前步驟的基礎上,現有的基準測試將臨床任務呈現為獨立問題(Schmidgall等人,2024年),忽略了診斷過程中關鍵的相互依賴性。實際上,臨床決策是一個順序過程,每一步都依賴于前一步,一個階段的錯誤可能會深刻地影響后續決策。第三,大多數基準測試一次性提供所有相關信息,提供一個靜態的、全面的數據集(Tu等人,2024年)。然而,真實的臨床工作流程需要通過持續的病人互動進行多輪動態信息收集。
為了解決這些關鍵缺口,我們引入了MedChain,這是一個旨在評估基于大型語言模型(LLM)的代理在真實世界臨床環境中表現的新穎基準測試。

具體來說,MedChain 包含12,163個多樣化的病例,涵蓋19個醫學專業和156個子類別,包括7,338張帶有相應報告的醫學影像。每個病例都要經過五個關鍵階段:專業轉診、病史采集、檢查、診斷和治療。與現有的基準測試不同,MedChain 獨特地強調三個關鍵特征。1)個性化:每個病例都包含詳細的患者特定信息。最初,代理人僅獲得患者的主訴和基本信息。2)互動性:必須通過患者動態咨詢積極收集信息。3)連續性:每個階段的決策會影響后續步驟。只有在代理人獨立完成了所有五個階段后,才會對整體診斷過程進行評估。
MedChain-Agent:鑒于這個基準測試所呈現的新穎特征和挑戰,現有的Agent框架難以充分解決這些問題。為了克服這些限制,我們提出MedChain-Agent,一種多代理協作框架,使具備反饋機制的LLM和MedCase-RAG能夠動態收集信息并處理順序臨床任務。具體來說,MedChain-代理人促進三種專業代理類型之間的協同互動:負責特定任務專業知識的通用代理人、用于洞察合成的總結代理以及用于迭代完善的反饋代理。這種分層迭代的方法確保決策是徹底分析和多元視角的產物。此外,為了應對需求基于證據的研究和患者特定因素整合的CDM(臨床決策模型)的多面性,我們將一種新穎的MedCase-RAG模塊納入我們的MedChain-Agent框架。與傳統的醫學RAG方法不同,MedCase-RAG動態擴展其數據庫,并采用結構化方法進行數據表示,將每個醫學案例映射到一個12維的特征向量。該系統能夠高效檢索相關案例,并幫助模型做出明智的決策。
我們的貢獻總結如下:
● 我們首次提出了一個CDM基準,MedChain,全面評估基于大型語言模型(LLM)的代理的診斷能力,緊密反映現實世界中的患者護理。
● 我們提出了一個基于CDM特性的多代理框架。該系統能夠高效檢索相關案例,并幫助模型做出明智的決策。
● 通過廣泛的實驗,我們展示了MedChain和MedChain-Agent框架在提高臨床決策準確性和可靠性方面的有效性
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何在臨床決策(CDM)中有效地利用大型語言模型(LLMs)。臨床決策是醫療交付過程中至關重要的一環,然而,現有的LLMs在真實世界場景中的表現有限,主要由于缺乏全面且反映實際醫療實踐的測試數據集。
- 研究難點:該問題的研究難點包括:現有基準測試很少考慮患者特定信息、臨床任務之間缺乏依賴性以及靜態的數據集無法反映動態的患者互動。
- 相關工作:該問題的研究相關工作有:現有的醫學領域的LLMs評估主要集中在通過結構化評估測試一般醫學知識,但這些基準測試未能捕捉到真實世界臨床決策的三個關鍵方面:個性化、互動性和順序性。
研究方法
這篇論文提出了MedChain和MedChain-Agent來解決臨床決策中的LLMs評估問題。具體來說,
- MedChain:MedChain是一個包含12,163個臨床病例的數據集,覆蓋了19個醫學專業和156個子類別,每個病例經過五個關鍵階段:專科轉診、病史采集、檢查、診斷和治療。MedChain的獨特特性包括個性化、互動性和順序性。
- MedChain-Agent:MedChain-Agent是一個多代理協作框架,結合了反饋機制和MedCase-RAG模塊,以動態收集信息和處理順序臨床任務。該框架包括三種專門的代理類型:通用代理、總結代理和反饋代理。通用代理負責特定任務的專家知識,總結代理整合討論和分析,反饋代理提供建設性反饋并迭代改進決策。
- MedCase-RAG:MedCase-RAG是一種新穎的檢索增強生成技術,專為醫學背景定制。它將每個醫學病例映射到一個12維特征向量,并使用文本嵌入模型對“癥狀描述”進行量化,作為密集檢索任務的主要鍵。此外,MedCase-RAG還包含一個動態數據庫擴展機制,以不斷豐富其知識庫。
實驗設計
- 數據收集:數據集來源于中國醫療網站“ii Yi”,包含超過20,000個驗證過的臨床病例,覆蓋28個疾病類別。這些病例經過專業醫生的驗證和去識別處理,以確保患者隱私。
- 質量控制:實施了一個嚴格的質量控制過程,涉及五位具有超過10年臨床經驗的高級醫師。評估過程隨機抽查了6,000個病例(數據集的49.3%),每個病例在多個維度上進行評估,包括疾病流行度、臨床相關性、病史準確性、診斷程序的適當性、診斷的正確性和治療建議的適宜性。
- 臨床工作流程模擬:MedChain模擬了完整的臨床工作流程,包括五個順序任務:專科轉診、病史采集、檢查、診斷和治療。每個階段的結果作為后續階段的輸入,創建了一個依賴關系,后續決策受到前面階段質量的 影響。
- 交互環境:開發了一個交互環境,模擬醫生與患者的咨詢過程。使用本地大型語言模型“gemma2(9b)”作為患者代理,初始化時提供預定義的病例信息,但不了解實際診斷,從而模擬真實患者的體驗。
結果與分析
- 單代理系統:在單代理系統中,GPT-4o-mini和InternVL2的平均得分分別為0.4442和0.3920,表明即使在先進模型中,順序決策任務也具有挑戰性。
- 多代理系統:基于InternVL2的多代理系統(如MedAgent和MDAgent)的性能優于其單代理對應物,但仍未達到MedChain-Agent的水平。MedChain-Agent的平均得分為0.5269,顯著提高了決策質量和可靠性。
- 開源LLMs:MedChain-Agent框架與開源LLMs的結合顯示出優于專有模型的性能,表明框架可以充分利用開源LLMs的優勢。
- 消融研究:移除個性化、互動性和順序性特征后,模型性能在不同任務上表現出不同程度的下降,驗證了這些特征在模擬真實世界臨床決策過程中的重要性。反饋機制和MedCase-RAG模塊的移除也對性能產生了顯著影響,表明它們在優化框架能力方面的互補性。
總體結論
這篇論文介紹了MedChain,一個用于評估大型語言模型在臨床決策中的新穎基準,以及MedChain-Agent,一個旨在應對真實世界醫學場景復雜性的創新多代理框架。通過將個性化、順序性和互動性納入評估過程,MedChain-Agent展示了在順序臨床決策任務中的卓越性能,甚至在結合開源LLMs時優于專有模型。這項研究為評估和發展醫療AI系統設定了新的標準,為其在臨床實踐中的負責任整合鋪平了道路。
論文評價
優點與創新
- 全面的評估框架:MedChain是第一個旨在全面評估大型語言模型在臨床決策中能力的基準,緊密反映了現實世界中的患者護理。
- 多代理框架:提出了一個基于臨床決策特征的多代理框架,該系統能夠高效檢索相關病例并幫助模型做出明智的決策。
- 反饋機制:引入了反饋機制,使每個任務的輸出結果都能得到后續任務的評估和反饋,從而持續改進決策質量。
- MedCase-RAG模塊:提出了一個新的檢索增強生成(RAG)技術,通過結構化的數據表示和動態數據庫擴展機制,提高了決策能力。
- 個性化、交互性和順序性:MedChain強調個性化、交互性和順序性,更好地模擬了現實世界中的臨床決策過程。
- 實驗驗證:通過廣泛的實驗,證明了MedChain和MedChain-Agent框架在提高臨床決策準確性和可靠性方面的有效性。
不足與反思
- 數據源多樣性:MedChain基準是從中國醫療網站“iiYi”獲取的12,163份電子健康記錄,盡管數據集廣泛且覆蓋了19個醫學專業和156個子類別,但它僅來自單一來源。未來工作將納入來自不同地區或醫療系統的額外數據源,以進一步豐富數據集,提供更廣泛的臨床場景并增強基準的泛化能力。
- 患者交互模擬:在交互環境中,病史采集階段的患者響應是由Gemma 2語言模型生成的。雖然這種方法確保了評估的一致性和可控性,但真實患者的交互可能更加多樣化和復雜。未來工作可以探索更先進的患者模擬器或納入真實的對話數據,以捕捉更廣泛的溝通風格和行為。
關鍵問題及回答
問題1:MedChain-Agent框架中的多代理系統是如何設計的?各自承擔什么角色?
MedChain-Agent框架包含三種主要的代理類型,每種代理在醫學決策過程中扮演不同的角色:
- 通用代理(General Agents):這些代理根據特定任務的要求進行招募,具備各醫學專業的綜合知識和分診協議。例如,在任務1(專科轉診)中,通用代理能夠評估病例的緊急程度并將患者分配到適當的科室。
- 總結代理(Summarizing Agent):在每個決策階段結束時,總結代理會整合通用代理的討論和分析,將集體專業知識合成一個連貫的總結,并為每個任務提供最終決策,類似于醫學背景下高級醫師或科主任的角色。
- 反饋代理(Feedback Agent):反饋代理在整個過程中評估每個任務的輸出,提供建設性反饋并在必要時建議迭代改進。通過這種方式,反饋代理創建了一個動態的、自我糾正的系統,不斷精煉其決策能力。
這種分層、迭代的 approach 確保決策是經過徹底分析和多樣化視角的綜合結果。
問題2:MedCase-RAG模塊在MedChain-Agent框架中的作用是什么?它如何增強決策能力?
MedCase-RAG模塊是一種新穎的檢索增強生成技術,專為醫學背景定制。其主要作用體現在以下幾個方面:
- 數據表示:MedCase-RAG將每個醫學病例映射到一個12維的特征向量,包括年齡、性別、患者描述、癥狀描述、病史和患者圖像等關鍵屬性。這種結構化的表示方式使得病例編碼更加全面和標準,便于準確和細致的檢索。
- 動態檢索:在處理新病例時,MedCase-RAG首先提取并量化“癥狀描述”這一最具代表性的特征,然后通過文本嵌入模型進行量化處理。接著,使用余弦相似度計算在相關醫學部門中進行相似性搜索,選擇最相似的前三個病例作為當前檢索結果,從而提供更全面的決策依據。
- 數據庫擴展:MedCase-RAG還包含一個動態數據庫擴展機制,隨著患者完成醫療過程并康復,其病例信息會被重新引入數據庫作為偽數據。這種方法允許系統從新病例中學習并適應不斷演變的醫學知識和實踐。
通過這些方法,MedCase-RAG顯著增強了MedChain-Agent框架的決策能力,使其能夠更準確地檢索相關病例并做出明智的決策。
問題3:MedChain數據集的質量控制過程是如何進行的?有哪些關鍵步驟?
MedChain數據集的質量控制過程涉及以下關鍵步驟:
- 數據來源和處理:數據集來源于中國醫療網站“ii Yi”,包含超過20,000個驗證過的臨床病例,覆蓋28個疾病類別。這些病例經過專業醫生的驗證和去識別處理,以確保患者隱私。
- 樣本選擇:質量控制過程隨機抽查了6,000個病例(數據集的49.3%),每個病例在多個維度上進行評估,包括疾病流行度、臨床相關性、病史準確性、診斷程序的適當性、診斷的正確性和治療建議的適宜性。
- 評估標準:采用標準化評分系統對每個病例進行量化評估,涵蓋疾病流行度、臨床相關性、病史準確性、診斷程序的適當性、診斷的正確性和治療建議的適宜性等維度。使用Cohen's kappa系數計算評估者之間的一致性。
- 結果分析:質量評估結果顯示,整體質量合格率為94.7%,所有評估維度的一致性均在92.9%到97.2%之間,表明評估標準的一致性和高標準。Cohen's kappa系數為0.82,表明評估者之間存在強一致性。
- 數據處理:不符合標準的病例(5.3%)經過修訂或被排除在最終數據集之外,以維護數據集的完整性和質量標準。
通過這些嚴格的質量控制步驟,MedChain數據集確保了高標準的數據完整性和臨床相關性,為評估LLMs在臨床決策中的表現提供了可靠的基礎。
本文轉載自??知識圖譜科技??,作者:知識圖譜科技

















