揭秘微軟AI醫療診斷系統:超越醫生準確率背后的事情

微軟AI CEO穆斯塔法·蘇萊曼表示,隨著AI模型逐漸商品化,其價值將體現在最終的協調層。
微軟本月早些時候宣布,其開發的AI診斷系統在復雜病例的診斷上超越了人類醫生。
該系統名為MAI-DxO,使用兩個機器人梳理患者的病史,與OpenAI的o3模型配合使用時,可解決85.5%的患者病例。盡管人類醫生在診斷時不能上網搜索或與同事交流,但他們在相同病例上的平均準確率僅為20%,與該系統的結果相比差距巨大。
在微軟公布結果后不久的一次深入對話中,微軟AI CEO穆斯塔法·蘇萊曼分享了AI診斷系統如何將人類醫生的診斷能力提升四倍,這對醫學的未來意味著什么,以及這對社會是否是一個積極的趨勢。
AI驅動搜索改變醫療問診
亞歷克斯·坎特羅維茨(Alex Kantrowitz):穆斯塔法,你好,很高興再次見到你。首先,Copilot和必應現在每天要處理5000萬次醫療咨詢,這很好嗎?
穆斯塔法·蘇萊曼:這太不可思議了,因為我們通過搜索引擎讓信息獲取變得非常便捷和精簡。現在,有了Copilot,回答更加具有對話性。你可以調整回答的語氣,使其適合你的知識水平和專業水平,因此,越來越多的人向Copilot和必應咨詢健康問題。
咨詢的問題范圍很廣,包括癌癥問題、家庭成員去世、心理健康問題,或者僅僅是皮膚出現皮疹。因此,問題種類繁多,但我們有一個非常重要的目標,就是努力提高消費者健康產品的質量。
與搜索引擎相比,聊天機器人收到的健康問題是否有所不同?
Copilot的回答往往更簡潔,更符合提問者的個人風格和語氣,這往往會鼓勵人們提出第二個后續問題。因此,這更像是一種對話或咨詢,就像你和醫生可能進行的對話一樣。所以,這與普通的搜索查詢有很大不同。
微軟雙機器人診斷系統揭秘
說到對話,我們來談談微軟新的AI診斷系統,它實際上由兩個機器人組成,一個機器人充當患者所有醫療信息的守門人,另一個機器人則詢問病史并進行診斷。你發現該系統在疾病診斷方面的表現優于人類。
我們本質上想模擬AI作為診斷醫生的行為,向患者提出一系列問題,梳理出他們的病史,進行一系列他們可能已經做過的檢查,包括病理學和放射學檢查,然后反復檢查它所獲得的信息,以提高其對患者實際診斷的預測準確性和可靠性。
我們實際上使用了《新英格蘭醫學雜志》的病例,這些病例有數百個,該雜志每周都會發布一個這樣的病例,這對醫生來說就像終極填字游戲。醫生們要等到下周才能看到答案。他們需要回顧五到七頁非常詳細的病史,然后嘗試找出實際診斷結果。
協調層是價值所在
我認為GenAI的一個好處是,它可以接收大量信息,然后得出答案,而且通常一次就能完成。那么,使用多個機器人進行梳理的好處是什么呢?
過去六個月左右,AI領域的重大突破是出現了思考或推理模型,這些模型可以在推理時查詢其他智能體或查找其他信息源,以提高回答質量,它不會只給出第一個最佳答案,而是會咨詢各種不同的信息源,這提高了它最終獲得的信息質量。因此,我們發現,這個協調器使用了來自主要供應商的四種不同模型,實際上可以提高每個獨立模型的準確性。總體而言,所有模型的準確性都得到了顯著提高,大約提高了10%。因此,這是一個巨大的進步。我認為,隨著AI模型逐漸商品化,所有的價值都將體現在最后的協調層和產品集成中,這就是我們在診斷協調器中看到的情況。
MAI-DxO診斷準確率比人類醫生高四倍
那么,在標準大語言模型(LLM)的基礎上,診斷準確率提高了10%嗎?
是的,實際上,我們是將其與人類的表現進行對比的。我們讓一群專業醫生在這個模擬診斷環境中進行游戲,他們平均每五次才能答對一次,對吧?準確率約為20%,而我們的協調器準確率約為85%,因此它的準確率是人類醫生的四倍。在我的職業生涯中,我從未見過人類表現與AI系統表現之間存在如此巨大的差距。
多年前,我參與了許多放射學、頭頸癌和乳腺X光檢查的診斷工作,我們的目標只是通過一次放射學檢查來預測是否患有癌癥,這是我們所能做的全部,而現在,它實際上可以給出非常詳細的診斷,并通過這種交互式對話機制依次進行,這大大提高了準確性。
醫生可以從AI的診斷思維中學習
如果醫學領域發生的事情和初級代碼領域發生的事情一樣,會怎么樣呢?在初級代碼領域,人們使用Copilots學習編程,但當程序出錯時,他們就很難弄清楚問題出在哪里。如果你是一名醫生,如果你把一些思考工作外包給這些機器人,這會是個問題嗎?
這不僅僅是給出一個黑箱答案,這就是為什么順序診斷如此重要,因為你可以實時觀察AI對病史提出問題、得到答案、形成新問題、得到答案、提出新問題,然后要求進行不同類型的檢查、得到結果、進行解讀,最后給出答案。
這種對話性質意味著人類醫生可以實時跟進,并以一種非常透明的方式進行學習,這就像在大語言模型的黑箱中內置了一個可解釋性機制,因為你可以實時看到它的思考過程。事實上,你看到的不僅僅是內心獨白般的思維鏈。
我們實際上創建了五種不同類型的代理,它們都會進行辯論,我們稱之為“辯論鏈”,它們相互協商,試圖優先考慮某些不同的方面,比如成本或效率,智能體之間不同技能組合的協調正是使這一系統如此有效的關鍵。
AI可檢測醫生可能從未見過的罕見疾病
即使醫生可以觀察這一過程,但這也將他們在診斷中的角色從主動變為相對被動。與觀察機器人對話相比,醫生在主動階段開展工作是否有一些好處?
我認為確實如此,但我仍然認為,這將成為醫生學習他們從未遇到過的各種病例的絕佳教育工具。例如,我們上周使用協調器對《新英格蘭醫學雜志》最新案例研究中的病例進行了診斷,它正確地診斷出了在所有醫學文獻中僅出現過1500次的病例,這是一種非常罕見的長尾疾病,因此很少有醫生有機會見到這種病例。因此,我認為,在實際應用中準確檢測出這類疾病的能力將遠遠超過醫生無法按照你描述的方式進行實踐的風險。
我認為工具只是改變了你的工作方式,隨著時間的推移,每個人都必須適應這一點,但這種工具的實用性無疑是非常有益的,我認為它值得這樣做。
訓練數據無法解釋這一表現的原因
它能夠做到這一點是因為病例都在訓練數據中嗎?即使它們在訓練數據中,這真的重要嗎?
我們與《新英格蘭醫學雜志》合作的部分原因是,該雜志每周都會發布一個全新的病例,這些病例甚至從未被數字化過。因此,毫無疑問,這些病例不在訓練數據中。例如,上周的這個病例,它絕對不可能在訓練數據中,因為它剛剛發表。因此,我們認為之前的所有病例也都是如此。所以我認為這沒有任何可能性,這實際上是在進行判斷抽象,它不僅僅是復現訓練數據,而是根據它已經掌握的知識進行某種推理或思考。
為何協調器可能優于單一模型
與推理模型相比,你的系統并沒有顯示出比標準大語言模型更大的改進。是否存在這樣一種可能性,即最先進的推理模型將學會如何做類似的事情,而你將不需要這種專門的排序就能實現類似的結果?
從長遠來看,真正的價值在于你如何協調各種具有不同專業知識的不同模型。因此,這五個代理中的每一個都被提示和設計成具有不同類型的專業知識,然后讓它們共同協商和集體推理,也許未來它們都會被整合到一個單一模型中,我不知道,目前看來并非如此,目前,協調器能夠帶來更大的收益。
我們還看到,例如,它還能夠優化成本,通過避免不必要的檢查來降低成本,而人類醫生則做不到這一點,這是因為在推理時將成本因素納入了協調器中,而這是在預訓練或后訓練中無法與單一模型相協調的。
在醫學領域,成本是一個因素。你知道,你可以要求進行每一項檢查,這樣可能會更好地診斷病情,但在今天這并不現實。有趣的是,觀察機器人決定進行哪些檢查,然后以比典型醫生更低的成本得出診斷結果,這很有意思。
更多的檢查也會讓人們感到焦慮,因此,這不僅僅關乎成本,還關乎優化患者體驗。
通過更智能的AI降低成本和檢查焦慮
那么,它是如何決定進行哪些檢查以及如何優化成本的呢?
該模型試圖用最少的檢查次數得出最佳診斷,該模型能夠更廣泛地了解哪些檢查結果往往與哪些特定的診斷結果相關。因此,由于它見過的病例比任何一個人類醫生都多,這表明它能夠更好地做出判斷,在這種情況下,根據它已經了解到的患者病史,判斷需要進行哪些必要的最少檢查次數,以獲取下一個信息片段,從而能夠繼續診斷并使其更加準確。
當前局限性和長尾用例
我能告訴你另一件讓我驚訝的事情嗎?這個機器人似乎在更常見的診斷類型上遇到了困難。你認為它只是在等待診斷那種罕見病例嗎?所以它忽略了這可能只是胃痛的事實?
我們還沒有將它應用于你日常遇到的普通全科醫生或初級保健醫生的場景,比如皮膚出現皮疹或膝蓋疼痛,因此這往往是復雜病例中更長的長尾部分,但不用說,訓練數據中這方面的信息較少。我們知道,如果有更多的訓練數據,模型的表現會更好。因此,與在長尾病例上的表現相比,該模型在初級保健環境中的表現幾乎肯定會更好。
AI無法取代共情和人類引導
你們圍繞這項研究發布的消息稱,醫生的臨床角色“遠不止于做出診斷,他們需要以AI無法做到的方式,在模棱兩可的情況下為患者及其家屬指明方向并建立信任”。
我能從另一個角度來看這個問題嗎?如果你每天都和機器人交談,你可能會比每年只見一次的醫生,甚至是新專家更信任它。那么AI是否也有可能承擔部分這類工作呢?
它確實有可能承擔部分這類工作,當然,我希望有一天它能夠勝任這類工作,但沒有什么能取代你在現實世界中面對高度焦慮和恐懼時與他人建立的聯系,當你面臨人生中最大的挑戰之一,前方有一個重大診斷結果,或者當你只需要日常的定期治療和護理時。因此,這將繼續是醫生的角色,希望他們能有更多時間與患者面對面交流。
醫生的角色在演變,而非消失
那么,未來醫生將成為這些AI機器人輸出的審核者嗎?他們將成為引領患者走過治療之旅的守護者嗎?
仍然需要專業的人類醫生進行大量的判斷,這既是診斷的一部分,也是對患者進行判斷的一部分,考慮各種因素,幫助患者決定,既然我現在知道自己有了這個診斷,我想接受什么治療,何時接受治療,以及其中的利弊是什么,這將需要大量的判斷,因此,這不僅僅關乎人與人之間的聯系和親力親為,它還需要與收到診斷的患者進行深入共情的思考,以規劃他們的治療過程。
超越醫療保健:任何領域都可應用協調式AI
你認為這種系統還可以應用于哪些其他職業?
這些協調器的基本方法是,它們調整不同的AI以發揮非常具體的作用,然后讓這些AI相互協商,這顯然適用于許多不同的環境,無論是未來的商業還是政府領域。因此,我認為,如果這一發現成立并適用于其他領域,我認為它將非常有前景,因為這也是我們人類作為一個物種共同工作的方式,對吧?我們通常在做出決定時會廣泛咨詢,而且往往在得出最終結論之前甚至會達成共識。因此,這與人類世界有很多相似之處。
MAI-DxO在臨床環境中的下一步計劃是什么?
最后,這一系統尚未在醫院環境中廣泛推廣,因此,對此感到恐慌的人可以放松了,但這是最終目標嗎?它是一種教育工具,還是會在未來幾年實際集成到醫療中心和醫院中?
目前,這只是早期研究,我們正在研究如何最好地部署它,但我認為,我們能夠在整體診斷上將人類表現提升四倍,同時顯著降低成本,而且速度極快,這讓我感覺這是邁向真正的醫療超級智能的步伐,我們希望盡快、盡可能廣泛地提供這種能力,包括為我們每天5000萬次的健康查詢提供服務。因此,我們的目標是:以盡可能安全的方式,盡快將其提供給消費者。





























