ChatGPT誤導患者不要就醫,只因提問多打了一個空格
只是因為提問時多打了一個空格,患者就被ChatGPT誤導不要就醫?
MIT一項新研究表明,如果患者跟AI溝通的時候,消息中包含拼寫錯誤或者大白話,它更有可能建議你不要看醫生。

更有甚者,研究還發現AI錯誤告訴女性不要看醫生的比率高于男性。
為什么AI會存在理解偏見
有些看似微不足道的細節,或許是影響醫療AI機器人理解的關鍵。
比如單詞之間多了一個空格,或者患者使用了俚語或俏皮話。
除此之外,人們模糊地不確定地表達醫學概念的時候,AI理解存在偏差或者錯誤的可能性更高,尤其對于不能使用母語的人來說。
但是,面對專業的醫學術語,咱們普通老百姓也只能模糊表達啊。
文字溝通上的問題固然無奈,但AI建議背后的偏見更是個問題。
女性跟男性被AI錯誤告知的比例壓根沒法比,女性被告訴不要看醫生的比例高于男性。

△按性別劃分臨床準確率差距(男性-女性)
上圖展示了按性別劃分的臨床準確率差距結果,藍色條形表示擾動(或基線)情況下,誤差線顯著性水平為??<0.007,男性患者的臨床準確率高于女性患者。
為何會出現這樣的比例,作者懷疑這是否與現實生活中的醫生往往淡化女性的醫療投訴有關。

進一步研究:“非臨床信息”的溝通
為了弄清楚以上問題,MIT的研究人員評估了四個模型,包括OpenAI的GPT-4、Meta的開源LLama-3-70b,以及一個名為Palmyra-Med的醫療AI。
為了測試它們,研究人員使用真實患者投訴(來自醫療數據庫)、Reddit上的健康帖子以及一些AI生成的患者案例,模擬了數千個患者案例。
在把案例“喂”給AI模型之前,研究人員添加了一些“干擾項”,比如使用感嘆號、全部小寫輸入、多種語言風格(如夸張語氣)、不確定語言(如“可能”)以及使用性別中性的代詞。

△患者溝通方式案例圖
這些“干擾項”并未影響患者回答中的臨床數據。
結果來說,當面對以上“干擾”的時候,它們更有可能在7%到9%的范圍內建議患者自行管理癥狀,而不是去看醫生。

△模型導致的臨床準確性差異
上圖顯示了與基線水平準確性的差異,誤差線構建于p<0.007,即模型導致的臨床準確性下降。
還有一種解釋,醫療大語言模型(LLMs)依賴于醫學文獻的訓練,即接收的都是專業的標準化的“臨床信息”,面對日常生活中患者溝通表達的非標準化的、多元的“非臨床信息”,大模型沒經驗,無法提煉。
無論怎么說,很顯然,AI模型被非標準的書寫方式改變了認知。
AI醫療偏見會帶來什么問題
醫療AI聊天機器人應用在醫院、診所等場景已經非常常見了,比如智慧導診、安排預約、回答簡單醫學問題等,還會根據患者告訴的信息進行分診。
但是,人們開始懷疑把生命交給經常誤解信息并編AI造事實然后下判斷的AI模型是否可靠。
更重要的是,“隱形”的AI偏見在未來可能帶來更嚴重的問題。
未參與該研究的加州大學圣地亞哥分校健康學院(UC San Diego Health)的Karandeep Singh表示,“隱性的偏見會改變AI建議的語氣和內容,而這可能導致醫療資源分配上出現微妙但重要的差異”。
這項研究的合著者、麻省理工學院EECS副教授Marzyeh Ghassemi表示,這就是醫療大模型行業應用之前必須經過審核的原因。
但是,解決這些問題并不容易。
隨著AI在各行各業的深度應用,大型語言模型(LLMs)也越來越多地被應用于臨床環境,并開發多種健康應用,比如慢性病管理、診斷輔助以及文檔記錄、賬單處理和患者溝通等行政任務;甚至使用LLMs輔助臨床決策。
這項研究想要評估,LLMs在臨床應用中推理能力的關鍵作用。
結果也顯示,LLMs在醫療應用中顯示出巨大潛力。
但研究人員希望他們的工作能激發AI在臨床應用中的深度研究,比如對理解臨床LLMs推理,考慮非臨床信息在決策中的有意義的影響,以及推動在部署患者-人工智能系統之前進行更嚴格的審核的研究。
參考鏈接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121































