谷歌Nature震撼發文,Gemini教練暴打專家!醫學雙料冠軍,秒出睡眠報告
AI醫學的圣杯,可能先被谷歌DeepMind奪下。
最近,谷歌全新健康大語言模型(PH-LLM)正式發布——一款微調Gemini的「個人睡眠和健康」模型。
圖片
論文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
PH-LLM將可穿戴設備中的數據,瞬間轉化為可視化的內容。
它就像一個「AI睡眠專家+健身教練」,可以全天候分析監測個人的智能手表數據。
結果發現,PH-LLM在睡眠醫學考試中得分(79%)碾壓醫生(76%),而且在健身認證中直接把人類專家按在地上摩擦(88% vs 71%)。
圖片
更牛的是,在人類評估中,PH-LLM生成的健康建議,幾乎與專家無差別。而且,僅憑傳感器數據,即可預測用戶睡眠質量。
大多數可穿戴設備,往往只會給你一堆數據。
遺傳學博士Dominic Ng對此點評道,「PH-LLM所做的,正是一位優秀醫生會做的事,即將數據綜合成『洞察』」。
圖片
最新研究已于14日登上Nature,具體看看,谷歌DeepMind如何做到的?
谷歌出手不凡,Gemini版「健康私教」
傳統臨床診療雖能提供寶貴信息,但對睡眠、運動、壓力等,生活健康指標評估僅具階段性。
如今,可穿戴設備就能實現無感連續監測。
圖片
不過,這些數據缺乏上下文背景,存儲分析算力要求高、解讀難度大等因素,并未廣泛應用于臨床實踐。
甚至,這些數據也并未納入標準「醫學問答數據集」,導致通用基礎LLM和醫學LLM,都難以有效推理給出個性化建議。
為此,谷歌團隊合力在Gemini上微調出PH-LLM,用于評估AI在睡眠與健康領域的表現,如下圖所示。
可穿戴設備能監測信息遠超這兩個領域,為什么研究團隊僅聚焦于此?
一方面,現有研究已充分驗證可穿戴設備,在這些領域監測數據的準確性與適用性。
另一方面,設備使用者參與度高,無需提供臨床建議即可給出實用指導方案。
圖片
研究中的真實案例:僅憑一名65-70歲男性提供的30天數據,PH-LLM便識別出了規律的睡眠時間表,但平均睡眠時間僅為5小時28分鐘(過低)。
為此,它建議道:
更好的睡眠時間是從晚上12:00到早上7:30。你可以通過每隔幾天將睡眠時間提前15分鐘,逐步達到目標。
圖片
基于Gemini Ultra 1.0,PH-LLM采用了兩階段訓練。
首先,作者對完整模型進行了微調,專門針對睡眠和健康領域的長篇案例分析回復生成任務。
訓練數據包含了,人口統計學文本數據、最長30天的每日指標、聚合指標,以及僅針對健康案例的個體運動日志等。
在完成案例分析微調后,他們又為PH-LLM增加了多模態適配器。
這個適配器是用于,根據至少15天的縱向被動傳感器數據(包含每日睡眠與活動指標),來預測睡眠障礙和睡眠損傷的主觀報告結果(PROs)
兩階段訓練完成后,團隊從個人健康教練所需的多元能力維度出發,針對三大任務評估了PH-LLM的表現:
首先,通過多選題測試評估模型掌握的專家級領域知識儲備;
其次,通過長案例研究檢驗模型應用專業知識、解讀聚合傳感器數據以提供教練建議的能力;
最后,測試模型預測患者主觀報告結果(PROs)的能力,使其在生成建議時能整合個體對睡眠質量的自評數據,真正實現個性化健康指導。
AI擊敗人類專家
測試結果顯示,在睡眠醫學和健康體能考試,PH-LLM的答題正確率分別達到79%和88%(表1與圖1b)。
這一結果,顯著超過獲得睡眠醫學繼續教育學分(CME)要求的約70%及格線。
圖片
圖片
而且,與主流外部模型相比,PH-LLM表現頗具競爭力:睡眠類題目稍遜但體能類題目表現相當。
具體而言,在睡眠醫學考試中PH-LLM得分79%,Gemini Ultra 1.0為77%;在體能考試中兩者均獲88%得分。
圖片
圖片
受試者工作特征曲線(ROC)與精確率-召回率曲線,均證實模型在兩類考試中的優異表現(附圖2)。
圖片
值得注意的是,盡管針對睡眠與健康任務進行了微調,PH-LLM在PubMedQA29和MedQA30通用醫學基準測試中,性能并未下降(附表1)。
圖片
值得一提的是,睡眠醫學題庫包含每道題目的人類考生答題分布等元數據,這允許團隊基于題目難度進行分層性能比較。
PH-LLM在所有難度層級均小幅領先Gemini Ultra 1.0,且在難題上的優勢更為明顯。
這表明,睡眠案例研究的微調確實提升了相關題目的解答能力(表2)。
圖片
為量化PH-LLM的表現水平,團隊還招募了5位平均從業25年的睡眠醫學專家(均持有高級學位)和5位平均從業13.8年的職業運動教練參加同規格考試。
專家組在睡眠醫學試題樣本(N=204)中的平均正確率為76%,體能考試為71%,PH-LLM在兩類題庫中均超越人類專家(表1)。
按人類考生答題難度分層分析顯示,PH-LLM的表現與人類考生及受邀專家群體相當(表2)。
案例分析,接近專家水平
接下來,研究團隊進一步評估了,模型應用專業知識與解讀傳感器數據的能力。
為此,他們創建了首個睡眠與健康領域的詳細個人健康案例數據集(857個案例,含3,271組問答對),由多位相關領域專家共同審定。
該數據集包含持續數周的個體可穿戴傳感器數據,以及對應的深度分析與建議(圖2a,b)。
圖片
在健康管理案例分析中,PH-LLM模型在三個維度(運動處方制定、恢復方案建議、訓練準備度評估)上,表現出與人類專家及Gemini Ultra 1.0相當的水平(圖2d)。
圖片
傳感器數據,預測健康報告
此外,為了評估PH-LLM能否推斷用戶體驗以優化健康指導,團隊測試了每日傳感器數值數據預測睡眠障礙和睡眠損傷PROs的能力。
首先通過計算問卷回答間的相關性分析PRO數據,發現16個問題測量了相關但獨立的睡眠維度(圖3a)。
隨后檢查傳感器特征是否存在混雜因素,發現不同設備和參與者依從性間的傳感器讀數分布相似。
結果顯示:沒有單一特征對所有PROs具有絕對預測優勢,預測信號廣泛分布于多個傳感器(圖3b)。
圖片
為使PH-LLM能從傳感器特征預測PROs,研究人員又訓練了一個多層感知機(MLP)適配器,將20項傳感器特征的統計量映射至PH-LLM的潛在標記空間(方法部分)。
隨后將這些潛在標記作為上下文輸入PH-LLM,要求其預測每個二分類結局。
在保留測試集中,團隊比較了零樣本提示、少樣本提示與PH-LLM適配器方法,在受試者工作特征曲線下面積(AUROC)和精確召回曲線下面積(AUPRC)的表現(圖3c,d)。
值得注意的是,客觀睡眠測量數據對主觀睡眠質量指標的預測力通常有限,但配備適配器的PH-LLM在AUROC和AUPRC上均顯著優于兩種提示方法。
圖片
正如Dominic Ng所言,谷歌研究意義并不止于一個「AI戰勝醫生」的故事。
這恰恰證明了,LLM可以將被動的健康監測,轉化為積極的健康管理。
它不僅了解你的身體,還能理解其原因,并給出及時應對方法。
這就是預防醫學的未來。
圖片
參考資料:
https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
https://x.com/GoogleForHealth/status/1956050991695933619































