OpenTSLM:突破AI的時序盲區(qū) 原創(chuàng)
近日斯坦福大學聯(lián)合蘇黎世聯(lián)邦理工學院(ETH Zurich)、Google Research和Amazon的研究團隊,推出了OpenTSLM——一個專為時間序列數(shù)據(jù)設計的語言模型家族。這一創(chuàng)新解決了當前大語言模型(LLMs)在處理連續(xù)醫(yī)療時間序列數(shù)據(jù)時的根本性缺陷,即使是GPT-4o這樣的前沿模型也難以有效處理心電圖(ECG)、腦電圖(EEG)和可穿戴傳感器數(shù)據(jù)流。
一、LLM的"時序盲點"
醫(yī)學診斷的本質(zhì)是基于時序,準確的診斷高度依賴于追蹤生命體征、生物標志物和復雜信號的演變過程。然而目前最先進的AI模型在處理這類原始連續(xù)數(shù)據(jù)時卻力不從心。
問題的核心在于"模態(tài)鴻溝"(modality gap),例如連續(xù)信號(如心跳波形)與LLM理解的離散文本token之間存在根本性差異。此前嘗試將信號轉(zhuǎn)換為文本的方法被證明既低效又難以擴展。

一個常見的變通方案是將時間序列數(shù)據(jù)轉(zhuǎn)換成靜態(tài)圖像(折線圖),然后輸入到先進的視覺語言模型中。但OpenTSLM的研究團隊通過實驗證明,這種方法在精確的醫(yī)療數(shù)據(jù)分析中效果出奇地差。
VLM主要用照片訓練,對科學數(shù)據(jù)圖表缺乏理解。高頻率的生理信號轉(zhuǎn)換成圖片后,很多微小但關(guān)鍵的變化(比如心律不齊的細微特征)會在像素化過程中丟失。圖片是靜態(tài)的,無法捕捉信號隨時間演變的動態(tài)特性
VLM主要在自然照片上訓練,識別的是物體和場景,而非數(shù)據(jù)可視化中密集的序列動態(tài)信息。當高頻信號被渲染成像素時,關(guān)鍵的細粒度信息會丟失。對于識別心律失常或特定睡眠階段至關(guān)重要的微妙時間依賴性和高頻變化會被掩蓋。
時間序列必須被視為一種獨特的數(shù)據(jù)模態(tài),而不僅僅是一張圖片。

創(chuàng)建時間序列語言模型仍然是一個開放的研究挑戰(zhàn)。主要障礙是連續(xù)信號與離散文本表示之間模態(tài)差距(Chow et al., 2024; Pillai et al., 2025; Zhang et al., 2025)。先前的研究主要是通過三種主要策略來彌合這一差距。
二、OpenTSLM
OpenTSLM采用了一種根本性創(chuàng)新:將時間序列作為原生模態(tài)直接集成到預訓練的LLM(如Llama和Gemma)中,使其能夠用自然語言查詢和推理復雜的健康數(shù)據(jù)。研究團隊探索了兩種截然不同的架構(gòu)方案:
第一種為OpenTSLM-SoftPrompt

這種方法將時間序列數(shù)據(jù)編碼為可學習的token,與文本token結(jié)合后直接輸入到LLM中進行處理。雖然對短數(shù)據(jù)序列高效,但擴展性差,更長的序列需要指數(shù)級增長的內(nèi)存,不適用于全面分析。在處理復雜ECG數(shù)據(jù)分析訓練時,使用相同LLM骨干的SoftPrompt變體需要110 GB VRAM。
第二種為OpenTSLM-Flamingo

受到Flamingo架構(gòu)啟發(fā),這是實現(xiàn)可擴展性的突破性解決方案。它將時間序列作為獨立模態(tài)顯式建模,通過專用編碼器、感知器重采樣器和門控交叉注意力機制實現(xiàn)高效融合。OpenTSLM-Flamingo維持穩(wěn)定的內(nèi)存需求,無論數(shù)據(jù)流多長,僅需40 GB VRAM,相比SoftPrompt減少64%,可擴展到長時間醫(yī)療監(jiān)測場景,適合臨床實際應用部署。
三、OpenTSLM-Flamingo
OpenTSLM的突破在于不再把時間序列數(shù)據(jù)當作文字或圖片的"變體",而是將其作為一種獨立的"語言模態(tài)"直接整合到AI模型中。就像人類大腦能同時處理視覺、聽覺、觸覺信息一樣,OpenTSLM讓AI能夠同時理解文字和時間序列數(shù)據(jù),并在兩者之間進行推理。而其中的OpenTSLM-Flamingo方案則通過三種突破性的設計完成了華麗的蛻變。
突破一:專用時間序列編碼器
OpenTSLM的專用編碼器代表了時間序列特征提取的范式革新。傳統(tǒng)方法要么將時間序列強行轉(zhuǎn)換為圖像交給視覺編碼器處理,要么簡單地將數(shù)值序列化為文本token,這兩種方式都會造成嚴重的信息損失。OpenTSLM團隊從時間序列數(shù)據(jù)的本質(zhì)特性出發(fā),設計了全新的編碼架構(gòu)。
這一編碼器的核心創(chuàng)新在于"時間完整性保持"機制。醫(yī)療信號如心電圖包含復雜的時間依賴關(guān)系——前一秒的波形變化會影響對當前波形的解讀,而這種因果關(guān)系往往延伸數(shù)秒甚至數(shù)分鐘。編碼器采用因果卷積結(jié)構(gòu),確保信息流動嚴格遵循時間順序,同時引入專門的時間位置編碼,不僅標記每個采樣點的時間戳,還編碼采樣率、時間間隔等關(guān)鍵元信息。更重要的是,編碼器集成了遞歸記憶單元,能夠在編碼過程中維護長程依賴,避免遠距離信息衰減。在實際應用中,這種設計使模型能夠精確捕捉心律失常診斷所需的RR間期變化,精度達到毫秒級,這是傳統(tǒng)圖像化方法無法企及的。
另一個關(guān)鍵突破是高頻信息的無損捕獲。醫(yī)療時間序列中的高頻成分往往承載著病理診斷的關(guān)鍵信息——例如心電圖中QRS波群的陡峭上升沿(持續(xù)時間僅10-20毫秒)是識別室性早搏的決定性特征。編碼器采用多尺度特征金字塔架構(gòu),并行處理從毫秒到秒級的多個時間分辨率,同時集成離散小波變換以提取頻域特征。這種設計徹底解決了傳統(tǒng)方法在圖像化過程中混疊和失真的問題。
實驗數(shù)據(jù)顯示,在檢測室性早搏任務中,專用編碼器相比圖像化VLM方法將準確率從62%提升至89%,這27個百分點的提升直接來源于對高頻特征的完整保留。
突破二:感知器重采樣器
感知器重采樣器(Perceiver Resampler)是OpenTSLM-Flamingo架構(gòu)中最具革命性的創(chuàng)新,它徹底解決了困擾時間序列建模的"長度-內(nèi)存悖論"。在傳統(tǒng)架構(gòu)中,處理更長的時間序列需要成倍增加的內(nèi)存和計算資源——一段30秒的心電信號(15000個采樣點)可能需要數(shù)百GB內(nèi)存。這一問題源于Transformer架構(gòu)的二次方參數(shù)縮放特性。感知器重采樣器通過引入"學習型查詢向量"機制徹底改變了這一困境。
技術(shù)實現(xiàn)上,重采樣器的核心是一組固定數(shù)量的可學習查詢向量(learned latent queries)。無論輸入時間序列有多長,這些查詢向量都會通過交叉注意力機制從編碼后的時間序列表示中"提問"和"提取"信息,最終將變長輸入壓縮為固定長度的潛在表示。
這個過程類似于一組經(jīng)過訓練的"專家"從海量數(shù)據(jù)中提煉核心要點。假設我們設定64個查詢向量,那么無論輸入是1000個時間點還是100萬個時間點,輸出都是64個固定維度的特征向量。
這種設計的精妙之處在于,查詢向量是通過大規(guī)模數(shù)據(jù)訓練學習得到的,它們自動學會了"問"哪些問題才能最有效地捕獲時間序列的關(guān)鍵特征。
這一創(chuàng)新帶來了三重突破性優(yōu)勢:
- 首先是內(nèi)存效率的革命性改善。在處理復雜ECG分析任務時,采用感知器重采樣器的Flamingo變體僅需40GB VRAM,而未使用該技術(shù)的SoftPrompt變體需要110GB,內(nèi)存消耗降低了64%。
- 其次是真正的長序列處理能力,模型現(xiàn)在可以處理數(shù)小時甚至數(shù)天的連續(xù)監(jiān)測數(shù)據(jù),這對于睡眠分期、長程心電監(jiān)測等臨床應用至關(guān)重要。
- 最后是計算效率的提升,由于輸出維度固定,后續(xù)的語言模型處理階段的計算量不再受輸入長度影響,這使得實時分析和設備端部署成為可能。實驗表明,處理一段24小時的可穿戴設備數(shù)據(jù),采用重采樣器的模型推理時間僅為0.8秒,而傳統(tǒng)方法需要超過15秒。
突破三:門控交叉注意力
門控交叉注意力機制(Gated Cross-Attention)是連接時間序列表示與語言模型的關(guān)鍵橋梁,它解決了多模態(tài)融合中的兩大核心挑戰(zhàn):如何讓不同模態(tài)有效對話,以及如何保持各模態(tài)的獨立性。
傳統(tǒng)交叉注意力允許一個序列(如解碼器)查詢另一個序列(如編碼器)的信息,但在時間序列與文本融合的場景中,簡單的交叉注意力會導致語言模型原有的文本理解能力被稀釋,或者時間序列信息被文本主導而無法充分利用。
門控機制通過動態(tài)調(diào)節(jié)注意力權(quán)重,使模型能夠自適應地決定何時、在多大程度上整合不同模態(tài)的信息。具體實現(xiàn)上,系統(tǒng)在交叉注意力層后增加了一個可學習的門控參數(shù)(通常通過tanh激活函數(shù)),這個參數(shù)根據(jù)當前上下文動態(tài)計算一個0到1之間的門控值。當模型處理需要深度依賴時間序列數(shù)據(jù)的任務(如"這段心電圖顯示了什么異常?")時,門控值自動接近1,允許時間序列信息充分流入;而當處理純文本推理任務時,門控值接近0,保持語言模型的原生能力不受干擾。這種設計確保了模型既能進行復雜的時間序列分析,又不會"遺忘"預訓練階段學到的語言知識。
這一機制的實際效果體現(xiàn)在模型的多任務表現(xiàn)上。在斯坦福醫(yī)院的臨床驗證中,OpenTSLM不僅能準確分析ECG波形(時間序列任務),還能將分析結(jié)果與患者病史、用藥情況等文本信息結(jié)合,生成臨床級別的綜合診斷報告。心臟病專家評估顯示,模型在整合臨床上下文方面獲得了85.1%的正面評價,這直接證明了門控交叉注意力在多模態(tài)信息融合上的卓越能力。更重要的是,這種融合是雙向的——時間序列數(shù)據(jù)為語言理解提供了客觀依據(jù),而語言模型的推理能力又幫助解釋時間序列中的復雜模式,兩者相互增強,實現(xiàn)了1+1>2的協(xié)同效應。
四、性能突破:全面超越GPT-4o
研究團隊創(chuàng)建了三個全新的思維鏈(Chain-of-Thought, CoT)數(shù)據(jù)集,專注于醫(yī)療推理:
- HAR-CoT: 人體活動識別數(shù)據(jù)集,用于評估模型對加速度計等傳感器數(shù)據(jù)的理解能力
- Sleep-CoT: EEG睡眠分期數(shù)據(jù)集,評估模型對腦電波信號的分析和睡眠階段判斷能力
- ECG-QA-CoT: ECG問答數(shù)據(jù)集,評估模型對心電圖解讀和臨床推理能力

在睡眠分期任務中,OpenTSLM達到了69.9%的F1分數(shù),而最佳微調(diào)文本基線僅為9.05%,性能提升達7.7倍。在活動識別任務中,OpenTSLM達到65.4%的F1分數(shù),顯著超越傳統(tǒng)方法。

更令人矚目的是與GPT-4o的直接對比。即使是僅有10億參數(shù)的小型OpenTSLM模型,也顯著超越了GPT-4o。
在Sleep-CoT任務中,GPT-4o處理文本token形式時僅獲得15.47%的F1分數(shù),而處理圖像輸入時表現(xiàn)更差。相比之下,OpenTSLM-1B以原生時間序列方式處理,達到69.9%的F1分數(shù)。
這一發(fā)現(xiàn)揭示了一個重要原則:專門化、領(lǐng)域適配的AI架構(gòu)無需大規(guī)模參數(shù)即可實現(xiàn)卓越性能,為高效的設備端醫(yī)療AI部署鋪平了道路。
斯坦福醫(yī)院的5位心臟病學專家對OpenTSLM-Flamingo模型的ECG解釋推理進行了嚴格評估。結(jié)果顯示,在92.9%的病例中,模型提供了正確或部分正確的ECG解釋。特別值得注意的是,模型在整合臨床情境方面表現(xiàn)出色,獲得85.1%的正面評價,展現(xiàn)出對原始傳感器數(shù)據(jù)的復雜推理能力。
這一驗證證明,OpenTSLM不僅性能卓越,其推理過程也符合臨床專家的認知標準,可為實際診療提供可靠支持。模型生成的自然語言解釋不僅準確,而且邏輯清晰,能夠被臨床醫(yī)生直接理解和使用。
OpenTSLM標志著多模態(tài)機器學習的重大進步。通過有效彌合LLM與時間序列數(shù)據(jù)之間的鴻溝,這項研究為通用型時間序列語言模型奠定了基礎(chǔ),能夠處理不同領(lǐng)域的縱向數(shù)據(jù)。
本文轉(zhuǎn)載自??魯班模錘??,作者:祝融

















