一個模型裝下整個物種樹!伯克利GPN-Star斬獲基因預測雙料冠軍
讓大模型讀懂物種關系,這可能嗎?
近日,加州大學伯克利分校等機構的研究人員,推出了一個全新、通用且功能強大的GLM框架GPN-Star。

論文地址:https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1
GPN-Star破解了傳統GLMs又大又燒算力、且在一些預測任務中不如傳統進化模型等短板。
同時,它也克服了GPN-MSA在新數據場景下泛化能力不足等弱點。
GPN-Star的三點重要改進
GPN-Star(Genomic Pretrained Network with Species Tree and Alignment Representations,融合物種進化樹與序列比對表示的基因組預訓練神經網絡),是一種基因組語言模型,它的靈感來自經典進化模型,目標是畫出演化軌跡。
研究人員采用了專門的Transformer架構,既能夠捕捉到WGA中的進化信號,又能夠融入基因組上下文信息(圖1A)。

該模型是純編碼器,以掩碼語言建模(MLM)為目標訓練,輸入跨物種WGA窗口和系統發育樹。
相比GPN-MSA,GPN-Star實現了三點升級:
- 訓練數據更加多樣
GPN-MSA僅在人類基因組上進行掩碼訓練,而GPN-Star則在多個物種中預測被掩碼的堿基,顯著擴大了訓練數據的規模與多樣性。 - 顯式引入物種間系統發育關系
GPN-Star通過定制的注意力模塊,可能更貼近生物學實現更精準建模。 - 靈活適配任意比對數據
無需像GPN-MSA手動剔除近緣物種。
GPN-Star是一個通用且高度靈活的框架,可適用于任何物種的比對數據,僅需最小程度的超參數調優即可獲得強大性能。
研究人員先將其在人類基因組落地,分別用目前最大規模的脊椎動物、哺乳動物與靈長類WGA數據分別訓練了三個GPN-Star模型(V)、(M)、(P)(圖1B)。

研究人員重點分析了2億參數版本,結果顯示其計算資源開銷遠低于之前的GLM模型。
與以往超長時跨度(例如從原核生物到人類)的GLM不同,GPN-Star聚焦于近緣系統發育距離(圖1B)。
很多情況下,建模較短進化歷史往往更具優勢。尤其是在解釋某些類型的遺傳變異時,捕捉近期的進化約束效果更佳(圖1C)。

致病性編碼變異預測
研究人員系統評估了GPN-Star在一系列標準測試集中的預測能力。
對比PhyloP、PhastCons、CADD、以及新一代多物種GLM(如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA)之后,GPN-Star (V) 在精確率-召回曲線面積(AUPRC)方面表現最佳,與蛋白語言模型 ESM-1b相當(圖 2A)。

研究人員用COSMIC數據庫評估了GPN-Star體細胞錯義變異的預測性能,結果GPN-Star(V)明顯優于所有對比模型,表現出極強的體細胞致病性預測能力(圖2B)。

研究人員還在ProteinGym的31個DMS數據集上測試,GPN-Star(V)為基因組級最佳,僅略遜蛋白專用ESM-1b(圖2D)。

在非編碼任務中,研究人員重點評估致病非編碼變異。
評測用OMIM與HGMD,評測結果GPN-Star(M)雙基準奪冠(圖2E、F)。

考慮到啟動子區域在轉錄起始和基因調控中的關鍵作用,研究人員還評估了GPN-Star在OMIM啟動子變異中的表現,并啟動了三個子專用模型:PromoterAI、SpeciesLM和GPN-Promoter。
如圖2H所示,GPN-Star(M)在預測性能上明顯優于所有對比模型,尤其是在與其他啟動子模型的比較中,其提升幅度尤為顯著。

定位錯義變異
為了進一步評估GPN-Star的實用價值,研究人員還測試了它在對來自英國生物銀行(UK Biobank)65個性狀的GWAS(全基因組關聯研究)精細定位錯義變異中,區分潛在因果變異與非因果變異的能力。
在所有參評模型中,GPN-Star(M)在區分這些精細定位的錯義變異中表現最好(圖2C)。

在對英國生物銀行的83個性狀的GWAS精細定位數據的基準測試中,GPN-Star(M)再次優于所有其他模型(圖2G)。

對于位于啟動子區域的精細定位變異,GPN-Star(M)再次超越了所有模型,包括PromoterAI、SpeciesLM和GPN-Promoter(圖2H)。

強大的全基因組變異解讀框架
上述結果表明,GPN-Star是一個強大、多用途的全基因組變異解讀框架。
研究人員在多個基準測試中,觀察到基于更長進化時間尺度訓練的模型,更容易預測編碼變異以及低頻、效應大的變異。
而非編碼變異以及高頻、效應較小的變異,則更適合使用在較短進化時間尺度上訓練的模型進行預測。
PhyloP和PhastCons分數在三種進化時間尺度下也呈現出類似趨勢,但在每一種時間尺度下,GPN-Star表現都優于二者(圖2I)。

考慮到GPN-Star在致病變異和精細定位變異預測中的強勁表現,研究人員進一步探索了它在稀有變異關聯分析(RVAT)中的應用潛力,發現GPN-Star提升了稀有變異關聯分析的能力。
學習基因組功能元件及依賴關系
GLM模型可以通過預測被遮蔽的核苷酸來學習強大的序列表示。
為探究這一點,研究人員可視化了基因區、cCRE和背景區的基因組窗口嵌入(圖4A)。

研究發現,保守序列窗口的嵌入在功能區域上的聚類性更強(圖4B),說明GPN-Star在預測時能識別基因組的關鍵功能元素。

為了進一步分析GPN-Star是否理解基因組「語法」,研究人員系統地對序列中每個位置進行突變,并計算該變異對其它位置預測概率的影響。
在編碼酶酪氨酸羥化酶的TH基因啟動子及首個外顯子區域中,研究人員觀察到兩個強依賴模塊:
一個在編碼區,另一個在轉錄因子CREB的結合位點,該位點突變已知會引發酪氨酸羥化酶缺乏癥和肌張力障礙(圖4C)。

在HBA1基因中,研究人員也觀察到跨外顯子的依賴關系。
該基因的內含子極短,能夠完整落入模型上下文窗口內。剪接供體與受體區域間的依賴關系尤其顯著,與已有研究結果一致。
隨后研究人員分析了LDLR啟動子,該區域與家族性高膽固醇血癥相關,且已通過MPRA等方法廣泛研究。
模型可根據堿基依賴圖中的塊結構準確預測TFBS的位置(圖4D),同時還能識別TFBS之間的依賴關系。

最后,研究人員分析了一個被認為受到靈長類特異性進化約束的開放區域。
在該區域的一個潛在TEAD4結合位點附近,GPN-Star(P)模型預測到了最強的依賴信號。
這些結果表明,GPN-Star能夠通過協同進化信號學習有意義的堿基依賴結構,且與已知功能依賴一致。
這相較于傳統的保守性評分方法(如PhyloP和PhastCons)是一次顯著的進步。
為了更直接地評估模型預測與基因組中進化約束之間的關聯,研究人員利用了gnomAD v3.1.2提供的等位基因頻率數據,該版本匯總了來自76,156名個體的全基因組測序樣本。
研究人員重點將GPN-Star與PhyloP和PhastCons進行對比,這兩種模型同樣基于全基因組比對(WGA)數據來學習進化約束。
為了評估模型對等位基因頻率與約束關系的捕捉能力,研究人員選取了這三種模型在脊椎動物、哺乳動物和靈長類三個不同進化時間尺度上的版本,對gnomAD v3中第22號染色體的全部變異進行了預測(該染色體未用于GPN-Star模型訓練)。
隨后,研究人員按照每個模型的評分分位數對變異進行分組,并對各組中的平均等位基因頻率進行比較。
如圖5A所示,在所有三個時間尺度下,GPN-Star評分最低分位數中的變異平均頻率顯著低于對應的PhyloP和PhastCons分組,表明GPN-Star更準確地捕捉了人類基因組中的選擇性約束。

研究人員進一步進行量化分析,關注模型評分分布中「最具約束力」的尾部區間。如圖5B所示,三種GPN-Star模型在稀有變異富集上均明顯優于PhyloP、PhastCons和CADD。

在GPN-Star各版本中,基于脊椎動物訓練的模型整體表現最佳,甚至超過了同樣以脊椎動物數據訓練的GPN-MSA。
進一步按分子功能后果對變異進行分層分析后,GPN-Star在所有類別中均取得最高富集度。
其中,GPN-Star(V)在錯義變異中表現最優,而GPN-Star(M)則在同義與非編碼變異方面領先,這一趨勢與先前基準測試中的觀察結果一致。
研究人員研究了上下文相關的突變率差異對模型預測的影響,發現控制突變率變異有助于提升變異效應預測的準確性。
由于GPN-Star是在真實基因組序列上訓練的,其預測自然同時反映了突變過程和選擇過程的綜合影響。
研究人員在致病性預測和復雜性狀遺傳力方面的結果證明了GPN-Star在人類遺傳學中的實用性。
將進化數據與功能基因組數據結合,開發更強大的多模態基因語言模型,是未來非常值得探索的方向。



































