David Baker 團(tuán)隊(duì)最新研究,利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì),成功率極高 原創(chuàng)
1977 年,英國生物化學(xué)家弗雷德里克·桑格(Frederick Sanger)在解析 ΦX174 噬菌體基因組時(shí),首次發(fā)現(xiàn)了一個(gè)顛覆認(rèn)知的現(xiàn)象:這個(gè)僅 5.4kb 的 DNA 分子編碼的蛋白質(zhì)總長度,遠(yuǎn)超其物理容量限制。測序結(jié)果揭示,兩對基因通過不同閱讀框架共享同一 DNA 區(qū)域——這種被稱為重疊基因(OLG)的現(xiàn)象,在病毒世界中極為普遍。例如,乙型肝炎病毒 3.2kb 基因組中,50% 區(qū)域被多對重疊基因覆蓋,超過半數(shù)已知病毒至少含有一個(gè) OLG。
這種突破直覺的基因組設(shè)計(jì),暗藏著病毒的生存智慧:當(dāng)病毒在宿主細(xì)胞內(nèi)爭奪有限空間時(shí),OLG 通過「基因疊羅漢」策略,讓單個(gè)核苷酸同時(shí)參與兩個(gè)密碼子編碼,在緊湊序列中實(shí)現(xiàn)功能疊加。桑格團(tuán)隊(duì)的發(fā)現(xiàn)開啟了相關(guān)研究,后續(xù)研究表明,OLG 編碼的蛋白質(zhì)常具有高序列簡并性(degenerate),其氨基酸序列容錯性使兩種功能蛋白能在同一 DNA 鏈共存。更關(guān)鍵的是,即使需要形成明確三維結(jié)構(gòu)的蛋白質(zhì),也能通過序列編排,在不同閱讀框架中實(shí)現(xiàn)折疊兼容。
然而,核心疑問始終存在:標(biāo)準(zhǔn)遺傳密碼下,氨基酸序列簡并性能否支持任意功能蛋白對在重疊框架中折疊?當(dāng)核苷酸需兼顧雙重編碼時(shí),蛋白質(zhì)折疊的序列空間是否被嚴(yán)重限制?
美國華盛頓大學(xué) David Baker 團(tuán)隊(duì)近期利用先進(jìn)生成模型,通過合成 OLG 設(shè)計(jì)研究,從工程化角度驗(yàn)證其可行性。研究團(tuán)隊(duì)針對兩個(gè)蛋白家族設(shè)計(jì)重疊序列,編碼高度有序的從頭設(shè)計(jì)蛋白結(jié)構(gòu),計(jì)算機(jī)模擬與實(shí)驗(yàn)驗(yàn)證均顯示出極高成功率:在重疊約束下,可變閱讀框架(alternative reading frames)不僅能容納明確三維折疊,同時(shí)其結(jié)構(gòu)穩(wěn)定性與功能完整性與非重疊序列相當(dāng)。
相關(guān)研究成果以「Design of overlapping genes using deep generative models of protein sequences」為題,已在 bioRxiv 發(fā)表預(yù)印本。

論文地址:
??https://doi.org/10.1101/2025.05.06.652464??
開源項(xiàng)目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
???https://github.com/hyperai/awesome-ai4s??
數(shù)據(jù)集:整合多維度數(shù)據(jù)資源與分析方法
為解析遺傳密碼可塑性及其在蛋白質(zhì)設(shè)計(jì)中的應(yīng)用,研究整合多維度數(shù)據(jù)資源與分析方法,構(gòu)建從理論設(shè)計(jì)到實(shí)驗(yàn)驗(yàn)證的完整研究鏈條。
在遺傳密碼隨機(jī)化研究中,該研究基于氨基酸置換(amino acid permutation)與密碼子重排(Codon shufflers)策略,生成 1,000 種替代密碼子組合。這一數(shù)據(jù)集通過明確的算法設(shè)計(jì)保障了樣本多樣性與均勻性,為評估密碼子重排的功能影響提供了統(tǒng)計(jì)學(xué)基準(zhǔn)。
同時(shí),研究選取 3 個(gè)具有代表性的二級結(jié)構(gòu)目標(biāo)蛋白,構(gòu)建 9 組成對組合,在控制變量的前提下實(shí)現(xiàn)實(shí)驗(yàn)條件的標(biāo)準(zhǔn)化,有效連接遺傳密碼變異與蛋白質(zhì)結(jié)構(gòu)功能的關(guān)聯(lián)性分析。
在蛋白質(zhì)結(jié)構(gòu)域序列分析環(huán)節(jié),該研究從 Pfam 37.0 數(shù)據(jù)庫提取種子序列,通過隨機(jī)抽樣截取長度 100 氨基酸的子區(qū)域,并利用馬爾可夫模型生成保留 k-mer 分布的合成蛋白序列。該方法融合生物信息學(xué)篩選與統(tǒng)計(jì)建模,既保留天然蛋白質(zhì)的序列特征,又通過引入可控隨機(jī)變量創(chuàng)建對照樣本,為后續(xù)分析提供了兼具自然屬性與人工設(shè)計(jì)特征的創(chuàng)新數(shù)據(jù)集。
在蛋白質(zhì)語言模型嵌入分析中,研究人員提取 ESM2、ESM3 和 ProstT5 的隱藏層特征,經(jīng)位置平均后通過 UMAP 算法投影至二維空間。通過精準(zhǔn)設(shè)定 n_neighbors = 15 等參數(shù),高維序列特征被轉(zhuǎn)化為直觀的拓?fù)鋱D譜,在保留序列相似性結(jié)構(gòu)的同時(shí),為跨模型比較提供了統(tǒng)一的可視化框架,展現(xiàn)了計(jì)算生物學(xué)與數(shù)據(jù)可視化的前沿結(jié)合。
在實(shí)驗(yàn)驗(yàn)證階段,研究人員對 192 個(gè)重疊基因進(jìn)行克隆重組,生成 384 種框架位移蛋白變體。實(shí)驗(yàn)嚴(yán)格控制關(guān)鍵參數(shù):37°C 培養(yǎng) 20 小時(shí)確保大腸桿菌表達(dá)系統(tǒng)穩(wěn)定,6M 鹽酸胍梯度復(fù)性方案保障包涵體蛋白正確折疊。這種從分子設(shè)計(jì)到純化表征的全流程量化控制,不僅提升了研究結(jié)論的可重復(fù)性,更為蛋白質(zhì)工程提供了標(biāo)準(zhǔn)化實(shí)驗(yàn)范式。

OLG 的克隆重組示意圖
基于生成模型的 OLG 設(shè)計(jì):多框架兼容的序列同步優(yōu)化方法
該研究開發(fā)了一種計(jì)算算法,有效應(yīng)對重疊基因(OLG)設(shè)計(jì)中因編碼框架相互依賴導(dǎo)致的序列空間受限難題,實(shí)現(xiàn)了兩個(gè)蛋白序列適應(yīng)性的同步優(yōu)化。
在算法設(shè)計(jì)層面,研究整合了 EvoDiff-MSA 和 ProteinMPNN 等生成模型。前者基于 MSA Transformer 架構(gòu),通過自回歸擴(kuò)散目標(biāo)訓(xùn)練,能以目標(biāo)蛋白多序列比對(MSA)為條件生成設(shè)計(jì)序列;后者作為結(jié)構(gòu)條件生成模型,可在給定三維結(jié)構(gòu)時(shí)設(shè)計(jì)對應(yīng)蛋白序列。兩類模型均采用逐位置掩蔽與約束采樣策略,生成了涵蓋多種偏移量和框架排列的重疊序列庫。
如下圖 A 所示,針對 5 種可變閱讀框架(+1、+2、-0、-1、-2)的相位約束,該研究提出逐幀(Frame)迭代采樣策略。

在同一核苷酸序列中編碼一對蛋白質(zhì)的 5 種可能的可變閱讀框架
如下圖 B 所示,通過分析 -0 框架的氨基酸兼容性矩陣發(fā)現(xiàn),參考框架中單個(gè)位置平均存在 2.6 種兼容氨基酸選擇,形成 52?(n 為序列長度)種潛在重疊序列對,凸顯遺傳密碼簡并性帶來的設(shè)計(jì)空間。借助蒙特卡洛近似(Monte Carlo approximation)量化其他框架自由度(degrees of freedom),如下圖 C 所示,結(jié)果顯示 +1 和 -1 框架自由度較高(分別約 2.8 和 2.9),而 -2 框架因密碼子簡并性利用效率低,自由度顯著受限(約1.4)。

二維兼容性矩陣和蒙特卡洛近似圖
最終,如下圖 D 所示,算法通過系統(tǒng)掃描序列位置(Scan order),在每次掃描中結(jié)合相鄰氨基酸約束動態(tài)更新聯(lián)合概率(joint probability)矩陣,經(jīng)多輪迭代后確保生成的重疊序列對滿足框架的兼容性(compatibility)。該策略可擴(kuò)展至含相位偏移的復(fù)雜框架,通過偏置掃描順序優(yōu)化設(shè)計(jì)質(zhì)量,為生成模型的迭代解碼(iterative decoding)提供了關(guān)鍵約束條件。

設(shè)計(jì) OLG 的約束迭代采樣算法示意圖
超越天然模板限制:高效生成任意蛋白質(zhì)對的合成 OLG
實(shí)驗(yàn)設(shè)計(jì)涵蓋了多個(gè)方向,包括基于同源性的 OLG 設(shè)計(jì)評估、高度有序蛋白質(zhì)主鏈結(jié)構(gòu)的重疊可行性分析、OLG 序列的進(jìn)化可及性研究以及實(shí)驗(yàn)驗(yàn)證。
在基于同源性的 OLG 設(shè)計(jì)評估中,如下圖 A 所示,研究團(tuán)隊(duì)選取細(xì)菌莽草酸突變酶(CM)與翻譯起始因子 1(IF1)為目標(biāo),借助 EvoDiff-MSA 生成模型,以多序列比對(MSA)作為條件上下文,經(jīng)逐位置掩蔽與約束采樣,生成 3,307 個(gè)完全重疊序列(Overlapping sequence)設(shè)計(jì)。
如下圖 B 所示,盡管設(shè)計(jì)序列與天然序列同源性僅 38.9%(CM)和 42.3%(IF1),但蛋白質(zhì)語言模型嵌入分析顯示,其在二維空間分布與天然序列高度契合,表明這些設(shè)計(jì)序列是目標(biāo)蛋白家族的可信成員,驗(yàn)證了算法對天然蛋白家族的設(shè)計(jì)能力。

基于同源性的 OLG 設(shè)計(jì)評估
在探究高度有序蛋白質(zhì)主鏈結(jié)構(gòu)的重疊可行性時(shí),如下圖 A 所示,研究人員利用 ProteinMPNN 結(jié)構(gòu)條件生成模型,針對 15 種從頭生成的主鏈結(jié)構(gòu)(覆蓋 α、β 及混合折疊類別),分別生成 56,250 個(gè)重疊設(shè)計(jì)與 33,000 個(gè)非重疊設(shè)計(jì)。如下圖 B 所示,AlphaFold2 評估數(shù)據(jù)顯示,重疊設(shè)計(jì)的平均 pLDDT 值為 90.2,與非重疊設(shè)計(jì)的 92.0 接近。

高度有序蛋白質(zhì)主鏈結(jié)構(gòu)的 OLG 序列設(shè)計(jì)分析
進(jìn)一步分析發(fā)現(xiàn),如下圖 C-D 所示,僅 -2 框架因密碼子(codons)簡并性利用效率低導(dǎo)致表現(xiàn)欠佳。隨機(jī)化遺傳密碼分析表明,天然遺傳密碼(SGC)在編碼 OLG 時(shí)優(yōu)勢顯著,除 -2 框架外均表現(xiàn)良好,且對高簡并性氨基酸存在組成偏好,揭示了 SGC 結(jié)構(gòu)對重疊序列可行性的影響機(jī)制。

pldts 分布和 AlphaFold2 預(yù)測
在進(jìn)化可及性研究中,研究團(tuán)隊(duì)以固定突變數(shù)量的種子蛋白序列為起始。如下圖 G-F 所示,研究發(fā)現(xiàn)即便在零突變的極端條件下,仍有約 1% 的設(shè)計(jì)能達(dá)到高結(jié)構(gòu)穩(wěn)定性(pLDDT>85,TM>0.7);以天然 Pfam 序列作為親本時(shí),成功率提升至 3%,且該結(jié)果與保留一階組成偏差的隨機(jī)序列一致。這充分表明,高度優(yōu)化的天然蛋白無需大幅序列改變,即可在替代框架中容納新蛋白,驗(yàn)證了 OLG 在進(jìn)化層面的可行性。

OLG 序列的進(jìn)化可及性研究結(jié)果
最終的實(shí)驗(yàn)驗(yàn)證部分,研究團(tuán)隊(duì)對 192 個(gè)重疊序列進(jìn)行了重組表達(dá)和結(jié)構(gòu)表征。結(jié)果表明,如下圖 B 所示,54% 的單個(gè)蛋白質(zhì)成功表達(dá),并且大多數(shù)具有預(yù)期的二級結(jié)構(gòu)和高熱穩(wěn)定性。

成功表達(dá)的蛋白概述
此外,如下圖 D-F 所示,成功率因蛋白質(zhì)的二級結(jié)構(gòu)含量而異,其中 α 螺旋蛋白的成功率最高。此外,31% 的重疊對成功純化,且一個(gè)框架的成功并不影響另一個(gè)框架的成功。這些結(jié)果進(jìn)一步支持了 OLG 序列的高可行性和實(shí)驗(yàn)驗(yàn)證率,證明了該算法在設(shè)計(jì)功能性和結(jié)構(gòu)穩(wěn)定重疊蛋白方面的有效性。

從頭設(shè)計(jì) OLG 蛋白對的實(shí)驗(yàn)表征
合成生物學(xué)領(lǐng)域的前沿探索,OLG 工程化應(yīng)用逐步深入
在合成生物學(xué)領(lǐng)域,全球多地的研究團(tuán)隊(duì)與企業(yè)正投身于對重疊基因(OLG)工程化應(yīng)用的深入探索之中。
例如,來自清華大學(xué)朱聽課題組在鏡像生物學(xué)系統(tǒng)研究方面取得了顯著進(jìn)展,成功實(shí)現(xiàn)了全化學(xué)合成的鏡像 Pfu DNA 聚合酶,這不僅使得千堿基長度的鏡像 DNA 組裝成為現(xiàn)實(shí),還開發(fā)出了基于鏡像 DNA 的信息存儲技術(shù)。這種技術(shù)運(yùn)用鏡像基因的編碼策略,為 OLG 的雙向功能疊加提供了全新的思路。當(dāng)鏡像 DNA 的雙螺旋結(jié)構(gòu)同時(shí)承載天然與鏡像遺傳信息時(shí),序列空間的利用率得到了顯著提升,為人工基因組的緊湊設(shè)計(jì)提供了重要的基礎(chǔ)。
* 論文鏈接:??https://www.nature.com/articles/s41587-021-00969-6??
此外,美國麻省理工學(xué)院的 Christopher Voigt 團(tuán)隊(duì)開發(fā)了基于基因線路設(shè)計(jì)的合成生物學(xué)平臺。他們通過重構(gòu)原核生物基因簇的調(diào)控邏輯,成功實(shí)現(xiàn)了代謝途徑的模塊化組裝。這種技術(shù)路徑與 OLG 的設(shè)計(jì)理念緊密契合。當(dāng)多個(gè)功能基因通過重疊序列形成緊密的遺傳模塊時(shí),既能減少基因組的冗余,又能通過協(xié)同表達(dá)提升系統(tǒng)的穩(wěn)定性。例如,該團(tuán)隊(duì)設(shè)計(jì)的人工固氮基因簇采用 OLG 策略,將多個(gè)關(guān)鍵酶的編碼序列壓縮至同一 DNA 區(qū)域,在保證催化效率的前提下,顯著降低了宿主細(xì)胞的代謝負(fù)擔(dān)。
* 論文鏈接:??https://www.nature.com/articles/s41467-022-33272-2??
需要關(guān)注的是,這些研究不僅揭示了 OLG 在自然進(jìn)化中的廣泛存在,還通過工程化手段驗(yàn)證了其生物物理上的可行性。在本文所介紹的研究中,David Baker 團(tuán)隊(duì)利用深度學(xué)習(xí)模型設(shè)計(jì)的合成 OLG,在計(jì)算機(jī)模擬中展現(xiàn)出了與天然序列相當(dāng)?shù)慕Y(jié)構(gòu)穩(wěn)定性。實(shí)驗(yàn)驗(yàn)證的高成功率進(jìn)一步證明了重疊編碼的生物學(xué)兼容性。這種從基礎(chǔ)研究到應(yīng)用轉(zhuǎn)化的完整閉環(huán),正在重塑合成生物學(xué)的設(shè)計(jì)邏輯,有望在創(chuàng)新藥物研發(fā)、精準(zhǔn)診斷、細(xì)胞治療等多個(gè)領(lǐng)域帶來全新突破。
參考資料:
1.??https://www.tsinghua.edu.cn/info/1181/86148.htm??2.https://tech.huanqiu.com/article/9CaKrnJUV0x
3.??https://news.bioon.com/article/4161e88572ad.html??

















