David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高原創(chuàng)

發(fā)布于 2025-5-13 15:28

瀏覽

0收藏

1977 年，英國生物化學(xué)家弗雷德里克·桑格（Frederick Sanger）在解析 ΦX174 噬菌體基因組時(shí)，首次發(fā)現(xiàn)了一個(gè)顛覆認(rèn)知的現(xiàn)象：這個(gè)僅 5.4kb 的 DNA 分子編碼的蛋白質(zhì)總長度，遠(yuǎn)超其物理容量限制。測序結(jié)果揭示，兩對基因通過不同閱讀框架共享同一 DNA 區(qū)域——這種被稱為重疊基因（OLG）的現(xiàn)象，在病毒世界中極為普遍。例如，乙型肝炎病毒 3.2kb 基因組中，50% 區(qū)域被多對重疊基因覆蓋，超過半數(shù)已知病毒至少含有一個(gè) OLG。

這種突破直覺的基因組設(shè)計(jì)，暗藏著病毒的生存智慧：當(dāng)病毒在宿主細(xì)胞內(nèi)爭奪有限空間時(shí)，OLG 通過「基因疊羅漢」策略，讓單個(gè)核苷酸同時(shí)參與兩個(gè)密碼子編碼，在緊湊序列中實(shí)現(xiàn)功能疊加。桑格團(tuán)隊(duì)的發(fā)現(xiàn)開啟了相關(guān)研究，后續(xù)研究表明，OLG 編碼的蛋白質(zhì)常具有高序列簡并性（degenerate），其氨基酸序列容錯性使兩種功能蛋白能在同一 DNA 鏈共存。更關(guān)鍵的是，即使需要形成明確三維結(jié)構(gòu)的蛋白質(zhì)，也能通過序列編排，在不同閱讀框架中實(shí)現(xiàn)折疊兼容。

然而，核心疑問始終存在：標(biāo)準(zhǔn)遺傳密碼下，氨基酸序列簡并性能否支持任意功能蛋白對在重疊框架中折疊？當(dāng)核苷酸需兼顧雙重編碼時(shí)，蛋白質(zhì)折疊的序列空間是否被嚴(yán)重限制？

美國華盛頓大學(xué) David Baker 團(tuán)隊(duì)近期利用先進(jìn)生成模型，通過合成 OLG 設(shè)計(jì)研究，從工程化角度驗(yàn)證其可行性。研究團(tuán)隊(duì)針對兩個(gè)蛋白家族設(shè)計(jì)重疊序列，編碼高度有序的從頭設(shè)計(jì)蛋白結(jié)構(gòu)，計(jì)算機(jī)模擬與實(shí)驗(yàn)驗(yàn)證均顯示出極高成功率：在重疊約束下，可變閱讀框架（alternative reading frames）不僅能容納明確三維折疊，同時(shí)其結(jié)構(gòu)穩(wěn)定性與功能完整性與非重疊序列相當(dāng)。

相關(guān)研究成果以「Design of overlapping genes using deep generative models of protein sequences」為題，已在 bioRxiv 發(fā)表預(yù)印本。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

論文地址：

??https://doi.org/10.1101/2025.05.06.652464??

開源項(xiàng)目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀，并提供海量數(shù)據(jù)集與工具：
???https://github.com/hyperai/awesome-ai4s??

數(shù)據(jù)集：整合多維度數(shù)據(jù)資源與分析方法

為解析遺傳密碼可塑性及其在蛋白質(zhì)設(shè)計(jì)中的應(yīng)用，研究整合多維度數(shù)據(jù)資源與分析方法，構(gòu)建從理論設(shè)計(jì)到實(shí)驗(yàn)驗(yàn)證的完整研究鏈條。

在遺傳密碼隨機(jī)化研究中，該研究基于氨基酸置換（amino acid permutation）與密碼子重排（Codon shufflers）策略，生成 1,000 種替代密碼子組合。這一數(shù)據(jù)集通過明確的算法設(shè)計(jì)保障了樣本多樣性與均勻性，為評估密碼子重排的功能影響提供了統(tǒng)計(jì)學(xué)基準(zhǔn)。

同時(shí)，研究選取 3 個(gè)具有代表性的二級結(jié)構(gòu)目標(biāo)蛋白，構(gòu)建 9 組成對組合，在控制變量的前提下實(shí)現(xiàn)實(shí)驗(yàn)條件的標(biāo)準(zhǔn)化，有效連接遺傳密碼變異與蛋白質(zhì)結(jié)構(gòu)功能的關(guān)聯(lián)性分析。

在蛋白質(zhì)結(jié)構(gòu)域序列分析環(huán)節(jié)，該研究從 Pfam 37.0 數(shù)據(jù)庫提取種子序列，通過隨機(jī)抽樣截取長度 100 氨基酸的子區(qū)域，并利用馬爾可夫模型生成保留 k-mer 分布的合成蛋白序列。該方法融合生物信息學(xué)篩選與統(tǒng)計(jì)建模，既保留天然蛋白質(zhì)的序列特征，又通過引入可控隨機(jī)變量創(chuàng)建對照樣本，為后續(xù)分析提供了兼具自然屬性與人工設(shè)計(jì)特征的創(chuàng)新數(shù)據(jù)集。

在蛋白質(zhì)語言模型嵌入分析中，研究人員提取 ESM2、ESM3 和 ProstT5 的隱藏層特征，經(jīng)位置平均后通過 UMAP 算法投影至二維空間。通過精準(zhǔn)設(shè)定 n_neighbors = 15 等參數(shù)，高維序列特征被轉(zhuǎn)化為直觀的拓?fù)鋱D譜，在保留序列相似性結(jié)構(gòu)的同時(shí)，為跨模型比較提供了統(tǒng)一的可視化框架，展現(xiàn)了計(jì)算生物學(xué)與數(shù)據(jù)可視化的前沿結(jié)合。

在實(shí)驗(yàn)驗(yàn)證階段，研究人員對 192 個(gè)重疊基因進(jìn)行克隆重組，生成 384 種框架位移蛋白變體。實(shí)驗(yàn)嚴(yán)格控制關(guān)鍵參數(shù)：37°C 培養(yǎng) 20 小時(shí)確保大腸桿菌表達(dá)系統(tǒng)穩(wěn)定，6M 鹽酸胍梯度復(fù)性方案保障包涵體蛋白正確折疊。這種從分子設(shè)計(jì)到純化表征的全流程量化控制，不僅提升了研究結(jié)論的可重復(fù)性，更為蛋白質(zhì)工程提供了標(biāo)準(zhǔn)化實(shí)驗(yàn)范式。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

OLG 的克隆重組示意圖

基于生成模型的 OLG 設(shè)計(jì)：多框架兼容的序列同步優(yōu)化方法

該研究開發(fā)了一種計(jì)算算法，有效應(yīng)對重疊基因（OLG）設(shè)計(jì)中因編碼框架相互依賴導(dǎo)致的序列空間受限難題，實(shí)現(xiàn)了兩個(gè)蛋白序列適應(yīng)性的同步優(yōu)化。

在算法設(shè)計(jì)層面，研究整合了 EvoDiff-MSA 和 ProteinMPNN 等生成模型。前者基于 MSA Transformer 架構(gòu)，通過自回歸擴(kuò)散目標(biāo)訓(xùn)練，能以目標(biāo)蛋白多序列比對（MSA）為條件生成設(shè)計(jì)序列；后者作為結(jié)構(gòu)條件生成模型，可在給定三維結(jié)構(gòu)時(shí)設(shè)計(jì)對應(yīng)蛋白序列。兩類模型均采用逐位置掩蔽與約束采樣策略，生成了涵蓋多種偏移量和框架排列的重疊序列庫。

如下圖 A 所示，針對 5 種可變閱讀框架（+1、+2、-0、-1、-2）的相位約束，該研究提出逐幀（Frame）迭代采樣策略。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

在同一核苷酸序列中編碼一對蛋白質(zhì)的 5 種可能的可變閱讀框架

如下圖 B 所示，通過分析 -0 框架的氨基酸兼容性矩陣發(fā)現(xiàn)，參考框架中單個(gè)位置平均存在 2.6 種兼容氨基酸選擇，形成 52?（n 為序列長度）種潛在重疊序列對，凸顯遺傳密碼簡并性帶來的設(shè)計(jì)空間。借助蒙特卡洛近似（Monte Carlo approximation）量化其他框架自由度（degrees of freedom），如下圖 C 所示，結(jié)果顯示 +1 和 -1 框架自由度較高（分別約 2.8 和 2.9），而 -2 框架因密碼子簡并性利用效率低，自由度顯著受限（約1.4）。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

二維兼容性矩陣和蒙特卡洛近似圖

最終，如下圖 D 所示，算法通過系統(tǒng)掃描序列位置（Scan order），在每次掃描中結(jié)合相鄰氨基酸約束動態(tài)更新聯(lián)合概率（joint probability）矩陣，經(jīng)多輪迭代后確保生成的重疊序列對滿足框架的兼容性（compatibility）。該策略可擴(kuò)展至含相位偏移的復(fù)雜框架，通過偏置掃描順序優(yōu)化設(shè)計(jì)質(zhì)量，為生成模型的迭代解碼（iterative decoding）提供了關(guān)鍵約束條件。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

設(shè)計(jì) OLG 的約束迭代采樣算法示意圖

超越天然模板限制：高效生成任意蛋白質(zhì)對的合成 OLG

實(shí)驗(yàn)設(shè)計(jì)涵蓋了多個(gè)方向，包括基于同源性的 OLG 設(shè)計(jì)評估、高度有序蛋白質(zhì)主鏈結(jié)構(gòu)的重疊可行性分析、OLG 序列的進(jìn)化可及性研究以及實(shí)驗(yàn)驗(yàn)證。

在基于同源性的 OLG 設(shè)計(jì)評估中，如下圖 A 所示，研究團(tuán)隊(duì)選取細(xì)菌莽草酸突變酶（CM）與翻譯起始因子 1（IF1）為目標(biāo)，借助 EvoDiff-MSA 生成模型，以多序列比對（MSA）作為條件上下文，經(jīng)逐位置掩蔽與約束采樣，生成 3,307 個(gè)完全重疊序列（Overlapping sequence）設(shè)計(jì)。

如下圖 B 所示，盡管設(shè)計(jì)序列與天然序列同源性僅 38.9%（CM）和 42.3%（IF1），但蛋白質(zhì)語言模型嵌入分析顯示，其在二維空間分布與天然序列高度契合，表明這些設(shè)計(jì)序列是目標(biāo)蛋白家族的可信成員，驗(yàn)證了算法對天然蛋白家族的設(shè)計(jì)能力。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

基于同源性的 OLG 設(shè)計(jì)評估

在探究高度有序蛋白質(zhì)主鏈結(jié)構(gòu)的重疊可行性時(shí)，如下圖 A 所示，研究人員利用 ProteinMPNN 結(jié)構(gòu)條件生成模型，針對 15 種從頭生成的主鏈結(jié)構(gòu)（覆蓋 α、β 及混合折疊類別），分別生成 56,250 個(gè)重疊設(shè)計(jì)與 33,000 個(gè)非重疊設(shè)計(jì)。如下圖 B 所示，AlphaFold2 評估數(shù)據(jù)顯示，重疊設(shè)計(jì)的平均 pLDDT 值為 90.2，與非重疊設(shè)計(jì)的 92.0 接近。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

高度有序蛋白質(zhì)主鏈結(jié)構(gòu)的 OLG 序列設(shè)計(jì)分析

進(jìn)一步分析發(fā)現(xiàn)，如下圖 C-D 所示，僅 -2 框架因密碼子（codons）簡并性利用效率低導(dǎo)致表現(xiàn)欠佳。隨機(jī)化遺傳密碼分析表明，天然遺傳密碼（SGC）在編碼 OLG 時(shí)優(yōu)勢顯著，除 -2 框架外均表現(xiàn)良好，且對高簡并性氨基酸存在組成偏好，揭示了 SGC 結(jié)構(gòu)對重疊序列可行性的影響機(jī)制。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

pldts 分布和 AlphaFold2 預(yù)測

在進(jìn)化可及性研究中，研究團(tuán)隊(duì)以固定突變數(shù)量的種子蛋白序列為起始。如下圖 G-F 所示，研究發(fā)現(xiàn)即便在零突變的極端條件下，仍有約 1% 的設(shè)計(jì)能達(dá)到高結(jié)構(gòu)穩(wěn)定性（pLDDT>85，TM>0.7）；以天然 Pfam 序列作為親本時(shí)，成功率提升至 3%，且該結(jié)果與保留一階組成偏差的隨機(jī)序列一致。這充分表明，高度優(yōu)化的天然蛋白無需大幅序列改變，即可在替代框架中容納新蛋白，驗(yàn)證了 OLG 在進(jìn)化層面的可行性。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

OLG 序列的進(jìn)化可及性研究結(jié)果

最終的實(shí)驗(yàn)驗(yàn)證部分，研究團(tuán)隊(duì)對 192 個(gè)重疊序列進(jìn)行了重組表達(dá)和結(jié)構(gòu)表征。結(jié)果表明，如下圖 B 所示，54% 的單個(gè)蛋白質(zhì)成功表達(dá)，并且大多數(shù)具有預(yù)期的二級結(jié)構(gòu)和高熱穩(wěn)定性。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

成功表達(dá)的蛋白概述

此外，如下圖 D-F 所示，成功率因蛋白質(zhì)的二級結(jié)構(gòu)含量而異，其中 α 螺旋蛋白的成功率最高。此外，31% 的重疊對成功純化，且一個(gè)框架的成功并不影響另一個(gè)框架的成功。這些結(jié)果進(jìn)一步支持了 OLG 序列的高可行性和實(shí)驗(yàn)驗(yàn)證率，證明了該算法在設(shè)計(jì)功能性和結(jié)構(gòu)穩(wěn)定重疊蛋白方面的有效性。

David Baker 團(tuán)隊(duì)最新研究，利用蛋白質(zhì)序列生成模型實(shí)現(xiàn)重疊基因設(shè)計(jì)，成功率極高-AI.x社區(qū)

從頭設(shè)計(jì) OLG 蛋白對的實(shí)驗(yàn)表征

合成生物學(xué)領(lǐng)域的前沿探索，OLG 工程化應(yīng)用逐步深入

在合成生物學(xué)領(lǐng)域，全球多地的研究團(tuán)隊(duì)與企業(yè)正投身于對重疊基因（OLG）工程化應(yīng)用的深入探索之中。

例如，來自清華大學(xué)朱聽課題組在鏡像生物學(xué)系統(tǒng)研究方面取得了顯著進(jìn)展，成功實(shí)現(xiàn)了全化學(xué)合成的鏡像 Pfu DNA 聚合酶，這不僅使得千堿基長度的鏡像 DNA 組裝成為現(xiàn)實(shí)，還開發(fā)出了基于鏡像 DNA 的信息存儲技術(shù)。這種技術(shù)運(yùn)用鏡像基因的編碼策略，為 OLG 的雙向功能疊加提供了全新的思路。當(dāng)鏡像 DNA 的雙螺旋結(jié)構(gòu)同時(shí)承載天然與鏡像遺傳信息時(shí)，序列空間的利用率得到了顯著提升，為人工基因組的緊湊設(shè)計(jì)提供了重要的基礎(chǔ)。
* 論文鏈接：??https://www.nature.com/articles/s41587-021-00969-6??

此外，美國麻省理工學(xué)院的 Christopher Voigt 團(tuán)隊(duì)開發(fā)了基于基因線路設(shè)計(jì)的合成生物學(xué)平臺。他們通過重構(gòu)原核生物基因簇的調(diào)控邏輯，成功實(shí)現(xiàn)了代謝途徑的模塊化組裝。這種技術(shù)路徑與 OLG 的設(shè)計(jì)理念緊密契合。當(dāng)多個(gè)功能基因通過重疊序列形成緊密的遺傳模塊時(shí)，既能減少基因組的冗余，又能通過協(xié)同表達(dá)提升系統(tǒng)的穩(wěn)定性。例如，該團(tuán)隊(duì)設(shè)計(jì)的人工固氮基因簇采用 OLG 策略，將多個(gè)關(guān)鍵酶的編碼序列壓縮至同一 DNA 區(qū)域，在保證催化效率的前提下，顯著降低了宿主細(xì)胞的代謝負(fù)擔(dān)。
* 論文鏈接：??https://www.nature.com/articles/s41467-022-33272-2??

需要關(guān)注的是，這些研究不僅揭示了 OLG 在自然進(jìn)化中的廣泛存在，還通過工程化手段驗(yàn)證了其生物物理上的可行性。在本文所介紹的研究中，David Baker 團(tuán)隊(duì)利用深度學(xué)習(xí)模型設(shè)計(jì)的合成 OLG，在計(jì)算機(jī)模擬中展現(xiàn)出了與天然序列相當(dāng)?shù)慕Y(jié)構(gòu)穩(wěn)定性。實(shí)驗(yàn)驗(yàn)證的高成功率進(jìn)一步證明了重疊編碼的生物學(xué)兼容性。這種從基礎(chǔ)研究到應(yīng)用轉(zhuǎn)化的完整閉環(huán)，正在重塑合成生物學(xué)的設(shè)計(jì)邏輯，有望在創(chuàng)新藥物研發(fā)、精準(zhǔn)診斷、細(xì)胞治療等多個(gè)領(lǐng)域帶來全新突破。

參考資料：

1.??https://www.tsinghua.edu.cn/info/1181/86148.htm??2.https://tech.huanqiu.com/article/9CaKrnJUV0x
3.??https://news.bioon.com/article/4161e88572ad.html??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

回復(fù)