OpenAI首個蛋白質模型披露更多細節,改進諾獎研究成果,表達量提升50倍
GPT-4o蛋白質專用版,已成功改進諾貝爾獎獲獎蛋白的變體。
科學家利用GPT?4b micro成功設計了新型且顯著增強的山中伸彌因子變體,將干細胞重編程標記物的表達量提升了50倍。
重新設計的蛋白質還表現出增強的DNA損傷修復能力。

這一發現已在多個供體、細胞類型和遞送方法中得到了驗證,確認了衍生iPSC系的全多能性和基因組穩定性。
有網友評價,借著AI發展的東風,我們這一代可能是首次有機會通過AI的進步實現長壽的一代。

目前,研究團隊公布了更多的突破細節。
前所未有的上下文長度
GPT?4b micro是一款OpenAI與生物技術初創公司Retro Bio合作開發的,專為蛋白質工程設計的GPT-4o微型版本。
OpenAI官方表示,該模型具備廣泛的生物學知識基礎和技能,特別注重可控性和靈活性,以支持蛋白質工程等高級應用場景。
在模型設計上,他們首先基于GPT-4o的精簡版進行系統初始化,以便充分利用GPT模型現有的知識儲備。
然后,他們在一個主要由蛋白質序列、生物文本和標記化的3D結構數據組成的數據集上對其進行了進一步訓練,這些元素是大多數蛋白質語言模型所忽略的。
團隊繼續對大部分訓練數據進行了豐富化處理,為其增添了額外的上下文信息,如文本描述、共同進化的同源序列以及已知相互作用的蛋白質組合。
有了這些上下文信息,研究者就可以促使GPT-4b micro生成具有特定期望屬性的序列。
此外,由于大多數數據是無結構的,該模型處理具有內在無序區域的蛋白質與處理結構化蛋白質同樣有效。
上述特性對于山中伸彌因子這類不穩定的蛋白質尤其有用,它們的結構不像穩定的積木,而像靈活的“軟體動物”,通過與許多不同的分子進行短暫相互作用來產生效應。
△山中伸彌蛋白KLF4(左)和SOX2(右)
通過使用富含額外上下文信息的蛋白質數據進行訓練,訓練樣本的有效上下文長度得到了顯著擴展,遠超獨立序列。
最終,研究團隊發現,即使輸入長達64000個token的超長提示,模型的可控性和輸出質量仍在持續提升。
雖然這種上下文長度在文本大語言模型中很常見,但在蛋白質序列模型中前所未有。
在開發過程中,研究團隊還觀察到了與LLM中類似的scaling laws的出現——即在更大的數據集上訓練的模型,在困惑度和下游蛋白質基準測試中的表現都有所提升。
這種特性使得研究人員能夠在小規模下進行迭代,最終訓練出GPT-4b micro。
已改進諾貝爾獲獎蛋白變體
為了證明GPT?4b micro能夠加速藥物開發,Retro Bio的科學家使用該模型重新設計了與細胞重編程研究項目相關的蛋白質。
在體外,這些重新設計的蛋白質比野生型對照組的干細胞重編程標志物表達量高出50倍以上。它們還表現出增強的DNA損傷修復能力,與基線相比顯示出更高的恢復年輕狀態的潛力。

這一發現是在2025年初做出的,現在已經在多個供體、細胞類型和遞送方法中得到了驗證,確認了衍生iPSC系的全多能性和基因組穩定性。
山中伸彌因子——OCT4、SOX2、KLF4和MYC(OSKM)是再生生物學中目前最重要的蛋白質之一,它們以發現這些因子能夠將成年細胞重編程為多能干細胞的山中伸彌(Yamanaka Shin’ya)的名字命名,這一發現使他在2012年獲得了諾貝爾生理學或醫學獎。
這些因子也被用于開發治療失明的藥物、逆轉糖尿病、治療不孕不育以及解決器官短缺問題。
但它們存在效率低下的問題:在治療過程中,通常只有不到0.1%的細胞會轉化,這個過程可能需要三周或更長時間。并且,在來自衰老或患病供體的細胞中,效率會進一步下降。
因此,尋找更有效的變體仍然是一個活躍且重要的研究重點。
但直接優化蛋白質序列非常困難——SOX2包含317個氨基酸,KLF4則有513個,可能的變體數量達到了10^1000量級。
傳統的“定向進化”篩選方法每次只能突變少數幾個殘基,只能探索設計空間中極小的一部分。一個領先學術團隊測試了數千種SOX2突變體,發現少數幾種三重突變體有適度提升,而15年來對嵌合SOX蛋白的研究僅產生了與天然SOX僅相差5個殘基的變體。

Retro團隊利用人類成纖維細胞(皮膚與結締組織)構建了濕實驗室篩選平臺,在初步驗證階段,該團隊通過手動設計的基準OSKM和SOX2變體進行試點篩選。

隨后,他們要求GPT-4b micro生成一組多樣化的”RetroSOX”序列。
在篩選中,盡管模型提出的序列與野生型SOX2平均存在超過100個氨基酸差異,但其中超過30%的序列在表達關鍵多能性標志物方面表現更優。
相比之下,傳統篩選方法的命中率通常低于10%。
研究團隊隨后著手改造山中伸彌因子中體積最大的KLF4蛋白。雖然已知可用其他KLF家族因子替代KLF4,但重編程效率并未提升。
此前,通過專家指導的單氨基酸替換進行的改良嘗試,在19個樣本中僅獲得1個成功案例(KLF4 L507A)。

基于RetroSOX的成功經驗,研究團隊引導模型生成一組增強型RetroKLF變體。最終,模型生成的變體中有14種表現優于RetroSOX篩選中的最佳組合方案——命中率接近50%。

將最優的RetroSOX與RetroKLF變體組合使用時效果最為顯著。
在三次獨立實驗中,成纖維細胞早期標志物(SSEA-4)與晚期標志物(TRA-1-60、NANOG)的表達水平均呈現顯著提升,其中晚期標志物的出現時間比野生型OSKM組合方案提前了幾天。

此外,通過在第十天進行堿性磷酸酶(AP)染色驗證,RetroSOX與RetroKLF變體不僅表達晚期多能性標志物,還表現出強效的AP活性,表明其具有多能性。

為進一步驗證重編程效率的提升并探索其臨床潛力,研究團隊測試了另一種遞送方法(mRNA而非病毒載體)以及另一種細胞類型——間充質干細胞(MSCs),這些細胞來自三位中年人類供體(年齡超過50歲)。
結果顯示,僅7天內,超過30%的細胞開始表達關鍵多能性標志物(SSEA4與TRA-1-60);至第12天時,出現大量呈現典型iPSCs形態特征的細胞團簇。
這些細胞中超過85%激活了關鍵干細胞標志物(OCT4、NANOG、SOX2及TRA-1-60)的內源性表達。

探究團隊隨后驗證了這些由RetroFactor衍生的iPSCs能夠成功分化為所有三個原始胚層(內胚層、外胚層與中胚層)。
此外,研究團隊還擴展了多個單克隆iPSC系,經過數代培養后,確認了健康的核型和適合細胞治療的基因組穩定性。

這些結果持續超越合同研究組織使用標準因子生成的常規iPSC系基準,進一步佐證了工程化變體的強效性。
此外,它們還為關于不同遞送方式和細胞類型中PSC生成增強提供了證據支撐。
綜合高命中率、深度序列編輯、標志物提前表達以及AP陽性細胞團形成等證據,初步表明AI指導的蛋白質設計能顯著加速干細胞重編程研究進程。
受這些結果啟發,研究團隊接下來研究了他們重新設計的變體恢復青春的潛力,聚焦于DNA損傷這一導致細胞功能受損的典型衰老標志。
早期研究表明,山中伸彌因子能在不完全改變細胞身份的前提下,清除小鼠細胞中與DNA損傷相關的衰老標記。
研究團隊試圖驗證重新設計的變體是否相較于基準OSKM組合展現出更強的恢復青春的能力。結果顯示,在DNA損傷檢測中,經RetroSOX/KLF組合處理的細胞顯示出的γ-H2AX強度(雙鏈斷裂標志物)顯著低于使用標準OSKM或熒光對照的重編程細胞。
該結果表明重新設計的RetroSOX/KLF組合在減少DNA損傷方面比原始山中伸彌因子更有效。

通過改善細胞衰老的核心標志之一,這些工程化變體為改進細胞再生和未來療法提供了潛在途徑。
總的來說,GPT?4b micro在所有候選蛋白中產生了最佳變體,在提出更多多樣化序列的同時,保持了比人類科學家基準更高的命中率。
令人欣喜的突破
網友首先對OpenAI進軍生物科學領域的大膽舉措給予了充分肯定,猛猛夸贊了一下OpenAI。

甚至揚言這是改變人類歷史的事情。

也有一些網友對此研究表現出疑惑,主要集中在長壽和治愈疾病方面(用Grok重在摻和)。

還有網友表示出了自己的獨特想法,想讓獲得批準的人能夠創建出適合濕實驗室的蛋白質,而不受安全限制的影響。

值得一提的是,OpenAI科學家Noam Brown表示,這一模型已經是幾個月前的成果,現在的模型性能更強,預計未來一年左右會看到更多新成果。

那大家拭目以待嘍~



































