OpenAI重大發現:GPT-4b micro改造諾獎研究,山中因子重編程效率提高50倍
AI 加速科學和藥物研發,已經不是什么新鮮事,但它的潛力遠未被完全釋放。
就在剛剛過去的一天,OpenAI 宣布他們與生物科技初創公司 Retro Bio 合作,研發的新模型 GPT-4b micro,設計出了新型且顯著增強的山中因子變體。
山中因子是一組蛋白質,由諾獎得主、日本科學家山中伸彌在 2006 年提出,其包括 Oct4、Sox2、Klf4 和 c - Myc4 種因子,又稱 OSKM。當它們被添加到人類皮膚細胞中時,會使其轉變為看似年輕的干細胞,這種干細胞可以分化成體內任何其他組織。Retro 認為,這一現象可能是實現構建人體器官或提供替代細胞的起點。
然而,山中因子也存在一個重大局限:重編程效率極低,它需要數周時間,而且在實驗室培養皿中,只有不到 1% 的細胞能夠完成再生之旅。這意味著在實際應用中,只有極少數細胞能夠成功被重編程,這大大限制了其在臨床和科研上的推廣與應用價值。
OpenAI 與 Retro Bio 團隊借助 GPT-4b micro,一起設計出山中因子新變體,與標準 OSKM 蛋白相比,這些因子在體外的重編程效率提高了 50 倍,這是一項突破性的改進。

其實,OpenAI 與 Retro Bio 的合作始于一年前,此前, Sam Altman 個人向 Retro 注資 1.8 億美元。
對于這一發現,Sam Altman、Greg Brockman 紛紛進行了轉發并評論:


不過遺憾的是,這個模型并沒公開:

OpenAI 表示,GPT-4b micro 與 GPT-4o 具有相同的架構,但使用了一種新的訓練方法和自定義生物學數據集,目的是使科學家能夠根據自己的需求重新設計蛋白質。

山中因子 KLF4(左)和 SOX2(右)的 3D 結構可視化。
模型在推理過程中能夠處理上下文長度達 64000 個 token ,盡管這種規模在文本大語言模型中已較為常見,但在蛋白質序列模型中尚屬首次。
另外,值得一提的是,在開發過程中,研究者觀察到 GPT-4b micro 出現了與語言模型類似的 scaling laws,在更大的數據集上訓練的模型在困惑度和下游蛋白質基準方面取得了可預測的提升。然而,蛋白質 AI 模型的計算機模擬評估通常價值有限,因為尚不清楚此類改進是否能轉化為現實世界中效用的提升。
用 AI 輔助對 SOX2 和 KLF4 重新設計
顯著提升干細胞重編程效率
OpenAI 展示了是如何借助 GPT-4b micro 來提升 SOX2 和 KLF4 重編程效率的。
眾所周知,直接對蛋白質序列進行優化非常困難,因為 SOX2 含有 317 個氨基酸、KLF4 含有 513 個氨基酸,可能產生的變體數量幾乎達到 10^1000,所以傳統的「定向進化」篩選技術每次僅能對少量殘基進行突變,所能探索的設計空間可謂是微不足道。
幾年前的一項權威學術研究成果《通過細胞選擇和測序實現重編程因子的定向進化》測試了數千種 SOX2 突變體,只發現少數具有適度增益的三重突變體,而 15 年來對嵌合 SOX?蛋白的不懈研究所獲得的變體,與天然 SOX 僅有 5 個殘基的差異。
為此,Retro 團隊使用人類成纖維細胞(皮膚和結締組織)搭建了一個濕實驗室篩選平臺,在初步篩選階段,使用 Retro 科學家手動設計的 OSKM 和 SOX2 變體作為基線對其進行驗證,如圖 3 所示。
然后,研究者要求 GPT-4b micro 提出一組多樣化的「RetroSOX」序列。結果發現,盡管模型提出的序列平均與野生型 SOX2(wild?type SOX2)之間相差超過 100 個氨基酸,但在表達關鍵多能性標記物方面,該模型提出的序列中超過 30% 的序列都要優于野生型 SOX2。而相比之下,傳統篩選方法的命中率通常低于 10%。

隨后,研究團隊對山中因子中最大的 KLF4 進行重新改造。已知 KLF4 可以被其他 KLF 家族因子替代,但不會提高重編程效率。此前,在通過專家指導的單氨基酸替換方案對 KLF4 進行改進嘗試時,19 次嘗試中僅成功一次。
與對 RetroSOX 的改進方法類似,研究者要求模型生成一組增強型 RetroKLF 變體。結果就是,在模型生成的變體中,有 14 種變體要優于 RetroSOX 篩選中的最佳組合 —— 命中率接近 50%,如圖 4 所示。

該研究發現,將表現最優的 RetroSOX 和 RetroKLF 變體組合在一起可獲得最顯著的成效。而在三次獨立實驗中,成纖維細胞早期 (SSEA-4) 和晚期 (TRA-1-60、NANOG) 標志物均顯著增加,且晚期標志物的出現時間比野生型 OSKM 組合方案提前了幾天,如圖 5 所示。

此外,在第 10 天通過堿性磷酸酶 (AP) 染色驗證時發現,RetroSOX 和 RetroKLF 變體不僅表達晚期多能性標記,還表現出強勁得到 AP 活性,而這是多能性的重要指標,如圖 6 所示。

為了進一步證實重編程效率的提升并探索其臨床潛力,研究者采用不同的遞送方式驗證 —— 用 mRNA 替代病毒載體,以及另一種細胞類型 —— 間充質基質細胞 (MSC),進行驗證。(注:這些細胞來自三位年齡超過 50 歲的中年人類捐贈者)
結果發現,僅僅 7 天內,超過 30% 的細胞開始表達關鍵多能性標志物(SSEA4 和 TRA-1-60),等到第 12 天時,出現了大量形態與典型誘導性多能干細胞(iPSC)相似的細胞集落,如圖 7 的左側和中間所示。這些細胞中有超過 85% 激活了關鍵干細胞標志物的內源性表達,包括 OCT4、NANOG、SOX2 和 TRA-1-60。
隨后,研究者驗證了這些 RetroFactor 衍生的 iPSC 能夠成功分化為所有三個原始胚層 —— 內胚層、外胚層和中胚層。此外,他們擴增了多個單克隆 iPSC 細胞系,并進行了多次傳代,證實了其具有健康的核型(如圖 7 的右側所示),且基因組穩定性適合細胞治療。
這些結果進一步佐證了工程化變體的穩健性,還為跨不同遞送方式和細胞類型增強 iPSC 生成能力提供了實證依據。

根據研究結果綜合來看,高命中率、深度序列編輯、加速標記出現和 AP + 菌落形成等證據初步表明:AI 指導的蛋白質設計可以顯著加速干細胞重編程研究的研究發展進展。
重組變體增強 DNA 損傷修復
在 DNA 損傷修復試驗中,用 RetroSOX/KLF 混合物處理的細胞表現出明顯低于用標準 OSKM 或熒光對照重編程的細胞的 γ-H2AX 強度(雙鏈斷裂的標志)(圖 8)。
這些結果表明,RetroSOX/KLF 混合物比原始的山中因子更有效地減少 DNA 損傷。

未來展望
對 OpenAI 來說,這項工作證明了,在特定領域,專業化模型能夠更快地在科學問題上取得突破性進展。
「當研究人員將深厚的領域知識與語言模型工具結合時,以前需要數年才能解決的問題,可能在數天之內就會取得進展。」OpenAI 研究合作負責人 Boris Power 說道。



































