精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!

發布于 2024-5-30 10:33
瀏覽
0收藏

把169861個生物物種數據裝進大模型,大模型竟get到了生物中心法則的奧秘——

不僅能識別DNA、RNA與相應蛋白質之間的內在聯系,在基因分類、蛋白質相互作用預測、熱穩定性預測等7種不同類型任務中也能比肩SOTA模型。


模型名為LucaOne,由阿里云飛天實驗室生物智能計算團隊打造。


相比AlphaFold 3因未開源遭到650多名學者聯名批評,LucaOne訓練推理代碼及相關數據目前均已開源。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

LucaOne是目前首個全生物系統的核酸語言+蛋白語言的融合基座模型。換句話說,LucaOne由核酸(DNA、RNA)和蛋白質序列聯合訓練而來。


通過一系列實驗,研究人員發現它能廣泛適用各種下游任務。


在含13個物種、關系對總數量為24000的核酸序列和其對應蛋白的正負樣本數據集中,LucaOne提供表征的模型達到0.85的預測準確率。


遠高于目前業內最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于LucaOne的單核酸訓練版本+單蛋白訓練版本。


其他任務如針對流感H3N2病毒疫苗有效性(免疫逃逸風險)的預測,LucaOne準確率可達100%。?

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

量子位也聯系到了論文一作,聊了聊LucaOne的實現細節,以及AI for Science在生物科學領域的發展。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

核酸和蛋白質序列聯合訓練

總的來說,LucaOne圍繞中心法則的數據進行構建,能夠學習到中心法則背后的原理和邏輯,可提取基因轉錄和蛋白質翻譯過程中固有的復雜模式和關系,在使用層面相當于提供了一個對DNA、 RNA、蛋白質的無差別表征。


PS:


分子生物學的中心法則即遺傳信息從DNA傳遞給RNA,再從RNA傳遞給蛋白質的過程,這一過程包括DNA的復制、RNA的轉錄和蛋白質的翻譯。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

展開來看,LucaOne整個工作流是這樣嬸兒的:

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

從技術上講,構建LucaOne的難點首先是數據集的構建。


在生命科學領域,真實存在的只是分子數據。


例如,核酸的表示方式是4種堿基。DNA是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T);RNA是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)。蛋白質由氨基酸組成,自然界存在的氨基酸大約有20-22種,每種氨基酸也用一個字母表示。


而人類為理解這些分子的性質與作用,通常需要添加很多注釋信息,包括一些圖片的注釋。注釋信息屬于人類語言,自然界本身不存在,從而就形成了一種生命科學領域的從“自然界”語言到“人類文化”語言的跨模態。


因此,LucaOne的預訓練數據不僅包含DNA、RNA、蛋白質這三類分子的序列(核苷酸序列或者氨基酸序列)數據,同時還使用了這些分子的注釋信息


總共涵蓋了169861個物種的核酸和蛋白質序列和注釋信息,分為兩部分:

核酸數據集來自RefSeq,包括核酸序列及注釋;蛋白質數據集來自InterPro、UniProt、ColabFold、RCSB-PDB、AlphaFold2,包括蛋白質序列、注釋和三維結構。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

據介紹,在數據集的收集處理方面,阿里云飛天實驗室與中山大學、浙江大學等多個團隊進行了合作。


另一大難點是生物分子序列的預測和大語言模型預測下一個token不同,在模型訓練階段還需要一些專門的設計。


LucaOne采用了Transformer-Encoder架構,由20個編碼器塊組成,嵌入維度為2560,總參數量1.8B。


研究人員在此基礎上進行了一些優化:

  • 使用Pre-Layer歸一化代替Post-Layer歸一化,以便更好地訓練深層網絡;
  • 使用旋轉位置嵌入(RoPE)代替傳統絕對位置編碼,以推理更長序列。


此外,在數據處理和模型訓練過程中,核苷酸和氨基酸用統一的方式進行表征或編碼。通過token-type embeddings實現核酸和蛋白質序列的混合訓練,區分核苷酸(0)和氨基酸(1)。


在兩個自監督掩碼任務的基礎上,研究人員還增加了八個半監督預訓練任務,通過序列注釋增強模型對數據的理解。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

已能理解基因和蛋白對應關系

為驗證核酸和蛋白質數據混合訓練的優勢,研究人員分別使用核酸和蛋白質數據單獨訓練了兩個額外的模型——LucaOne-Gene和LucaOne-Prot,并使用相同的5.6M checkpoint在分子生物學中心法則任務中進行了比較。


使用t-SNE可視化說明,與其他模型相比,LucaOne的嵌入在兩個數據集上呈現出更緊密的聚類,可能包含了更多上下文信息。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

為驗證LucaOne通過廣泛學習基因及蛋白語言,已具備對生物學中心法則里的基因和蛋白對應關系的理解能力,研究人員設計了一個數據集及評測任務。


選取13個物種的核酸序列和其對應蛋白的正負樣本數據集,關系對總數量為24000,其中正負樣本比例1:2?;蛐蛄袛祿瞧湓诨蚪M的原始數據,包括了大量的非編碼區(內含子,調控元件,及“垃圾片段”等)。


采用訓練:驗證:測試比例為:4:3:25;即僅3200組數據作為訓練,18750組數據作為測試集來預測其核酸序列是否可以翻譯成數據組里的蛋白序列。


結果LucaOne提供表征的模型達到0.85的預測準確率,不僅遠高于目前業內最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也明顯高于LucaOne的單核酸訓練版本+單蛋白訓練版本。


這表明這兩種大分子數據聯合訓練可以顯著增強模型的學習效果。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

有意思的是,研究人員發現在模型細分表現里,LucaOne海鞘這種生物里的預測表現比較差(其他模型也類似),進一步分析海鞘的特性表明,因為進化適應性等各種原因,海鞘利用中心法則的具體規則-密碼子偏好性,和其他生物明顯不同。


他們猜測LucaOne可能用的是另一種中心法則語法“方言”,而這種“方言”在訓練數據集里僅有100條,因此模型沒有很好的學習到這種規則。


在其他下游任務中,LucaOne對不同類型輸入的下游任務也廣泛適用。


具體來說,研究人員評估了7個不同類型的下游生物計算任務,包括:

  • 單序列任務:GenusTax(屬分類)、ncRNAFam(ncRNA家族分類)、ProtLoc(蛋白質亞細胞定位)、ProtStab(蛋白質熱穩定性預測)
  • 同源序列對任務:InfA(流感血凝素分析)、PPI(蛋白質相互作用預測)。
  • 異源序列對任務:ncRPI(ncRNA-蛋白質相互作用預測)。


為簡化下游任務,研究人員使用了三種對應不同輸入形式的簡單網絡架構:

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

結果表明,GenusTax、ProtStab、ncRNAFam、InfA、PPI任務上,LucaOne顯著優于其他模型;ProtLoc任務上,LucaOne與ESM2-3B相當,優于SOTA;ncRPI任務上,LucaOne優于DNABert2+ESM2-3B的組合:

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

值得一提的是,在流感H3N2病毒的免疫逃逸風險預測中,研究人員采用了1968年至2010年間分離的大規模H3N2病毒HA序列數據進行了基于流感毒株抗原關系的預測模型。


通過病毒HA抗原序列來預測其是否會誘導HIA實驗的血凝現象,進而預測其是否在特定人群中會發生免疫逃逸。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

要知道,目前預防與控制流感最有效的方法是接種流感疫苗,但是由于流感病毒極快的變異速度,導致不能及時與準確地推薦與流行病毒相匹配的流感疫苗株。根據WHO和CDC的監測,流感疫苗的有效性在40%-60%之間。因此準確預測流行毒株,判斷免疫逃逸風險是一個重要且困難的命題。


研究人員使用基于LucaOne+一層感知機的模型達到了100%的準確率。


這也說明LucaOne學習的大量核酸序列信息,包括大量其他病毒序列,為計算特定任務提供了很好的信息補充。


更多細節,感興趣的家人們可查看原論文。

“Science for AI”

如前文所述,LucaOne背后開發團隊來自阿里云飛天實驗室LucaTeam,LucaTeam也與多個團隊展開了深度合作。


中山大學醫學院施莽教授及其團隊參與了LucaOne模型的數據設計與驗證。施莽教授認為:

LucaOne是一項極為重要的嘗試。最讓我驚訝的是,在沒有任何先驗知識的前提下,LucaOne確實能夠更有效地學習中心法則中核酸與蛋白質之間的對應關系。


中國醫學科學院北京協和醫學院病原生物學研究所所長、美國微生物科學院會士舒躍龍教授及其團隊參與了LucaOne在流感病毒方面的分析與驗證工作。舒躍龍教授表示:

將前沿的AI技術與病原生物學相結合具有重大的科學意義和社會價值。通過這種緊密的跨學科協作,我們能探索更多病原生物起源進化、跨種傳播以及感染致病等方面的規律,為傳染病防控和生物安全做出更大的貢獻。


此外,論文一作賀勇是阿里云飛天實驗室生物計算高級算法專家,我們也就LucaOne與其展開聊了聊AI for Science在生物科學領域的發展。


在他看來,AI for Science在生物科學領域正處于剛起步的階段,考慮到AI可解釋性的問題,基本上現在他們還只是把AI當做一個工具,但同時現在是發展AI for Science的一個很好的時間節點。

因為現在測序技術發展非常迅速,測序成本下降很多,分子序列數據很容易就能獲得。有了數據大量的積累,就可以數據驅動的AI for Science相關工作。


不過,目前的局限在于測序得到還是分子的序列數據,而真實世界每個分子的存在是一個空間結構,這可能就需要更復雜的模型來處理。


而不同學科間的研究方法不同、探索微觀世界也受限于目前的設備技術,賀勇認為人類對生物科學這個領域的認識目前也只是冰山一角,還無法從全局角度構建一個全面通用的系統。


最后他還補充道:

目前大家對AI for Science越來越重視,相當于用AI去解決具體的問題。我想接下來還應該回過頭來看Science能為AI帶來什么?解決具體問題是第一步,最后通過問題反哺技術本身其實可能也是應該考慮的。


論文鏈接:https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1
GitHub鏈接:https://github.com/LucaOne


本文轉自量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/6EUwsy5k3j1v8wdjz7RHjA??

收藏
回復
舉報
回復
相關推薦
欧美在线一级| 日本最黄一级片免费在线| 99xxxx成人网| 亚洲最大中文字幕| 18深夜在线观看免费视频| 17videosex性欧美| 国产精品嫩草影院com| 91精品天堂| 中文字幕精品视频在线观看| 亚洲区综合中文字幕日日| 亚洲国产精品国自产拍av秋霞| 欧美 日韩精品| 国产激情视频在线观看| 久久免费电影网| 91系列在线播放| 国产乱国产乱老熟| 欧美福利影院| 在线观看亚洲视频| 一女三黑人理论片在线| а天堂中文最新一区二区三区| 欧美日韩视频在线| 日韩亚洲欧美一区二区| 国产女人在线视频| 99久久99久久久精品齐齐| 成人高清视频观看www| 日本道在线观看| 欧美日韩岛国| 久久久国产精彩视频美女艺术照福利| xxx在线播放| 蜜桃一区av| 日韩欧美国产三级电影视频| 少妇一级淫免费播放| 在线观看福利电影| 亚洲观看高清完整版在线观看 | 午夜精品久久久久久久99老熟妇 | 国产97在线播放| 国产真人真事毛片| 欧美1区免费| www.久久撸.com| 国产精成人品免费观看| 亚洲a级精品| 亚洲国产另类 国产精品国产免费| 免费av不卡在线| 成人在线观看免费播放| 在线免费观看日本欧美| 成人在线观看a| 亚洲电影观看| 一本色道a无线码一区v| 欧美 日本 亚洲| yellow字幕网在线| 亚洲超碰97人人做人人爱| 996这里只有精品| 欧美性猛片xxxxx免费中国 | 久久国产视频一区| 鲁大师成人一区二区三区| 国产91成人video| 九九九在线观看| 麻豆成人在线| 国产精品久久久久久久久久ktv| aaa在线视频| 日精品一区二区三区| 国产91九色视频| 中文字幕久久熟女蜜桃| 免费不卡在线观看| 91在线看www| 性猛交富婆╳xxx乱大交天津 | 日本激情小视频| 欧美三级伦理在线| 中文字幕一区电影| 天天干中文字幕| 激情欧美国产欧美| 欧美在线视频网| 中文字幕免费视频观看| 久久99最新地址| 99在线视频免费观看| 你懂的网站在线| 久久综合狠狠综合| 亚洲 国产 日韩 综合一区| 欧洲日本在线| 亚洲国产人成综合网站| 精品国产免费av| 福利一区在线| 精品三级在线看| 国产黄片一区二区三区| 日韩在线欧美| 欧美激情一区二区三区成人| 中文字幕国产在线观看| 精品一区二区三区的国产在线播放| 3d动漫啪啪精品一区二区免费| 天天舔天天干天天操| 国产精品美女视频| 久久久久久久久久网| 欧美无毛视频| 精品三级av在线| 青娱乐国产视频| 国产一区二区中文| 国产成人精品av在线| 国产精品久久久久久久久久久久久久久久 | 国产欧美日韩免费观看| 久久国产精彩视频| 精品国产xxx| 国产suv精品一区二区三区| 欧美日韩高清免费| 羞羞网站在线看| 欧美在线观看视频一区二区| 国产xxx在线观看| 日韩午夜电影网| 91精品国产高清自在线| 国产麻豆91视频| 久久精品视频网| 免费看毛片的网址| 国产一区2区在线观看| 亚洲欧美日韩网| 国产精品18p| 国产一区日韩二区欧美三区| 日韩av图片| 欧美13videosex性极品| 欧美一区二区在线看| 亚洲一区二区自偷自拍| 中日韩视频在线观看| 亚洲最大福利视频网| 午夜在线视频播放| 91九色最新地址| 爱爱的免费视频| 亚洲视频中文| 91pron在线| 好操啊在线观看免费视频| 欧美无乱码久久久免费午夜一区| 无码人妻精品一区二区三应用大全| 午夜日韩激情| 91亚洲精品在线| 老司机在线看片网av| 欧美综合欧美视频| 久久成人激情视频| 久久精品人人| 久久影视中文粉嫩av| 男人av在线播放| 日韩黄色高清视频| 日韩精品一区二区在线播放| 成人久久18免费网站麻豆| 51xx午夜影福利| 久久视频免费| 欧美老女人性生活| 精品人妻少妇AV无码专区| 亚洲日本青草视频在线怡红院 | 成人av动漫在线| 国产天堂视频在线观看| 国产成人tv| 2018中文字幕一区二区三区| 婷婷丁香一区二区三区| 欧美视频第一页| 最近中文字幕在线mv视频在线| 美女久久一区| 亚洲三区视频| 四虎精品在线观看| 欧美成人激情视频免费观看| 国产成人精品亚洲精品色欲| 一区二区视频在线| 毛茸茸free性熟hd| 麻豆成人精品| 一区二区不卡在线| 亚洲啊v在线免费视频| 久久久噜噜噜久噜久久| 色婷婷中文字幕| 一本一本大道香蕉久在线精品| 人人妻人人澡人人爽| 秋霞电影网一区二区| 国产日本欧美在线| 伊人久久大香线蕉av超碰| 538国产精品一区二区免费视频| 女人天堂在线| 这里只有精品电影| 日本少妇激情舌吻| 久久九九久精品国产免费直播| 色综合天天色综合| 欧美黄免费看| 久久久综合香蕉尹人综合网| 91九色综合| 欧美成人免费大片| 青青草视频在线免费观看| 欧美日韩精品一区二区三区四区| 日本精品在线免费观看| 成人精品一区二区三区四区 | 久久久免费人体| 欧美激情在线观看视频| 免费国产在线视频| 在线综合视频播放| 国产女同在线观看| 中文字幕亚洲电影| 中文字幕在线永久| 极品销魂美女一区二区三区| 国产午夜福利100集发布| 欧美先锋资源| 国产精品99久久久久久久| 无人区在线高清完整免费版 一区二| 精品激情国产视频| 日韩在线免费播放| 日韩片之四级片| 欧美三级网站在线观看| 亚洲国产精品麻豆| 男人晚上看的视频| 91视频.com| 男插女视频网站| 日本成人在线一区| 成熟了的熟妇毛茸茸| 亚洲精品a级片| 区一区二区三区中文字幕| 亚洲日本一区二区三区在线| 国产精品久久视频| 成人国产电影在线观看| x99av成人免费| 国内精品一区视频| 亚洲精品国产欧美| 亚洲av无码专区在线| 欧美日韩国产免费一区二区| 亚洲熟女综合色一区二区三区| 亚洲自拍偷拍av| 精品国产精品国产精品| 国产精品三级视频| 丰满圆润老女人hd| 91色在线porny| 日本性生活一级片| 国产麻豆91精品| 国产传媒免费观看| 美洲天堂一区二卡三卡四卡视频| 精品中文字幕av| 亚洲三级电影在线观看| 大陆极品少妇内射aaaaaa| 91亚洲国产| 亚洲a∨一区二区三区| 久久av中文| 欧美日韩在线一二三| 免费一区二区| 久久婷婷开心| 亚洲欧洲免费| 欧美精品一区在线| 国产99久久| 欧美一区亚洲二区| av一区二区在线观看| 欧美尤物一区| 成人在线免费视频观看| 午夜精品一区二区在线观看 | 中文字幕在线观看精品| 在线观看免费视频综合| 无码久久精品国产亚洲av影片| 色综合av在线| 亚洲综合成人av| 欧洲激情一区二区| 中文在线最新版天堂| 欧美日韩一区三区四区| 亚洲一区二区三区网站| 91精品国产综合久久精品麻豆| 国产美女无遮挡永久免费| 日韩一二三四区| 黑人精品一区二区三区| 亚洲第一精品福利| 欧美女同网站| 一本色道久久88精品综合| 永久av在线| 欧美成人中文字幕在线| 爱情岛论坛亚洲品质自拍视频网站| 97久久国产精品| 日日夜夜天天综合| 国产日韩欧美一二三区| 国产日本亚洲| 好吊妞www.84com只有这里才有精品 | 福利写真视频网站在线| 欧美亚洲成人精品| av在线不卡精品| 亚洲一区二区日本| 国产成人精品福利| 色噜噜色狠狠狠狠狠综合色一| 国产高清一区| 2018日日夜夜| 免费成人美女在线观看.| 亚洲精品一二三四| 久久综合久久久久88| 亚洲怡红院在线观看| 亚洲777理论| 欧美视频xxxx| 欧美大片在线观看一区| 青梅竹马是消防员在线| 久久九九精品99国产精品| 操喷在线视频| 国产精品一区二区三区久久久| 在这里有精品| 亚洲国产午夜伦理片大全在线观看网站| 亚洲欧洲中文字幕| 日本在线视频www| 国产精品888| 干b视频在线观看| 亚洲一区二区欧美激情| 免费在线不卡av| 精品对白一区国产伦| 天天在线视频色| 26uuu日韩精品一区二区| 国产午夜久久av| 日韩欧美亚洲日产国| 亚洲国产一区二区三区a毛片| 手机在线看福利| 波多野结衣中文字幕一区| 国产又黄又粗又猛又爽的| 欧美日韩国产综合视频在线观看中文| 一级黄色a视频| 国产午夜精品麻豆| 波多野结衣在线播放| 成人福利网站在线观看11| 国产毛片一区二区三区| 成人一区二区免费视频| 国产精品18久久久| 999福利视频| 色久综合一二码| 色网站免费观看| 欧美丰满少妇xxxxx| 日韩大陆av| 亚洲精品无人区| 天使萌一区二区三区免费观看| 亚洲图片欧美另类| 亚洲欧美一区二区久久| 一区二区视频网站| 亚洲天堂色网站| 欧美一级大片| 久久资源亚洲| 99精品久久| 美女露出粉嫩尿囗让男人桶| 成人欧美一区二区三区小说| 久久人人爽人人爽人人片av免费| 日韩大陆毛片av| av漫画网站在线观看| 国产精品裸体一区二区三区| 欧美激情在线| 国产又粗又猛大又黄又爽| 1024成人网| 国产免费高清av| 久久久精品国产一区二区| 久久免费资源| 在线观看国产一区| 精品一区二区三区在线播放| 美女av免费看| 欧美丰满少妇xxxxx高潮对白| porn视频在线观看| 国产精品日韩欧美| 97国产成人高清在线观看| 亚洲精品自拍网| 中文字幕一区二区三区不卡在线| 在线免费看av的网站| 日韩网站免费观看| 综合久久av| 国产精品免费看久久久无码| 国产精品亚洲午夜一区二区三区 | 日本网站在线免费观看视频| 国产欧美va欧美va香蕉在线| 久久香蕉国产| 小日子的在线观看免费第8集| 一区二区三区在线免费播放| 亚洲精品无遮挡| 97婷婷涩涩精品一区| 香蕉久久夜色精品国产使用方法 | 欧美成人午夜免费视在线看片| 日韩激情欧美| 免费看一级大黄情大片| xfplay精品久久| 中文字幕av无码一区二区三区| 久久久精品网站| 国产成人福利av| www黄色在线| 亚洲欧洲国产专区| 亚洲成人中文字幕在线| 欧美性做爰毛片| 四虎成人av| 88av在线播放| 在线视频国内自拍亚洲视频| 麻豆tv免费在线观看| 成人91视频| 日韩国产高清影视| 国产少妇在线观看| 日韩av在线直播| 91精品福利观看| 欧美成人一区二区在线观看| 国产精品色哟哟网站| 欧美一区,二区| 国产精品女视频| 国产一区美女| 久久精品视频18| 精品久久久久一区| 澳门av一区二区三区| 久久天天东北熟女毛茸茸| 91日韩在线专区| 国产精品乱码久久久| 91精品国产色综合| 亚洲成人精品| 波多野结衣办公室33分钟| 正在播放亚洲一区| 欧美黄色三级| 久久久久99精品成人片| 国产精品美女一区二区三区 | 中文字幕日韩高清在线| 99热手机在线| 午夜久久久久久电影| dj大片免费在线观看|