谷歌AlphaFold得了諾獎,但DeepMind根本沒引用前人論文?
AlphaFold因獲得諾獎而聲名大噪。
在大多數情況下,AlphaFold 2的預測精度幾乎可與X射線晶體學相媲美,令人震撼。
生物化學界持續了半個世紀的難題,終于被攻克。
但2016年,Vladimir Golkov博士在NeurIPS大會上就提出,利用深度神經網絡從共進化數據中直接預測蛋白質接觸圖。
在CASP 11測試中,這套方法優于當時其他的所有方法,堪稱AlphaFold的「原型」。
最近,慕尼黑機器學習中心主任、慕尼黑工業大學教授Daniel Cremers表示他們團隊為AlphaFold獲得諾貝爾獎奠定了基礎。

如今,Daniel Cremers發問:為何歷史上這塊奠基石被忽視了?
我們來一探究竟。
AlphaFold雛形
其實2016年就已出現
在2018年12月,在第13屆蛋白質結構預測關鍵評估CASP(Critical Assessment of protein Structure Prediction)中,AlphaFold 1驚艷亮相,排名第一。
2020年11月,AlphaFold 2在CASP上,大放異彩,中位分數為92.4,接近滿分100分;2024年5月8日,AlphaFold 3發布。
但早在2016年AI頂會NeurIPS上,Vladimir Golkov就蛋白質預測作了全會報告。

當時提出的方法論包括:
- 針對目標氨基酸序列,調用已知三維結構的序列數據庫
- 采用隱馬爾可夫模型(HMM)進行多序列比對以識別同源序列
- 計算突變對共進化統計量
- 訓練深度神經網絡直接從原始共進化數據預測蛋白質接觸圖
- 在CASP11數據集上的系統評估表明,該方法在精度和速度上均顯著超越當時最優技術
這項研究匯聚了深度學習與蛋白質預測領域的多位先驅,包括Thomas Brox、Alexey Dosovitskiy和Jens Meiler等合作者。

論文鏈接:https://papers.nips.cc/paper_files/paper/2016/file/2cad8fa47bbef282badbb8de5374b894-Paper.pdf
值得玩味的是,在報告結尾,Vladimir已預見性地指出:「架構優化與Scaling將進一步提升性能」——
這與AlphaFold團隊的后續突破不謀而合。
至于未被引用的原因,至今尚無定論。
可觀看Vladimir當年20分鐘的報告,了解更多蛋白質預測的完整發展脈絡:
2024年, Demis?Hassabis(下圖左)和John?Jumper(下圖右)因蛋白質結構預測的貢獻,榮獲諾貝爾化學獎。

諾貝爾獎委員介紹了AlphaFold 2的工作原理,大致如下:
- 序列比對:系統從數據庫中尋找與輸入序列相似的蛋白質,這些序列可能來自不同物種。通過比對,程序揭示了氨基酸之間的潛在聯系。例如,當某個位置突變時,可能與另一個位置的變化相關。
- 距離圖生成:基于序列比對中的相關性信息,程序生成一個距離圖,顯示氨基酸在空間中的相對距離。
- 三維結構預測:程序將距離圖轉換為三維結構,最終以高精度預測蛋白質的形狀。

AlphaFold 2的工作原理示意圖
Daniel Cremers認為所謂AlphaFold的核心技術思路,其實早已完整呈現在他們2016年的論文中。
他感覺諾貝爾獎委員會可能遺漏了他們的奠基性工作。
對此,AlphaFold 1核心團隊成員Hugo Penedone提供了AlphaFold誕生初期的一些歷史細節。
DeepMind的諾獎,真的忽視了前人的貢獻?
AlphaFold 1初始團隊的成員Hugo Penedone則還原了DeepMind的開發時間線。

2015年7月–2019年8月,Hugo Penedone在谷歌DeepMind工作,從事深度學習與強化學習的應用研究
據他回憶,大約在2016年3月,DeepMind啟動了AlphaFold 1,起因是在一次內部黑客馬拉松Hackathon上,嘗試將深度強化學習和優化算法應用于FoldIt游戲。
之后的幾個月里,他們開始探索接觸圖(contact map)預測的可能性。

來自副溶血性弧菌(Vibrio parahaemolyticus)的蛋白質VPA0982的蛋白質接觸圖
由于在早期文獻中,接觸圖已有相關概念,他們意識到,相較于直接預測整個蛋白質結構,使用神經網絡來預測接觸圖的準確率更高。
因此,他認為DeepMind可能在2016年也獨立地提出了這個不錯的思路。
DeepMind的論文發布遠晚于2016年NeurIPS的相關研究,顯然,他們應該在工作中引用這些前人的成果!
AI學術大佬怎么看?
針對此事,AI界當代最著名巨擘之一、Meta AI實驗室靈魂人物Yann LeCun也表達了看法。

LeCun提到,1990年代的雪鳥研討會(Snowbird Workshop)(ICLR的前身),使用機器學習進行生物信息學研究的整個想法就已誕生。
其中,與會者包括Anders Krogh(哥本哈根大學教授)、Pierre Baldi(加州大學歐文分校教授)、Richard Durbin(劍橋大學遺傳學教授)、David Haussler(加州大學圣克魯茲分校基因組學研究所科學總監)等人。



在AlphaFold之前,已有若干使用神經網絡進行蛋白質結構預測的研究工作。
LeCun直言,沒有貶低「AlphaFold貢獻」的意思。
值得注意的是,最早在這個領域開展工作的是1990年代雪鳥研討會與會者之一的加州大學歐文分校的Pierre Baldi。

他在2000年使用循環網絡預測蛋白質接觸圖。

論文地址:https://pubmed.ncbi.nlm.nih.gov/11120677/
論文地址:https://pubmed.ncbi.nlm.nih.gov/10871264/
論文地址:https://pubmed.ncbi.nlm.nih.gov/10869034/
遠早于深度學習變得流行之前。
LeCun一句話,引人深思:
好的想法很少憑空出現。它們以某種方式傳播和改進,有時甚至難以追溯其起源。
LeCun直言,同樣,AlphaFold是一項具有巨大影響力的非凡成就,但并非孤立的貢獻。
最早在這個領域開展工作的加州大學歐文分校教授Pierre Baldi也表達了看法。
Pierre Baldi談到,深度學習在某種蛋白質結構預測中的首次應用是在20世紀80年代。
當時,是由Qian和Sejnowski針對更簡單的蛋白質二級結構預測問題開展的工作。

論文地址:https://pubmed.ncbi.nlm.nih.gov/3172241/
這樣來看,用于預測接觸圖和蛋白質結構的深度學習方法,確實比AlphaFold早了二十年。
梳理來看,仔細查閱文獻就會發現,用于預測接觸圖的深度學習方法,對圖神經網絡的發展也起到了重要作用。
「早在DeepMind之前,這些方法還被用于學習如何下圍棋,而這一點DeepMind從未承認過。」Baldi指出。
Pierre Baldi直言不諱,「從長遠來看,科學關乎真理與美。而在短期內,它是一項相當骯臟的人類事務。」

LeCun補充說道,「好的想法很少憑空出現。它們以某種方式傳播和改進,有時甚至難以追溯其起源。」
同樣,AlphaFold是一項具有巨大影響力的非凡成就,但并非孤立的貢獻。
AlphaFold的成功固然值得贊譽,但正本清源,厘清其技術源流,更有助于理解AI在生命科學的深層邏輯和未來潛力。
當好的想法和研究推動社會發展時,希望更多人也能多關注核心研究背后的故事與核心人物。
正是他們的默默付出與耕耘,才有了能與大家見面的「奇跡」的誕生,推動社會向好發展。



































