NeurIPS'25 | 基礎模型已顛覆科研,進入第五范式!港科大綜述113篇論文
科學的發展史,就是一部范式更迭的歷史。
16、17世紀,伽利略與波義耳開創了實驗范式,用系統化觀察和可重復實驗奠定了科學的經驗基礎;
18、19世紀,牛頓、麥克斯韋與愛因斯坦推動了理論范式,用抽象方程和統一理論解釋自然規律;
20世紀,計算機的出現催生了計算范式,模擬復雜系統成為可能;
進入21世紀,大數據和機器學習驅動的數據范式又一次革新了科學發現的邏輯。
然而,今天我們遇到的科學難題,遠遠超越了以往的復雜度:蛋白質折疊、氣候變化、社會極化、藥物發現……這些問題往往表現為涌現性、開放性和不可約復雜性。
即便是最先進的數據驅動方法,仍然受到線性假設、靜態建模、因果推理不足等限制,常常力不從心。
隨著科學問題愈發復雜,這些傳統范式正逐漸顯露出局限:我們需要一種全新的科學發現模式。
在這一背景下,基礎模型(Foundation Models, FMs)橫空出世。與傳統「單任務 AI」不同,FMs 是在海量、多模態數據上訓練的大規模神經網絡,具備極強的泛化與適應能力。
它們不僅能處理文本、圖像和代碼,還能進行跨模態推理,展現出前所未有的科研潛力。
GPT-4能在語言理解、代碼生成和科學推理中游刃有余。
AlphaFold在蛋白質結構預測上達到接近實驗精度,解決了困擾生物學界數十年的難題。
FunSearch甚至能在數學領域提出新的猜想,挑戰NP-hard問題。
GraphCast等模型在天氣預測上,已經開始超過傳統數值模式,且計算成本更低。
不同于傳統的專用AI模型,FMs具備三個關鍵特性:
1. 通用性:它們不是為單一任務而設計,而是能通過提示、微調跨越語言、代碼、圖像甚至多模態任務。
2. 規模與知識覆蓋:在大規模數據訓練下,它們吸收了跨領域的知識,能在缺乏標注和經驗的情況下完成任務。
3. 推理與生成能力:不僅能處理現有數據,還能進行推演、假設生成和跨領域聯想。
正是這些能力,使得FMs不僅能加速現有科學流程,還可能重塑科學發現的邏輯與結構。
這些成果表明,FMs不再只是「科研助推器」,它們正在改變知識生成的邏輯,香港科技大學的研究人員在NeurIPS上發表的最新論文,提出了一個大膽的論斷:基礎模型(Foundation Models, FMs)可能正引領科學進入「第五范式」。

論文鏈接:https://www.techrxiv.org/doi/full/10.36227/techrxiv.174953071.19189612/v1
項目代碼:https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery
三階段框架 從后臺助手到自主科學家

論文中提出了一個三階段框架,刻畫FMs在科學發現中的演化路徑:
元科學整合
Meta-Scientific Integration
此階段,FMs 更像「后臺科研操作系統」。它們幫研究者處理雜務:自動化數據清洗、文獻檢索、實驗設計。
在材料發現中,FMs 已被用作貝葉斯優化的先驗,提高分子篩選效率。
在實驗室里,它們能直接生成控制儀器的 Python 腳本,實現「從文本到實驗」的自動執行。
在氣候科學中,模型如 ClimaX 能融合觀測數據與模擬數據,幫助發現隱藏的氣候模式。
人機共創
Hybrid Human–AI Co-Creation
此階段,FMs 開始成為科研「合作者」。
在理論建模中,它們能基于知識圖譜生成新假設,并通過邏輯驗證保證結果可檢驗。
在實驗設計中,FMs 不僅能給出實驗參數,還能提出改進思路,與人類共同迭代方案。
在數學和物理中,DeepSeekProver、Logic-LM 等系統已能輔助完成復雜推理與證明。
在這里,人類與 AI 的關系是「互補」:AI 負責記憶、組合與演繹,人類負責創造力與判斷。
自主科學發現
Autonomous Scientific Discovery
未來,FMs 可能進化為「自主科學家」。
它們能主動提出問題;自行生成假設、設計實驗并運行模擬;解釋結果并提出新理論。
這并非科幻。
已有的 「AI Scientist」 系統,已經能完成端到端的科研流程,從問題提出到結果解釋。這意味著,科學不再完全依賴人類,而進入一個機器自主探索知識的新時代。
跨范式的應用實例
論文對FMs在四大傳統范式中的應用做了系統性梳理:
實驗科學:FMs正成為實驗室的「大腦」。它們能為貝葉斯優化提供智能先驗,加速分子和材料搜索;還能生成實驗協議,指導機器人化學合成。
理論科學:FMs正在擴展「假設空間」。通過融合知識圖譜、物理約束,模型能提出創新性假設,并借助符號推理工具完成驗證。
計算科學:FMs正在改變建模與求解方式。它們能從圖表或文本中自動生成方程骨架,或通過神經算子(Neural Operator)快速解偏微分方程,效率超越傳統數值方法。
數據科學:FMs為多模態知識整合提供了新引擎。從基因組學中的DNABERT到氣候預測中的GraphCast,再到材料生成的MatterGen,FMs已能跨模態學習、跨領域推理。
更重要的是,FMs能夠打通四大范式,形成跨學科的混合流程。例如,Coscientist 系統能將研究目標轉化為實驗協議,并驅動機器人執行,再根據結果迭代優化。
風險與挑戰
新的科學范式伴隨新的挑戰。論文特別指出了四大風險:
1. 偏見與不公平:訓練數據多來自西方語境,可能導致全球科研議題失衡。
2. 幻覺與虛假信息:FMs 可能生成看似合理卻缺乏依據的假設,誤導科研。
3. 可復現性與透明度:如果中間推理過程不可追溯,科學的驗證性將受威脅。
4. 作者身份與責任:若一個重要假設由 FMs 提出,是否應署名?一旦出錯,責任如何界定?
這些問題意味著,科學的第五范式不僅是技術變革,更是社會與倫理的挑戰。
展望未來
論文最后描繪了三條未來路徑:
具身科學代理(Embodied Scientific Agents):FMs與實驗機器人結合,既能推理又能動手,成為真正的「實驗科學家」。
閉環科學自主(Closed-Loop Autonomy):FMs將實現「提出問題—設計實驗—運行驗證—更新知識」的全閉環研究流程。
持續學習(Continual Learning):未來的FMs將具備長期記憶與跨域遷移能力,能像真正的科學家一樣逐步積累知識。
結語
從伽利略到 GPT-4,每一次科學范式轉變,都改變了人類理解世界的方式。今天,基礎模型正讓我們看到一個可能的未來:科學的第五范式——由人類與機器共同,甚至由機器自主推進的科學發現時代。
這篇論文不僅提出了全新的概念框架,還呼吁科研界正視即將到來的變革:如何治理 FMs 的風險?如何重建科學透明性與責任機制?如何確保技術進步真正服務于全人類?
科學的未來,可能正在被重新書寫。



































