Nature點贊!哈佛MIT最新作:AI科學家時代來了
科學史的每一次飛躍,往往伴隨著工具的革新。隨著近期大模型和智能體的飛速發展,這條路徑正在通向一種全新的階段:「AI科學家」。
在AI賦能科研的前沿,我們正見證一個重要的里程碑:從證明AI智能體「能否」解決特定科學問題,轉向思考如何讓它「高效、可靠、規模化」地參與整個研究過程。
Nature近期發布的新聞解析, 報道了由哈佛大學Marinka Zitnik和高尚華團隊與MIT發布的首款大規模工具開源框架ToolUniverse。

新聞鏈接:https://www.nature.com/articles/d41586-025-03246-7
ToolUniverse開放的在線環境讓研究人員能夠用自然語言將各類大模型和智能體 連接到不同科學領域常用的工具,為打造AI科學家奠定了基礎。

項目主頁:https://aiscientist.tools
論文詳解:https://arxiv.org/abs/2509.23426
代碼開源:https://github.com/mims-harvard/ToolUniverse
當AI生成模型不再足夠
AI科學家為何而來?
傳統LLM(大語言模型)的核心能力是 「文本生成」,但科學研究需要的遠不止于此:
它需要分解復雜問題(如 「如何優化降膽固醇藥物」)、規劃實驗步驟、調用專業工具(如分子模擬軟件)、驗證數據合理性,甚至在結果偏離預期時自我修正。這種 「推理 + 行動」 的閉環,正是AI從 「模型」 升級為 「科學家」 的關鍵。
AI智能體的突破在于將 LLM 與三大機制深度耦合:
- 規劃能力:將 「發現新藥物」 拆解為 「靶點識別→化合物篩選→性質優化→專利驗證」 等可執行步驟;
- 記憶系統:追蹤中間結果(如 「某化合物對肝組織的滲透率」),避免重復計算或邏輯斷裂;
- 工具調用:連接外部數據庫、模擬器、分析軟件,彌補 LLM 自身在專業計算(如分子結合能預測)上的短板。
但科學研究的特殊性給 AI智能體 其提出了更高要求:不同學科(生物、化學、物理)的工具格式不統一、數據需可復現、實驗流程需嚴謹驗證。
若僅依賴通用的工具調用協議(如MCP,模型上下文協議),無法解決 「如何讓AI理解質譜數據格式」「如何協調分子模擬與臨床數據庫的輸出」 等專業問題。而這,正是ToolUniverse解決的核心問題之一。
ToolUniverse
科學AI Agent的生態基石
ToolUniverse并非單一工具,而是一套 「連接 LLM 與科學工具」 的標準化生態(圖 1)。
它的核心目標是:讓任何LLM都能通過統一接口,調用600 +科學工具,完成從 「提出假設」 到 「驗證結論」 的全流程研究。

圖1:ToolUniverse 是一個用于打造AI科學家的生態系統。通用型大語言模型(LLM)、推理模型與智能體可連接ToolUniverse提供的600余種科學工具,實現科研工作流自動化。
統一科學工具的「HTTP」
解決三大痛點
就像HTTP協議統一了互聯網通信,ToolUniverse為AI科學家定義了專屬的 「科學工具交互標準」(圖 2),既能夠無縫集成本地部署的開源工具,也能安全、規范地連接強大的閉源模型與API服務,解決了MCP協議在科研場景中的三大痛點:

圖2: ToolUniverse通過統一協議連接機器學習模型、智能體、科學軟件工具、數據庫與API。它引入了標準化的工具規范框架,使語言模型能夠一致地發現、調用并解析各類工具。類似于HTTP在互聯網通信中確立標準的方式,ToolUniverse 協議通過兩項核心操作:Find Tool(查找工具) 與Call Tool(調用工具), 定義了AI科學家如何請求工具并接收結果。
- 工具發現難:通過「Tool Finder」組件,AI可結合關鍵詞搜索、向量嵌入檢索、LLM推理,從600 +工具中精準匹配需求(如 「需要預測化合物肝毒性」 時,自動定位ADMET-AI工具);
- 調用不規范:「Tool Caller」組件會先驗證輸入(如分子結構格式是否符合 SMILES 標準),再執行工具,最后將輸出轉化為結構化數據(如 「結合能 - 8.2 kcal/mol」 而非雜亂文本);
- 推理難閉環:新增 「推理控制層」,讓AI能理解工具輸出的科學意義(如 「該化合物腦滲透率高→可能引發中樞副作用」),而非僅機械調用。
這種標準化設計,讓AI從 「會用工具」 升級為 「會用科學工具解決問題」。
四大核心組件
支撐AI科學家的完整生命周期
ToolUniverse 通過四大組件(圖 3),覆蓋了AI科學家從 「工具獲取」 到 「 workflow 優化」 的全流程需求,真正實現 「可編程的科學協作」。

圖3: ToolUniverse 提供了六項關鍵能力,支持AI科學家完整的生命周期:查找工具、調用工具、添加新工具、將工具串聯為工作流、從自然語言生成新工具,以及優化工具規范以提升可用性。
Tool Manager:工具的 「注冊與管理中心」
它解決了 「如何將新工具接入生態」 的問題:
- 本地工具(如實驗室自研的數據分析腳本)只需提交 「功能描述 + 參數格式 + 輸出示例」,即可被自動納入統一 schema;
- 遠程工具(如云端分子模擬平臺)通過 MCP 協議接入,無需暴露內部代碼,兼顧安全性與兼容性;
- 自動驗證工具有效性(如 「輸入錯誤分子結構時是否返回提示」),確保AI調用時的可靠性。
Tool Composer:科學 workflow 的 「搭建者」
科學研究很少依賴單一工具,比如 「藥物篩選」 需要串聯 「靶點數據庫→化合物庫→分子對接工具→毒性預測工具」。Tool Composer 的作用就是:
- 定義工具間的數據流(如 「分子對接工具的輸出結構,直接作為毒性預測工具的輸入」);
- 支持條件邏輯(如 「若毒性預測超標,則返回上一步重新篩選化合物」);
- 生成可復現的 workflow 腳本,方便人類科學家追溯或修改。
通過智能體系統,實現工具間調用關系的自動構建與優化。
Tool Discover:工具的 「自動生成器」
當現有工具無法滿足需求(如 「需要一種新的基因表達數據可視化工具」),AI 可通過自然語言描述需求,Tool Discover 會:
- 將文本描述轉化為結構化工具規格(如 「輸入:CSV 格式表達矩陣;輸出:熱圖 + 火山圖」);
- 自動生成代碼、測試用例,通過 「預期行為 vs 實際輸出」 的反饋循環迭代優化;
- 無需人工編碼,讓工具庫隨科研需求動態擴展。
Tool Optimizer:工具的 「質量守護者」
科學研究強調可復現性,Tool Optimizer 通過三大動作保障工具穩定性:
定期生成測試用例(如 「用已知活性的化合物驗證分子對接工具的準確性」);
分析工具輸出與規格的偏差(如 「某工具預測的結合能與實驗值誤差突然增大」);
自動更新工具文檔或參數設置,確保AI調用時的一致性。
跨模型兼容
讓每類LLM都能成為科學助手
不同科研場景對LLM的需求差異極大:實驗室本地分析可能需要輕量開源模型(如 Llama 3),而復雜 hypothesis 推理可能依賴云端大模型(如 Claude 3),生物醫藥研究還需專業模型(如 TxAgent)。
ToolUniverse的兼容性設計打破了 「模型綁定」 局限(圖 4):將工具調用轉化為 「標準化函數調用」,無需修改 LLM 的權重或Tokenizer——只需通過輕量級包裝器,向模型傳遞 「工具列表 + 參數格式」,模型輸出即可被解析為工具調用指令。
這種設計的價值在于:
- 科研團隊可根據成本、隱私需求選擇模型,無需擔心 「換模型就要重寫工具調用邏輯」;
- 能在相同實驗條件下對比不同模型的性能(如 「用Gemini-CLI vs Claude 3做藥物篩選,哪個準確率更高」);
- 支持專業模型與通用工具的結合(如 「讓TxAgent調用 ChEMBL 數據庫,分析藥物 - 靶點相互作用」)。

圖4: ToolUniverse 為構建不同類型的AI科學家提供了簡潔而高效的協議:既可用于基于通用大語言模型(如左圖的 Claude),也可用于具備更強推理與控制能力的智能體系統(如右圖的 Gemini-CLI),以及專注于生物醫學研究的AI智能體(如 TxAgent)。
案例實證
AI科學家如何優化降膽固醇藥物
理論架構需要實踐驗證。我們以 「尋找更安全的降膽固醇藥物」 為例,看看 ToolUniverse 構建的AI科學家(基于 Gemini-CLI agent)如何完成全流程研究(圖 5)。

圖5:展示了一個基于 ToolUniverse 構建并應用于藥物發現的AI科學家實例。該系統與 Gemini-CLI 智能體相連,能夠識別生物學靶點、篩選并優化候選藥物、評估分子性質,并利用計算工具驗證結果。整個工作流程展示了AI科學家如何在藥物研發的各個階段進行推理、整合多源證據,并在必要時融入人類反饋。
步驟1:靶點識別 —— 鎖定 「關鍵蛋白」
AI首先調用 「文獻挖掘工具」 和 「藥物 - 靶點數據庫」,通過分析 thousands of 研究論文與臨床數據,得出結論:HMG-CoA 還原酶是膽固醇合成的關鍵酶,且該酶在肝臟外的過度抑制會引發肌肉疼痛等副作用。這一步完全復刻了人類科學家的 「靶點發現」 邏輯,但效率提升 10 倍以上。
步驟2:起始化合物篩選 —— 從現有藥物入手
AI通過ToolUniverse查詢 「已上市降膽固醇藥物庫」,篩選出以 HMG-CoA 還原酶為靶點的藥物,最終選擇 「洛伐他汀(lovastatin)」 作為起始化合物 —— 理由是 「臨床驗證充分,但肝外組織滲透率高,存在副作用風險」。
步驟3:化合物優化 —— 提升安全性與有效性
AI調用三大工具協作:
- ChEMBL 數據庫:獲取洛伐他汀的100 +結構類似物;
- Boltz-2 工具:預測每個類似物與 HMG-CoA 還原酶的結合能(數值越低,結合越強);
- ADMET-AI工具:預測類似物的肝滲透率、腦滲透率、代謝穩定性。
通過綜合排序,AI篩選出兩個候選:
- 普伐他汀(pravastatin):已知藥物,肝外滲透率低,副作用更少(驗證了AI的可靠性);
- CHEMBL2347006/CHEMBL3970138:新化合物,結合能比洛伐他汀高 30%,腦滲透率降低 50%,生物利用度提升 25%。
步驟4:專利與驗證 —— 規避法律風險
最后,AI調用 「專利檢索工具」,發現新化合物已被注冊用于心血管疾病治療,雖無法直接開發,但為后續結構修飾提供了方向。
整個過程中,AI不僅完成了 「調用工具」 的動作,更體現了科學推理能力:它能解釋 「為何選擇該靶點」「為何淘汰某化合物」,甚至能根據副作用風險調整優化方向 —— 這正是 「AI科學家」 與普通工具調用的本質區別。
從用到建
當「使用者」成為「共創者」
一個健康的生態系統,其生命力不僅來源于使用,更來源于創造與貢獻。
ToolUniverse內置了Tool Discover和Tool Optimizer等核心組件。前者允許用戶通過自然語言描述,自動化生成新工具的規范與代碼框架;后者能通過多輪測試與反饋,持續優化現有工具的說明與易用性。
這一機制巧妙地將用戶從純粹的「消費者」轉變為潛在的「共建者」,激勵社區智慧反哺生態,形成一個自我完善、持續生長的良性循環。

ToolUniverse的終極愿景,是賦能各個科學領域的專家,而不僅僅是AI專家。當生物學家、化學家、藥物研發人員能夠基于一個穩定、豐富的工具生態,輕松定制符合其獨特研究需求的「AI科研伙伴」時,或許將迎來一個真正AI輔助科研的全新時代。
AI科學家不僅能調用數據庫、模擬器,還能通過標準化協議控制實驗室自動化設備(如液體處理機器人、質譜儀),實現 「提出假設→設計實驗→自動執行→分析結果」 的全流程閉環。
當AI能真正理解科學問題、自主協調工具、與人類共同推進認知邊界時,我們或許正站在 「科學發現新范式」 的起點。

ToolUniverse開發團隊
































