科研智能體「漫游指南」—助你構建領域專屬科研智能體
歡迎關注中國科學院自動化研究所 & 北京中關村學院 & 芝加哥大學 & 西湖大學 & 騰訊帶來的科研智能體方面的最新綜述調研。
當前基于大語言模型(LLM)的智能體構建通過推動自主科學研究推動 AI4S 迅猛發展,催生一系列科研智能體的構建與應用。然而人工智能與自然科學研究之間認知論與方法論的偏差,對科研智能體系統的設計、訓練以及驗證產生著較大阻礙。
與傳統綜述不同,本篇綜述為大家呈現了科研智能體的「漫游指南」,旨在提供構建科研智能體的「說明指南」:從科學研究的全周期出發,概述了科研智能體的分級策略,并詳細闡述了對應等級的構建策略與能力邊界;同時該「漫游指南」詳細闡明了如何從頭構建科研智能體,以及如何對科研智能體的定向能力進行增強。同時「指南」中詳細涵蓋了科研智能體的概念闡述、構建方案、基線評估以及未來方向。
希望本「漫游指南」能啟發 AI 研究者與具體自然科學研究者,促進 AI 與自然科學之間的深度融合。

- 論文地址:https://doi.org/10.36227/techrxiv.175459840.02185500/v1
- 倉庫地址:https://github.com/gudehhh666/Awesome_Scientific_Agent.git
綜述的核心貢獻如下:
- 在系統性探索科研智能體領域的過程中,本綜述尤其注重對自然科學領域的科研智能體的深入而嚴謹的解構分析,尤其就其構建策略與能力范圍而提出了針對科研智能體的三級分級系統。
- 該綜述提供了一套全面而細致的實踐指南,涵蓋從零構建科研智能體的基礎流程,到針對特定能力對現有智能體進行定向能力增強,進一步提升現有科研智能體系統的能力與性能。
- 通過結合科學研究全生命周期與科研智能體構建策略,本綜述深入剖析了構建策略與科研流程之間相互促進與協同的過程,揭示了科研智能體設計與應用之間的獨特聯系。

圖 1|科研智能體對于科研過程全生命周期的介入
科研智能體分級策略

圖 2|科研智能體分級示意
根據構建策略與其能力邊界的等級劃分,科研智能體被我們分為三個等級:
- Agent as Assistant:該等級的智能體通常局限于特定領域的較單一任務,而無法進行跨多個科研流程的綜合性操作。其構建策略往往使用小模型經過后訓練(Post-training)或微調(Fine-tuning)而完成。其能力往往局限于被專門訓練過的領域任務。其能夠在一個專門任務上達到很高的水準,但是無法承擔起全面統籌各個科研過程的能力。
- Agent as Partner:該等級的智能體較 Assistant 最大的飛躍便是充分集成各類工具以實現自身能力的躍遷。其構建策略上逐步轉向更加系統化的架構設計,采用閉源大型模型,并結合豐富的上下文信息進行優化。它們的設計不僅僅是優化單個任務的性能,而是將多個任務拆解并進行模塊化設計。其能力范圍主要在于在特定領域內獨立完成文獻咨詢、假設生成和實驗設計等任務,然而,許多這類智能體仍然局限于知識獲取工具的集成,在復雜任務的自我驗證和可靠性方面存在局限。
- Agent as Avatar:該等級智能體側重于多個維度的能力增強,其具備了強大的推理能力、深度記憶和強協作能力,能夠在科學研究的各個階段提供全面支持。其構建策略轉向對原有智能體能力的定向增強:通過深度協作和增強的記憶能力進行設計,能夠處理復雜的科學問題,并協調不同工具進行任務執行。其能力也不簡單傾向于單一領域,它們能夠跨學科地應用并協作解決科研難題。

圖 3|不同等級科研智能體匯總
從頭構建科研智能體
本綜述凝練了科研智能體的構建過程,從頭構建科研智能體的工作流主要為知識組織、知識注入以及工具集成三個部分構成。

知識組織:知識組織定義了科學信息如何被結構化,以便使智能體能夠有效地理解和推理。它涵蓋非結構化序列(例如研究論文和書籍)、結構化數據(例如基因表達數據集)、指令(例如問答對)以及知識圖譜,每種方式都提供了獨特的方式來表示和檢索領域知識。這些組織策略作為智能體推理、歸納和決策的基礎,對于科學發現至關重要。
知識注入:知識注入涉及將特定領域的專業知識嵌入科學智能體中,這可以通過顯式或隱式方法實現。顯式注入直接將知識整合到提示中或針對特定任務優化提示,而隱式注入通常涉及微調模型或使用強化學習來使智能體的響應適應特定領域。這兩種方法都旨在通過注入相關專業知識來增強智能體解決特定領域科學挑戰的能力。
工具集成:工具集成通過將外部工具用于專業任務(如專業知識獲取、執行和模擬、分析以及可視化)來擴展智能體的功能。通過選擇和集成特定領域的工具,科研智能體可以更高效地執行復雜任務。這些工具的有效集成使科研智能體能夠自主運行,協調各種資源以協助科學研究與發現。
科研智能體能力增強

- 記憶增強:記憶增強對于科學智能體實現類人智能和長期高效運作至關重要。它使智能體能夠保持上下文、執行多步推理并積累經驗知識。記憶結構,如塊、知識三元組、原子事實、摘要和例程,服務于不同的記憶功能,從存儲上下文信息到細粒度的事實知識。記憶系統分為以上下文為中心和以行動為中心兩種方法,前者側重于在長時間內保持可靠的上下文,后者則增強動態任務適應和技能泛化能力。這些記憶改進使智能體能夠執行更復雜的任務,并保留相關知識以供未來使用。
- 推理增強:推理增強旨在解決 LLMs 的局限性,例如幻覺和不一致性,特別是在科學任務中。通過結構化推理鏈(例如 CoT 和多輪推理)以及自洽性驗證等機制,科學場景中的通用推理能力得到提升,從而提高智能體輸出的可靠性和透明度。領域特定推理優化通過引入領域偏好指導(確保在特定領域內進行邏輯推理)和符號演繹(將符號推理與概率模型相結合),進一步提升了智能體的推理能力,使其在復雜的科學探究中能夠做出更精確和一致的推論。
- 協作增強:協作增強著重于改善多智能體系統之間以及智能體與人類在科學研究中的交互。在多智能體協作中,智能體專注于特定角色,參與結構化對話和辯論,并高效共享知識。角色專業化和結構化協議等方法有助于解決角色重疊和信息流等挑戰。人機協作得益于明確的目標設定和反饋機制,使人類研究人員能夠提供戰略指導并監督智能體任務。自然語言界面促進無縫溝通,減少人類與 AI 之間的技術障礙。這些增強確保智能體和人類能夠有效協作,優化研究成果,并促進更具活力的科學發現過程。
基準與評估
根據現有基準的側重不同,基準主要分為知識密集型任務以及實驗驅動型任務,兩者對于整體科學研究過程中各有側重。
知識密集型:科研智能體主要設計用于處理需要深厚專業知識的復雜、特定領域的任務。這些任務通常圍繞知識傳播展開,包括文獻挖掘、研究假設生成、實驗設計、結果分析和評估。這類任務要求智能體在專業領域具備認知能力,而非簡單的一般知識。
實驗驅動型:面向科研智能體的實驗驅動任務評估代理在科學探究中使用工具的能力,強調自主實驗設計、驗證以及在科學環境中的多過程探索。

圖 4|基準測試匯總
未來研究方向
- 事實性與合理性:確??茖W實驗設計的實證準確性和理性仍然是一個主要挑戰,需要更好地整合驗證工具和反饋機制;
- 復雜任務適配框架設計:科學智能體需要靈活、連貫的框架,以適應特定的研究領域,從而克服現有復雜、特定領域系統的局限性;
- 自我迭代進化:為了持續進步,科學智能體需要融入自我反思和持續迭代機制,重點在于平衡情景記憶和參數記憶,以防止知識丟失并支持長期發展;
- 面向科學探索的交互優化:優化智能體與人類研究人員的交互對于推動科學發現至關重要。未來的系統應當整合通用和專用模型,以促進跨學科的動態有效合作;
- 多學科智能體:科學智能體可以通過促進跨學科知識轉移來增強其專業知識,從而加強其在相關研究領域的執行能力,并提高整體性能;
- 科學評估與驗證:評估人工智能驅動的科學研究仍然是一項復雜的挑戰,需要創新的方法來構思開放式研究任務,并確保智能體遵循可證偽性和可重復性等核心科學原則。































