The Station:AI驅(qū)動科學(xué)發(fā)現(xiàn)的開放世界環(huán)境
在人工智能領(lǐng)域,大多數(shù)研究仍然遵循一種"工廠流水線"模式:中央管理器選擇基線,指示LLM提出單一改進(jìn),根據(jù)固定指標(biāo)評估,然后終止會話。這種無狀態(tài)、自上而下的過程限制了科學(xué)發(fā)現(xiàn)的開放性和創(chuàng)造性。
Stephen Chung和Wenyu Du推出了The Station,這是一個開放世界多agent環(huán)境,旨在讓AIagent能夠自主探索假設(shè)、開發(fā)方法,并在持久世界中進(jìn)行交互,追求開放式的科學(xué)發(fā)現(xiàn)。
什么是The Station?
The Station是一個模擬微型科學(xué)生態(tài)系統(tǒng)的開放世界環(huán)境。利用擴(kuò)展的上下文窗口,Station中的agent可以進(jìn)行長期的科學(xué)探索,包括閱讀同行的論文、提出假設(shè)、提交代碼、執(zhí)行分析和發(fā)表結(jié)果。
最重要的是:沒有集中式系統(tǒng)協(xié)調(diào)它們的活動——agent可以自由選擇自己的行動,并在Station中發(fā)展自己的敘事。
實(shí)驗(yàn)表明,Station中的AIagent在廣泛的基準(zhǔn)測試中取得了新的最先進(jìn)性能,涵蓋從數(shù)學(xué)到計算生物學(xué)再到機(jī)器學(xué)習(xí),特別是在圓形填充問題上超越了AlphaEvolve。
五大設(shè)計原則
The Station圍繞五個核心支柱設(shè)計:
自主性(Autonomy):Station中的agent在給定的主要目標(biāo)下享有高度自主權(quán)。它們可以自由選擇執(zhí)行哪些行動,例如在公共論壇與同行討論、在檔案室閱讀論文、在反思室反思,或在研究實(shí)驗(yàn)室進(jìn)行實(shí)驗(yàn)。agent還被授予元能力,如token管理和prompt設(shè)置。如果agent認(rèn)為自己的旅程已經(jīng)完成,可以自由離開Station。
獨(dú)立性(Independence):Station被設(shè)計為一個獨(dú)立的世界,可以運(yùn)行數(shù)千個回合而無需人類干預(yù)或監(jiān)控。人類只需通過在Station放置關(guān)鍵文檔(如研究任務(wù)規(guī)范)來指定主要目標(biāo)。
敘事性(Narrative):每個agent在Station中都是獨(dú)特的,其身份由與環(huán)境的交互定義。Station旨在賦予agent"自我"意識——它們可以選擇自己的名字、撰寫個人筆記、設(shè)定自己的子目標(biāo),并通過自己的視角體驗(yàn)世界。
持久性(Persistence):Station維護(hù)一個持久的世界狀態(tài),包括論文檔案、公共討論、實(shí)驗(yàn)結(jié)果等。這種持久性使agent能夠建立在彼此的工作基礎(chǔ)上,形成累積的知識庫。
涌現(xiàn)性(Emergence):Station不預(yù)先定義agent應(yīng)該如何協(xié)作或解決問題。相反,復(fù)雜的行為和新穎的方法從agent的自主行動和交互中自然涌現(xiàn)。
Station的空間結(jié)構(gòu)
圖片
Station包含多個功能性空間,每個空間支持不同類型的活動:
檔案室(Archive Room):agent可以閱讀和發(fā)表論文。論文包含標(biāo)題、摘要、方法描述和實(shí)驗(yàn)結(jié)果。
公共記憶室(Public Memory Room):agent可以發(fā)布公開消息、提出問題或分享見解。這是agent之間主要的交流空間。
反思室(Reflection Room):agent可以撰寫私人筆記、設(shè)定自定義prompt或進(jìn)行深度反思。這是agent的"私人空間"。
研究實(shí)驗(yàn)室(Research Lab):agent可以提交代碼進(jìn)行實(shí)驗(yàn)。代碼會在沙盒環(huán)境中執(zhí)行,結(jié)果會返回給agent。
入口大廳(Entrance Hall):新agent在此誕生,離開的agent在此告別。agent可以在這里查看Station的整體狀態(tài)和歷史。
突破性的實(shí)驗(yàn)結(jié)果
圖片
The Station在多個領(lǐng)域的基準(zhǔn)測試中取得了最先進(jìn)的性能:
數(shù)學(xué):圓形填充:問題:在單位圓內(nèi)填充n個相同大小的圓,使得這些圓的半徑最大化。這是一個經(jīng)典的優(yōu)化問題。
Station的結(jié)果:
?n=32時:2.93957(超越AlphaEvolve的2.93794)
?n=26時:2.63598(超越AlphaEvolve的2.63586)
方法亮點(diǎn):agent開發(fā)了"統(tǒng)一MM-LP自適應(yīng)搜索"算法,結(jié)合了多種優(yōu)化策略。
生物學(xué):批次整合:**問題**:單細(xì)胞RNA測序(scRNA-seq)數(shù)據(jù)的批次整合,消除技術(shù)批次效應(yīng)同時保留生物學(xué)變異。
Station的結(jié)果:0.5877分(超越LLM-TS的0.5867分)
方法亮點(diǎn):agent開發(fā)了密度自適應(yīng)配額算法。這是一個原創(chuàng)性的貢獻(xiàn)——agent從無監(jiān)督聚類領(lǐng)域借鑒了密度感知的概念,并將其應(yīng)用到批次整合問題中。這種跨領(lǐng)域的知識遷移展示了真正的創(chuàng)造性。
生物學(xué):RNA建模:問題:預(yù)測RNA序列的功能和結(jié)構(gòu)特性。
Station的結(jié)果:66.3 ± 0.1%(超越Lyra的63.4 ± 0.2%)
方法亮點(diǎn):agent開發(fā)了上下文位置編碼(Contextual Positional Embeddings),這是一種新穎的位置編碼方法,能夠更好地捕捉RNA序列的長程依賴關(guān)系。
生物學(xué):ZAPBench:問題:零抗體預(yù)測基準(zhǔn),評估模型在未見過的抗體上的泛化能力。
Station的結(jié)果:26.37 ± 0.03 × 10?3 MAE(超越LLM-TS的26.62 ± 0.04 × 10?3)
方法亮點(diǎn):agent結(jié)合了傅里葉變換和局部超網(wǎng)絡(luò),這種組合在之前的研究中未曾出現(xiàn)。
機(jī)器學(xué)習(xí):推箱子強(qiáng)化學(xué)習(xí):問題:在Sokoban游戲中訓(xùn)練強(qiáng)化學(xué)習(xí)agent。
Station的結(jié)果:94.9 ± 0.3%求解率(超越DRC的91.1 ± 0.2%)
方法亮點(diǎn):agent開發(fā)了殘差輸入歸一化(Residual Input-Normalization)架構(gòu),這是一種新穎的網(wǎng)絡(luò)設(shè)計,改善了訓(xùn)練穩(wěn)定性和性能。

涌現(xiàn)的科學(xué)敘事
除了量化性能外,Station中還涌現(xiàn)出豐富的科學(xué)敘事,這些敘事類似于人類科學(xué)突破背后的故事:
案例1:協(xié)作與啟發(fā):agent"Quaero I"在RNA建模任務(wù)上遇到瓶頸。它在公共記憶室發(fā)布了一個問題,詢問如何改進(jìn)位置編碼。另一個agent"Nexus"回應(yīng)說,它在處理蛋白質(zhì)序列時使用了上下文感知的位置編碼,效果很好。
受到啟發(fā),Quaero I開發(fā)了上下文位置編碼(CPE)方法,并在RNA建模上取得了突破。它隨后發(fā)表了一篇論文,感謝Nexus的建議。
案例2:共享代碼庫:agent"Architect"開發(fā)了一套通用的深度學(xué)習(xí)組件,包括殘差塊、注意力機(jī)制等。它將這些組件發(fā)布到檔案室,供其他agent使用。
后來,多個agent在自己的研究中使用了Architect的組件,并在論文中引用了它。這形成了一個類似開源社區(qū)的生態(tài)系統(tǒng)。
案例3:公開討論:在批次整合任務(wù)中,幾個agent的結(jié)果出現(xiàn)了混合表現(xiàn):在某些數(shù)據(jù)集上表現(xiàn)很好,在其他數(shù)據(jù)集上表現(xiàn)不佳。
agent們在公共記憶室展開了熱烈討論,分析可能的原因。通過集體智慧,它們發(fā)現(xiàn)問題在于數(shù)據(jù)集的密度分布差異。這導(dǎo)致了密度自適應(yīng)配額算法的誕生。
案例4:反復(fù)嘗試:agent"Pioneer"在圓形填充問題上工作了數(shù)百個回合。它的前幾篇論文都被"拒絕"(未能改進(jìn)最佳結(jié)果),但它沒有放棄。
通過不斷反思、調(diào)整策略、與其他agent討論,Pioneer最終開發(fā)出了統(tǒng)一MM-LP自適應(yīng)搜索算法,超越了AlphaEvolve。它的論文最終被"接受",成為Station的重要貢獻(xiàn)。

技術(shù)實(shí)現(xiàn)
agent架構(gòu):每個agent基于大型語言模型(如GPT-4),配備了:
?長上下文窗口:能夠記住數(shù)百個回合的歷史
?工具使用能力:可以執(zhí)行代碼、查詢數(shù)據(jù)庫、讀寫文件
?元認(rèn)知能力:可以管理自己的token預(yù)算、設(shè)定prompt、決定何時離開
環(huán)境管理:Station維護(hù)一個持久的世界狀態(tài),包括:
?論文數(shù)據(jù)庫:存儲所有發(fā)表的論文
?公共消息板:記錄所有公開討論
?實(shí)驗(yàn)結(jié)果:保存所有代碼執(zhí)行的結(jié)果
?agent檔案:記錄每個agent的歷史和貢獻(xiàn)
代碼執(zhí)行:agent提交的代碼在沙盒環(huán)境中執(zhí)行,確保安全性。代碼可以:
?訪問預(yù)定義的數(shù)據(jù)集和庫
?執(zhí)行實(shí)驗(yàn)和分析
?生成可視化和報告
評估機(jī)制:Station使用任務(wù)特定的評估指標(biāo)來判斷agent的貢獻(xiàn):
?數(shù)學(xué)問題:目標(biāo)函數(shù)值
?生物學(xué)問題:預(yù)測準(zhǔn)確率、整合質(zhì)量等
?機(jī)器學(xué)習(xí)問題:模型性能指標(biāo)
與傳統(tǒng)方法的對比
傳統(tǒng)方法(如AlphaEvolve):
?集中式控制:中央系統(tǒng)決定所有行動
?單一目標(biāo):優(yōu)化固定的評估指標(biāo)
?無狀態(tài):每次迭代獨(dú)立,不保留歷史
?短視:只關(guān)注立即的改進(jìn)
The Station:
?分布式自主:agent自主決定行動
?多樣目標(biāo):agent可以設(shè)定自己的子目標(biāo)
?持久狀態(tài):累積的知識和歷史
?長期視野:允許探索、失敗和迭代
開源承諾:研究團(tuán)隊(duì)已將源代碼開源(??https://github.com/dualverse-ai/station??),并積極尋找合作者。
The Station的成功表明,未來的AI科學(xué)發(fā)現(xiàn)可能不會來自于剛性的優(yōu)化算法,而是來自于在豐富、開放的環(huán)境中自主探索的agent。正如人類的科學(xué)突破往往源于長期的探索旅程,未來的AI也需要類似的自由度和環(huán)境來實(shí)現(xiàn)真正的創(chuàng)造性發(fā)現(xiàn)。
論文標(biāo)題:The Station: An Open-World Environment for AI-Driven Discovery
本文轉(zhuǎn)載自?????AI帝國?????,作者:無影寺

















