AI半天頂博士6個月,奧特曼太激動!生化圈巨震
讓OpenAI奧特曼激動的AI成就!
「AI科學家」Kosmos帶來了7項發現:
獨立復現了神經科學、材料科學、生物學等領域3大發現,
還在遺傳流行病學、多組學整合分析、阿爾茨海默癥和轉錄組學上取得了4項原創發現。
OpenAI的奧特曼激動表示:「我預計大家會看到越來越多類似的事情,而這將成AI最重要影響之一。祝賀Future House團隊!」

原來這項突破背后靠的OpenAI——
Future House董事兼首席執行官Sam Rodriques在推文評論:
這一切之所以成為可能,很大程度上要歸功于OpenAI員工所做的出色工作。
持之以恒,接下來的幾年注定精彩紛呈。
他還推銷了Kosmos體驗平臺。

奧特曼送上祝賀的「未來之家」(Future House)什么來頭?到底做什么了讓奧特曼感到興奮?
可以保證,這次奧特曼絕對沒有「眩暈到癱坐」。但毫無疑問,這讓他真正看到了「AI正在加速科學」的ASI曙光!
全球首個AI科學家天團
為AI加速科學而生
前沿科學,正在從「稀缺」轉向「豐饒」人類的知識正以指數級速度激增,但人的大腦容量卻止步不前。
于是,新的發現被錯過,潛在的聯系無人察覺。
要推動科學進步,人類亟需一種能與數據量齊頭并進、能夠在整個人類知識記錄中推理的智能體。
2023年,非營利組織FutureHouse成立,目標是打造一位能夠加速創新的AI科學家。

「未來之家」的使命很簡單:為每一位科研人員配備一位AI科學家,讓跨領域的發現加速發生。
「未來之家」堪稱全球第一AI科學家天團,可以007不斷查資料,驗證生化環材等科學領域的博士級想法是否靠譜;在2.5個月內,此平臺找到了治盲新藥,讓醫學圈震撼。
本月初,FutureHouse的商業分支——愛迪生(Edison),現正將這項技術推向全球。
FutureHouse繼續致力于推動基礎生物學研究和教育普及,
而Edison(愛迪生)則將AI科學家技術擴展到全球的研究人員和各行各業中。

Edison由來自物理、生物、化學和人工智能等領域頂尖機構的科學家與工程師共同打造。
Edison將繼續秉持FutureHouse的理念,為科研社區提供豐厚的免費服務,同時也為需要更高請求速率或額外功能的深度用戶提供更多付費選項。
結構化世界模型
一次可讀1500篇論文
Kosmos是繼FutureHouse的上一代 AI科學家Robin之后的一次重大升級。
首先,Kosmos與許多AI工具完全不同。它不是聊天機器人,更像是一款「深度科研工具」:需要一定的學習和調試時間,尤其在提示詞的設計上。
Edison團隊強調,Kosmos并非閑聊式的「娛樂」工具,而是類似「試劑盒」的科研工具,適合用于真正高價值的研究任務。
所以,Kosmos的定價相當高,但學術用戶可享免費額度。
作為下一代的AI科學家,Kosmos的核心突破,在于引入了結構化世界模型。

它能高效整合數百條智能體軌跡中提取的信息,在千萬級token級別的文本中保持研究目標的一致性與連貫性。
此前諸如Robin等AI科學家,難以處理和整合大規模信息。受限于大語言模型的上下文長度,AI科學家在推理路徑上「走不了多遠」,難以完成復雜發現。
而一次完整的Kosmos 運行,能夠閱讀1500篇論文,執行42,000行分析代碼,其能力遠超我們已知的任何智能體。
正因如此,Kosmos相比上一代的Robin具備了更強大的分析能力。
據Beta測試用戶反饋,Kosmos能在一天之內完成原本需要六個月才能完成的科研工作,而且結論的準確率高達 79.4%。

這個「六個月」的等效時長最初讓人吃驚!
雖然Kosmos通常能生成相當于數月人力的科研成果,但它有時也會誤入歧途——比如鉆進一些統計顯著但科學意義不大的方向。因此,把同一個研究目標運行多次 Kosmos,可以探索它可能采取的不同路徑。
比OpenAI還早的科研AI實習生?
在Kosmos的開發過程中,最讓人驚訝是:完整運行一次Kosmos,相當于博士生或博士后研究約六個月的工作量。
更有意思的是,開發團隊發現這一「人類等效時間」隨著運行深度線性增長。
這也成為目前首個與「科研任務復雜度」有關的推理時間scaling law。
起初,開發團隊自己對這個結果也半信半疑,因此專門做了驗證——
他們邀請Beta測試用戶提供研究目標,并代為運行Kosmos。然后將結果發回給測試用戶,并請他們估算:如果不借助 Kosmos,自己完成這一發現大約需要多長時間?
在7位科學家的反饋中,20步深度的Kosmos運行平均等效為6.14個月的研究工時。
他們對淺層運行也進行了同樣的評估,并使用盲測手法進行控制,最終得出了技術報告中展示的那條scaling law曲線。

盡管「人類節省時間」的估算本身存在主觀性,開發團隊仍認為Kosmos所完成的工作包,確實可以等同于科學家數月的研究時間,原因主要有兩點:
一是「獨立復現」的客觀對照驗證。
在技術報告中,他們展示了Kosmos所做出的三項發現,實際上早已被人類科學家獨立完成過,但在運行 Kosmos 時:
- 有兩項仍未發表,
- 另一項雖已發布,但發布時間晚于Kosmos模型的訓練數據截止日期,
- 他們還確保Kosmos無法訪問這些文獻或任何引用它們的研究。
即便如此,Kosmos依然在一次運行中成功復現了這些核心發現,而根據這些研究原作者的記錄,人類完成這些發現通常需耗時約幾個月。
當然,這一時間也存在不確定性(比如研究人員是否100%投入于該項目),但相較于基于主觀問卷的「用戶反饋法」,這種「已有成果對照法」顯然更具客觀性,進一步支持Kosmos工作成果的時間價值確實達到了「數月級」。
二是「計算工時」的獨立估算模型。
他們還構建了一個更為量化的評估模型:假設科學家平均閱讀一篇論文需時15分鐘,執行一次完整的數據分析路徑約耗時2小時(該假設與METR對當前 AI 智能體在軟件工程任務中的時長估算一致)。
據此統計,Kosmos在一次平均運行中所閱讀的論文數量與分析路徑總和,換算為人類科研時間約為4.1個月(按每周40小時工作制計算)。

在OpenAI宣布「千億美元股改」直播中,奧特曼直言OpenAI的「科學家愿景」:
到2026年9月,打造一位實習級別的研究助理AI;
到2028年,實現一位全自動的「真正AI科學家」。
如果現在Kosmos的自動研究就達到了「月級別時長」,是否是OpenAI的「實習級別的研究助理AI」?
如果Kosmos已經做到了,OpenAI當初2026年的目標,還有什么難度嗎?

這也難怪奧特曼發推表示激動。
而且在技術報告中,Kosmos已經可以在生物、化學、材料科學等學科中發現新結果。
Kosmos報告中的所有結論均配有明確出處——要么引用原始文獻,要么標明生成該結論的代碼位置,確保整個推理鏈條完全可溯源。
經獨立科學家驗證,Kosmos報告中有79.4%的陳述是準確的。
7大新發現
拯救生化環材博士生!
技術報告詳細列出了Kosmos做出的七項科研發現。
其中有三項,是對人類科學家此前成果的獨立復現。
第一項發現:Kosmos利用代謝組學數據,復現了一篇尚未發表手稿中的核心結論——在低溫條件下,小鼠大腦中核苷酸代謝是變化最顯著的通路。
關鍵是,在Kosmos完成運行之后,這項研究的預印本才在BioRxiv發布。也就是說,AI和人類幾乎同時獨立發現了相同的結果。

第二項發現:Kosmos成功復現了一篇預印本中的關鍵觀點,而這篇預印本的發布時間晚于其所用大語言模型(LLM)的訓練數據截止日期,且Kosmos在運行時并未訪問該文獻。
這一發現出自材料科學領域,表明Kosmos 具備跨學科研究能力。
具體來說,Kosmos再現了這樣一個結論:在熱退火過程中,絕對濕度是決定鈣鈦礦太陽能電池效率的主導因素,并指出關鍵閾值為約60g/m3——一旦濕度超過這一值,器件將徹底失效。

第三項發現:Kosmos與Piazza等人研究報告中得出的結論一致——跨物種的神經元連接模式可由一套通用數學規則描述。

預印本鏈接:https://www.biorxiv.org/content/10.1101/2025.02.27.640551v1
需要說明的是,雖然Kosmos運行時未訪問該研究,但該文預印本發布時間早于其所使用模型的訓練數據截止日期,無法完全排除其可能在訓練中接觸過。

除了上述「復現性發現」,Kosmos還獨立作出四項原創的科學貢獻。
第四項發現:Kosmos結合公開的GWAS(全基因組關聯分析)與pQTL(蛋白質數量性狀位點)數據,進行孟德爾隨機化分析,提供了統計學證據支持以下結論:血液中超氧化物歧化酶2(SOD2)濃度升高可能因果性地降低心肌 T1時間,并減少心肌纖維化風險。

盡管該機制在小鼠中已有研究,但這一發現進一步證實了其在人類中的潛在意義。
第五項發現:Kosmos基于多組學和統計遺傳學公開數據,提出了一個全新的分子機制,解釋某一單核苷酸多態性(SNP)如何可能降低2型糖尿病的患病風險。
第六項發現:Kosmos創新性地設計了一種新型分析方法,利用阿爾茨海默?。ˋD)患者的蛋白質組數據,推演出導致神經元中Tau蛋白積聚的分子事件序列。

第七項發現,具備明確的臨床相關性。
在「衰老過程中神經元易損性」這一開放性課題中,Kosmos對年輕與年老小鼠的單細胞核轉錄組數據進行了大規模、無偏探索,發現內嗅皮層神經元(AD中最早出現Tau蛋白積累的區域)隨年齡增長,其flippase(翻轉酶)基因表達水平顯著下降。

該下降可能導致磷脂酰絲氨酸暴露于細胞膜表面,向小膠質細胞釋放「吃掉我」的信號,從而誘發免疫吞噬反應,導致神經元退化。
更關鍵的是,在另一組人類AD患者的單細胞RNA測序數據中驗證了這一發現。在Braak病理階段II的樣本中,內嗅皮層上顆粒層神經元中的flippase表達量明顯低于Braak 0階段(即尚未出現病理變化的階段),與Tau病變首次出現的時間點完全吻合。
從獨立復現到原創發現,Kosmos標志著AI科研能力進入可驗證、可復用的新階段。
自動化科學正在形成,科研模式正迎來結構性變化。



























