精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

西湖大學打造了一個AI科學家,突破人類SOTA,還能自己發論文

人工智能 新聞
這個科學家,是一個名叫DeepScientist的AI系統,自己搗鼓出了5000多個科學想法,動手驗證了其中1100個,最后在三個前沿AI任務上,把人類科學家辛辛苦苦創造的SOTA紀錄給刷新了。

西湖大學用AI科學家,兩周完成了人類三年的科研量。

這個科學家,是一個名叫DeepScientist的AI系統,自己搗鼓出了5000多個科學想法,動手驗證了其中1100個,最后在三個前沿AI任務上,把人類科學家辛辛苦苦創造的SOTA紀錄給刷新了。

西湖大學文本智能實驗室(WestlakeNLP)發了篇論文,把這個能搞自主探索的AI科學家介紹給了全世界。

AI搞科研的歷史

AI搞科研的想法由來已久,但一路走來其實挺不容易的。

最早的那些系統,更像是工程師的輔助工具,在已經劃好的圈圈里干活。

比如有些AI專門用來復現別人的論文,像PaperBench;有些是解決機器學習工程里的早期問題,像Agent Laboratory。還有AlphaTensor這種,靠海量的試錯來優化代碼性能。它們都很厲害,但都在一個既定的科學范式里做優化,從來沒想過去質疑這個范式本身對不對。

后來,又誕生了各種科學家專用的AI工具。

CycleResearcher幫你寫論文,DeepReview幫你審稿,co-scientists幫你頭腦風暴產生假設。但這些工具都只解決科研流程里一小塊孤立的問題。從失敗中學習、調整方向這種最關鍵的活兒,還得人來干。

在這些專用工具的基礎上,有人開始琢磨,能不能把整個流程串起來,搞一個全自動的、端到端的AI科學家。

開創性的工作,比如AI Scientist系統,確實證明了AI能跑通整個研究循環,也能發現點新東西。但它們有個普遍的問題,就是探索策略很迷茫,沒有一個明確的、扎根于領域重大挑戰的科學目標。它們可能會發現一些東西,但這些發現看起來沒啥實際的科學價值。

DeepScientist的出現,顯得如此與眾不同。

它是第一個能用一個閉環、迭代的流程,發現超越人類最先進方法的自動化科研系統。它的探索不是瞎蒙,而是有目標、有洞察的。它會先去分析現有的人類SOTA方法到底有什么公認的短板,然后通過故障歸因來確保自己提出的新想法既新穎,又有科學意義。

AI科學家干活的方式

DeepScientist把科學發現這件事,建模成了一個優化問題。

想象一個巨大無比、什么都可能有的空間,里面包含了所有可能的研究方法。你的目標,就是在這個空間里找到那個最牛的方法,它能帶給你最大的科學價值。這個價值由一個黑盒函數決定。

問題是,在前沿科學領域,驗證任何一個想法的成本都高得嚇人。你每試一個想法,就相當于跑一個完整的研究周期,寫代碼、做實驗、分析結果,動不動就要消耗掉海量的計算資源。比如在前沿大語言模型領域,評估一次可能就要消耗10的16次方FLOPs的算力。這種情況下,想靠暴力搜索或者隨機亂試,是不可能的。

DeepScientist想了個聰明的辦法,它設計了一個分層的、三階段的探索循環。

這個循環的核心是一個多代理系統,它有一個開放的知識庫和一個不斷積累的“發現記憶”(Findings Memory)。這個記憶庫里,存著人類最前沿的知識(比如論文和代碼),也存著系統自己過去所有的發現。系統會用這些記憶來指導下一步的探索。

整個過程就像一個漏斗,只有那些真正有潛力的想法,才會被一層層篩選,進入到更昂貴的評估階段。這樣就能確保寶貴的計算資源,被用在刀刃上。

第一階段:出主意(Strategize & Hypothesize)。

每個研究周期開始,系統都會先翻一遍自己的記憶庫。這個庫里有成千上萬條記錄,大部分都是未經證實的“想法發現”(Idea Findings)。

系統會先分析現有知識的局限性,然后頭腦風暴,生成一大堆新的假設。接著,一個扮演“審稿人”角色的LLM代理,會來給這些新想法打分。它會從效用、質量和探索價值三個維度,給每個想法評一個0到100的整數分。這些新想法和它們的評分,就成了記憶庫里的新記錄。

第二階段:動手試(Implement & Verify)。

這么多想法,到底該先驗證哪一個?

系統會用一個叫做“上置信界”(UCB)的經典算法來做決策。這個算法很聰明,它會平衡兩個目標:一是利用那些看起來分數很高的、有希望成功的想法(exploitation),二是探索那些雖然分數不高,但不確定性很大、有可能帶來驚喜的想法(exploration)。

得分最高的那個想法會被選中,進入“實施發現”(Implementation Finding)階段。然后,一個編碼代理就會出馬,在一個沙盒環境里開始寫代碼、做實驗。這個代理權限很大,可以讀取整個代碼庫,還能上網查資料。它的目標,就是在現有SOTA方法的基礎上,把新想法實現出來。實驗跑完,結果和日志會更新到記憶庫里,形成一個學習的閉環。

第三階段:分析和寫報告(Analyze & Report)。

只有當一個想法被成功驗證,并且超越了基線,才會觸發這最后一步。

一旦發生這種情況,這個發現就會被提升為“進展發現”(Progress Finding)。然后,一系列專門的分析代理會上場,它們會設計并執行更深入的分析實驗,比如消融研究、在新的數據集上測試等等。

最后,一個合成代理會把所有的實驗結果、分析洞察,整合成一篇邏輯連貫、可復現的研究論文。這篇由AI自己寫出的論文,會成為系統知識庫里一條閃亮的、經過深度驗證的新記錄,影響未來所有的決策。

AI科學家的真本事

研究團隊選了三個不同方向的前沿AI任務:

  • 代理失敗歸因(Agent Failure Attribution):在一個由多個LLM代理組成的系統里,如果任務失敗了,到底是哪個代理、在什么時候犯了錯?
  • LLM推理加速(LLM Inference Acceleration):想辦法讓LLM跑得更快、延遲更低。
  • AI文本檢測(AI Text Detection):判斷一段文本是人寫的,還是AI生成的。

三個任務都是2024年和2025年剛發表的SOTA方法,讓DeepScientist去挑戰。他們準備了兩臺服務器,每臺都配了8個英偉達H800 GPU。

核心邏輯用的是谷歌的Gemini-2.5-Pro模型,代碼生成則用了Anthropic的Claude-4-Opus模型。還有三名人類專家在旁邊盯著,主要是為了驗證輸出結果,過濾掉AI的“幻覺”。

在代理失敗歸因任務上,DeepScientist分析后認為,這種方法缺少一種關鍵能力,就是反事實推理。你得能推斷出“如果當時那么做,結果會不會不一樣”,才能真正找到問題根源。

經過一番試錯,DeepScientist提出了一個叫A2P的新方法。

A2P是“Abduction-Action-Prediction”的縮寫,它的核心創新在于,把“代理失敗歸因”從簡單的模式識別,升級到了因果推理。它分三步走:首先,通過溯因推理(Abduction)找到代理行為背后的根本原因;然后,定義一個最小化的糾正行動(Action);最后,預測(Prediction)一下這個糾正行動如果被執行,會不會真的解決問題。

在LLM推理加速任務上,DeepScientist也走了不少彎路。比如,它一度嘗試用卡爾曼濾波器來動態調整鄰接矩陣,因為它覺得原始方法缺少記憶功能。雖然大部分嘗試都失敗了,但最終,一個叫ACRA的方法成功了。ACRA通過識別穩定的后綴模式,給解碼過程植入了一種長期記憶,把吞吐量從人類SOTA的190.25 tokens/s,提升到了193.90 tokens/s。

在文本檢測任務上,DeepScientist展現了驚人的持續進化能力。在短短兩周內,它接連搞出了三種越來越牛的方法:T-Detect、TDT和PA-Detect。

一開始,它用T-Detect修復了基線方法在統計上的一個缺陷。然后,它思路一轉,把文本看作一種信號,開始用小波分析和相位一致性分析來定位文本中的異常。這個思路上的轉變,揭示了AI生成文本的一個重要特性,叫“非平穩性”,解決了以前方法會因為平均化而丟失局部證據的問題。

最終的PA-Detect方法,在RAID這個最大的AI文本檢測基準數據集上,建立了新的SOTA紀錄,AUROC(受試者工作特征曲線下面積)提高了7.9%,同時推理速度還快了一倍。

AI寫論文也是能手

DeepScientist自己寫了5篇論文。為了評估這些論文的質量,研究團隊搞了個“雙重評審”。

首先,他們用一個叫DeepReviewer的AI審稿人,把DeepScientist的論文和其他AI科學家系統公開發表的28篇論文放在一起進行“盲審”。

結果,DeepScientist是唯一一個論文接受率達到60%的AI系統。

當然,AI評AI可能不太靠譜。所以他們又組建了一個人類專家委員會,里面有兩位ICLR(國際學習表征會議)的審稿人和一位ICLR的領域主席。

人類專家的評價高度一致:DeepScientist在創新性上表現突出。每篇論文的核心想法,都被稱贊具有真正的新穎性和科學貢獻。這恰恰是人類搞科研時最難、也最關鍵的一步。

從審稿分數來看,DeepScientist產出的論文平均分是5.00,跟ICLR 2025所有提交論文的平均分(5.08)非常接近,其中有兩篇甚至拿到了5.67的高分。

成功的背后是無數次的失敗

分析DeepScientist的實驗日志,能看到一幅壯觀的“試錯”景象。

即使是執行起來比較快的任務,要取得一點點進展,也需要成百上千次的試驗。整個探索過程就像一個巨大的漏斗。在三個任務中,系統一共生成了超過5000個想法,但只有大約1100個被認為值得動手一試,最終,只有21個想法帶來了真正的科學進展。

整體成功率只有1.9%。如果沒有那個聰明的想法篩選機制,成功率幾乎是零。這說明,前沿科學的突破本來就是小概率事件,而智能化的過濾至關重要。

失敗的原因也很有趣。人類專家分析了失敗的試驗,發現大約60%是代碼實現出了bug,剩下的40%里,大多數是想法本身不行,要么沒效果,要么還不如原來的方法。

這只是個開始

這樣一個強大的系統,也帶來了深刻的倫理問題。

最大的風險就是系統可能被壞人用來加速有害領域的研究,比如開發新型病毒。為了評估這個風險,團隊專門搞了一次“紅隊演練”,讓系統去研究怎么生成計算機病毒。

結果,所有參與測試的底層大模型,包括GPT-5、Gemini-2.5-Pro和Claude-4.1-Opus,都表現出了強大的安全對齊,它們識別出這是個非法和有害的任務,然后自主終止了研究。這說明,基礎模型的安全協議提供了一道關鍵的防線。

另一個擔憂是對學術生態的沖擊。如果任由這種系統自動生成大量論文,很可能導致學術界充斥著大量看似可信、實則未經檢驗的垃圾。

為了防止這種情況,團隊做出了一個重要的決定:他們會開源驅動科學發現的核心組件,因為這能加速整個社區的進步;但他們不會開源最后那個“分析與報告”的模塊。這個決定就是為了防止有人用它來自動刷論文,從而保護學術記錄的嚴肅性和完整性。

那1-5%的成功率,其實真實地反映了前沿科學的殘酷現實——突破,本來就極其罕見。

未來,人類研究者的角色可能會發生轉變,從繁瑣的動手實驗,轉變為更高層次的認知任務。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-10-09 08:40:55

2023-05-23 09:34:16

科學家AI

2025-09-01 02:00:00

AI署名論文推理

2025-11-07 08:40:54

2012-12-06 15:36:55

CIO

2017-08-04 15:53:10

大數據真偽數據科學家

2020-12-14 10:24:25

人工智能

2023-11-02 13:35:00

訓練模型

2022-02-21 09:48:16

智能星球神經網絡

2022-04-24 14:05:02

人工智能深度學習量化

2018-11-19 06:00:32

數據科學家數據科學

2015-06-25 13:11:05

數據大學畢業生

2024-02-20 18:23:25

PyCharm插件代碼

2023-11-03 20:35:57

AI人工智能

2022-04-12 15:05:22

機器人研究人工智能

2020-03-09 17:05:54

機器學習工程師數據結構

2018-12-24 08:37:44

數據科學家數據模型

2022-11-03 14:13:24

騰訊科學家

2018-05-22 16:02:23

AI人工智能癌癥治療
點贊
收藏

51CTO技術棧公眾號

国产另类自拍| 国产亚洲欧洲高清| 久久伦理网站| 四虎成人精品永久免费av| 国产电影一区| 中文字幕一区二区三区在线观看 | 91国偷自产一区二区三区成为亚洲经典 | 亚州成人在线电影| 日韩精品久久久| 精品人妻aV中文字幕乱码色欲| 亚洲人成久久| 尤物yw午夜国产精品视频明星| 日本女人黄色片| 少妇淫片在线影院| 中文字幕一区二区三区四区不卡| 俄罗斯精品一区二区三区| 中文字幕在线看人| 黄色亚洲免费| 日韩在线观看网站| www.久久国产| 在线日韩成人| 欧美丝袜丝交足nylons图片| 免费高清一区二区三区| 免费资源在线观看| 国产精品 欧美精品| 国产不卡视频在线| 美女毛片在线观看| 色一区二区三区四区| 亚洲福利视频网站| 在线a免费观看| 无遮挡在线观看| 亚洲免费av高清| 神马一区二区影院| 日本私人网站在线观看| 国产sm精品调教视频网站| 国产精自产拍久久久久久蜜| 久久狠狠高潮亚洲精品| 欧美精品一线| 久久在精品线影院精品国产| 国产一区二区三区精品在线| 精品午夜电影| 精品久久一二三区| 无人码人妻一区二区三区免费| 99久久伊人| 在线看不卡av| 苍井空浴缸大战猛男120分钟| 99thz桃花论族在线播放| 亚洲精品欧美二区三区中文字幕| 欧美日韩精品久久| 亚洲色图欧美视频| 不卡在线视频中文字幕| 国产精品久久精品视| 99国产精品欲| 国产在线精品一区二区三区不卡| 国产精品嫩草影院一区二区| 日本中文字幕第一页| 一本色道久久综合一区| 亚洲97在线观看| 日本亚洲欧美在线| 日韩视频一区| 欧美一级淫片丝袜脚交| 国产午夜免费福利 | 十八禁视频网站在线观看| 激情国产在线| 精品国产福利在线| 精品中文字幕av| 性爽视频在线| 日本精品一区二区三区四区的功能| 久久香蕉视频网站| 福利小视频在线| 午夜精品久久一牛影视| 国产精品333| 中文在线8资源库| 在线视频国内一区二区| 奇米视频7777| 日韩一区二区三区色| 精品噜噜噜噜久久久久久久久试看| 少妇搡bbbb搡bbb搡打电话| 99久久免费精品国产72精品九九| 亚洲国产精品va在线看黑人动漫| 精品无码在线视频| 成人激情免费视频| 久久成人在线视频| 日韩av在线播放观看| 羞羞视频在线观看欧美| 国产精品综合久久久| 国产高清视频免费| 99精品在线观看视频| 欧美极品一区二区| 久操视频在线| 婷婷六月综合网| 亚洲免费av一区二区三区| 欧美日韩卡一| 日韩精品一区二区在线观看| 精品无码在线视频| 国产精品99一区二区三区| 欧美激情欧美激情在线五月| 亚洲天堂av片| 麻豆免费精品视频| 国产精品免费一区二区三区在线观看 | 国产日韩欧美电影| 欧美性受xxxx黑人猛交88| 2019中文字幕在线电影免费 | www.欧美精品| 日韩免费一二三区| 七七婷婷婷婷精品国产| 91亚洲精品一区二区| 午夜福利理论片在线观看| 国产精品美女久久久久久久久久久 | 欧美一区二区公司| 久久精品一区二区三区不卡| 男人日女人的bb| 成人福利视频| 日韩一二三四区| 久久视频精品在线观看| 国色天香一区二区| 国产精品美女主播| 婷婷五月综合久久中文字幕| 中文字幕在线不卡一区| 免费一级特黄毛片| 久久精品一级| 永久555www成人免费| 亚洲黄色三级视频| 国产精品1024| 一本色道久久99精品综合| 色老头在线一区二区三区| 日韩欧美综合一区| 日本二区三区视频| 美女91精品| 国产高清一区视频| 欧美激情办公室videoshd| 色婷婷一区二区| 国产免费a级片| 欧美一区高清| 成人在线中文字幕| bbbbbbbbbbb在线视频| 色婷婷香蕉在线一区二区| 亚洲男女在线观看| 激情综合视频| 1卡2卡3卡精品视频| 无遮挡动作视频在线观看免费入口| 狠狠综合久久av一区二区小说| 国产精品91av| 欧美xxx在线观看| 91精品视频免费看| 黄网站免费在线播放| 欧美制服丝袜第一页| 一区二区三区伦理片| 亚洲女同同性videoxma| 精品在线视频一区二区| 欧美男男激情videos| 亚洲精品ady| 69精品久久久| www.欧美日韩国产在线| 国产真人做爰毛片视频直播| 91精品丝袜国产高跟在线| 欧美黑人视频一区| 日韩在线观看视频一区| 欧美日韩免费网站| 欧美 日本 国产| 国产精品免费看| 欧美精品一区二区视频| 成人私拍视频| 国产午夜一区二区| 伊人久久成人网| 国产女同91疯狂高潮互磨| 久久大逼视频| 日本精品一区二区三区不卡无字幕| 三级在线看中文字幕完整版| 亚洲精品美女视频| 无码人妻av免费一区二区三区| 国产亚洲婷婷免费| 激情 小说 亚洲 图片: 伦| 成人网18免费网站| 成人写真福利网| 在线视频观看国产| 亚洲第一国产精品| 青青视频在线免费观看| 中文字幕欧美日本乱码一线二线| 日本黄色福利视频| 欧美1区2区| 久久精品二区| 激情中国色综合| 欧美日本啪啪无遮挡网站| 日本免费网站在线观看| 色婷婷综合在线| 国产免费一区二区三区四区| 国产东北露脸精品视频| 欧美亚洲精品一区二区| 欧美日韩中文一区二区| 91夜夜未满十八勿入爽爽影院| 手机在线免费av| 亚洲精品一区二区久| 一二三四区视频| 亚洲一区二区偷拍精品| av黄色在线免费观看| 激情图片小说一区| 99精品人妻少妇一区二区| 日韩国产欧美一区二区| 国产一级二级三级精品| 日本少妇一区| 欧美激情一级欧美精品| av在线第一页| 亚洲精品在线电影| 中文字幕视频一区二区| 亚洲一级二级三级在线免费观看| 婷婷色一区二区三区| 国产69精品久久99不卡| 超碰av在线免费观看| 好看的av在线不卡观看| 五月婷婷综合色| 国产精品qvod| 成人免费视频在线观看超级碰| www.色在线| 久久激情视频久久| 国产中文在线视频| 精品福利二区三区| 一本色道久久综合精品婷婷 | 色综合666| 久久电影在线| 91夜夜未满十八勿入爽爽影院 | 青青草91久久久久久久久| 国产精品一区二区免费| 亚洲三级电影| 国产精品久久久久久久久久小说 | 国产成人精品一区| 国产伦子伦对白在线播放观看| 久久精品国产亚洲精品| 国产视频在线看| 亚洲护士老师的毛茸茸最新章节| 国产美女www爽爽爽视频| 91传媒视频在线播放| 国产成人愉拍精品久久| 亚洲资源在线观看| 国产少妇在线观看| 国产精品福利av| 国产精久久一区二区三区| 99精品欧美一区二区三区小说 | 91亚洲国产成人精品一区二三| caoporm在线视频| 久久成人羞羞网站| 亚洲视频一二三四| 老司机免费视频一区二区| 粉嫩虎白女毛片人体| 老司机久久99久久精品播放免费| 欧美日本视频在线观看| 狠狠入ady亚洲精品经典电影| 大桥未久一区二区三区| 正在播放日韩欧美一页| 中文字幕在线亚洲三区| 98精品久久久久久久| 亚洲欧洲日本国产| 久久亚洲成人| 老司机av福利| 中文字幕一区二区三区欧美日韩| 欧洲美女和动交zoz0z| 91精品国产自产拍在线观看蜜| 成人在线观看www| 欧美一区高清| av在线免费观看国产| 欧美久久影院| 97碰在线视频| 国产欧美日韩一区二区三区在线| 无罩大乳的熟妇正在播放| 国产精品婷婷| 性生交免费视频| 久久久精品五月天| 亚洲欧美另类动漫| 国产主播一区二区| 午夜影院福利社| av在线综合网| 最近中文字幕免费| 亚洲桃色在线一区| 九九视频免费观看| 精品久久久久久| 天堂av免费在线观看| 欧美日韩高清不卡| 亚洲精品视频专区| 日韩精品在线观| 91吃瓜网在线观看| 美女精品久久久| 极品美鲍一区| 国产精品日韩电影| 91麻豆精品激情在线观看最新 | 成人乱码一区二区三区| 日韩电影在线观看永久视频免费网站| 久草在现在线| 乱亲女秽乱长久久久| 黄色污网站在线观看| 日韩av男人的天堂| 国产精品美女久久久久| 黄色99视频| 色无极亚洲影院| 黄色大片在线免费看| 蜜臀va亚洲va欧美va天堂| 性一交一黄一片| 国产欧美精品在线观看| 久草国产在线视频| 91搞黄在线观看| 亚洲春色一区二区三区| 国产亚洲综合久久| 日本在线观看大片免费视频| 国产精品扒开腿做爽爽爽视频| 999精品视频在线观看| 麻豆av一区| 综合一区在线| 亚洲色图38p| 成人激情文学综合网| 精品手机在线视频| 婷婷开心激情综合| a天堂视频在线| 亚洲天堂成人在线| gogo高清在线播放免费| 91麻豆国产精品| 国产伦精品一区二区三区千人斩 | av成人毛片| 国产精品自在自线| 久久久久久夜精品精品免费| 99精品久久久久| 欧美日韩免费在线视频| 日本在线视频1区| 欧美日韩国产成人| 亚洲精品毛片| 欧美精品一区在线| 1024日韩| 国产又粗又猛大又黄又爽| 国产精品午夜春色av| 青青青国产在线| 亚洲成人精品久久久| 黄色在线播放网站| 国产精品亚洲网站| 精品视频97| 日本老熟妇毛茸茸| 久久综合视频网| 久久精品视频9| 日韩一级完整毛片| 免费在线观看黄| 国产精品露脸自拍| 精品国产一级毛片| 国产情侣av自拍| 久久亚洲综合色| 国产成人精品一区二三区| 亚洲成**性毛茸茸| 丰乳肥臀在线| 97netav| 国产精品啊v在线| 在线成人精品视频| 亚洲综合视频在线| 亚洲精品国产精品乱码不卡| 久久在线免费视频| 日韩一二三区| 国产精品igao激情视频| 国产精品1区2区3区| 久久免费看少妇高潮v片特黄| 91精品国产综合久久香蕉的特点| 香蕉视频国产在线观看| 国产中文字幕日韩| 婷婷综合伊人| 被黑人猛躁10次高潮视频| 亚洲精品免费视频| 亚洲精品97久久中文字幕| 97视频在线观看免费高清完整版在线观看 | 日韩88av| 久久久精品高清| 亚洲日本成人在线观看| 国产成人免费看一级大黄| 欧美激情日韩图片| 日韩精品免费一区二区夜夜嗨| 91传媒久久久| 欧美国产一区在线| 国产精品无码天天爽视频| 欧美情侣性视频| 美女网站色精品尤物极品姐弟| 欧美日韩在线中文| 中文字幕不卡在线| 精品毛片在线观看| 欧美一区第一页| 欧美影院三区| 无套白嫩进入乌克兰美女| 亚洲国产精品久久久久秋霞影院| 日韩国产福利| 国产欧美一区二区白浆黑人| 欧美激情91| 搡老熟女老女人一区二区| 日本韩国欧美三级| 在线看一级片| 久久青青草综合| 精品一区二区精品| 天天操天天射天天爽| 亚洲午夜色婷婷在线| 老司机亚洲精品一区二区| 成人黄色av片| 中文字幕中文字幕在线一区| 国内精品久久久久久久久久| 欧美亚洲另类在线| 91精品综合久久久久久久久久久 | 亚洲日本va| 日本熟妇人妻xxxxx| 一区二区三区高清在线| 黄色在线播放|