精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI Scientist爆火背后的技術詳解以及優缺點分析 精華

發布于 2024-8-26 01:41
瀏覽
0收藏

今天分享一篇最近比較熱門的日本創業公司Sakana AI的一篇文章,標題為《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一種名為“AI Scientist”的框架,旨在實現端到端完全自動化的科學發現,完成從Idea構建,實驗跑取,文章撰寫的完全自動化。驗證了AI自動化探索新問題,解決新問題,甚至撰寫Paper的可行性。同時還提出了一個能與人類評委水準接近的Review Agent,能夠給出高水準的評審意見。

總體來說,其還是一個多agent系統,利用了reflection機制迭代優化效果,同時也結合Semantic Scholar等工具驗證創新性,利用Aider工具來更新代碼和Paper,來執行相關實驗。同時也要看到其只是搭了一個基礎的Baseline通道,如何提升Idea生成的深度以及多樣性,如何讓LLM能實現更復雜,更有挑戰性的Idea,如何降低Review Agent的False Positive Rate(FPR)都值得進一步探索。

本文將對其背后的技術,優缺點進行詳細的分析~

一、概述

1. Motivation

  • ? 盡管前沿模型已被用作人類科學家的輔助工具,如頭腦風暴、編寫代碼或預測任務,但它們仍僅完成了科學過程的一小部分。
  • ? 本文提出了第一個全面的框架,用于實現完全自動化的科學發現,使前沿大型語言模型能夠獨立進行研究并傳達其發現。

2. Method

文章介紹了“AI科學家”框架,該框架包括三個主要階段:

1.想法生成:AI科學家首先“頭腦風暴”出一系列新穎的研究方向,然后在此基礎上進行創新性迭代優化,最后篩選創新性較高的idea。

2.實驗迭代:根據想法和模板,AI科學家首先執行提出的實驗plan,然后根據實驗結果,迭代優化實驗,最后更新plot代碼,可視化其結果以供后續撰寫,代碼通過AIder工具來更新。

3.論文撰寫:AI科學家使用LaTeX撰寫完整的科學論文,描述其進展。

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:總體就兩個輸入,Baseline Code,以及論文Latex模板,加上init paper的一些信息。

? Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

? Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.

? 輸出:完整的Paper

1 Idea generate過程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


?輸入:code template

?輸出:some ideas

?代碼:??https://github.com/SakanaAI/AI-Scientist/blob/main/ai_scientist/generate_ideas.py??

? generate_ideas:idea生成

? generate_next_idea:在seed的基礎上繼續生成新的idea

? search_for_papers:調用api search paper

? check_idea_novelty:檢查并優化創新性

1.1 Idea Generation Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


?優點:對diversity做了優化和限制,引入了COT機制。

?缺點:idea全靠LLM內部信息想出來,思考的知識有限,更新也不及時,不太能及時follow最新知識,不過內部知識能做到什么粒度其實還不太確定,另外內部知識其實是缺乏新知識的,這對科學研究非常致命。

1.2 Idea Novelty Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區

 

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


?特點:用于搜索num_rounds相關的paper來檢查優化創新性,如果每次沒search到相關內容,還知道去更新Query重新search,最多探索num_rounds,思路看起來不錯。

? 缺點:還是創新全部源于LLM內部知識。

2 Experiments過程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:idea + template

? 輸出:experiment result + experiment figures

? 實現方式:通過Aider更新代碼,然后執行命令行跑取模型結果。

? Aider平臺,可以通過命令更新代碼:https://github.com/paul-gauthier/aider?

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區

2.1 Experiment Running Aider Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:先也會有一個plan,然后分別實現experiments

? 缺點:沒具體講如何實現Experiment的,Aider看著是個平臺,可能可以直接用,但是改代碼很容易出錯,穩定性存疑。

2.2 Plotting Aider Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:生成plot,還有description,后續用于添加到論文中。

3 Paper Writing流程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:Latex模版 + Experiments recorded notes + plots,Latex模板圖如下,也是用Aider工具來修改?

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區

? 輸出:paper

3.1 Paper Writing Aider Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:提供每個section的建議+latex的template+plan

?缺點:Aider是個啥,感覺writing比較有用的樣子。

4 Reviewer Agent流程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:PDF manuscript

? 輸出:Paper Review Result

? 優點:參考了neurips ReviewerGuidelines,同時引入reflection,few-shot來提升效果。

4.1 Paper Review Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:經過多輪迭代 + COT思考

4.3 Paper Review Ensembling Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:還有個匯總的,優點self-consistant的感覺

5 反思和迭代次數

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


3. Coclusion

文章搭建了一個AI Scientist,通過三個子任務驗證了其可行性:擴散模型、Transformer和Groking。并且每種想法的實現和開發成本不到15美元。表明了該框架在Research研究和顯著加速科學進步方面的潛力。

? 搭建了一個完整的科研鏈路Agent:idea -> Experiments -> Paper,還真work了。

? 附帶送了一個接近人類水平的Paper Review Agent,效果也還不錯。

4. Limitation

? 生成的Idea經常非常相似,甚至不同模型,不同run都會有很類似的idea。

? Aider實現ideas有困難,GPT-4o寫Latext常不能編譯,有些idea實現challenging比較大。

? plot的圖像也可能有問題,而且還不止是vision,可能看不出效果。

? Latext的cite和reference可能有問題。

? LLM數學能力不太好,對metric不敏感。

? 幻覺。

二、詳細內容

1 LLM Paper Review水平在ICLR2022數據集上已經接近人類水平


? 特點:精度和人類比較接近(balanced 0.65 vs 0.66),False Negative Rate(FNR)更低,False Positive Rate(FPR)偏高,說明也有打分偏高的情況。

2 Reflexion和one-shot能提升Reviewing效果


? 結論:從0.66提升到0.70,看著還不錯。Ensemble后精度沒有提升,但是variance有降低。

3 Diffusion Modeling優化效果


? **結論1:Sonnet3.5看著比GPT-4o好很多啊,而且還更便宜,完成Paper率居然接近80%**,還是很厲害。

?結論2:DeepSeek Coder是性價比之王。

?其他:DIffusion Modeling感覺都是比較老的模型了,利用LLM生成的idea可能都是訓練過的了,可能并不能代表真正的創新。

4 Language Modeling優化效果

?結論: 這次完成率只有40%了,這個差異好大,跟猜測的一樣,coding可能非常不穩定,另外DeepSeek Coder確實厲害。

5 Grokking優化效果

?結論:不同paper,不同LLM基座的Noval Ideas居然都超過90%,但是Experiments的完成率差異非常大。?

本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
亚洲欧美中文在线视频| 亚洲妇女屁股眼交7| 国产精品最新在线观看| 欧美精品久久久久久久久46p| 日韩欧美中文在线观看| 姬川优奈aav一区二区| 欧美自拍资源在线| 国产免费高清av| 亚洲精选成人| 日韩最新在线视频| 老熟妇精品一区二区三区| 欧美va在线| 亚洲影院久久精品| 欧美在线一二三区| www日本在线| 免费xxxx性欧美18vr| 亚洲色图25p| 99热这里只有精品2| 亚洲一二三四| 一区二区在线观看免费| 日韩欧美激情一区二区| 亚洲美女性生活| 青青青爽久久午夜综合久久午夜| 欧美—级高清免费播放| 国产日产在线观看| 日日天天久久| 日韩精品一区二区三区视频在线观看 | 久久夜色精品亚洲| 亚洲精品tv久久久久久久久久| 日韩大片免费观看视频播放 | 国产成人综合视频| 国产精品96久久久久久| 国产精品白浆一区二小说| 日韩免费看片| 亚洲人午夜精品| 国产精品熟妇一区二区三区四区| 国产精品99精品一区二区三区∴| 精品成人av一区| 国产aaa免费视频| 国内精品不卡| 国产精品私人自拍| 欧美日本韩国国产| 深夜福利在线看| 国产成人精品一区二区三区网站观看| 国产精品男人爽免费视频1| 国产精品美女久久久久av爽| 欧美精品大片| 久久人人爽人人爽人人片亚洲| 37p粉嫩大胆色噜噜噜| 精品久久ai| 亚洲第一福利网| 国产精品久久久久久亚洲av| 伊色综合久久之综合久久| 欧美一区二区精美| 三年中文在线观看免费大全中国| 黄色欧美视频| 7777精品伊人久久久大香线蕉完整版 | av一区二区三区在线观看| 国产情侣一区二区| 国产精品亚洲午夜一区二区三区 | 免费av中文字幕| 蘑菇福利视频一区播放| 欧美孕妇孕交黑巨大网站| 一级免费在线观看| 老鸭窝亚洲一区二区三区| 欧美一乱一性一交一视频| 国产高清中文字幕| 三级成人在线视频| 国产精品久久久久久久久借妻| 亚洲精品国产欧美在线观看| 青青草国产精品亚洲专区无| 国产欧美精品一区二区| 国产又爽又黄又嫩又猛又粗| 国产乱码精品一区二区三区av| 4444kk亚洲人成电影在线| 午夜精品一二三区| 成人久久视频在线观看| 久久av二区| 二人午夜免费观看在线视频| 国产精品久久久久久久第一福利| 一级全黄肉体裸体全过程| 男人影院在线观看| 亚洲综合色区另类av| 亚洲精品无码国产| 性欧美videohd高精| 欧美日本在线观看| 亚洲高清无码久久| 久久av网址| 久久综合久中文字幕青草| 国产一级片免费| 久久黄色网页| 成人免费视频网址| 好男人在线视频www| 久久久久久久网| 在线视频精品一区| 国产精品国精产品一二| 在线欧美日韩精品| 制服下的诱惑暮生| 国产综合久久久| 欧美成人免费一级人片100| 国产奶水涨喷在线播放| 日韩福利视频网| 亚洲最大福利视频网| 欧美欧美欧美| 亚洲激情在线播放| av无码精品一区二区三区| 亚洲精品一区二区三区在线| 亚洲人成人99网站| 欧美日韩在线视频免费| 日韩精品色哟哟| 国产精品对白一区二区三区| 搞黄视频免费在线观看| 亚洲午夜视频在线观看| 天天干在线影院| 牛牛精品成人免费视频| 久久人人爽人人爽爽久久| 久久精品视频7| 国产精品123| 视频一区视频二区视频| 国产拍在线视频| 91精品国产高清一区二区三区| 三级网站在线免费观看| 欧美精品日韩| 国产主播喷水一区二区| 男人天堂网在线| 亚洲成人激情自拍| 中文字幕一二三| 天天射综合网视频| 国产精品中文在线| 久蕉在线视频| 精品日韩中文字幕| 美女搡bbb又爽又猛又黄www| 亚洲h色精品| 国产精品偷伦一区二区| 经典三级在线| 色综合天天做天天爱| 中文字幕人妻一区二区三区| 欧美一区二区| 91精品国产自产在线观看永久| 国产九九在线| 色av一区二区| 国产成人av一区二区三区不卡| 日韩一区二区免费看| 91精品网站| av大全在线| 日韩一区二区三区四区| 天天综合天天做| 激情综合网最新| www.-级毛片线天内射视视| 欧美黄页免费| 久久精品国产一区二区电影| 91精东传媒理伦片在线观看| 国产精品国产三级国产专播品爱网 | 国产一区玩具在线观看| av电影在线播放高清免费观看| 日本精品免费观看高清观看| 91久久免费视频| 日韩av一二三| 亚洲高清精品中出| 日本亚洲欧洲无免费码在线| 色天天综合狠狠色| 99re只有精品| 亚洲香肠在线观看| 插我舔内射18免费视频| 欧美亚洲专区| 日本一区二区三区四区在线观看| 日韩久久一区二区三区| 一区二区国产精品视频| 伊人成人在线观看| 亚洲欧美在线观看| 三级黄色片免费看| 91成人网在线观看| 国产精品青青草| 国内激情视频在线观看| 一区二区成人av| 国产婷婷一区二区三区久久| 亚洲成人一二三| 97超碰在线资源| 精品在线一区二区三区| 蜜臀精品一区二区| 中国av一区| 成人免费激情视频| free性欧美| 国产一区二区黄| 国产黄a三级三级看三级| 五月天婷婷综合| 在线观看日本中文字幕| 国产一区二区电影| 极品美女扒开粉嫩小泬| 青草国产精品| www.久久草| 免费亚洲电影| 欧美另类69精品久久久久9999| 天堂网av2014| 欧美三级电影在线观看| 激情五月少妇a| 国产色爱av资源综合区| 黄色片子免费看| 日韩精品视频网| 日本一级黄视频| 久久最新网址| 99国产在线观看| 精品成人av| 欧美巨乳美女视频| 巨骚激情综合| 日韩你懂的在线观看| 无码人妻精品一区二区三区9厂| 中文字幕亚洲精品在线观看| 免费的av网站| 国产乱人伦偷精品视频免下载| aa在线观看视频| 中文在线日韩| 五月天综合网| 私拍精品福利视频在线一区| 91夜夜揉人人捏人人添红杏| 日韩不卡视频在线观看| 国产+人+亚洲| 成人免费观看视频大全| 一区二区亚洲欧洲国产日韩| 涩涩视频免费看| 制服丝袜av成人在线看| www.久久久久久久| 亚洲成人一区二区| 欧产日产国产v| 国产精品国产自产拍高清av王其| 泷泽萝拉在线播放| va亚洲va日韩不卡在线观看| 毛片毛片毛片毛片毛| 美日韩一级片在线观看| 欧美黄网站在线观看| 亚洲大片av| 9191国产视频| 天天天综合网| 国产精品无码乱伦| 清纯唯美亚洲综合一区| 秋霞毛片久久久久久久久| 国产精品欧美大片| 国产成人一区二区三区免费看| www.久久草.com| 成人午夜激情免费视频| 国产一区二区主播在线| 青青久久av北条麻妃黑人| 涩涩视频在线播放| 97碰碰碰免费色视频| 欧美xxx黑人xxx水蜜桃| 九九九久久久久久| 最新黄网在线观看| 欧美成人三级视频网站| 亚洲卡一卡二| 久久999免费视频| 久久99亚洲网美利坚合众国| 欧美黑人巨大xxx极品| 污污视频在线看| 久久久久国产精品一区| eeuss鲁一区二区三区| 国产做受69高潮| 538在线视频| 97久久精品国产| 日韩大片免费观看| 热re99久久精品国产66热| 波多视频一区| 国产精品第3页| 欧美综合影院| 亚洲自拍偷拍网址| 亚洲经典视频| 国产精品国产三级国产专区53| 荡女精品导航| 免费久久久一本精品久久区| 国产欧美日韩影院| 亚洲最大免费| 欧美另类亚洲| jizzjizz国产精品喷水| 老司机亚洲精品| 亚洲另类第一页| 国产成人福利片| 国产国语性生话播放| 国产人成一区二区三区影院| 小泽玛利亚一区二区免费| 亚洲大片一区二区三区| 黄色一级片免费在线观看| 在线观看www91| 精品国自产在线观看| 亚洲国内精品在线| 电影av在线| 免费91在线视频| 高潮在线视频| 国产精品一区二区三区久久久| 日韩精品一区二区三区中文字幕| 精品一区二区国产| 日韩在线欧美| 成人免费视频91| 日本网站在线观看一区二区三区 | 在线观看国产精品91| 国产区在线观看| 69精品小视频| 亚洲精品伊人| 久久大片网站| 91超碰国产精品| 日韩一级免费在线观看| 国产精品一区在线| 免费人成又黄又爽又色| 一区二区三区成人在线视频| 无码免费一区二区三区| 日韩片之四级片| 国产精品视频一区二区久久| 九九热最新视频//这里只有精品| 第四色男人最爱上成人网| 91视频网页| 日韩欧美高清在线播放| 999在线观看视频| 寂寞少妇一区二区三区| 日本黄色网址大全| 亚洲午夜精品一区二区三区他趣| 亚洲一区中文字幕在线| 日韩成人av一区| 性欧美video高清bbw| 国产精品免费看久久久香蕉| 另类在线视频| 天堂8在线天堂资源bt| 久久se这里有精品| av在线网站观看| 亚洲成人av一区二区三区| h狠狠躁死你h高h| 色偷偷偷综合中文字幕;dd| 中文字幕高清在线播放| 97中文在线| 久久久国产精品| 欧美成年人视频在线观看| 国产亚洲精品超碰| 久久青青草原亚洲av无码麻豆| 精品乱人伦小说| 中文字幕免费高清电视剧网站在线观看 | 男人操女人的视频在线观看欧美| 国产草草浮力影院| 亚洲午夜精品在线| www.成人在线观看| 久久亚洲精品一区| 羞羞视频在线观看一区二区| 日韩视频专区| 奇米色777欧美一区二区| 亚洲午夜久久久久久久久红桃| 精品久久久久久久久久ntr影视| 午夜精品久久久久久久爽| 欧美大尺度在线观看| 欧洲亚洲精品| 中文字幕综合在线观看| 久久er精品视频| 日韩欧美国产成人精品免费| 欧美人体做爰大胆视频| 欧美jizzhd69巨大| 成人久久18免费网站图片| 99久久婷婷国产综合精品电影√| 午夜免费看视频| 一区在线观看免费| 国产婷婷在线视频| 欧美高清自拍一区| 盗摄系列偷拍视频精品tp| 无罩大乳的熟妇正在播放| 91麻豆免费观看| 一二三区免费视频| 影音先锋日韩有码| www.成人在线.com| 欧美一区二区激情| 26uuu欧美日本| 中国女人真人一级毛片| 久久亚洲精品视频| 国产精伦一区二区三区| 少妇无码av无码专区在线观看| 久久青草国产手机看片福利盒子| 亚洲 日本 欧美 中文幕| 最新日韩中文字幕| 最新精品在线| 看av免费毛片手机播放| 中文字幕不卡一区| 国产农村妇女毛片精品久久| 久久人91精品久久久久久不卡| 日韩美脚连裤袜丝袜在线| 国产成人无码av在线播放dvd| 国产精品不卡在线| 好吊色一区二区三区| 国产高清在线不卡| 综合久久精品| 日本黄色片在线播放| 欧美亚洲综合网| 青春草视频在线| 欧美日韩精品免费在线观看视频| 久久成人av少妇免费| 日本一区二区网站| 中文字幕成人精品久久不卡| gogo大尺度成人免费视频| 噜噜噜久久亚洲精品国产品麻豆| 国产欧美一区二区精品久导航 | 阿v视频在线观看| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | gogogo免费视频观看亚洲一| 波多野结衣绝顶大高潮| 九九综合九九综合| 欧美日韩一二| 亚洲精品乱码久久久久久蜜桃欧美| 色8久久精品久久久久久蜜|