精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ACL25 | DOLPHIN,Closed-loop Auto-research系統來幫你自動做科研了!

發布于 2025-6-13 06:42
瀏覽
0收藏

今天分享一篇上海人工智能實驗室 的文章,標題為 DOLPHIN: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback (DOLPHIN:通過思考、實踐和反饋邁向閉環自動化研究)。這篇文章介紹了一個名為DOLPHIN的閉環、LLM驅動的框架,旨在提升科學研究的自動化水平。該框架模擬人類研究過程,通過迭代循環進行思考(想法產生)、實踐(實驗驗證)和反饋(結果分析)。DOLPHIN的方法主要包括三個關鍵階段:1) 想法產生:基于先前實驗的反饋和根據主題、任務屬性排序的相關論文來產生新穎的想法。2) 實驗驗證:使用經過優化的代碼模板(通過異常-回溯引導的局部代碼結構進行調試)來實現和執行生成的想法。3) 結果反饋:自動分析每個想法的實驗結果,并將這些結果反饋到下一輪的想法產生中,形成閉環。

該方法特點總結如下:

1.閉環自動化研究:首次提出了一個完整的閉環自動化研究框架,涵蓋了從想法產生、實驗驗證到結果反饋的整個研究周期。

2.高質量想法生成與篩選:通過任務屬性引導的論文排序和想法過濾機制(新穎性、獨立性檢查),提高了生成想法的質量和相關性。

3.高效的實驗驗證:設計了異常-回溯引導的調試過程,提高了代碼執行的成功率,使得實驗能夠有效進行。

4.持續學習與改進:通過反饋機制,系統能夠從過去的成功和失敗中學習,在迭代過程中持續提升性能

一、概述

1.Motivation

  • ?現有自動化研究的局限性:目前AI輔助的研究方法在提高效率方面取得了進展,但距離全自動科學研究仍有距離。許多現有工作在評估AI生成的想法時,主要依賴人類評估或LLM評估想法的新穎性,而缺乏在真實數據集上的實驗驗證,這使得想法的實際有效性難以衡量。
  • ?缺乏反饋機制:先前的一些自動化研究工作(如AI-Scientist)雖然包含了實驗驗證,但它們通常在自建的簡單數據集上進行,且缺乏一個將實驗結果反饋到想法產生階段的機制。人類研究者會根據實驗結果迭代地改進想法,這種反饋對于提升研究質量至關重要,但在現有自動化系統中缺失。
  • ?提升自動化水平的需求:為了進一步推動科學研究的自動化,需要一個能夠模擬人類研究者進行思考、實踐、并從反饋中學習的閉環系統,以持續產出高質量的研究成果

ACL25 | DOLPHIN,Closed-loop Auto-research系統來幫你自動做科研了!-AI.x社區

2.Methods

省流版總結:

DOLPHIN 提出了一種閉環的 LLM 驅動自動研究框架。它模擬人類研究周期,通過 想法生成實驗驗證 和 結果反饋 三個關鍵階段形成一個閉環,實現對特定研究主題的持續性能改進。想法生成階段利用LLM和篩選后的論文生成新穎想法;實驗驗證階段將想法轉化為可執行代碼并智能調試;結果反饋階段分析實驗結果并將其融入下一輪的想法生成,從而不斷優化研究質量和效率。

ACL25 | DOLPHIN,Closed-loop Auto-research系統來幫你自動做科研了!-AI.x社區

詳細方法和步驟:

論文提出的 DOLPHIN 框架是一個閉環的LLM驅動的自動研究框架,其核心流程包括三個階段:

(1) Idea生成過程 (Ideas Generation Process)

論文檢索與排序 (Paper Retrieval and Ranking):DOLPHIN 首先使用 Semantic Scholar API 檢索相關論文,獲取標題和摘要等關鍵信息。為了過濾掉不相關的論文,設計了一個任務屬性引導的論文排序過程。LLM(首先提取輸入主題的任務屬性(例如:模型輸入、輸出等),然后根據任務相關性和任務屬性對齊度對每篇檢索到的論文進行評分(1-10分)。只保留得分高于8分的論文作為后續想法生成的參考。

想法生成與過濾 (Ideas Generation and Filtering):新生成的想法會計算其embedding并與想法庫中現有想法的余弦相似度。如果最大相似度超過預設閾值(例如0.8),則認為該想法是冗余的并被丟棄。對于剩余的想法,LLM 還會進行新穎性檢查,判斷想法是否基于現有文獻(通過 Semantic Scholar API 搜索到的論文)是新穎的。只有被識別為新穎且獨立的想法才能進入實驗驗證階段。

(2)實驗驗證過程 (Experimental Verification Process)

實驗計劃與代碼生成 (Experiment Plan and Code Generation):給定一個想法和參考代碼(通常是基線模型的代碼),LLM(deepseek-v2.5)首先生成詳細的實驗計劃,然后根據想法和計劃修改參考代碼。

異常回溯引導的調試過程 (Exception-Traceback-Guided Debugging)

? 為了解決LLM生成代碼執行成功率較低的問題,DOLPHIN 設計了一個調試模塊。

? 當代碼執行出現錯誤時,首先從異常回溯信息中提取函數名、行號和代碼等信息,但僅關注自定義代碼,排除庫函數調用

? LLM 在提取的異常回溯信息的指導下,生成與錯誤相關的本地代碼結構

? 然后,LLM 分析異常回溯和本地代碼結構,進行必要的修改,實現代碼的自動執行。

? 調試過程會重復進行,直到成功執行或達到預設的最大調試次數(例如5次)。

ACL25 | DOLPHIN,Closed-loop Auto-research系統來幫你自動做科研了!-AI.x社區

(3)結果反饋過程 (Results Feedback Process)

?實驗結果分析與分類 (Result Analysis and Categorization):DOLPHIN 自動分析成功執行的實驗結果,并根據與參考代碼的性能對比,將結果分為三類:提升 (improvement)維持 (maintenance)下降 (decline)

?反饋整合 (Feedback Integration)

為了避免重復驗證無效想法,DOLPHIN 將那些性能維持或提升的想法摘要嵌入到想法庫 B 中。這樣,在下一輪想法生成時,與這些先前未能提升性能的想法相似的新想法將被過濾掉

同時,那些能夠提升性能的想法的摘要會被整合到下一輪想法生成的提示中,引導LLM生成更有效的想法。

3.Conclusion

?實現了首個閉環自動研究框架:DOLPHIN 成功構建了一個集想法生成、實驗驗證和結果反饋于一體的閉環自動研究框架,有效提升了科學研究的自動化水平。

?生成與SOTA相當的高質量想法:在3D點云分類、2D圖像分類和情感分類等基準數據集上的實驗結果表明,DOLPHIN 能夠自動提出與當前人類設計SOTA方法性能相當甚至更優的方法。

?顯著提高了研究效率:通過任務屬性引導的論文排序提升了想法生成效率,以及異常回溯引導的調試過程顯著提高了代碼執行成功率,使得整個自動研究過程更加高效。

? (Case Study) DOLPHIN (左側) 和人類研究者 (右側) 在3D點云分類任務中生成的想法和代碼對比:

ACL25 | DOLPHIN,Closed-loop Auto-research系統來幫你自動做科研了!-AI.x社區

image-20250610170501160

DOLPHIN 生成了一個名為“Contextual Semantic Reasoning”的想法,并提供了相應的代碼實現,該實現采用了基于圖的方法來建模點云中的語義關系。這里顯示,DOLPHIN 能夠提出與人類設計模型(如 DGCNN)相當甚至更簡潔有效的解決方案,從而驗證了其自動研究能力。

4.Limitation

?知識泄露與理解深度不足:在想法生成階段,LLMs可能保留其訓練數據中的歷史知識,導致生成想法時存在知識泄露的風險。此外,僅使用論文摘要和標題進行想法生成可能導致LLM無法深入理解文章的技術細節和邏輯關系。

?對復雜項目級代碼支持不足:LLMs 的代碼能力目前尚不足以理解和修改復雜的項目級代碼,這使得 DOLPHIN 難以驗證當前復雜的任務。

?仍需人工輔助:盡管框架已實現自動化,但仍需人工審查和評估生成結果,以確保符合倫理實踐,并規避潛在的偏見或不完整想法。

二、總結

結論1: DOLPHIN開創了閉環自動科學研究的新范式。 首次提出了一個由大型語言模型驅動的閉環框架,將想法生成、實驗驗證和結果反饋無縫集成,實現了研究過程的自動化和迭代優化。這對于加速科學發現、降低研發成本具有開創性意義。

結論2: DOLPHIN能夠生成高質量、可媲美甚至超越人類SOTA水平的科學想法和實現。 通過任務屬性引導的論文排序和基于embedding相似度去重,DOLPHIN能夠提出新穎且非冗余的想法。實驗結果表明,在3D點云分類等任務上,其自動生成的方法能夠達到或超越當前人類設計的SOTA模型,且實現方式更加簡潔高效。

結論3: 魯棒的異常回溯調試機制是LLM驅動代碼執行的關鍵突破。 論文設計的異常回溯引導的本地代碼結構分析和調試過程,有效解決了LLM生成代碼執行成功率低的痛點。這一創新機制使得DOLPHIN能夠將想法可靠地轉化為可運行的代碼并進行驗證,為未來更復雜的LLM驅動自動化任務奠定了基礎。

產業應用價值:

?算法/模型自動優化: 在機器學習和人工智能領域,DOLPHIN的思路可以直接應用于模型架構搜索、超參數優化、新算法組件的自動設計與驗證等,從而提升現有AI模型的性能。

?新藥研發/材料發現: 在生物醫藥、材料科學等高度依賴實驗和迭代的領域,類似的閉環自動化系統可以用于高通量篩選化合物、設計新材料配方,并自動進行模擬實驗或指導機器人進行真實實驗。

?自動化A/B測試與產品迭代: 在互聯網和軟件行業,該框架可以啟發設計更智能的A/B測試系統,自動生成產品改進方案,進行小規模線上實驗,并根據用戶反饋數據進行快速迭代。

?機器人與自動化控制: 在機器人領域,可以用于自動探索新的控制策略或機器人行為,并通過仿真或真實環境實驗進行驗證和優化。

?局限性考量: 當前階段,由于LLM在復雜邏輯推理、長程代碼依賴理解以及真實世界物理交互方面的局限,DOLPHIN更適合作為強大研究助手或在定義明確的子問題上進行自動化探索。距離完全取代復雜領域的人類專家進行開創性研究還有很長的路要走,但在特定任務的自動化和效率提升方面已展現出巨大潛力

本文轉載自???NLP PaperWeekly???,作者:NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
国产福利小视频| 日本一级特级毛片视频| 在线天堂新版最新版在线8| 99re成人精品视频| 国产精品免费久久久久影院| 国产尤物在线播放| 国产精品黄网站| 欧美丝袜美女中出在线| 在线播放豆国产99亚洲| 免费a级片在线观看| 视频一区在线视频| 另类色图亚洲色图| 国产呦小j女精品视频| 天天综合91| 欧美午夜视频一区二区| 中文字幕日韩精品一区二区| 午夜视频福利在线| 狠狠久久亚洲欧美| 日韩av大片在线| 欧美爱爱小视频| 大片网站久久| 日韩精品免费视频| 国内精品国产三级国产aⅴ久| 国产资源在线观看入口av| 国产精品美女久久福利网站 | 日韩伦理一区二区| 欧美日韩免费看| 亚洲一区 在线播放| 国产最新视频在线观看| 成人毛片在线观看| 91久久在线视频| 成年人晚上看的视频| 亚洲高清久久| 欧美激情视频一区| 麻豆网址在线观看| 精品国产一区探花在线观看| 亚洲电影成人av99爱色| 黄色片子免费看| 亚洲狼人综合| 精品视频一区二区三区免费| 日本精品一区二区三区四区 | 亚洲一区二区视频| 91香蕉视频网址| www.视频在线.com| 久久综合狠狠综合久久综合88| 成人综合色站| 国产成人久久精品77777综合| 免费成人小视频| 国产精品99免视看9| 中文字幕超碰在线| 中日韩男男gay无套| 久久久免费av| 国产无遮挡又黄又爽在线观看| 99久久综合狠狠综合久久aⅴ| 一区二区欧美激情| gv天堂gv无码男同在线观看| 精品国产一区探花在线观看| 夜夜嗨av色综合久久久综合网| 一级黄色片大全| 免费福利视频一区| 亚洲精品电影网在线观看| 中国免费黄色片| 久久电影在线| 亚洲欧美国产视频| 国产毛片久久久久久久| 九九综合在线| 中文字幕久久亚洲| 四虎地址8848| 欧美ab在线视频| 久久久久国产一区二区三区| 日韩精品一区二区三| 国产日韩欧美一区在线| 欧美一级高清免费播放| 中文字幕免费高清网站| 日韩国产在线观看一区| 国产精品一区二区在线| 国产精品无码在线播放| 国产精品1024| 久久99国产精品99久久| 国产日韩精品在线看| 中文字幕乱码久久午夜不卡| 中国一级大黄大黄大色毛片| 国产精品69xx| 色播五月激情综合网| 九九热免费在线观看| 亚洲高清999| 日韩成人在线网站| 少妇无套高潮一二三区| 66视频精品| 性欧美视频videos6一9| 天天干天天插天天射| 久久99国产精品免费网站| 9a蜜桃久久久久久免费| 日韩欧美电影在线观看| 国产精品乱人伦一区二区| 亚洲一区 在线播放| 中文在线免费视频| 欧美电影影音先锋| 亚洲熟女一区二区| 日韩欧美一区二区三区在线视频| 欧美日韩xxxxx| 久久青青草原亚洲av无码麻豆| 久久精品国产99| 精品综合在线| 日本中文字幕在线看| 亚洲成av人片在线| av在线网址导航| 偷拍自拍亚洲色图| 久久中文精品视频| www.色国产| fc2成人免费人成在线观看播放| 日韩不卡av| xxx在线免费观看| 欧美日韩一区二区不卡| 欲求不满的岳中文字幕| 综合激情网站| 国产精品电影网站| 青青草视频免费在线观看| 亚洲欧美二区三区| 欧美日韩亚洲一二三| 成人看片爽爽爽| 久久久精品2019中文字幕神马| 日本视频网站在线观看| 国产99久久久精品| 99精品一级欧美片免费播放| 日韩高清不卡| 亚洲精品久久久久中文字幕二区| 欧美做爰爽爽爽爽爽爽| 日韩电影一区二区三区四区| 精品一区二区国产| 免费毛片在线看片免费丝瓜视频 | 欧美在线色图| 欧美亚洲国产成人精品| 蜜桃av噜噜一区二区三区麻豆| 18欧美亚洲精品| 天堂中文视频在线| 综合色就爱涩涩涩综合婷婷| 久久露脸国产精品| 国内精品久久久久久久久久久 | 国产视频在线观看一区二区| 国产一级在线免费观看| 国产一区二区三区黄视频| 无遮挡亚洲一区| 日韩av首页| 亚洲欧洲国产精品| 国产91精品一区| 大胆亚洲人体视频| 青春草国产视频| 精品精品精品| 69影院欧美专区视频| 日本波多野结衣在线| 香蕉加勒比综合久久| 美女伦理水蜜桃4| 在线观看日韩av电影| 国产精品一区二区免费| 97蜜桃久久| 日韩h在线观看| av黄色在线播放| 久久蜜桃av一区二区天堂| 国产精品第12页| 精品久久视频| 成人福利网站在线观看11| 嫩草在线视频| 日韩精品最新网址| 亚洲精品在线观看av| 99精品国产视频| 久久精品99国产| 色偷偷综合网| 51午夜精品| 鲁鲁在线中文| 国产一区二区日韩| 在线观看免费黄色小视频| 亚洲少妇30p| 久久性爱视频网站| 美女精品在线| 综合一区中文字幕| 97超碰成人| 国产成+人+综合+亚洲欧洲 | av中文字幕网址| 国产精品a级| 久久艳妇乳肉豪妇荡乳av| 久久久一本精品| 精品国产一区二区三区久久久| 亚洲va久久久噜噜噜无码久久| 精品久久在线播放| 国产精品69久久久久孕妇欧美| 国产精品中文欧美| 午夜精品久久久久久久无码| 色狮一区二区三区四区视频| 国产乱码精品一区二区三区中文| 日韩不卡免费高清视频| 久久亚洲成人精品| 欧美xxx.com| 7777女厕盗摄久久久| 五月婷婷激情网| 国产精品免费免费| 亚洲一区二区三区四区av| 老**午夜毛片一区二区三区 | 岛国在线视频网站| 在线播放国产一区二区三区| 国产精品无码天天爽视频| 欧美视频专区一二在线观看| 亚洲综合网在线| 日本一区二区三区视频视频| 欧美日韩一区二区区别是什么 | 扒开伸进免费视频| 久久综合婷婷| 欧美精品卡一卡二| 欧美日韩亚洲在线观看| 国产超碰91| 青草综合视频| 欧美在线视频一区二区| а√天堂资源地址在线下载| 国产亚洲综合久久| 神马久久久久久久久久| 91麻豆精品国产自产在线| 国产毛片aaa| 一区二区激情小说| 99久久99久久精品免费看小说.| 99久久99久久精品国产片果冻 | 亚洲福利合集| 国产欧美一区二区白浆黑人| 涩涩涩在线视频| 九九久久久久99精品| 91免费在线| 国产丝袜一区二区三区免费视频| 精品毛片一区二区三区| 欧美撒尿777hd撒尿| 久久久黄色大片| 亚洲成人av一区二区| 91在线播放观看| 国产精品久久久久精k8| 公侵犯人妻一区二区三区| 国产呦萝稀缺另类资源| 污污的视频免费| 美国三级日本三级久久99| 91香蕉视频污版| 亚洲少妇在线| 国产97在线 | 亚洲| 亚洲毛片在线| 日日橹狠狠爱欧美超碰| 99热在线精品观看| 成人免费视频91| 99视频精品免费观看| 97超碰人人澡| 夜夜爽av福利精品导航| 日韩少妇内射免费播放| 亚洲激情自拍| 每日在线更新av| 亚洲在线网站| 欧美视频免费播放| 日韩福利视频导航| 九九视频精品在线观看| 青娱乐精品在线视频| 孩娇小videos精品| 久久精品国产精品亚洲综合| 亚洲精品国产久| 国产丶欧美丶日本不卡视频| 岛国精品一区二区三区| 懂色一区二区三区免费观看| 漂亮人妻被黑人久久精品| 99re8在线精品视频免费播放| 一区二区不卡免费视频| 国产日本欧洲亚洲| 日韩精品电影一区二区三区| 亚洲视频在线一区观看| 久久久国产精品黄毛片| 午夜国产精品一区| 无码人妻丰满熟妇区bbbbxxxx| 在线免费观看一区| 99久久亚洲精品日本无码| 欧美成人一区二区三区在线观看| 人妻无码中文字幕| 亚洲美女av在线| 91社区在线观看播放| 欧美大片网站在线观看| 日韩欧美一中文字暮专区| 国产99久久精品一区二区 夜夜躁日日躁| av在线一区不卡| 亚洲精品免费在线视频| 哺乳一区二区三区中文视频| 欧美xxxx黑人又粗又长密月 | 久久久亚洲高清| 永久免费看片视频教学| 一区二区成人在线| 国产原创视频在线| 91精品在线免费| 五月天丁香视频| 精品国偷自产在线视频99| 女同视频在线观看| 国产91在线播放精品91| 精品视频一区二区三区| 久久精品ww人人做人人爽| 久久综合电影| 国产黄页在线观看| 久久精品久久综合| 国产精品麻豆入口| 国产精品乱码久久久久久| 日韩精品在线免费看| 欧美日韩久久久久久| 色欲久久久天天天综合网 | 91狠狠综合久久久久久| 亚洲一区二区影院| 最近国语视频在线观看免费播放| 精品少妇一区二区三区在线播放| 国产三级在线看| 久久久久久久久久国产| 91精品麻豆| 精品无码久久久久国产| 欧美三级特黄| 中文字幕第38页| 国产视频一区二区三区在线观看| 青青草手机在线观看| 欧美色网一区二区| 亚洲色图狠狠干| 欧美精品激情在线观看| 四虎视频在线精品免费网址| 你懂的网址一区二区三区| 国内精品美女在线观看| jizz欧美性11| 国产日韩成人精品| 国产香蕉视频在线| 欧美不卡视频一区| 麻豆系列在线观看| 国产精品第1页| 神马电影久久| 欧美 日本 亚洲| 99久久精品免费| 久久久全国免费视频| 91精品国产综合久久福利软件| 成年在线观看免费人视频| 欧美一区二三区| 亚洲精品蜜桃乱晃| 日韩av新片网| 国产99久久久国产精品| 欧美日韩精品在线观看视频| 制服丝袜国产精品| 性开放的欧美大片| 国产免费一区二区三区香蕉精| 国产精品探花在线观看| 青青在线视频观看| 91丝袜呻吟高潮美腿白嫩在线观看| 国产亚洲精久久久久久无码77777| 69久久99精品久久久久婷婷| 免费av在线| 91在线视频九色| 最新精品国产| 极品人妻一区二区| 一区二区三区四区精品在线视频| 国产黄色小视频在线观看| 欧美大肥婆大肥bbbbb| 天堂av一区| 草草视频在线免费观看| 成人av资源站| 日韩污视频在线观看| 日韩成人在线视频| 香蕉成人av| 亚洲日本精品| 国产在线播放一区二区三区| 欧美三级在线免费观看| 精品国一区二区三区| 成人免费图片免费观看| 美乳视频一区二区| 日韩av电影免费观看高清完整版| 91成人精品一区二区| 欧美精品日韩综合在线| 黄网站在线免费| 高清不卡日本v二区在线| 夜夜精品视频| 国产精品av久久久久久无| 欧美日韩一区二区在线视频| 成人免费网址| 国产日韩欧美一区二区三区四区| 美女黄色成人网| 老司机深夜福利网站| 精品久久五月天| 亚洲国产福利| 在线精品日韩| 成人小视频免费观看| 伊人中文字幕在线观看| 久久精品在线视频| 久久久久观看| 婷婷丁香激情网| 亚洲精品视频一区| 台湾av在线二三区观看| 国产欧美日韩免费| 亚洲手机视频| 少妇的滋味中文字幕bd| 精品国产自在久精品国产| 欧美一级大片| 国产911在线观看| 久久网站最新地址| 国产乱人乱偷精品视频a人人澡| 久久久久中文字幕| 欧美限制电影| 男人网站在线观看| 在线不卡免费av| 亚洲同志男男gay1069网站| 国产美女视频免费| 久久嫩草精品久久久精品|