精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

戰勝100多位NLP研究人員!楊笛一團隊最新百頁論文:首次統計學上證明,LLM生成的idea新穎性優于人類

人工智能 新聞
斯坦福大學的最新研究通過大規模實驗發現,盡管大型語言模型(LLMs)在新穎性上優于人類專家的想法,但在可行性方面略遜一籌,還需要進一步研究以提高其實用性。

大型語言模型(LLMs)在各個領域都是一個優秀的助手,廣大科研人員也對LLM在加速科學發現方面的潛力充滿期待,比如已經有研究提出了能夠自主生成和驗證新想法的研究智能體。

然而,至今還沒有評估結果能夠證明LLM系統能夠生成新穎的、達到專家水平的想法(idea),更不用說接手完成整個研究流程了。

為了填補這一空白,斯坦福大學的研究人員最近發布了耗時一年完成的新實驗,獲得了第一個具有統計學意義的結論:LLM生成的想法比人類專家撰寫的想法更新穎!

圖片

論文鏈接:https://arxiv.org/pdf/2409.04109

在論文中,研究人員設計了一個完整的實驗,可以評估模型在新研究思路生成方面的能力,同時對可能的干擾因素進行控制,首次將專家級的自然語言處理(NLP)研究人員與LLM創意代智能體進行直接比較。

實驗招募了超過100名高水平NLP研究人員來撰寫新想法,然后對LLM生成的想法和人類想法進行盲審,參與者來自 36 個不同的機構,大部分是博士和博士后。

通過這種方式,研究人員首次得出「LLM在研究創意生成」能力的統計顯著結論:LLM生成的想法在新穎性方面優于人類專家的想法(p < 0.05),但在可行性方面略遜一籌。

在深入研究基線模型時,研究人員發現了構建和評估研究智能體中的一些開放性問題,包括LLM自我評估的不足以及在生成過程中缺乏多樣性。

在實驗過程中,研究人員意識到,即使是專家,對想法新穎性的判斷可能也非常困難,因此,文中提出了一個端到端的研究設計,招募研究人員將這些想法轉化為完整的項目。

問題設置

研究人員將科研想法評估(research idea evaluation)分為三個獨立的子部分,主要關注潛在的混雜因素,如研究領域、研究想法的格式和評估過程。

1. 想法本身,根據指令產生;

2. 傳達想法的書面報告(writeup);

3. 專家對書面報告的評估。

構想的范圍和指令(Ideation Scope and Instructions )

研究想法既可以是一個能夠提高模型性能的技巧,也可以是博士論文中描述的大規模研究計劃,任何關于構想的實驗都必須仔細平衡研究想法的「現實性」和「趣味性」。

受思維鏈等項目的啟發,一些簡單的提示思路就能大幅提升LLM的性能,還能夠在不復雜的計算硬件上執行,所以研究人員選擇「基于提示的自然語言處理」研究作為初步實驗領域。

在提示詞的編寫思路上,LLM更傾向于安全的主題,與人類的偏好不一致,所以研究人員為了統一目標,從最近的NLP會議的征稿頁面中提取了七個具體的研究主題,包括偏見(bias)、編碼(coding)、安全性(safety)、多語言性(multilingual)、事實性(factuality)、數學(math)和不確定性(uncertainty)。

圖片

想法書面報告(idea writeup)

一個想法只有在被寫出來后,其他人才能以此交流并評估,但寫作過程會引入其他混雜因素,例如人類研究者可能會用春秋筆法讓研究內容看起來更高大上,比如包括更多的例子和實現細節。

研究人員從資助申請中使用的指南中獲得靈感,編寫了一個模板來指定想法提案的結構和詳細程度,包括標題、問題陳述、動機、提出的方法、逐步實驗計劃、測試用例示例和備選計劃等字段。

不過,即使有了模板,可能仍然存在微妙的寫作風格差異,例如,人類可能傾向于以更具吸引力和非正式的語氣寫作。

為此,研究人員又開發了一個風格標準化提示,使用LLM將所有想法轉換為相同的寫作和格式化風格,而不改變原始內容。

評審和評估(review and evaluation)

對研究想法的評審往往是主觀的,研究人員的目標是設計一個明確定義所有評審標準的表格,以盡可能地將評審過程標準化和錨定評估。

研究人員在設計評審表格時,遵循了AI領域會議(如ACL和ICLR)評審的最佳實踐,定義了四個分解指標,包括新穎性(novelty)、興奮度(excitement)、可行性(feasibility)和預期效果(expected effectiveness)。

每個指標在評審時,都有一個1-10的數字評分,和一段文本作為理由。

盲審評估從三種不同條件下對想法進行對比:

1. 人類想法(human ideas):由招募的專家研究者撰寫的想法提案。

2. AI想法:由LLM智能體生成的想法提案,直接從智能體的輸出中獲取排名靠前的想法。

3. AI想法+人類重新排名:由LLM智能體生成的想法提案,再由人工手動從LLM智能體生成的所有想法中選擇了排名靠前的想法,以便更好地估計AI想法的上限質量。

想法生成智能體(idea generation agent)

論文檢索

為了使創意生成有據可依,智能體需要檢索與給定研究主題相關的論文,以便在生成新創意時能夠了解相關研究。

研究人員利用檢索增強生成(RAG),給定一個研究主題后,例如「能夠提高事實性并減少大型語言模型幻覺的新型提示方法」,首先提示一個LLM生成一系列對Semantic Scholar API的函數調用,然后使用claude-3-5-sonnet-20240620作為智能體的骨干模型,論文檢索的動作空間包括:{KeywordQuery(關鍵詞), PaperQuery(論文ID), GetReferences(論文ID)}。

然后根據一系列標準對檢索到的文獻進行評分和排序,包括文獻與主題的相關性、是否包含計算實驗的經驗性研究,以及文獻的創新性和啟發性,最多檢索120篇論文。

創意生成

研究人員的思路是,首先用LLM為每個研究主題生成4000個種子創意,創意生成提示包括示范示例和檢索到的論文;然后用排序器來從中選取出一小部分高質量的,為了從龐大的候選創意池中去除重復的創意,使用Sentence-Transformers中的all-MiniLM-L6-v2對所有種子創意進行編碼,然后計算成對的余弦相似度來進行一輪去重,最后得到大約5%非重復創意。

創意排名

為了對創意進行排名,研究人員利用了1200篇ICLR 2024會議中與大型語言模型相關的論文及其評審分數和接受決定的數據。

結果發現,當直接要求LLMs預測論文的最終分數或接受決定時,模型的預測準確性不高,但在成對比較中判斷哪篇論文更優秀時,卻能夠達到較高的準確性。

研究人員使用Claude-3.5-Sonnet模型作為自動排名器,在零樣本提示下,通過成對比較任務達到了71.4%的準確率,優于其他模型。

為了確保所有項目提案的排名可靠性,采用瑞士制比賽系統進行多輪評分;在驗證集上,發現排名前10的論文與排名后10的論文在平均評審分數上有明顯差異,證明了排序器的有效性;在實驗中,選擇了5輪作為評分標準。

此外,為了比較AI排序器與人類專家的差異,研究人員還設置了一個條件,即由人工手動對生成的項目提案進行重排,結果顯示兩種排名方法存在一定差異。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-17 07:47:00

2025-03-20 13:02:34

2022-01-04 10:19:23

架構運維技術

2025-01-24 15:30:00

2014-12-25 09:51:32

2025-07-03 09:41:27

2023-05-09 12:27:52

亞馬遜微服務重構

2023-05-17 15:11:23

2023-02-16 20:24:07

OpenAI谷歌ChatGPT

2015-02-02 10:55:10

光纖

2009-12-16 09:52:15

Linux操作系統

2021-04-05 14:25:02

谷歌黑客網絡安全

2021-02-02 09:32:06

黑客攻擊l安全

2021-09-02 08:44:06

漏洞網絡安全網絡攻擊

2017-09-26 11:43:42

互聯網

2024-02-04 09:31:44

大語言模型

2020-10-09 08:34:57

AI

2019-08-23 09:27:25

機器學習NLP誤差分析

2014-08-25 11:06:42

2021-03-31 09:17:46

Android惡意軟件攻擊
點贊
收藏

51CTO技術棧公眾號

成人性生交大片免费看中文网站| 国产国语性生话播放| 女人18毛片毛片毛片毛片区二| 大地资源网3页在线观看| 影音先锋欧美激情| 欧美国产日韩精品免费观看| 97精品国产91久久久久久| 涩涩涩999| 亚洲伊人成人网| julia中文字幕一区二区99在线| 亚洲国产精品高清| 成人精品久久久| 69xxx免费| 无人区在线高清完整免费版 一区二| 豆国产96在线|亚洲| 久久av.com| 国产精品嫩草影视| 国产一二区在线观看| 精彩视频一区二区| 神马久久久久久| 九九热在线免费| 国产精品麻豆一区二区三区| 久久久久91| 亚洲天堂免费观看| 国产精品国产三级国产专区51| 这里只有精品6| 欧美日韩一区二区综合| 色综合久久综合网97色综合| 欧美极品一区二区| 中文字幕高清在线免费播放| 国产aⅴ精品一区二区三区久久| 亚洲一区二区欧美| 国产精品对白刺激久久久| 成人免费看片98| 欧美激情网址| 色悠久久久久综合欧美99| 黄色网zhan| 黄频网站在线观看| 国产亚洲毛片在线| 亚洲人午夜精品| 蜜臀av粉嫩av懂色av| 国产夫妻在线播放| 久久亚洲综合色一区二区三区 | 成人欧美一区二区| 在线免费av片| 男女男精品视频| 日韩在线观看免费高清| 99视频在线观看视频| 日韩欧美一区二区三区在线观看| 午夜精品久久久久久| 久久一区免费| 这里只有久久精品视频| 国产欧美一区| 亚洲精品小视频在线观看| 欧美一级黄色片视频| av每日在线更新| 国产成人在线色| 91成人福利在线| 中国美女乱淫免费看视频| 国产精品久久久久av电视剧| 亚洲高清免费观看| 色一情一乱一伦一区二区三区丨| 欧美新色视频| 国产在线一区观看| 97免费在线视频| 国产无套内射又大又猛又粗又爽 | 精品一区2区三区| 青青艹在线观看| 日本va欧美va精品| 欧美激情精品久久久久久变态| 国精产品一区一区三区免费视频| 国产丝袜一区| 欧美日韩免费不卡视频一区二区三区 | 欧美日韩在线成人| 成人在线播放| 亚洲精品视频观看| 日本一区二区三区www| 国产超碰人人模人人爽人人添| 国产精品久久久久久模特| 97视频在线播放| 中文字幕第四页| 中文字幕免费一区二区三区| 亚洲欧洲在线免费| 特级西西www444人体聚色| 999在线精品| 日韩精品一二三四区| 影音先锋制服丝袜| 一区二区三区四区电影| 午夜精品国产精品大乳美女| 中文字幕手机在线视频| 亚洲日本激情| 欧美乱大交xxxxx| 毛片视频免费播放| 亚洲欧美tv| 亚洲缚视频在线观看| 小早川怜子一区二区三区| 国产一区二区三区国产精品| 欧美色网一区二区| 韩国一区二区av| 祥仔av免费一区二区三区四区| 欧美性猛交xxxx富婆| 日本中文字幕亚洲| 日本aa在线| 亚洲视频每日更新| 一级日韩一区在线观看| 黄色在线视频观看网站| 91理论电影在线观看| 国产精品免费一区二区| 亚洲第一黄色片| 国产精品2024| 欧美日韩国产综合在线| a毛片在线播放| 色婷婷综合久久久久中文一区二区| 一级做a免费视频| 免费视频成人| 欧美视频在线一区| 天天爽夜夜爽一区二区三区| 97天天综合网| 午夜精品久久一牛影视| 亚洲精品永久视频| 玖玖玖电影综合影院| 欧美精三区欧美精三区| 亚洲一区日韩精品| 美女呻吟一区| 亚洲奶大毛多的老太婆| a级在线免费观看| 欧美一二区在线观看| 中文日韩在线视频| 国产精品成人69xxx免费视频| 99久久久久国产精品| 久久天堂av综合合色| 亚洲高清毛片一区二区| 国产一区二区三区在线观看精品 | 欧美电影免费| 日韩中文字幕在线视频| 丁香六月婷婷综合| 成人一级片在线观看| 女女百合国产免费网站| eeuss鲁一区二区三区| 91精品啪在线观看国产60岁| 自拍一级黄色片| 国产精品成人自拍| 免费91在线视频| 91看片在线播放| 天堂av在线一区| 91美女片黄在线观| 国 产 黄 色 大 片| 亚洲视频一区二区免费在线观看| 黄色三级视频在线| 日韩欧美1区| 欧美极品少妇xxxxⅹ裸体艺术| 你懂的国产视频| 粉嫩13p一区二区三区| 免费的一级黄色片| 中文在线8资源库| 欧美日韩视频不卡| 欧美亚洲色综久久精品国产| 日韩精品亚洲一区| 91久久爱成人| 九色网友自拍视频手机在线| 精品久久久久久久久久| 在线观看日本一区二区| 成人系列视频| 91青草视频久久| www视频在线看| 日韩一级免费观看| 蜜桃久久精品成人无码av| 久久精品观看| 天天人人精品| 中文幕av一区二区三区佐山爱| 精品福利在线导航| 国产三级短视频| 麻豆传媒一区二区三区| 精品久久久久久亚洲| 日韩伦理福利| 日韩一区二区在线观看视频播放| 看片网站在线观看| 日本va欧美va欧美va精品| 亚洲精品国产系列| 瑟瑟视频在线看| 国产亚洲欧美另类中文| 国产精品国产一区二区三区四区| 99国产精品视频免费观看| 最新中文字幕久久| 免费成人美女女| 亚洲国产免费av| 一区二区在线观看免费视频| 国产成人在线观看免费网站| 日本在线xxx| 亚洲精品一区二区三区中文字幕| 韩国精品久久久999| 黄视频在线观看免费| 6080yy午夜一二三区久久| 精品无码人妻一区二区三区品| 久久众筹精品私拍模特| 欧美一级小视频| 日韩视频一区| 国产精品久久精品视| 欧美三级网址| 久久99久国产精品黄毛片入口| 日本私人网站在线观看| 91精品婷婷国产综合久久竹菊| 欧美bbbbbbbbbbbb精品| 国产精品二三区| 黑人粗进入欧美aaaaa| 亚洲欧美一区在线| 亚洲精品免费在线视频| 伦xxxx在线| 欧美人伦禁忌dvd放荡欲情| 久久在线视频精品| 欧美激情一区二区三区全黄| 能看的毛片网站| 欧美日本二区| 国产精品国产亚洲精品看不卡15 | 亚洲国产另类精品专区| 国产视频123区| 26uuu精品一区二区在线观看| 日日夜夜精品视频免费观看| 青青青伊人色综合久久| 日本一道本久久| 欧美激情第8页| 亚洲国产一区在线| 久久91精品| 国产日本一区二区三区| www成人免费观看| 久久精品视频va| 亚洲国产精品久久久久爰性色 | 91麻豆国产在线| 中文字幕中文字幕在线一区| 欧美一区二区三区成人精品| 国产成人一区在线| 中文字幕一区久久| 美国毛片一区二区| 噼里啪啦国语在线观看免费版高清版| 亚洲毛片播放| 99在线精品免费视频| 你懂的网址国产 欧美| 亚洲综合激情五月| 久久激情电影| 亚洲欧美国产精品桃花| 亚洲国产精品嫩草影院久久av| 国产丝袜不卡| 久久精品色播| 精品999在线观看| 精品福利一区| 精品欧美一区二区三区久久久| 北条麻妃在线一区二区免费播放 | 午夜av免费观看| 色综合久久中文字幕综合网 | 在线免费观看黄色网址| 国产一区二区精品丝袜| yw193.com尤物在线| 4hu四虎永久在线影院成人| 怡红院成永久免费人全部视频| 欧美在线不卡一区| 免费无码国产精品| 亚洲精品美国一| 男人天堂av电影| 国产麻豆精品在线| 免费高清在线观看免费| 婷婷综合伊人| 久久久久久久免费视频| 欧美日韩专区| 777av视频| 另类亚洲自拍| 中文字幕 91| 国产一区二区日韩精品| 最新国产精品自拍| 日韩国产欧美在线播放| 黄色免费网址大全| 久久er99精品| 日韩黄色片视频| 视频在线在亚洲| 91亚洲精品久久久蜜桃借种| 国产福利电影一区二区三区| 污污免费在线观看| 久久综合九色综合97婷婷女人| 欧美黄色一级生活片| 最新高清无码专区| a级在线免费观看| 国产精品久久99| 免费在线黄色片| 亚洲欧洲精品一区二区三区不卡| 中国毛片直接看| 亚洲午夜免费视频| 国产成人精品网| 欧美日韩免费观看一区三区| www.av导航| 欧美高清激情brazzers| 午夜久久久久久久久久| 亚洲毛茸茸少妇高潮呻吟| 午夜小视频在线| 亚洲视频精品在线| 九义人在线观看完整免费版电视剧| 久久99精品久久久久久青青91| 英国三级经典在线观看| 成人妇女免费播放久久久| 三级精品视频| 精品免费视频123区| 菠萝蜜一区二区| 日韩激情视频一区二区| 三级久久三级久久| 国产精品99精品无码视亚| 国产福利一区二区三区在线视频| 特级西西人体wwwww| 亚洲丝袜制服诱惑| 无码视频在线观看| 精品国产亚洲在线| 欧美性猛交xxx乱大交3蜜桃| 5566日本婷婷色中文字幕97| 手机av在线| 亚洲自拍偷拍在线| 精品99久久| 17c丨国产丨精品视频| 精品午夜久久福利影院| 国产 欧美 在线| 亚洲成av人影院在线观看网| 国产a级免费视频| 亚洲人高潮女人毛茸茸| cao在线视频| 91国产在线播放| 99久久综合| 日日摸天天爽天天爽视频| 成人动漫一区二区三区| 精品中文字幕在线播放| 久久亚洲综合av| 免费中文字幕视频| 91麻豆精品国产91久久久久久| 岛国在线视频| 国产91在线播放九色快色| 欧美影视资讯| 91精品久久久久久久久久久久久久| 日本a人精品| 青青成人在线| 久久动漫亚洲| 亚洲av无码国产精品久久| 亚洲国产精品一区二区久久 | 久久亚洲精品爱爱| 久久精品丝袜高跟鞋| 美女毛片一区二区三区四区| 国产日本在线播放| 丝袜亚洲另类丝袜在线| 丰满大乳奶做爰ⅹxx视频| 亚洲成av人**亚洲成av**| 亚洲精品网站在线| 欧美黑人巨大精品一区二区| 一区二区三区四区高清视频| 欧美无砖专区免费| 国产91精品精华液一区二区三区| 免费毛片在线播放免费| 欧美成人国产一区二区| 户外极限露出调教在线视频| 51久久精品夜色国产麻豆| 日韩一级电影| 欧美三级午夜理伦三级| 久久久www免费人成精品| 午夜免费激情视频| 欧美久久久久久蜜桃| 在线中文字幕电影| 国产成人精品最新| 66精品视频在线观看| 欧美精品久久久久久久自慰 | 国产伦精品一区二区三区照片91| 欧美亚韩一区| www.17c.com喷水少妇| 中文字幕欧美区| 在线视频播放大全| 久久久999精品视频| 亚洲精品国产九九九| 日韩av综合在线观看| 国产美女娇喘av呻吟久久| 久草网站在线观看| 亚洲高清福利视频| 欧美成人免费电影| 黄色高清视频网站| 国产精品亚洲第一| 欧美成人精品欧美一级乱黄| 亚洲美女动态图120秒| 久久精品嫩草影院| 青青在线视频免费观看| www国产精品av| 亚洲综合精品国产一区二区三区 | 亚洲精品视频播放| 成人涩涩视频| 日韩中文在线字幕| 99精品国产91久久久久久| 99re热视频| 色综合久综合久久综合久鬼88| 欧美精品中文| 亚洲综合日韩欧美| 香蕉影视欧美成人| av网在线观看| y111111国产精品久久婷婷| 日韩片欧美片| 亚洲午夜久久久久久久久| 一本色道a无线码一区v| www久久日com| 欧美主播一区二区三区美女 久久精品人| 美女诱惑一区二区| 国产成人无码精品|