精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率

發(fā)布于 2024-4-15 10:10
瀏覽
0收藏

在實踐中,人類預測的準確性依賴于「群體智慧」(wisdom of the crowd)效應,即通過聚集一群個體預測者,對未來事件的預測準確率會顯著提高。


過去關于大型語言模型(LLMs)預測能力的工作表明,即便是最強大的LLM也仍然比不過人類的群體智慧。


最近,來自倫敦政治經濟學院、MIT和賓夕法尼亞大學的研究人員做了兩項研究,通過簡單、實際適用的預測集成方法,表明LLMs可以實現與人類群體競賽相當的預測準確率。


MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)

論文鏈接:???https://arxiv.org/pdf/2402.19379.pdf???


在第一個研究中,將31個二元問題由12個LLM進行集成預測,與為期三個月的預測錦標賽中925名人類預測者的預測進行了比較,主要分析結果表明,LLM群體優(yōu)于單純的無信息基線模型,并且在統(tǒng)計上與人類群體沒有差異。


在探索性分析中,研究人員發(fā)現這兩種方法在中等效應尺寸等價界限(medium-effect-size equivalence bounds)方面是相同的;還可以觀察到一種默許效應(acquiescence effect),平均模型預測顯著高于50%,但正面和負面的分辨率幾乎平分秋色。


在第二項研究中,研究人員測試了LLM預測(GPT-4和Claude 2)是否可以通過利用人類認知輸出來改善,結果發(fā)現,兩個模型的預測準確性都可以受益于將人類預測中值作為輸入信息,從而將準確性提高了17%至28%,但仍然低于簡單的預測平均方法。

研究1

研究人員從12個不同的大型語言模型中收集數據來模擬LLM群體,分別是GPT-4、GPT-4(with Bing)、Claude 2、GPT3.5-Turbo-Instruct、Solar-0-70b、Llama-2-70b、PaLM 2(Chat-Bison@002)、Coral(Command)、Mistral-7B-Instruct、Bard(PaLM 2)、Falcon-180B和Qwen-7B-Chat

MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)

然后通過web界面訪問模型,對所有模型使用默認參數(例如溫度),其中web界面包括公司自行開發(fā)的界面,如OpenAI、Anthropic、Cohere和Google提供,以及其他第三方提供的界面,如Poe、Huggingface和Modelscope,采用這種方法來最大化在收集數據的整個研究期間可以可靠查詢的模型數量,同時保留模型規(guī)模的異質性。


具體選擇的標準包括前沿模型(GPT-4,Claude 2)以及開源模型(例如,Llama-2-70b,Mistral 7B-Instruct),還有各種可訪問互聯(lián)網的型號(例如,with Bing、Bard、Coral的GPT-4),參數量從70億到1.6萬億不等。


為了評估模型的預測能力,研究人員利用到Metaculus平臺上從2023年10月到2024年1月舉行的公共預測錦標賽中實時提出的預測問題,其中925名人類預測者提供了至少一個預測結果,提出的問題從中東沖突、利率、文學獎、英國選舉政治到印度空氣質量、加密貨幣、消費技術和太空旅行。


研究人員主要關注二元概率預測,總共收集了31個問題,其中每個問題都包括一個問題描述,所提問題的背景,以及一個詳細說明問題將如何解決的方案。


研究人員編寫的提示詞中包括如何格式化輸出的說明、指示模型作為超級預測者做出響應,并按照當前的最佳提示實踐逐步處理這些問題;提示中還包括了詳細的問題背景、解決標準和問題文本。

MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)

實驗結果


研究人員從集成的12個LLM的31個問題中收集了總共1007個單獨的預測,剩余的109個預測由于模型或界面的技術問題,或是內容限制政策沒有收集完成。


在所有模型和問題中,研究人員觀察到最小原始預測值為0.1%,最大原始預測值為99.5%,預測中值為60%。這表明LLM模型更有可能在50%中點以上做出預測,群體的平均預測值M=57.35(SD=20.93)顯著高于50%,t(1006)=86.20,p<0.001


重要的是,整個問題集的解決方案接近平均,14/31的問題得到了正向解決,這種不平衡的現象表明,LLM預測通常傾向于正向的解決方案,超出了經驗預期(只有45%以上的問題可以得到積極的解決方案)。


MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)


在該研究的問題集合中,LLM群體并不比人類群體更準確。


MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)

研究2

研究人員主要關注兩個前沿模型,即GPT-4和Claude 2,使用與研究1中相同的真實世界預測錦標賽(real-world forecasting tournament)作為問題和人類預測的來源,分別通過OpenAI和Anthropic網站對GPT-4和Claude 2進行查詢。


針對模型內研究設計,研究人員為每個問題收集了兩個預測(干預前和干預后),并在標準溫度設置下重復提出三次,最后每個模型會得到六個預測結果。

最終目標是研究與人類認知輸出相關的LLM更新行為,即LLM是否以及如何考慮預測錦標賽總量提供的人類預測估計。


與研究1相比,研究2使用了一組更長、更精細的提示:


第一個提示建立在「超級預測的10條戒律」以及關于預測和更新的文獻基礎上,指導模型仔細考慮區(qū)分不同程度的懷疑,在自信不足和過度自信之間取得正確的平衡,并將困難的問題分解為更容易解決的子問題。


MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)


第二個提示,干預,告知模型相應人群的中值預測,并要求它在必要時更新,并概述更新的原因(如果有的話)。


MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)


對于這兩個提示,研究人員收集的預測不是作為點估計,而是作為概率范圍在0%和100%之間,估算到兩個小數點。


提供給模型的群體中值是在社區(qū)預測被揭示的48小時內收集的,以允許人類預測者了解并相應地更新預測結果,通常會獲得更好校準的預測;由于時差的原因,人類的預測比研究1中使用的預測更準確。


實驗結果


研究人員首先測試了暴露群體中值是否會提高模型的準確性。


對于GPT-4,暴露人類中位數前后的Brier得分存在統(tǒng)計學顯著差異;對于Claude 2,可以發(fā)現暴露人類中位數前后的Brier得分存在具有統(tǒng)計學意義的差異,結果表明,以群體預測的形式提供人類認知可以提高模型預測能力。


MIT等首次深度研究「集成LLM」預測能力:可媲美人類群體準確率-AI.x社區(qū)


還可以發(fā)現,GPT-4的預測區(qū)間在暴露人類中位數后變得明顯變窄,范圍從平均區(qū)間大小17.75(SD:5.66)到14.22(SD:5.97),p<0.001;Claude 2的預測區(qū)間也顯著變窄,從11.67(SD:4.201)縮小到8.28(SD:3.63),p<0.001,結果表明,當人類預測包含在LLM中時,模型會降低了其預測的不確定性。


研究人員還分析了LLMs的更新是否與它們的點預測和人類基準之間的距離成比例,結果發(fā)現初始偏差與GPT-4預測調整幅度之間存在顯著相關性,表明模型大致按照與人類的中位數之間的差異來移動預測。

總結

文中進行的兩項研究都是在「用于解決問題的答案不可能來自于訓練數據」的情況下來測試LLM能力的,因為所有問題的答案在數據收集時都是未知的,甚至對作者來說也是如此,這也為LLM能力提供了一個理想的評估標準。


實驗結果以一種穩(wěn)健的方式,為LLMs的高級推理能力提供了證據,因此傳統(tǒng)基準可能提出的許多難題都不適用。


總之,這篇論文是首個表明當前LLMs能夠提供關于未來現實世界事件的人類(達到群體水平的準確預測)的論文。


想要做到這一點,只用簡單、實際適用的預測聚合方法就足夠了:在所謂的硅環(huán)境中表現為LLM集合方法,復制了人類預測錦標賽對LLMs的「 群體智慧」效應,即「硅群體智慧」(Wisdom of the Silicon Crowd)的現象。


實驗結果的發(fā)現為進一步的研究和實際應用開辟了許多領域,因為LLM集成方法比從人群中收集數據要便宜得多,也快得多。


未來的研究可以旨在將集成方法與模型和支架進展相結合,這可能會在預測領域產生更強的能力增益。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/eGRMP_CgtNM5GgiCprNgYA??

收藏
回復
舉報
回復
相關推薦
成人av动漫| 人人九九精品| 欧美日韩亚洲三区| 亚洲精品国产电影| 三级a在线观看| av文字幕在线观看| 99久久国产综合精品麻豆| 奇米影视亚洲狠狠色| 日本猛少妇色xxxxx免费网站| 国产成人久久精品一区二区三区| 亚洲成在人线免费| 亚洲国产欧洲综合997久久| 99在线无码精品入口| 亚洲永久字幕| 久久伊人色综合| 五级黄高潮片90分钟视频| 亚洲在线资源| 色综合色狠狠综合色| 国产美女视频免费| 国内av一区二区三区| 国产高清不卡二三区| 国产精品国产三级国产aⅴ9色 | 精品国产成人av在线免| 快射视频在线观看| 久久综合狠狠综合| 春色成人在线视频| 在线免费av网| 久久这里只有| 久久久女女女女999久久| 一区二区三区视频观看| 欧美剧在线免费观看网站| 日韩精品欧美专区| 亚洲老妇色熟女老太| 亚洲欧美日韩激情| 久久视频免费看| 136福利精品导航| 欧美少妇bbb| 日韩精品黄色网| 久久久久久一区二区三区| 蜜桃精品一区二区| 风间由美一区二区av101| 欧美日韩视频在线第一区| 日韩少妇内射免费播放18禁裸乳| www视频在线看| 中文字幕欧美国产| 欧美性少妇18aaaa视频| xxxxxhd亚洲人hd| 国产精品资源站在线| 欧美性受xxxx白人性爽| 国产大学生自拍| 天天精品视频| 久久久999精品| 精品人妻无码一区| 中文字幕人妻一区二区三区视频| 中文精品电影| 久久亚洲影音av资源网| 波多野结衣家庭教师在线观看| 国产欧美日韩精品一区二区免费| 亚洲精品美女久久久久| 97人妻精品一区二区三区免费| 日本一区二区三区播放| 日韩欧美一卡二卡| 国产乱国产乱老熟300部视频| 日韩第一区第二区| 精品国产伦理网| 亚洲av人人澡人人爽人人夜夜| gogo久久日韩裸体艺术| 亚洲成avwww人| 国产女人18毛片水真多18| 林ゆな中文字幕一区二区| 亚洲国产第一页| a级在线观看视频| 亚洲伊人春色| 在线观看欧美成人| 国产精品精品软件男同| 久久久久久久久久久妇女| 欧美精品在线网站| 精品久久免费视频| 翔田千里一区二区| 国产精品电影观看| 国产免费的av| av不卡在线观看| 欧美一区二区三区四区五区六区 | 日韩高清在线电影| 国产欧美日韩最新| 亚洲国产成人精品一区二区三区| 99re视频精品| 伊人久久大香线蕉成人综合网| 黄网站app在线观看| 亚洲精品ww久久久久久p站| 国产不卡一区二区视频| 欧美日韩电影免费看| 欧美天堂亚洲电影院在线播放| 久久精品一二三四| 国产伦精品一区二区三区免费优势 | 中文字幕第2页| 国产精品正在播放| 久久久久网址| 久久久久亚洲av无码网站| 最新国产精品久久| www.激情五月| 国产亚洲福利社区一区| gogogo免费高清日本写真| 草莓视频丝瓜在线观看丝瓜18| 欧美日韩综合视频| 在线观看日本www| 天堂av一区二区三区在线播放 | 国外av在线| 亚洲精品国产视频| 久久网福利资源网站| 国内精品一区二区三区四区| 五月天综合在线| 久久国产精品无码网站| 精品免费日产一区一区三区免费| 成人高清免费在线播放| 亚洲已满18点击进入久久| 黄色国产小视频| jizz性欧美23| 日韩亚洲综合在线| 波多野结衣激情视频| 成人午夜短视频| 天天干天天色天天爽| 亚洲伦乱视频| 亚洲黄色www网站| 亚洲欧美精品aaaaaa片| 久久综合影视| 国产私拍一区| 男女免费观看在线爽爽爽视频| 欧美三级蜜桃2在线观看| 亚洲av网址在线| 亚洲高清资源| 97netav| 美女黄视频在线观看| 欧美中文字幕一二三区视频| 中文字幕在线播放一区| 综合一区在线| 成人午夜在线视频一区| 91美女视频在线| 在线观看成人免费视频| 久久精品成人av| 亚洲深爱激情| 精品国产_亚洲人成在线| 羞羞网站在线看| 欧美日韩免费观看一区二区三区| x88av在线| 久久精品官网| 欧美日韩精品久久| 亚洲精品动漫| 亚洲天堂色网站| 亚洲图片在线视频| 久久夜色精品国产噜噜av| 国产白丝袜美女久久久久| www.丝袜精品| 2019中文字幕免费视频| 视频一区二区三区在线看免费看| 亚洲成av人在线观看| 无码精品一区二区三区在线播放| 一区在线视频观看| 国产一区二区免费在线观看| 成人ssswww在线播放| 亚洲精品国产精品国自产在线| 男女视频免费看| 久久色视频免费观看| 在线观看的毛片| 99久久婷婷| 亚洲xxxx视频| 草草视频在线| 精品五月天久久| 亚洲av人无码激艳猛片服务器| 欧美国产日产图区| 日本精品一区在线| 亚洲视频碰碰| 欧美日韩在线观看一区二区三区| 台湾佬中文娱乐久久久| 日韩在线视频网站| 国产熟女一区二区丰满| 亚洲成a人v欧美综合天堂下载| 亚洲av无码国产精品久久| 日本少妇一区二区| 久久观看最新视频| 欧美亚洲国产日韩| 国产精品欧美日韩久久| 二区三区四区高清视频在线观看| 精品国产一区二区亚洲人成毛片 | 日本特黄在线观看| 亚洲国产婷婷| 亚洲二区自拍| 91综合久久爱com| 日本精品在线视频| 国产激情视频在线| 亚洲欧美精品一区| 国产欧美久久久精品免费| 亚洲图片欧美色图| 摸摸摸bbb毛毛毛片| 国产激情一区二区三区四区 | 竹内纱里奈兽皇系列在线观看| 在线成人激情黄色| 丰满人妻妇伦又伦精品国产| 色妞www精品视频| 青青草成人免费| 国产视频一区在线观看| 性xxxxxxxxx| 美女爽到高潮91| 国产美女网站在线观看| 天天射天天综合网| 日本亚洲欧洲精品| 超碰成人97| 成人高清视频观看www| 三妻四妾的电影电视剧在线观看| 久久精品影视伊人网| 嫩草精品影院| 精品对白一区国产伦| 国产精品51麻豆cm传媒| 亚洲狠狠爱一区二区三区| 中文乱码字幕高清一区二区| 久久综合色8888| 精品国产一二区| 奇米在线7777在线精品| 亚洲乱码中文字幕久久孕妇黑人| 综合激情视频| 综合久久国产| 成人羞羞视频播放网站| 精品久久久久久中文字幕大豆网| 超碰在线超碰在线| 日韩av电影天堂| 日韩欧美视频网站| 欧美久久影院| 中文字幕日韩精品久久| 蜜桃一区二区三区| 精品欧美一区二区精品久久| 中文一区二区三区四区| 91亚洲国产成人精品性色| 亚洲天堂1区| 日本精品一区二区三区在线播放视频 | 日韩欧美高清在线观看| 亚洲精品国产成人久久av盗摄| jizzjizzjizz国产| 国产免费久久精品| 粉嫩av蜜桃av蜜臀av| 91视视频在线直接观看在线看网页在线看| 国内av免费观看| 黄色精品一二区| www.这里只有精品| 全部av―极品视觉盛宴亚洲| 日韩欧美xxxx| 视频在线观看一区| 久草在在线视频| 丝袜亚洲另类丝袜在线| 精品视频一区二区在线| 免费在线播放第一区高清av| 欧美aⅴ在线观看| 老司机精品导航| 男女无套免费视频网站动漫| 免费观看成人av| 国产成年人视频网站| 国产在线视频精品一区| 久久久久久综合网| 丁香天五香天堂综合| 亚洲熟妇一区二区| 99re视频精品| 日本成人午夜影院| 成人免费一区二区三区视频| 国产人妻精品一区二区三区不卡| 亚洲女厕所小便bbb| 欧美久久久久久久久久久久| 亚洲高清免费观看| 亚洲欧美偷拍视频| 在线观看av一区二区| 亚洲影院一区二区三区| 欧美一区二区国产| 人妻无码中文字幕| 亚洲美女av在线播放| 成人福利在线| 欧美美最猛性xxxxxx| 多野结衣av一区| 日韩免费精品视频| 国产 日韩 欧美| 精品中文字幕一区| 日韩精品午夜| 人人妻人人做人人爽| 久久久久久9| 无码人妻少妇色欲av一区二区| 成人av网站在线观看| 久久久久亚洲av成人无码电影| 国产精品入口麻豆原神| 欧美毛片在线观看| 在线观看国产一区二区| www.xxxx国产| 一个人www欧美| 免费在线中文字幕| 国产精品爱啪在线线免费观看| 国产精品久久久久久久久久辛辛| 国产欧美日韩一区| 日韩在线不卡| 青青青国产在线观看| 久久精品久久综合| 88av在线播放| 中文字幕一区二区在线播放| 日韩福利片在线观看| 欧美色窝79yyyycom| 日本xxxxwww| 日韩一级裸体免费视频| 国产自产自拍视频在线观看 | av成人资源网| 五月天亚洲综合| 影音先锋久久资源网| 久热在线视频观看| 久久综合久久鬼色中文字| 强行糟蹋人妻hd中文| 欧美性三三影院| 天天干免费视频| 操日韩av在线电影| 91九色综合| 久久另类ts人妖一区二区| 亚洲精品久久| 人人干人人干人人| 久久嫩草精品久久久久| 久久综合亚洲色hezyo国产| 精品视频123区在线观看| 午夜成人免费影院| 色综合91久久精品中文字幕| 57pao成人永久免费| 日韩精品久久一区| 久久精品91| 免费在线观看成年人视频| 亚洲曰韩产成在线| 999久久久久久| 色999日韩欧美国产| 91精品产国品一二三产区| 国产精品久久久久久免费观看| 亚洲欧美网站在线观看| 日本在线一二三区| 国产日本一区二区| 欧美精品韩国精品| 亚洲精品国产拍免费91在线| wwwav国产| 日韩精品一区国产| 久久久天堂av| 欧美另类交人妖| 伊人成人免费视频| 电影av一区| 欧美伊人久久久久久久久影院| 亚洲不卡免费视频| 欧美精品日韩www.p站| 99综合99| 欧美少妇一级片| 激情综合五月天| 黄色香蕉视频在线观看| 777亚洲妇女| av在线免费播放| 99蜜桃在线观看免费视频网站| 欧美在线黄色| 人妻av一区二区三区| 夜夜揉揉日日人人青青一国产精品| 国产丰满美女做爰| 欧美极品欧美精品欧美视频 | 色欧美乱欧美15图片| 免费一级在线观看| 国产精品流白浆视频| 久久电影院7| 天天色天天干天天色| 亚洲黄色免费网站| 色婷婷综合视频| 日本sm极度另类视频| 欧美亚洲激情| www.桃色.com| 亚洲国产精品影院| 日本中文字幕电影在线观看| 国产精品高精视频免费| 国产精品成人一区二区不卡| 国产在线视频三区| 亚洲午夜电影在线观看| 日韩电影免费| 国产精品日韩欧美| 欧美日韩1区2区3区| yy1111111| 欧美三片在线视频观看| 91精品久久| 女人一区二区三区| 久久www免费人成看片高清| 美国黄色小视频| 亚洲免费福利视频| 国产麻豆一区二区三区| 黄色成人在线看| 国产精品久久久久久亚洲毛片| 超碰人人人人人人| 欧美有码在线观看| 久久久久国产| 欧美多人猛交狂配| 日韩亚洲欧美在线观看| 麻豆蜜桃在线观看| 一级黄色录像免费看| 99国产精品久久| 国产免费叼嘿网站免费| 欧美一级bbbbb性bbbb喷潮片| 日韩夫妻性生活xx| 久久久久麻豆v国产精华液好用吗| 欧美系列在线观看| 黑森林国产精品av| mm131午夜|