精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

集體智慧:LLM預測能力與人群可相互媲美 原創

發布于 2024-4-22 08:45
瀏覽
0收藏

現在,AI系統的預測準確率達到甚至超過了人群。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

在不斷發展的人工智能(AI)領域,語言模型已取得了重大進展,實現了曾經被認為人類認知才能實現的非凡成就。比如說,Anthropic新的Claude 3語言模型似乎能夠意識到它被測試或被評估,這為AI領域原本惹人矚目的進步另外增添了一層復雜性。

這個進展特別值得注意的一個新領域是預測領域——對未來事件做出準確預測的能力。

我們在這篇博文中深入研究一突破性的研究論文(?https://arxiv.org/pdf/2402.19379.pdf?),探大語言模型(LLM)的預測能力,并將它們與人群預測這個參照標準進行比較。這項研究由倫敦政治經濟學院、麻省理工學院和賓夕法尼亞大學的研究人員共同進行,研究結果刷新了我們對AI能力的理解,并揭示了LLM在現實場景中與人類專業知識相媲美的潛力。

背景介紹

預測是指基于過去和現在的數據、趨勢和模式對未來事件做出預測,它在經濟、政治、技術和科學等領域發揮著至關重要的作用。準確的預測有助于更好的決策、資源分配和風險管理。

傳統上,最可靠的預測方法是“群體智慧”效應,即利用一群不同的個體的集體知識。1907年,英國著名人類學家Francis Galton對這一現象進行了著名的論證,當時他觀察到,一群人在縣集市上猜測的中位數準確地預測了一頭牛的體重。從那以后,眾多研究已證實,將大量不同預測者的預測值匯總起來,可以得出非常準確的結果。

然而,依靠人群進行預測存在幾個局限性:

成本和時間召集一群足夠龐大且多樣化的熟練預測者費錢又費時。

偏見和相關性人類判斷容易受到各種認知偏見的影響,個人預測之間的相關性可能會削弱群體的集體準確性。

可擴展性組織和管理大規模的人類預測比賽操辦起來很復雜,很難擴展。

AI預測的前景

近些年來,AI的快速發展(尤其是在自然語言處理領域)已經引出了使用機器智能進行預測的誘人前景。像GPT-3、GPT-4和Claude 3這樣的LLM在理解和生成類似人類的文本方面表現出了非凡的能力(Claude 3現在甚至知道它在接受測試),這促使研究人員調查LLM對未來事件做出準確預測的潛力。

然而之前的研究表明,與人群預測相比,各個LLM的表現常常不佳。比如說,Schoenegger和Park在2023年發現,盡管GPT-4擁有出眾的語言技能,但其表現不如一個簡單的無信息衡量基準,即預測所有二元問題的50%概率。

硅群體智慧

然而在這篇新論文中,Schoenegger等人假設,要釋放LLM的預測潛力,關鍵可能在于匯總來自多個不同模型的預測,這相當于一種機器“群體智慧”效應。為了測驗這個想法,他們進行了兩項研究:

研究1:LLM并聯vs.人群

在第一項研究中,研究人員從12個不同的LLM那里收集了多達31個二元問題的預測,這些問題來自預測平臺Metaculus上的一項實時預測比賽,925名人類預測者也參與了為期3個月的比賽。LLM涵蓋廣泛的體系結構、訓練數據集和微調方法,包括來自OpenAI、Anthropic、谷歌、Meta等公司的模型。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖1. 測試的模型

針對每個問題,研究人員使用標準化的提示對每個LLM詢問三次,提示包括問題背景、解答標準以及作為“超級預測者”的應答說明。然后,他們算出了12個LLM中所有非缺失預測的中位數,以獲得“LLM群體”預測。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖2. LLM并聯機制概況圖

結果是驚人的:LLM群體在所有問題上的預測都達到了50%的無信息基準(p = 0.026),并且在統計上與人群的準確率沒有區別(p = 0.850)。探索性等效測試進一步表明,LLM和人群在中等效應大小范圍內不相上下。

研究2:利用人類認知輸出改進LLM預測

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖3. 第二項預測干預提示

第二項研究調查了是否可以通過為LLM提供人群的中位數預測作為附加信息,進一步提高其預測精度。研究人員專注于兩個最先進的模型:GPT-4和Claude 2,并采用了模型內設計,每個模型都進行了初步預測,然后在接收人群中位數后進行了更新預測。

兩個模型在接收人類人群信息后都顯示出準確性有了顯著提高,GPT-4的平均Brier評分(衡量預測誤差的指標)從0.17降至0.14 (p = 0.003),Claude 2則從0.22降至0.15(p < 0.001)。當人群中位數處于初始范圍內時,這些模型也適當地縮小了其預測區間,顯示了以合理的方式整合額外信息的能力。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖4. 接收人類預測前后,GPT-4(左)和Claude 2(右)的LLM預測。顏色區分首次預測高于、低于或介于人類中位數預測的20個百分點。高亮顯示的變化和間隔是該組內相應的中位數預測。”

然而探索性分析顯示,僅僅將最初的機器預測與人類中位數相平均,可以得到甚至比模型的更新預測更高的準確率。這表明,雖然LLM可能受益于人類認知輸出,但其推理能力可能還沒有達到整合這類信息的最佳調校水平。

影響和限制

這里的研究發現對預測和AI-人類協作的未來具有重要意義:

可擴展且經濟有效的預測通過利用“硅群體智慧”,組織可以比單獨依賴人群更快速、更廉價地獲得高質量的預測。這可以使數據驅動的決策在各個領域更容易獲得。

人類和AI的互補優勢雖然LLM并聯可能與人群準確性相當,但這項研究也表明,人類認知輸出可以進一步改善機器預測。這凸顯了人類專家和AI系統在預測任務方面協同合作的潛力(這與另一項研究多少有點矛盾;另一項研究發現,AI在診斷疑難疾病方面的表現優于人類醫生,無論AI醫生的參與程度如何)。

促進AI推理能力:該研究提供了LLM參與復雜推理(或至少看起來是推理)和信息整合的能力的證據,盡管還有進一步優化的空間。隨著模型不斷改進,我們可能會看到它們在預測性能方面取得更大的進步。

然而,有必要承認這項研究的局限性和注意事項:

  • 該研究致力于短期(3個月)二元預測。需要做更多的工作來評估LLM在長期預測和更復雜類型的問題上的表現。
  • LLM表現出了一種默認偏差,即使在經驗基礎率接近均等的情況下,它們也往往預測概率> 50%。它們還顯示出了整體校準欠佳,表明需要進一步的改進。
  • 隨著LLM的訓練數據變得越來越過時,如果沒有定期更新以跟上不斷變化的實際環境,預測準確性可能會隨之下降。

結語

盡管存在這些局限性,這項研究還是意義重大,表明AI系統在某些預測領域具有匹配甚至超越人群集體智慧的潛力。通過利用“硅群體智慧”,我們可以讓高質量的、數據驅動的預測比以往任何時候更具可擴展性、更普及。

當然,LLM并不能完全取代人類判斷,人類專家在解釋、結合上下文處理和根據機器預測采取行動方面將始終扮演至關重要的角色。但隨著AI能力不斷提升,越來越明顯的是,未來的預測將是人類智能和機器智能之間密切合作和協同作用的結果。

有些人重視對我們所居住的復雜世界做出準確、及時和可操作的預測,硅群體時代即將到來,這對他們來說確實是令人興奮的前景。隨著研究人員不斷突破AI預測方面的極限,本人一定會替讀者密切關注這方面。

原文標題:The wisdom of the crowd: LLM prediction ability matches human crowds,作者:Mike Young

鏈接:?https://notes.aimodels.fyi/ai-llm-prediction-wisdom-crowd-human/?。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
日韩电影在线观看完整免费观看| 国产嫩草在线视频| 乱一区二区av| 欧美福利视频在线| 日本一区二区三区网站| 成人免费黄色| 午夜免费久久看| 视频一区二区三| 高h调教冰块play男男双性文| 亚洲欧美日韩国产综合精品二区| 日韩小视频在线观看| 呦呦视频在线观看| 999色成人| 一本久久综合亚洲鲁鲁五月天| 一区二区视频国产| 五月天婷婷视频| 美女www一区二区| 97不卡在线视频| 农村黄色一级片| 精品国产乱码| 亚洲精品久久久久久久久| 黄大色黄女片18第一次| 亚洲一二三四| 亚洲在线视频免费观看| 在线一区日本视频| 麻豆导航在线观看| a在线欧美一区| 91精品天堂| 中文字幕日韩第一页| 国产亚洲一区在线| 久久久久久久999精品视频| 成人免费视频入口| 制服丝袜日韩| 日韩精品免费看| 亚洲精品乱码久久久久久蜜桃欧美| 久久69成人| 欧美性猛交xxxx乱大交3| 欧美一区二区视频在线播放| 麻豆网站在线| 一区二区中文视频| 日本一区网站| 麻豆国产在线播放| 久久久国产一区二区三区四区小说| 国产一区二区三区无遮挡 | 日韩欧美综合在线视频| 大荫蒂性生交片| 图片区小说区亚洲| 一区二区不卡在线播放| 日韩国产精品毛片| 国产一区久久精品| 成人欧美一区二区三区白人| 亚州欧美一区三区三区在线| 999国产在线视频| 国产精品久久久久婷婷二区次| 日韩久久在线| av大片在线播放| 中文字幕一区二区三区色视频 | av一区二区三区四区电影| 国产精品视频第一页| 激情欧美一区二区| 92国产精品久久久久首页| 国产精品久久影视| 国产精品亚洲一区二区三区妖精 | 黄色成人在线网址| 裸体女人亚洲精品一区| 美女的奶胸大爽爽大片| 欧美久久一区| 91精品国产高清久久久久久| 国产微拍精品一区| 三级久久三级久久| 国产日韩综合一区二区性色av| 国产免费无遮挡| 国产91丝袜在线播放| 好吊色欧美一区二区三区 | 日韩在线视频二区| 欧美成人精品欧美一| 亚洲精品影院在线观看| 日韩免费在线视频| 91禁在线观看| 懂色一区二区三区免费观看| 久久久99国产精品免费| 91caoporm在线视频| 一区二区三区中文在线观看| 九色自拍视频在线观看| 欧美色网在线| 日韩一二三区视频| 免费看黄色aaaaaa 片| 久久在线免费| 国精产品一区一区三区有限在线| 欧美日韩一二三四区| 九九视频精品免费| 国产日韩欧美亚洲一区| av国产在线观看| 亚洲国产综合91精品麻豆| 蜜臀久久99精品久久久酒店新书 | 日韩h在线观看| 9.1片黄在线观看| 极品av少妇一区二区| 国产精品成熟老女人| www.久久久久久久久久| 久久久久久久久久久99999| 成人免费看片视频在线观看| 日本免费一区二区三区四区| 91精品国产一区二区三区蜜臀| 人妻少妇精品视频一区二区三区| 亚洲欧美在线专区| 日韩美女免费线视频| 国产成人三级在线播放| 国产网站一区二区| 日本免费a视频| 欧美美女福利视频| 国产偷国产偷亚洲清高网站| 校园春色 亚洲| 日本女优在线视频一区二区| 国内精品一区二区| aa在线视频| 欧美日韩成人在线一区| 老司机福利av| 亚洲另类自拍| caoporn国产精品免费公开| av基地在线| 色综合久久中文综合久久牛| av电影在线播放| 欧美1区视频| 国产欧美精品日韩| 国产区视频在线播放| 五月天视频一区| 俄罗斯女人裸体性做爰| 99久久精品费精品国产| 国产精品吴梦梦| 成年人视频在线看| 一本久久综合亚洲鲁鲁五月天| 亚洲成av人片在线观看无| 亚洲久久久久| 亚洲free嫩bbb| 日本蜜桃在线观看| 欧美日韩精品三区| 五月激情四射婷婷| 免费在线观看日韩欧美| 日本一区二区精品视频| 精品91久久| 国产偷亚洲偷欧美偷精品| 日韩精品在线免费视频| 91丨porny丨最新| www.中文字幕在线| 激情亚洲另类图片区小说区| 欧美精品久久一区二区| 亚洲精品97久久中文字幕无码 | 激情六月天婷婷| 亚洲午夜免费| 欧美精品videossex性护士| 午夜美女福利视频| 亚洲成人av在线电影| 污污内射在线观看一区二区少妇| 亚洲精品系列| 欧美日韩成人一区二区三区| 二吊插入一穴一区二区| 国产午夜精品一区理论片飘花 | 久久精品99国产精品| 一区二区三区欧美在线| 高清精品久久| 午夜精品国产精品大乳美女| 午夜视频www| 在线观看欧美黄色| 国精产品久拍自产在线网站| 国产精品一区二区x88av| 欧美中日韩在线| 色爱av综合网| 国产欧美精品va在线观看| av网址在线| 日韩精品免费在线视频| 波多野结衣一本一道| 亚洲四区在线观看| 中文字幕99页| 久久久久久久高潮| 裸体裸乳免费看| 精品在线网站观看| 国产精品久久久av| 永久免费网站在线| 亚洲精品综合久久中文字幕| 一区二区三区黄| 午夜精品在线视频一区| 精品成人无码一区二区三区| 国产精品一卡二卡| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 久久久久久97三级| 国产又黄又猛的视频| 亚洲精品美女| 正在播放国产精品| 全国精品免费看| 国产一区二区丝袜| 国产伦理精品| 日韩视频一区在线| 外国精品视频在线观看| 555www色欧美视频| 亚洲va在线观看| 亚洲乱码中文字幕| 国产特黄级aaaaa片免| 国产一区二区不卡在线| 精品久久久久久久免费人妻| 欧美高清一区| 亚洲国产精品综合| 美女一区二区在线观看| 成人网在线视频| 成人香蕉视频| 欧美激情视频免费观看| a中文在线播放| 亚洲精品国产综合区久久久久久久| 91精品国产乱码久久久| 欧美视频裸体精品| www深夜成人a√在线| 国产亚洲成aⅴ人片在线观看| 久久久久99人妻一区二区三区| 欧美aa在线视频| 亚洲自偷自拍熟女另类| 亚洲网址在线| 日韩不卡视频一区二区| 成人在线一区| 日本视频一区在线观看| 日本精品影院| 国产美女99p| 日韩高清二区| 成人中文字幕+乱码+中文字幕| 日韩pacopacomama| 日本高清+成人网在线观看| sis001亚洲原创区| 九九精品在线播放| 亚洲小说区图片| 日韩在线观看高清| 五月婷婷在线观看| 国产一区二区精品丝袜| 欧美女v视频| 日韩精品在线观看一区二区| 人妻无码一区二区三区久久99| 欧美一区二区三区公司| 99久久99久久久精品棕色圆| 欧美日韩精品综合在线| 无码一区二区三区| 欧美性猛交xxxx久久久| 国产婷婷色一区二区在线观看| 午夜亚洲国产au精品一区二区| 在线免费观看毛片| 亚洲国产美女搞黄色| 久久久久久欧美精品se一二三四| 一区二区三区免费| 久操免费在线视频| 亚洲妇熟xx妇色黄| 国产一区二区三区影院| 精品久久久一区| 日韩免费观看一区二区| 性感美女极品91精品| 日韩欧美性视频| 欧美日韩国产精品一区| 国产一级片毛片| 欧美午夜电影在线| 伊人久久中文字幕| 欧美日韩国产免费| av男人天堂av| 亚洲精品国产综合区久久久久久久| 污污的视频网站在线观看| 日韩精品在线视频美女| 精品视频二区| 日韩综合视频在线观看| www.欧美日本韩国| 午夜精品免费视频| 亚洲第一二三四区| 国产一区二区色| aaa国产精品| 美女黄毛**国产精品啪啪| 国产成人精品三级高清久久91| 一本一道久久a久久精品综合| 51精产品一区一区三区| 丰满少妇大力进入| 久久一区二区三区超碰国产精品| 色播五月激情五月| 成人污视频在线观看| 国产免费无遮挡吸奶头视频| 中文字幕亚洲一区二区va在线| 免费在线观看日韩| 色8久久人人97超碰香蕉987| 国产又粗又大又爽| 日韩成人av网址| 色三级在线观看| 高清在线视频日韩欧美| 成人影院在线免费观看| 岛国视频一区| 日本不卡免费一区| av日韩一区二区三区| 日韩电影在线观看电影| 日韩精品――色哟哟| 国产视频在线观看一区二区三区 | 欧美丝袜丝交足nylons图片| 国产成人三级在线播放| 亚洲欧美在线免费观看| 成人黄色网址| 热99精品里视频精品| 日韩成人视屏| 无遮挡亚洲一区| av成人天堂| 国产一级片自拍| 久久精品夜夜夜夜久久| 久草免费在线视频观看| 欧美伊人久久久久久午夜久久久久| 亚洲成熟女性毛茸茸| 色老头一区二区三区在线观看| av资源中文在线| 91午夜在线播放| 欧美精品尤物在线观看| 少妇av一区二区三区无码| 国产一区二区三区国产| 美国黑人一级大黄| 精品magnet| 成人免费视频国产| www.99久久热国产日韩欧美.com| 亚洲欧洲高清| 国产亚洲情侣一区二区无| 一区二区日韩欧美| 欧美成年人视频在线观看| www国产精品av| 日本一级片免费看| 欧美不卡视频一区| 在线观看免费视频你懂的| 国产在线高清精品| 欧美日韩久久精品| 国产又黄又猛视频| 91在线云播放| 日本熟妇色xxxxx日本免费看| 91精品国产91热久久久做人人| 日本www在线| 国产精品久久久久久久美男| 中文有码一区| 成年人免费在线播放| 99国产精品99久久久久久| 国产亚洲精品久久久久久打不开| 欧美一区三区二区| 日韩精品毛片| 国产日韩欧美在线视频观看| 精品免费视频| 国产精品igao| 亚洲国产精品激情在线观看| 91视频久久久| 一本一本久久a久久精品牛牛影视| 伊人久久综合一区二区| 免费一区二区三区| 日韩成人一区二区三区在线观看| 亚洲精品国产熟女久久久| 一本久久综合亚洲鲁鲁五月天| 黄网站在线观看| 国产精品视频免费在线| 91综合在线| 波多野结衣网页| 一区二区欧美精品| 人妻视频一区二区三区| 97热精品视频官网| 亚洲精品国模| 熟妇人妻无乱码中文字幕真矢织江| 亚洲国产精品v| 国产毛片在线视频| 久久99热精品| 日韩激情啪啪| 美女一区二区三区视频| 国产精品二三区| 国产小视频一区| 欧洲亚洲在线视频| 欧美h版在线| 久久久久久久久久影视| 欧美日韩另类视频| 国产裸舞福利在线视频合集| 国产一区红桃视频| 欧美特黄a级高清免费大片a级| 这里只有精品在线观看视频 | 日韩美女啊v在线免费观看| 国产999久久久| 91av在线看| 欧美一区电影| 亚洲欧美日韩中文字幕在线观看| 亚洲成va人在线观看| 精彩国产在线| 亚洲sss综合天堂久久| 一区二区三区导航| 五月婷婷婷婷婷| 亚洲丁香久久久| 最新日韩一区| 久久男人资源站| 欧美高清在线一区二区| 亚洲第一页综合| 国产精品成人v| 亚洲一级高清| 国产3级在线观看| 亚洲成人国产精品| 成人精品国产亚洲| 亚洲熟妇无码一区二区三区| 国产精品久久久久精k8| 天天摸夜夜添狠狠添婷婷| 成人春色激情网| 久久国产福利| 国产在线视频卡一卡二| 中文字幕亚洲自拍| 久久久免费毛片| 伊人免费视频二|