精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

連GPT-4都考不及格,17個大模型悉數落敗,因果推理太難了

人工智能 新聞
大模型的涌現能力經得起推敲嗎?

自 ChatGPT 發布以來,大模型的涌現能力一直被人們稱贊,包括強大的語言理解能力、生成能力、邏輯推理能力等。然而,最近一項研究表明,大模型在因果推理方面普遍性能很差,連 GPT-4 都不及格。

這項研究是由來自馬克斯?普朗克研究所、蘇黎世聯邦理工學院(ETH)、密歇根大學、香港大學和 Meta AI 的研究者們共同完成的。研究目標就是探究大型語言模型(LLM)是否能根據相關性進行因果推理。

圖片

論文地址:https://arxiv.org/abs/2306.05836

因果推理是一項重要的推理任務,獲得因果關系主要有兩種基本方式:一種是通過經驗知識,例如,我們根據常識知道為朋友準備生日禮物會讓他們開心;另一種是通過一些程序和規則進行純粹的因果推理(Spirtes et al., 2000; Pearl, 2009; Peters et al., 2017)。

如下圖 1 所示:如果 A 與 B 相關,那并不意味著 A 導致 B;如果 A 和 B 本來是相互獨立的,但在給定 C 的情況下變得相關,那么可以推斷,在這個封閉系統中,C 是 A 和 B 的共同效應(common effect)。

圖片

該研究提出一項新的 NLP 任務 —— 相關因果推理 (CORR2CAUSE)。如果 LLM 的成功來源于捕捉項與項之間大量的統計相關性,那么在關鍵步驟缺失時,如何處理相關性并推理因果關系?因此,該研究認為 CORR2CAUSE 推理是大型語言模型 (LLM) 的一項必備技能。

構建數據集

首先,該研究收集整理了一個 CORR2CAUSE 數據集,用于測試大型語言模型純粹的因果推理能力。該數據集中的所有問題都圍繞 LLM 何時從相關性推斷出因果關系的有無。為了系統地形成 CORR2CAUSE 數據集,該研究將泛化過程置于因果發現的正式框架中(Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019),其中涵蓋如何根據變量在觀測數據中的統計相關性推斷變量之間因果關系的規則。

圖片

CORR2CAUSE 數據集包含 400K 個樣本,有效樣本占 18.57%,當且僅當統計相關性和潛在因果關系之間存在雙射映射時,才將相關性 - 因果關系陳述對標記為有效。

圖片

基于 CORR2CAUSE 數據集,該研究主要分析兩個問題:

  • 現有的 LLM 在此任務上表現如何? 
  • 現有的 LLM 是否可以針對此任務進行重新訓練或重新定位并獲得強大的因果推理技能?

該研究通過實驗表明,現有 17 個 LLM 在這個純因果推理任務上表現均不佳。并且,盡管 LLM 在對數據進行微調后可以表現出更好的性能,但其因果推理技能并不穩健。

實驗結果

現有 LLM 的 CORR2CAUSE 能力

如下表 4 所示,對于實驗中所有 LLM 來說,純因果推理都是一項非常具有挑戰性的任務。其中,BART MNLI 的 F1 值最高,為 33.38%,甚至高于 GPT-4(29.08%)。值得注意的是,許多模型的表現比隨機猜測還要差,這意味著它們在純因果推理任務中完全失敗。

圖片

微調后的性能

接下來要解決的問題是:能否讓 LLM 重新學習這項任務?

從下表 5 (a) 中的實驗結果來看,在 CORR2CAUSE 上進行微調的 12 個模型表現得比較好,大多數模型都獲得了顯著的性能提升。其中,基于 BERT 的 NLI 模型微調之后表現最佳,RoBERTa-Large MNLI 在這個任務上達到了 94.74% 的 F1 分數,以及非常高的精確度、召回率和準確率得分。

圖片

同時,上圖 5 (b) 展示了受到干擾時各模型的實驗結果,所有模型的性能都在急劇下降,表現最好的模型 RoBERTa-Large MNLI 則是性能下降最多的模型;然而,RoBERTa-Large MNLI 對變量重構最穩健,保持了 67.87 的較高 F1 分數。總的來說,現有 LLM 的穩健性比較差。

除了上述整體結果,該研究還進行了細粒度分析,以探索最強模型 RoBERTa-Large MNLI 在六種因果關系類型上的表現。

如下表 6 (a) 所示,RoBERTa-Large MNLI 模型在判斷關系方面表現非常好,例如「Is-Parent」、「Is-Descendant」和「Has-Confounder」,這些 F1 分數都超過了 96%。然而,在「Has-Collider」關系上,它的表現稍微弱一些。這可能是因為 collider 關系是最特殊的類型,需要基于僅有的兩個變量的無條件獨立性和在有共同后代的條件下的相關性來識別 V-structure。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究細節。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-05 09:57:11

2024-01-26 15:25:27

GPT-4人工智能大模型

2025-05-30 09:17:00

2011-12-14 20:23:31

HTC

2024-07-16 13:24:38

2024-07-16 13:13:26

2023-05-15 15:38:59

AI模型

2025-05-23 08:47:00

2025-04-18 09:13:00

2023-06-19 08:19:50

2010-04-20 21:48:48

2024-06-11 14:30:18

2023-11-13 19:35:12

訓練數據

2025-04-16 09:35:03

2023-06-05 12:32:48

模型論文

2024-01-15 00:19:24

2023-12-26 08:17:23

微軟GPT-4

2023-12-04 12:56:08

AI數據

2023-11-03 13:07:00

AI模型

2025-02-08 14:10:00

模型系統AI
點贊
收藏

51CTO技術棧公眾號

欧美日韩亚洲一区二| 成人美女在线观看| 久久精品国产91精品亚洲| 爽爽爽在线观看| 毛片网站在线看| 久久综合久久综合亚洲| 成人精品一区二区三区电影黑人| 777一区二区| 久草成色在线| 国产精品欧美精品| 国产一级特黄a大片99| 中文字幕日韩国产| 国产主播精品| 在线观看不卡av| 久久久久国产精品无码免费看| 污污网站在线观看| 久久精品男人天堂av| 99久久伊人精品影院| 成人毛片一区二区三区| 怡红院精品视频在线观看极品| 在线电影院国产精品| 国产视频九色蝌蚪| 日本在线免费网| 91欧美激情一区二区三区成人| 午夜精品久久久久久99热| 美国一级黄色录像| 麻豆国产欧美一区二区三区r| 亚洲福中文字幕伊人影院| 神马一区二区影院| 国产又爽又黄网站亚洲视频123| 亚洲人成在线影院| 久久亚洲一区二区三区四区五区高| 九九热精品在线播放| 欧亚av在线| 亚洲欧美日韩国产手机在线| 欧美极品色图| 五月天丁香视频| 粉嫩绯色av一区二区在线观看 | 你懂的视频在线观看| 国产毛片精品视频| 国产精品一区二区久久| 男人日女人网站| 国产精品美女久久久| 久久久久久久久91| 国产小视频在线看| 午夜国产精品视频免费体验区| 亚洲国产精品免费| 一区二区在线免费观看视频| 国产麻豆精品| 91麻豆精品国产无毒不卡在线观看| 欧美激情视频免费看| 女人黄色免费在线观看| 一区二区国产盗摄色噜噜| 警花观音坐莲激情销魂小说| 九色porny丨首页在线| 亚洲欧洲三级电影| 欧美xxxx黑人又粗又长密月| 亚洲第一视频在线播放| 国产99精品国产| 91免费看网站| 好吊视频一二三区| 麻豆成人91精品二区三区| 国产精品视频精品| 国产男女裸体做爰爽爽| 国产99一区视频免费| 国产精品久久久久久久免费大片| www.日韩一区| 日韩国产欧美在线观看| 国产精品一区二区电影| 国产又黄又猛又爽| 成人免费视频免费观看| 好看的日韩精品| 亚洲av成人精品一区二区三区在线播放 | yellow中文字幕久久| 潘金莲一级黄色片| 精久久久久久| 国产精品69av| 姑娘第5集在线观看免费好剧| 在线视频观看日韩| 91国自产精品中文字幕亚洲| 日本特级黄色片| 日本va欧美va精品| 亚洲一区二区少妇| 亚州视频一区二区三区| 国产精品你懂的在线欣赏| 熟女视频一区二区三区| 国产高清中文字幕在线| 色老头久久综合| 天天操精品视频| 日韩在线麻豆| 久久午夜a级毛片| 中文字幕一区二区三区精品| 日日摸夜夜添夜夜添精品视频| 2019最新中文字幕| 一区二区三区精彩视频| 成人午夜视频福利| 亚洲综合欧美日韩| 极品av在线| 欧美人动与zoxxxx乱| 午夜视频在线观看国产| 色乱码一区二区三区网站| 久久久在线观看| 一级黄色av片| 粉嫩一区二区三区性色av| 亚洲国产精品123| 国产经典三级在线| 欧美日韩一区视频| 搡老熟女老女人一区二区| 国产精品精品| 国产成人极品视频| 婷婷在线免费视频| 亚洲色图另类专区| 少妇黄色一级片| 另类尿喷潮videofree| 久久久999精品| 波多野结衣小视频| 91香蕉视频污| 欧美亚洲黄色片| 伊人久久大香伊蕉在人线观看热v| 91精品欧美一区二区三区综合在| 99中文字幕在线| 五月国产精品| 欧美极品欧美精品欧美视频| 亚洲一二区视频| 久久久噜噜噜久久人人看| 国产freexxxx性播放麻豆| 4438五月综合| 日韩中文第一页| 免费黄色一级大片| 国产日韩精品一区二区三区| 成熟丰满熟妇高潮xxxxx视频| 自拍偷拍欧美视频| 精品国产一区二区三区忘忧草| 在线精品视频播放| 欧美日韩国产免费观看| 成人在线播放av| 日本视频在线观看| 欧美色涩在线第一页| 西西444www无码大胆| 亚洲精品综合| 国内一区在线| 国产理论在线| 精品久久人人做人人爽| 欧美成人aaa片一区国产精品| 99精品视频免费观看| 国产亚洲一区在线播放| 国产在线美女| 亚洲国产精品va在线看黑人| 国产乡下妇女做爰| 国产suv精品一区二区6| 男人天堂av片| 欧美男人操女人视频| 2019av中文字幕| 日韩三级电影网| 色婷婷激情综合| 蜜臀久久99精品久久久久久| 日韩精品每日更新| 在线不卡视频一区二区| 电影91久久久| 欧美高清视频在线| 日本人妻丰满熟妇久久久久久| 欧美国产精品专区| 日本一二区免费| 亚洲色图网站| 国产女主播一区二区三区| 麻豆网站免费在线观看| 影音先锋日韩有码| 国产乱码久久久久| 亚洲成人资源网| 欧美成人午夜精品免费| 视频一区在线播放| a级黄色片网站| 国产一级成人av| 日本午夜在线亚洲.国产| 午夜伦理在线| 欧美不卡一区二区| 国产精品男女视频| 国产精品久久久久aaaa樱花| 欧美一区二区三区影院| 99在线|亚洲一区二区| 日日夜夜精品网站| 精品视频一区二区三区| 97av在线影院| 1pondo在线播放免费| 日韩欧美电影一区| 久久精品无码av| 中文字幕日韩精品一区| 国产污在线观看| 免费不卡在线视频| 国产精品69久久久| 日韩在线第七页| 国产精品嫩草在线观看| 福利一区二区免费视频| 欧美极品美女电影一区| 国产三级在线看| 精品国产乱码久久久久久蜜臀| 国产一二三四区| 91网上在线视频| 韩国一区二区在线播放| 中国女人久久久| 国产手机视频在线观看| 欧美午夜18电影| 亚洲精品日产aⅴ| 亚洲综合av一区二区三区| 欧美国产第一页| 亚洲精品承认| 国产午夜精品一区理论片飘花| 老熟妇仑乱一区二区av| 一区二区三区美女视频| 女人黄色一级片| 91免费视频观看| 亚洲最大视频网| 精品在线亚洲视频| 九色91popny| 国产一区91| 国产真人做爰毛片视频直播| 99久久精品费精品国产| 久久国产精品亚洲va麻豆| 欧美电影在线观看一区| 国产精品免费看久久久香蕉| 国产免费拔擦拔擦8x在线播放 | 亚洲国产一区二区精品专区| 亚洲春色综合另类校园电影| 婷婷亚洲精品| 加勒比在线一区二区三区观看| 九色porny丨国产首页在线| 俺去啦;欧美日韩| 在线免费看黄网站| 最近2019中文字幕大全第二页| 国产伦精品一区二区三区四区 | 日日摸天天添天天添破| 亚洲图片欧美视频| 青草草在线视频| 亚洲图片你懂的| 九九这里只有精品视频| 国产精品午夜电影| 少妇愉情理伦三级| 欧美国产综合一区二区| 精品人妻一区二区三区四区| 99精品欧美一区| 催眠调教后宫乱淫校园| 成人国产精品免费观看| 白嫩情侣偷拍呻吟刺激| 9l国产精品久久久久麻豆| 妖精视频一区二区| 不卡一区二区中文字幕| 久久久久久久人妻无码中文字幕爆| 日韩精品欧美精品| 免费日韩中文字幕| 日韩激情中文字幕| 日本人视频jizz页码69| 久久66热偷产精品| 欧美日韩理论片| 国产成a人亚洲精品| 国产调教打屁股xxxx网站| 丁香一区二区三区| 影音先锋黄色资源| 久久久久高清精品| 老司机福利在线观看| 成人免费在线视频| 免费一级片在线观看| 午夜精品福利一区二区三区av | 成人黄色中文字幕| 日本一区精品视频| 国产日韩一区二区三区| 香蕉人人精品| 伊人久久大香线蕉午夜av| 97视频热人人精品免费| 喜爱夜蒲2在线| 亚洲欧洲另类| 91香蕉视频污版| 国产乱人伦偷精品视频不卡 | 丁香婷婷久久| 成人免费激情视频| 北条麻妃一区二区三区在线观看| 国产免费成人av| 国产精品视频首页| 国内精品**久久毛片app| 欧美丝袜激情| 亚洲乱码日产精品bd在线观看| 欧美亚洲激情| 欧美日韩dvd| 在线视频亚洲| 成人综合久久网| 成人黄色av网站在线| a级在线免费观看| 亚洲伦理在线精品| 日本视频免费观看| 日韩一区二区三区观看| 黄色片免费在线| 欧美日本中文字幕| 在线观看精品| 国产免费一区二区| 色综合蜜月久久综合网| 欧美午夜性视频| 狠狠色丁香婷婷综合| a视频免费观看| 亚洲人成网站在线| 二区视频在线观看| 日韩一二三四区| 黄色在线视频观看网站| 久久久久久久网站| 欧美亚洲二区| 欧美日本韩国国产| 国产精品vip| 成人不卡免费视频| 国产日本一区二区| 日本亚洲欧美在线| 日韩手机在线导航| 伊人免费在线| 国产ts一区二区| 精品福利一区| 欧美少妇一区二区三区| 日本一区中文字幕| 国产精品久久AV无码| 伊人性伊人情综合网| 一级特黄aaa大片| 亚洲色图偷窥自拍| 在线手机中文字幕| 国产精华一区| 欧美成人中文| 在线观看免费视频污| 欧美激情综合五月色丁香小说| 任我爽在线视频| 欧洲生活片亚洲生活在线观看| 伊人网中文字幕| 亚洲欧美日韩中文在线制服| 成av人片在线观看www| 亚洲自拍高清视频网站| 久久中文字幕av| 嫩草影院国产精品| 国产精品免费人成网站| 中文字幕日韩免费| 亚洲色图18p| 午夜精品成人av| 欧美亚洲另类久久综合| 美女被久久久| www.中文字幕av| 一本大道综合伊人精品热热| 无码精品人妻一区二区| 97人人模人人爽人人喊中文字| 天天综合网站| 欧美日韩国产高清视频| 久久精品男女| 亚洲黄色小说视频| 欧美无乱码久久久免费午夜一区 | 亚洲国模精品一区| 91九色porn在线资源| 精品免费国产| 麻豆成人在线| 美女网站视频色| 777午夜精品免费视频| 黄色网页在线免费看| 亚洲free嫩bbb| 伊人精品成人久久综合软件| 一本加勒比波多野结衣| 日韩欧美在线观看| 国产高清视频在线| 国产有码一区二区| 亚洲成人精品| 亚洲精品久久一区二区三区777| 国产三级久久久| 国产男人搡女人免费视频| 色婷婷久久av| 精品视频一区二区三区在线观看| 日韩欧美一区二区三区四区五区| 狠狠入ady亚洲精品| 污污污www精品国产网站| 日韩欧美亚洲范冰冰与中字| 国产一区电影| 成人免费福利在线| 亚洲大片av| 亚洲精品乱码久久久久久久久久久久| 亚洲高清在线精品| 国产精品99导航| 久久av网站| 久久久久久久久久网| 久久久亚洲国产美女国产盗摄| 麻豆chinese极品少妇| 日韩理论片久久| 欧美videos粗暴| 国产传媒久久久| 久久久不卡影院| 国产福利第一页| 欧美亚洲在线观看| 91偷拍一区二区三区精品| 欧美xxxx日本和非洲| 在线观看91视频| caoprom在线| 亚洲一区二区三区免费看| 国产91在线看| 中文字幕av片| 久久久之久亚州精品露出| 成人久久综合| 香蕉视频污视频| 7799精品视频| 日韩av首页| 免费无码毛片一区二三区| 国产精品久久久久影院色老大| 亚洲视频久久久|