精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用「AI人」模擬社會學實驗,居然成功了?斯坦福、NYU用GPT-4模仿人類,準確度驚人!

人工智能 新聞
斯坦福和NYU的研究者發現,GPT-4這樣的「AI人」,可以被用來復制社會科學實驗了。調查了1萬個AI,結果比真人還真?

最近,斯坦福和NYU的一項研究發現,GPT-4能夠很好地模擬人類,高精度地復制社會科學實驗了!

圖片論文地址:https://docsend.com/view/qeeccuggec56k9hd

通過提示,AI可以以隨機人口統計特征的形式回答調查問題,調查了數千名「AI人」后,一份社會科學實驗報告就順利出爐了。

圖片點進這個頁面,就可以使用這個演示,模擬被試生成預測的實驗效果了

社會科學實驗中最困難的過程之一,就是田野調查了。

而現在,可以采用LLM預測社會科學實驗的結果了?

不過有個問題:用LLM模擬真實的人類,結果能準嗎?

研究者發現,在70項研究中,模擬效果和觀察到的效果,存在驚人的一致性。

準確性超越人類專家

用LLM進行社會科學實驗,預測的準確性有多高?

研究者使用GPT-4,從70個實驗中預測了465種效應。

其中包括

-通過NSF資助的TESS計劃進行的50項調查實驗

-20項額外的重復研究

圖片

給模型的提示詞,是(a)從美國人的代表性數據集中提取的人口統計資料和(b)實驗刺激。

通過匯總模型響應估計的效果,可以看出它們與實際的實驗效果密切相關!

圖片

另外研究者們還發現,隨著模型的演進,它們的預測準確性越來越高。

到了GPT-4時,已經超越了美國人在線樣本(N=2,659)的預測。

圖片

這里就有人要問了:有沒有可能,LLM只是從訓練數據中檢索和重現已知的實驗結果呢?

研究者找到了證據,證明并非如此。

他們特意找到了GPT-4訓練數據截止時未發表的研究,發現預測的準確性仍然很高。

我們找到了反對這一點的證據:僅分析 GPT4 訓練數據截止時「未發表」的研究,我們發現預測準確性很高。

圖片

不過還有一個問題,此前人們曾發現,訓練數據中的歧視,會引發LLM的偏見。

這些偏差是否會影響實驗結果預測的準確性呢?

為此,研究者從以下三方面,對結果進行了比較:

- 女性和男性

- 黑人和白人

- 民主黨和共和黨

結果顯示,盡管已知訓練數據不平等,但LLM得出的預測準確性,在各個亞組之間仍然具有可比性。

然而,研究的實驗效果幾乎沒有異質性,因此,還需要更多的研究,來評估LLM實驗結果的預測是否存在偏差,以及是怎樣的偏差。

圖片

此外,研究者還評估了大型研究的預測準確性,比較了大量干預措施的影響。

通過9項調查和實地大型研究可以發現,LLM得出的預測相當準確。

尤其值得注意的是,它們的準確性已經等同或超過了人類預測專家。

圖片

最后,研究者發現LLM可以準確預測對社會有害結果的影響,例如FB上antivax的帖子對vax意圖的影響。

這種能力,可能產生積極的用途,比如幫助內容審核,不過也同時凸顯了濫用的風險。

圖片

總的來說,這項研究發現,LLM在實驗中給出的預測,要比外行和人類專家的樣本都更準確。

這種能力,在科學和實踐方面有多種應用。

比如,運行低成本的試點,來確定有希望的干預措施,或模擬可能對參與者有害的實驗。

不過也存在局限性和風險,包括偏見、過度使用和誤用。

圖片

用LLM復制社會科學實驗,可行嗎?

LLM是一種最新的機器學習模型,經過大量人類語言語料庫的訓練后,它們具有驚人的能力來模擬人類如何思考、交流和行為。

因此,它們能夠模仿廣泛的人類高級能力,例如社會互動和協調、道德判斷、談判、情感支持和說服。

隨著LLM越來越能夠模擬人類語言的使用,那它們能否被用于社會和行為科學的研究呢?

在這項研究中,研究者探討了LLM是否可以用于準確預測行為的結果實驗。如果有效,這種能力就能為建立科學理論和行為干預帶來無數好處。

圖片

他們檢查了先進的公開LLM——GPT-4,是否可用于預測在大量有力的、預先注冊的、具有全國代表性的實驗中觀察到的原始實驗效果(a)NSF 資助的多學科社會科學分時實驗(TESS)計劃和(b)最近復制研究的檔案,它們共同代表了廣泛的不同領域(例如社會心理學、政治學、社會學、公共政策、公共衛生)。

研究者讓GPT-4模擬了大量不同人口的美國人樣本對實驗刺激的反應。

然后,他們比較了不同實驗條件下的平均響應,以生成LLM預測的實驗效應大小,然后將其與原始實驗效應相關聯。

研究者評估了LLM得出的預測對一般美國人和具有獨特學術興趣的幾個亞群體的準確性,系統地對LLM用于預測調查實驗中觀察到的干預效應的能力進行了基準測試。

圖片

最后,他們超越了這個初步的測試檔案,收集并分析多種大型多處理實驗,包括涉及行為測量的研究、干預措施的現場測試和政策影響評估,以更好地評估LLM預測實驗結果的價值和當前局限。」

結果顯示,LLM雖然不會取代人類被試,但廉價、快速且可能大量開展基于LLM的試點研究的能力,可以幫助研究人員確定更有前途的研究想法,促進理論和假設的建立,更好地估計未知的效應大小,以確定所需的效果樣本大小,并優先考慮需要復現的已發表研究。

這種能力也可能具有應用價值。例如,政策制定者可以利用LLM來有效評估許多公共信息傳遞方法,以鼓勵理想的行為(例如公共衛生行為、福利計劃注冊)。

目前,預測實驗結果的最佳可用工具是從專家或非專業預測者那里收集預測。

然而,雖然有時具有預測性,但系統地收集預測既耗時又昂貴,而基于LLM的低成本工具,可以使預測性預測廣泛可用。

研究者研究了LLM在代表性樣本調查實驗中準確模擬人類反應的能力。

他們使用LLM,來模擬了人類對各種主題(包括人格特質、道德判斷和政治態度)的調查問題的反應,并取得了不同程度的成功。

圖片

研究概述

他們研究了是否可以利用當前一代的LLM,來準確預測在美國進行的社會科學實驗效果的方向和程度。

他們首先建立了一個大型的多學科測試檔案,其中包含通過美國國家科學基金會資助的50個調查實驗——2016年至2022年社會科學共享實驗(TESS)項目,全部在全國代表性概率樣本上進行。

我們通過最近的復制項目中的另外20項實驗對此進行了補充,這些實驗也是在全國代表性樣本上進行的。

對于每個實驗,他們都重新分析了原始的、公開的數據集,使用一致的分析方法估計所有實驗對比。

這個測試檔案有幾個優點。

首先,實驗質量高:它們都是高度統計、預先注冊、同行評審、針對全國代表性樣本進行,并且材料是開放獲取的。

使用具有全國代表性的美國人樣本特別有價值,使他們能夠評估LLM對人口亞組的預測的準確性。

其次,檔案內容廣泛且多樣化。

這些實驗由來自不同領域(例如政治學、心理學、社會學、社會政策、公共衛生、傳播學)的77名社會和行為科學家設計,并測試了許多不同類型的實驗治療的效果(例如框架效應、顯著性)主題、啟動社會身份對一系列結果(如政治、文化和宗教態度、對少數群體的偏見、幸福)的影響。

第三,研究者不依賴他人的分析,而是采用致的分析方法來估計實驗治療效果。這樣做可以讓他們避免研究人員的偏見,還可以估計所有可能的實驗對比,包括原始研究人員沒有假設的那些影響,因為它們不太可能在已發表或公開發表的論文中出現。

第四,在GPT-4訓練數據窗口結束時,大量實驗的結果尚未發表或公開發布,這樣研究者就能專門測試LLM在GPT-4無法接觸過的實驗中的預測能力。

當然,測試檔案也有重要的局限性。最關鍵的是,它只包含代表美國人口的研究,無法在該范圍之外進行評估。

此外,雖然它包括來自多個學科的研究,但許多學科并未包括在內(例如認知心理學、行為經濟學、發展經濟學、營銷學)。

最后,檔案完全由基于文本的刺激和自我報告的相關測量的調查實驗組成,不包括現場實驗、行為因變量或圖像或視頻刺激。

為了開始解決主要測試檔案的一些局限性,研究者對下面的補充數據集進行了額外的分析。

他們的研究設計如下圖所示。為了對測試檔案中的實驗結果生成基于LLM的預測,他們獲得了原始研究材料,包括所有實驗條件、結果變量和反應量表的刺激文本。

圖片

從廣義上講,LLM可以被提示(a)直接預測實驗結果,或(b)模擬個體參與者對實驗刺激的反應。

這里,研究者采用了后一種策略。

他們向LLM提出了:

(a)介紹性信息(如「您將被要求預測人們對各種信息的反應」),包括對研究背景的簡要描述;

(b)研究參與者的具體人口統計概況模仿——包括有關性別、年齡、種族、教育、意識形態和黨派偏見的信息,從具有全國代表性的大型樣本中隨機抽取;

(c)實驗刺激的文本;

(d)用于評估結果的問題文本變量,以及結果啦應量表和標簽。

然后,他們提示LLM估計參與者在受到實驗刺激后將如何回應結果問題。

他們使用了集成方法來減少對任何單一提示格式的特殊響應。

對于每個實驗條件和結果測量,研究者都對所有LLM的響應進行了平均。

結果

為了評估當前一代的LLM是否可以用來預測實驗中的干預效應,研究者首先檢查了GPT-4預測的干預效應與實際估計的干預效應之間的相關性。

在對從存檔中的70個實驗計算出的476個實驗效果進行分析時,可以發現GPT-4得出的預測與原始效果大小密切相關。

僅檢査在原始實驗中具有統計顯著效果的成對對比,可以發現對于90%的對比,GPT-4得出的預測方向是正確的。

以下幾個圖,顯示了LLM在美國進行的基于文本的社會科學實驗中,得到了準確的預測效果。

(a)在包含70個基于文本的實驗(具有476個效果)的數據集中,LLM得出的對許多提示的干預效應的估計,與原始干預效應密切相關。

圖片

(b)LLM得出的預測的準確性,在幾代LLM中得到了提高,其準確性超過了從一般人群中收集的預測。

圖片

(c)對于那些不可能出現在LLM訓練數據中的研究,LLM得出的預測仍然高度準確,因為這些研究沒有在LLM訓練數據截止日期之前發布。

圖片

(d)在各個實驗子集的穩健性檢査分析中,LLM得出的預測的準確性仍然很高。在面板A和中,不同的顏色代表不同的研究。

圖片

LLM得出的預測(a)在各個亞組中的準確性相似,并且(b)當存在效應異質性時,交互效應相當準確。圖中描繪了減弱的相關性。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-26 14:56:59

模型訓練

2023-07-21 14:28:54

2023-10-17 13:33:00

AI數據

2025-06-10 11:22:38

AIChatGPT壓縮

2023-03-15 10:35:16

GPTAI

2024-01-03 13:37:00

模型數據

2023-10-06 12:48:43

AI論文

2025-10-29 16:16:58

AICMU編程

2024-01-29 12:49:00

AI模型

2024-09-11 14:59:00

2019-12-16 14:33:01

AI人工智能斯坦福

2024-03-25 07:15:00

AI模型

2023-09-21 12:31:54

AI數據

2023-06-05 15:44:15

GPT-4AI

2024-11-26 08:42:14

2023-12-16 09:45:56

論文GPT-4AI

2023-02-17 09:01:50

ChatGPT對話機器人

2024-01-22 00:25:00

GPT-4ChatGPTQA 模型

2023-07-21 14:16:15

2025-09-24 18:02:55

點贊
收藏

51CTO技術棧公眾號

亚洲高清av| 久草在线免费福利资源| 久久国产小视频| 欧美曰成人黄网| 日韩精品极品视频在线观看免费| 人妻人人澡人人添人人爽| 亚洲精品三区| 一级特黄大欧美久久久| 91九色在线观看| 国产一卡二卡在线| 一道在线中文一区二区三区| 色拍拍在线精品视频8848| 日韩欧美精品一区二区| 一区二区三区精| 亚洲一区色图| 亚洲国产另类 国产精品国产免费| 国产精品又粗又长| 男人的天堂在线| 美女视频黄a大片欧美| 伊人伊成久久人综合网站| 色啦啦av综合| 黄色小说在线播放| 日本一区二区视频在线观看| 91精品入口蜜桃| 中文字幕在线观看视频网站| 色喇叭免费久久综合| 欧美日韩国产一级二级| a级免费在线观看| 高清在线观看av| 国产福利精品一区二区| 国内精品在线一区| 九九热免费在线| 超碰成人97| 欧美日韩一卡二卡三卡| 青草视频在线观看视频| p色视频免费在线观看| 国产91精品入口| 国产精品精品一区二区三区午夜版| 9999热视频| 亚洲人成伊人成综合图片| 欧美三区在线观看| 国产综合中文字幕| 超碰免费在线播放| 久久青草国产手机看片福利盒子 | 免费人成在线观看播放视频| 99久久99久久精品免费观看| 成人两性免费视频| 潘金莲一级淫片aaaaaa播放| 亚洲午夜久久久久久尤物| 中文字幕日韩精品有码视频| 午夜视频在线观看国产| 国产精品日韩精品在线播放| 欧美性猛交xxxx| 国产精品免费看久久久无码| 在线激情网站| 91色porny在线视频| 99视频在线播放| 在线免费观看高清视频| 久久天堂成人| 91国内揄拍国内精品对白| 婷婷在线精品视频| 五月久久久综合一区二区小说| 亚洲欧美在线磁力| 国产精品探花一区二区在线观看| 亚洲欧美日本国产| 欧美一三区三区四区免费在线看| 超碰av在线免费观看| 惠美惠精品网| 亚洲午夜久久久久久久久电影院| 国产精品99久久久久久大便| 在线观看免费版| 国产亚洲欧美在线| 欧美久久电影| 免费一级毛片在线观看| 91小视频免费看| 麻豆久久久9性大片| 亚洲 美腿 欧美 偷拍| 成人黄色国产精品网站大全在线免费观看| 亚洲最大福利视频| 精品国产无码一区二区| 国产精品伊人色| 99在线首页视频| www.国产.com| 成人午夜av影视| 国偷自产av一区二区三区小尤奈| 亚洲精品国产精品国| 成人深夜在线观看| 国产精品初高中精品久久| 丰满岳乱妇国产精品一区| 成人午夜在线视频| 久久久久久国产精品mv| 撸视在线观看免费视频| 国产三级三级三级精品8ⅰ区| 欧美一二三区| 岛国视频免费在线观看| 中文字幕精品一区二区三区精品| 欧美人xxxxx| 国产人成在线视频| 一区在线播放视频| 亚洲成人动漫在线| 免费网站在线观看人| 亚洲大片精品永久免费| 欧美黄网站在线观看| 秋霞国产精品| 在线不卡的av| 手机av在线免费| 日韩在线观看中文字幕| 亚洲国产精品热久久| 大地资源二中文在线影视观看| 777久久精品| 日韩成人av在线播放| 日韩一区二区a片免费观看| 久久视频精品| 欧美激情精品久久久久久免费印度| 久久亚洲国产成人精品性色| 91视频综合| 久久精品国产精品亚洲| 国产精品白嫩白嫩大学美女| 中文日韩在线| 国产一区二区在线播放| www夜片内射视频日韩精品成人| av资源站一区| 亚洲高清视频一区| 77thz桃花论族在线观看| 欧美亚洲国产怡红院影院| 亚洲图片 自拍偷拍| 日韩美女毛片| 精品中文字幕在线观看| 销魂美女一区二区| 久久99国内精品| 国产综合18久久久久久| 嫩草香蕉在线91一二三区| 一区二区三区.www| 亚欧激情乱码久久久久久久久| 精品中文在线| 亚洲第一精品自拍| 久久精品在线观看视频| 国产一区二区三区久久| 99re在线视频观看| 日本私人网站在线观看| 夜色激情一区二区| 天天干天天综合| 嫩草国产精品入口| 色综合五月天导航| 天天干天天插天天射| 不卡视频在线观看| 中文字幕乱码免费| 成人精品国产亚洲| 亚洲精品wwww| 波多野结衣亚洲一区二区| 男人操女人的视频在线观看欧美| 国模精品一区二区三区| 18加网站在线| 欧美另类高清zo欧美| a级片在线观看| 尤物在线精品| 91视频99| 久色视频在线| 色88888久久久久久影院野外| xxxwww国产| 亚洲午夜精品一区二区国产| 国产精品美乳在线观看| 免费毛片在线| 欧美日韩中文字幕| 日韩在线一区二区三区免费视频| 国产无遮挡在线观看| 香蕉成人久久| 国产在线精品一区二区三区| 怡红院在线播放| 欧美乱妇15p| 羞羞在线观看视频| 麻豆成人91精品二区三区| 精品国产一区二区三| 欧美xxxx免费虐| 日韩欧美国产一区二区三区| 欧美亚洲在线视频| 婷婷丁香激情网| 国产欧美一区| 日本成熟性欧美| 性xxxxbbbb| 精品毛片网大全| 人人妻人人藻人人爽欧美一区| 欧美人成网站| 国产乱码精品一区二区三区日韩精品| 亚洲制服国产| 精品国产一区二区三区久久影院| 精品丰满少妇一区二区三区| 精品一区二区三区久久| 亚洲自拍偷拍一区二区三区| 一级毛片精品毛片| 欧美亚洲国产另类| 巨骚激情综合| 欧美浪妇xxxx高跟鞋交| xx欧美撒尿嘘撒尿xx| 色综合咪咪久久网| 国产成人免费电影| 欧美一级大片| 欧美老女人在线视频| 性xxxfllreexxx少妇| 欧美日韩美少妇 | 欧美韩国日本综合| 三级黄色片免费看| 性欧美精品高清| 日本黄色播放器| 久久久免费毛片| 国产精品中文在线| 波多野结衣久久| 色多多国产成人永久免费网站| 亚洲美女综合网| 在线视频观看一区| 黄色小视频在线免费看| 欧美国产一区二区| 一级黄色电影片| 麻豆精品一区二区| 亚洲 欧美 日韩 国产综合 在线| 成人女性视频| 国产尤物91| www.久久草.com| 国产99久久久欧美黑人| 秋霞在线视频| xxx欧美精品| 免费在线观看污视频| 精品免费99久久| 国产精品自偷自拍| 欧洲精品视频在线观看| 国产成人亚洲欧洲在线| 亚洲精品午夜久久久| 中文字幕第24页| 久久综合国产精品| 欧美久久久久久久久久久| 黄色资源网久久资源365| av免费在线播放网站| 欧美激情综合色综合啪啪| 亚洲黄色一区二区三区| 美女亚洲一区| 久久久久久久久久久久久久久久av | 欧美日韩在线直播| 国产又大又黑又粗免费视频| 亚洲欧美一区二区不卡| 婷婷丁香综合网| 日本一区二区三区dvd视频在线 | 成人av资源站| 精产国品一区二区三区| 麻豆国产精品777777在线| 日韩av在线综合| 男人的天堂亚洲在线| 无码专区aaaaaa免费视频| 亚洲二区视频| 欧美一级片免费播放| 国自产拍偷拍福利精品免费一| 日本美女爱爱视频| 亚洲欧洲中文字幕| 91成人在线视频观看| 亚洲成人99| 日韩视频在线免费播放| 午夜精品久久久久久久四虎美女版| 亚洲bbw性色大片| 精品九九在线| 亚洲一区二区三区免费看| 成人写真视频| 中文字幕欧美日韩一区二区三区| 99久久夜色精品国产亚洲96| 中文字幕一区二区三区乱码| 亚洲影视一区二区三区| 亚洲精品天堂成人片av在线播放 | 国产午夜精品一区二区三区| 极品白浆推特女神在线观看| 亚洲欧美制服另类日韩| 成全电影播放在线观看国语| 中文字幕日韩有码| 国产在线观看av| 欧美乱大交xxxxx另类电影| 色女人在线视频| 97碰在线观看| 日韩精品一区二区三区| 国产精品网红直播| 激情久久免费视频| 美女尤物久久精品| 图片区小说区区亚洲五月| 日韩免费看片| 伊人网在线免费| 亚洲人妖在线| 亚洲精品一二三四五区| 久久精品国产精品亚洲综合| 色哟哟免费视频| 91在线视频播放地址| 337人体粉嫩噜噜噜| 亚洲美女屁股眼交| 久久夜靖品2区| 在线看国产一区二区| aaa国产视频| 国产视频久久久| 麻豆av在线免费看| 国内精品国产三级国产在线专 | 国产精品wwwwww| 999色成人| 久久99欧美| 97精品国产| 免费看又黄又无码的网站| 免费成人美女在线观看| 日本一二三区在线| 久久久久88色偷偷免费| 极品盗摄国产盗摄合集| 色婷婷综合久久久久中文一区二区| 亚洲图片欧美在线| 日韩成人av网| 天堂av资源在线观看| 国产精品∨欧美精品v日韩精品| 日本免费精品| 亚欧洲精品在线视频免费观看| 你懂的国产精品永久在线| 乱子伦视频在线看| 成人综合在线观看| 亚洲女同二女同志奶水| 欧美性猛交视频| 亚洲第一天堂在线观看| 色久欧美在线视频观看| 悠悠资源网亚洲青| 成人av播放| 国产精品成人a在线观看| 97av视频在线观看| 不卡影院免费观看| 青青操视频在线播放| 欧美日韩精品一区二区三区四区| 香蕉视频911| 国产+成+人+亚洲欧洲| 欧美另类中文字幕| 亚洲综合av一区| 丝袜美腿亚洲综合| 欧美 日本 国产| 亚洲国产精品久久人人爱| 国产美女永久免费| 丝袜美腿精品国产二区| 欧美freesex| 欧美激情视频一区二区三区| 亚洲性视频h| 亚洲热在线视频| 日韩一区在线播放| 在线观看日批视频| 中文字幕少妇一区二区三区| 涩涩网在线视频| 精品无人区一区二区三区竹菊| 欧美亚韩一区| 无码人妻丰满熟妇区毛片蜜桃精品| √…a在线天堂一区| 在线中文字幕网站| 色视频www在线播放国产成人| 欧洲一区二区三区精品| 免费观看成人在线| 亚洲综合99| 日本黄色特级片| 欧美性xxxx18| 国产在线三区| 国产精品视频成人| 欧美韩日一区| 中文字幕线观看| 亚洲欧美日本韩国| 精品乱子伦一区二区| 欧美裸体男粗大视频在线观看| 国产亚洲观看| 免费特级黄色片| 97aⅴ精品视频一二三区| 欧美a∨亚洲欧美亚洲| 亚洲美女在线观看| 88xx成人网| 欧美亚洲视频一区| 福利一区福利二区| 日产精品久久久久| 日韩精品久久久久| 人人鲁人人莫人人爱精品| 先锋影音网一区| 精品一区二区在线视频| 久久免费视频播放| 亚洲裸体xxxx| 久久久久久久性潮| 影音先锋成人资源网站| 成人免费视频视频在线观看免费| wwwxxx亚洲| 伊人激情综合网| 麻豆精品在线| 亚洲美免无码中文字幕在线| 久久视频一区二区| 国产理论片在线观看| 久久免费观看视频| 欧美一区二区三区高清视频| 中文字幕亚洲影院| 亚洲午夜久久久久久久久电影院| 久草在线青青草| 亚洲资源在线看| 亚洲女人av| 男女性高潮免费网站| 亚洲精品国产拍免费91在线| 日韩天堂在线| 国产小视频免费| 国产免费成人在线视频| www.四虎在线观看| 国产精品18久久久久久首页狼| 无码一区二区三区视频| 少妇毛片一区二区三区| 欧美一级欧美一级在线播放|