精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用“反事實任務(wù)”評估大型語言模型

發(fā)布于 2024-7-9 10:34
瀏覽
0收藏

?LLMs的智能本質(zhì)是什么?

在之前的文章中,我談到了評估大型語言模型能力的困難。這些模型在許多基準測試中表現(xiàn)出色,但我們通常不知道基準測試中的測試項目,或足夠相似的項目,是否出現(xiàn)在訓(xùn)練數(shù)據(jù)中。這些模型是在進行一般性的理解和推理,還是在進行AI研究員Subbarao Kambhampati所說的“近似檢索”——依賴于模型訓(xùn)練數(shù)據(jù)中包含的文本模式?

反事實任務(wù)范式

反事實任務(wù)范式可以幫助回答這個問題。在這個范式中,模型在成對的任務(wù)上進行評估,這些任務(wù)需要相同類型的抽象和推理,但對于每一對任務(wù),第一個任務(wù)的內(nèi)容可能與訓(xùn)練數(shù)據(jù)相似,而第二個任務(wù)(“反事實任務(wù)”)的內(nèi)容被設(shè)計成不太可能與訓(xùn)練數(shù)據(jù)相似。

例如,論文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理還是背誦:通過反事實任務(wù)探索語言模型的能力和局限性》)研究了GPT-4在判斷一組四步開局棋是否合規(guī)時的表現(xiàn)。GPT-4似乎對國際象棋有很好的理解;當給出以下提示時,它能夠以接近90%的準確率回答“是”或“否”:

你是一名國際象棋棋手。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規(guī)則,則回答“否”。新的開局“1.e4 e6 2.Be2 Bc5”是否合法?讓我們一步一步來思考。

作者的這個任務(wù)的反事實版本是要求GPT-4想象一個新的國際象棋變體,其中一切都相同,除了騎士和主教交換了初始位置。以下是該任務(wù)的示例提示:

你是一名國際象棋棋手。你正在玩一個國際象棋變體,其中每種顏色的騎士和主教的起始位置互換。騎士放在主教以前的位置,主教放在騎士以前的位置。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規(guī)則,則回答“否”。在這種自定義變體下,新的開局“1.e4 e6 2.Nfe2 Nc5”是否合法?讓我們一步一步來思考。

這種國際象棋版本的例子在GPT-4的訓(xùn)練數(shù)據(jù)中出現(xiàn)的可能性要小得多。作者(以及我自己的)直覺是,理解國際象棋的人類可以很容易地將他們的知識適應(yīng)這種新版本。然而,GPT-4在這個反事實任務(wù)上的準確率下降到大約54%(隨機猜測將產(chǎn)生50%的準確率)。

作者展示了幾種其他類型的任務(wù),也有類似的效果。他們得出結(jié)論,大型語言模型表面上的推理能力可能在很大程度上依賴于訓(xùn)練數(shù)據(jù)中的模式,即“近似檢索”而非一般的抽象推理能力。

Meta的Yann LeCun在X(推特)上表示贊同:

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

ASU的Subbarao Kambhampati表示贊同:

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

另一篇使用這種評估范式的論文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回歸余燼:通過訓(xùn)練任務(wù)理解大型語言模型》)。“自回歸余燼”這個短語是對另一篇知名LLM論文《Sparks of AGI》(《AGI火花》)標題的幽默戲仿。其觀點是,由于像GPT-4這樣的LLM是通過自回歸訓(xùn)練的(即預(yù)測輸入中的下一個標記),它們的行為將反映自回歸所帶來的偏見。

例如,考慮將句子中的單詞順序顛倒的簡單任務(wù):

輸入:paintings. the with pleased totally not was he True,

正確輸出:True, he was not totally pleased with the paintings.

你可能會認為執(zhí)行此任務(wù)的能力不依賴于句子中的特定單詞。然而,當輸出句子是可能的(即,根據(jù)前一個標記計算出的每個標記的概率高)時,GPT-3.5和GPT-4在這個任務(wù)上的表現(xiàn)都很好;但在輸出句子不太可能時,這些系統(tǒng)在該任務(wù)上的表現(xiàn)要差得多,例如,對于這個例子:

輸入:paintings. the with pleased he totally was not True,

正確輸出:True, not was totally he pleased with the paintings.

以下是總體表現(xiàn)情況,與LLM計算的輸出句子的概率對比繪制的圖表:

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

盡管輸出句子的概率無關(guān)緊要,但LLM的訓(xùn)練目標是預(yù)測可能的下一個標記,這泄露到了模型在任務(wù)上的表現(xiàn)中——這是一種自回歸的痕跡。論文中給出了更多的例子。

許多其他“壓力測試”LLM推理能力的論文也顯示了類似的結(jié)果。在本文結(jié)尾,我提供了各種關(guān)于這一主題的論文鏈接,供讀者跟進。

總之,LLM似乎具有一定的推理能力,但如果不對它們進行壓力測試(例如,通過反事實任務(wù)),就無法得出它們在一般情況下進行推理,而不是依賴于其訓(xùn)練數(shù)據(jù),以無法泛化到分布外示例的方式進行推理的結(jié)論。

在下一篇文章中(即將發(fā)布),我將描述我的團隊正在進行的工作,即應(yīng)用反事實任務(wù)范式來壓力測試LLM是穩(wěn)健和普遍類比推理者的說法。

附錄:使用反事實任務(wù)(或相關(guān)壓力測試)評估LLM的論文

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.

McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.

Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.

Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y., Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.

Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).

Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.

Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.

本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: Melanie mitchell

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产一区二区三区四区五区在线 | 黄色小视频免费网站| 国产黄色片在线播放| 精品一区二区在线播放| 久久久噜噜噜久噜久久| 欧美日韩国产黄色| 豆花视频一区二区| 欧美日韩国产天堂| 成熟丰满熟妇高潮xxxxx视频| 91在线播放网站| 成人福利视频网站| 国产精品永久免费观看| 色播视频在线播放| 综合国产在线| 国产亚洲精品美女久久久| 麻豆精品国产传媒| 韩国成人在线| 偷拍日韩校园综合在线| 国产91av视频在线观看| 四虎影视2018在线播放alocalhost| 精品一区在线看| 国产精品大片wwwwww| 国产一级片网址| 午夜精品久久久久久久四虎美女版| 亚洲精品久久久久| 国产老头和老头xxxx×| 精品三区视频| 欧美性猛交xxxx乱大交极品| 国产高清不卡无码视频| 色视频在线免费观看| 26uuu另类欧美亚洲曰本| 超碰97人人在线| 国产精品一区二区黑人巨大 | 综合亚洲深深色噜噜狠狠网站| 精品亚洲一区二区三区四区五区高| 亚洲系列在线观看| 久久综合婷婷| 欧美综合在线观看| 亚洲精品77777| 亚洲小说区图片区| 欧美丰满少妇xxxxx做受| 亚洲欧美精品久久| 日韩欧美午夜| 日韩网站免费观看| 久久午夜精品视频| 欧美三级美国一级| 亚洲夜晚福利在线观看| 好吊视频在线观看| 综合伊思人在钱三区| 亚洲精品美女久久| 在线观看国产三级| 日韩大胆成人| 亚洲伦理中文字幕| 久久丫精品国产亚洲av不卡| 色先锋久久影院av| 亚洲美女精品成人在线视频| 国产精品无码午夜福利| 国产欧美日韩精品一区二区免费 | 国产精品无码网站| 婷婷亚洲精品| 亚洲欧美综合区自拍另类| 亚洲永久精品ww.7491进入| 一区三区在线欧| 亚洲日本中文字幕免费在线不卡| 国精产品一区一区三区免费视频| 免费看成人吃奶视频在线| 国产一区二区三区丝袜| www.4hu95.com四虎| 999国产精品| 欧美成aaa人片免费看| 久久久精品91| 国产亚洲精品bv在线观看| 日本久久91av| 伊人色综合久久久| 国内精品久久久久影院色| 亚洲影院高清在线| 天天干天天色天天| 久久精品日韩一区二区三区| 亚洲欧美成人一区| 日本三级韩国三级欧美三级| 性做久久久久久免费观看欧美| 国产二区视频在线播放| 欧美暴力调教| 日韩精品资源二区在线| 国产人妻人伦精品1国产丝袜| 成人在线免费观看91| 久久国产色av| 国产乱国产乱老熟| 久久9热精品视频| 懂色一区二区三区av片 | 久久精品在线视频| 国产一级二级三级| 日本亚洲三级在线| 99蜜桃在线观看免费视频网站| 三级理论午夜在线观看| 中文字幕一区免费在线观看| 国产日本在线播放| 亚洲成人精品综合在线| 精品国产乱码久久久久久浪潮| 免费在线观看你懂的| 在线一区电影| 国产精品88a∨| 好吊色在线观看| 欧美国产激情二区三区 | 国产美女久久久久久| 亚洲久久成人| 成人在线国产精品| 国产在线色视频| 亚洲一级电影视频| 久久久久久久久久一区| 亚洲自拍电影| 欧美黑人xxxx| 国产又粗又大又爽视频| 久久综合九色综合97婷婷女人| 国产日韩欧美大片| 国产一区二区精品调教| 日韩av中文字幕在线| 欧美一区二区三区爽爽爽| 免费观看一级特黄欧美大片| 狠狠干一区二区| 日韩精品卡一| 欧美电影一区二区三区| 国产又黄又粗视频| 午夜一区二区三区不卡视频| 国产精品制服诱惑| 97caopron在线视频| 欧美午夜宅男影院| 亚洲 小说 欧美 激情 另类| 欧美日韩免费| 91网站免费观看| 五月香视频在线观看| 一本到高清视频免费精品| 亚洲香蕉中文网| 午夜久久美女| 亚洲自拍偷拍一区| 国产在线高潮| 欧美久久久一区| 亚洲天堂最新地址| 麻豆精品在线观看| 日韩av在线电影观看| 亚洲欧美电影| 国产婷婷色综合av蜜臀av| 国产情侣在线视频| 99精品偷自拍| 日韩欧美不卡在线| 国产精品欧美大片| 久久久久久久爱| 黑人乱码一区二区三区av| 亚洲精品老司机| 能看毛片的网站| 欧美福利网址| 成人av片网址| 黄色在线看片| 亚洲国产成人一区| 日韩乱码一区二区| 97久久精品人人做人人爽| 久久久久久久久久久99| 欧美freesex8一10精品| 91精品国产99| 久久米奇亚洲| 欧美优质美女网站| 国产黄a三级三级| 国产一区二区三区在线看麻豆| 国产av第一区| 成人三级毛片| 欧美在线xxx| 国产小视频在线观看| 欧美色倩网站大全免费| 亚洲区一区二区三| 国产99精品在线观看| 免费毛片网站在线观看| 欧美人与拘性视交免费看| 国产美女扒开尿口久久久| 免费黄色在线网站| 日韩精品综合一本久道在线视频| 久久视频免费在线观看| 久久久精品国产99久久精品芒果 | 国产91av视频在线观看| 亚洲精品视频一二三区| 91豆花精品一区| sese一区| 精品少妇一区二区三区在线视频 | 欧美美女直播网站| 国产一级中文字幕| 国产日韩欧美激情| 日韩欧美理论片| 国产亚洲毛片在线| 亚洲一区三区电影在线观看| jizzjizzjizz欧美| 国产精品夫妻激情| 日韩三级免费| 中文字幕在线亚洲| 天天色综合av| 欧美日韩二区三区| 精品视频在线观看免费| 国产日韩欧美高清在线| 在线观看欧美一区二区| 视频一区免费在线观看| 污污污污污污www网站免费| 久久99青青| 国产精品视频免费一区二区三区| 在线成人视屏| 久久久久国产一区二区三区| 日本中文字幕电影在线免费观看| 亚洲第一页中文字幕| 亚洲视频中文字幕在线观看| 性做久久久久久| 欧美特级一级片| 欧美经典三级视频一区二区三区| 国产吃瓜黑料一区二区| 麻豆精品视频在线| 欧美日韩在线中文| 好看不卡的中文字幕| 亚洲一区3d动漫同人无遮挡 | 自拍偷拍一区二区三区| 久久爱www成人| 国产午夜精品一区| 精品国产亚洲一区二区三区| 国产精品女人网站| 在线手机中文字幕| 久久人人看视频| mm1313亚洲国产精品美女| 一区二区成人精品| 欧美18xxxxx| 亚洲精品国产品国语在线| 午夜精品久久久久久久爽| 欧美日韩国产片| 九九热最新视频| 色域天天综合网| 91午夜视频在线观看| 亚洲五月六月丁香激情| 久草中文在线视频| 亚洲免费av网站| 日本高清不卡免费| 亚洲欧洲美洲综合色网| 成人在线观看免费高清| 国产亚洲一区二区三区四区| 亚洲av无码一区二区二三区| www.久久久久久久久| 国产精品成人99一区无码| 国产99久久精品| 在线精品视频播放| 成人av网站大全| 午夜男人的天堂| 99久久99久久综合| 免费看黄色aaaaaa 片| 2欧美一区二区三区在线观看视频| 给我看免费高清在线观看| 99re亚洲国产精品| 深爱五月激情网| 亚洲国产精品高清| 中文乱码字幕高清一区二区| 中文字幕一区二区三区在线不卡| 成人18视频免费69| 亚洲精品视频观看| 日本免费在线播放| 欧美日韩在线视频一区| 日本视频在线观看免费| 欧美中文字幕一区| 一道本在线视频| 日韩视频在线一区二区| 好吊色一区二区| 亚洲美女性视频| 自拍视频在线网| 久久99热这里只有精品国产| 黄网在线免费看| 日韩免费av一区二区| 国产精品麻豆成人av电影艾秋| 国产一区在线播放| 2021年精品国产福利在线| 精品在线视频一区二区| 欧美军人男男激情gay| 亚洲制服欧美久久| 欧美日韩国产欧| 91传媒久久久| 久久精品国产免费| 亚洲精品成人无码毛片| 91亚洲永久精品| 蜜桃av.com| 亚洲国产精品久久久男人的天堂| 丁香六月婷婷综合| 欧美日韩电影一区| 日本免费网站在线观看| 一本色道久久综合狠狠躁篇的优点| 国产福利视频在线| 97色伦亚洲国产| 色噜噜成人av在线| 国产一区二区无遮挡| 日本电影一区二区| 精品无码国产一区二区三区av| 日韩av一区二区三区四区| 性生交大片免费看l| 国产日产欧美精品一区二区三区| www欧美com| 色婷婷久久99综合精品jk白丝| 国产永久免费视频| 亚洲欧美日韩在线高清直播| av在线播放国产| 国产成人精品优优av| 中文一区二区三区四区| 色综合666| 一本久道综合久久精品| 五月天婷婷在线观看视频| 久久综合九色综合欧美亚洲| 91视频免费在线看| 欧美日韩一区二区三区四区| 五月婷婷在线播放| 欧美成人一区二区三区电影| 依依综合在线| 成人av男人的天堂| 一本一本久久a久久综合精品| 欧美 日韩 国产 激情| 成人免费视频视频在线观看免费| 日韩免费av一区| 在线观看成人小视频| 神马一区二区三区| 欧美激情亚洲精品| 精品国产亚洲一区二区三区在线| 日韩av图片| 丝瓜av网站精品一区二区| 天堂www中文在线资源| 一区二区三区在线看| 国产精品污视频| 中文字幕欧美日韩| 唐人社导航福利精品| 美脚丝袜一区二区三区在线观看| 韩日在线一区| 无码人妻丰满熟妇区毛片蜜桃精品| 国产精品理伦片| 这里只有久久精品视频| 精品亚洲一区二区三区| h片在线观看视频免费| eeuss一区二区三区| 欧美精品成人| 日本高清免费观看| 亚洲免费观看高清完整版在线观看熊| 国产精品成人无码| 国产亚洲成av人片在线观看桃| 神马午夜在线视频| 久久久久高清| 久久都是精品| 在线观看国产精品一区| 宅男在线一区| 日本精品视频在线观看| 九九热播视频在线精品6| 国产欧美久久久久| 成人夜色视频网站在线观看| 免费在线一级片| 欧美成人精精品一区二区频| 免费看电影在线| 国产乱人伦精品一区二区| 亚洲美女网站| 免费看黄色aaaaaa 片| 色先锋久久av资源部| 极品美乳网红视频免费在线观看| 国产精品极品美女在线观看免费 | 亚洲国产激情一区二区三区| 石原莉奈一区二区三区在线观看| 国内精品卡一卡二卡三| 欧美丝袜自拍制服另类| 日本中文字幕在线视频| 97se亚洲综合| 一本色道久久综合亚洲精品高清 | 成人激情诱惑| 老司机久久精品| 亚洲黄网站在线观看| 成人无码一区二区三区| 91成人在线视频| 成人羞羞动漫| 国产又粗又猛大又黄又爽| 亚洲午夜精品17c| 久热av在线| 91精品一区二区| 亚洲清纯自拍| 免费看91的网站| 日韩欧美久久久| 成人欧美大片| 一级一片免费播放| 成人精品国产一区二区4080| 潘金莲一级淫片aaaaaa播放| 久久精品视频播放| 欧美日韩破处| 免费看涩涩视频| 亚洲成人av电影| 成人免费黄色网页| 51精品国产人成在线观看 | 天天干天天做天天操| 国产91色在线免费| 亚洲一区在线| 欧美 变态 另类 人妖| 欧美另类久久久品| 蜜桃av在线播放| av中文字幕av| 国产午夜久久久久| 亚洲精品一区二区三区新线路| 国产成人在线亚洲欧美| 牛牛国产精品| 久操视频在线观看免费| 亚洲第一综合天堂另类专| 久久福利在线|