精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度揭秘CoT!普林斯頓耶魯發布最新報告:大模型既有記憶推理、也有概率推理

人工智能 新聞
研究人員通過案例研究,利用大型語言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思維鏈(CoT)提示在解碼移位密碼任務中的表現;CoT提示雖然提升了模型的推理能力,但這種能力并非純粹的符號推理,而是結合了記憶和概率推理的復雜過程。

「推理」是非常能展現「人類智能」的一項能力,需要結合現有證據和過去的經驗,以邏輯和系統的方式思考某件事情,進而做出決策。

大型語言模型(LLMs)以其通用性,在多項任務上都取得了出色的性能,雖然思維鏈(CoT)提示已經證明了大模型具備多步推理能力,但這種能力到底來自于「抽象泛化」(abstract generalization)還是「淺層啟發式」(shallow heuristics),仍然沒有定論。

為了深入理解影響 CoT 推理的因素,普林斯頓大學、耶魯大學的研究人員最近發布了一項案例研究,使用三個大模型(GPT-4、Claude 3 和 Llama 3.1)利用CoT提示來執行解碼移位密碼(decoding shift ciphers)的符號推理任務。

圖片

論文地址:https://arxiv.org/abs/2407.01687

文中只關注這一個簡單的任務,能夠系統地分析出影響 CoT 性能的三個因素:任務的預期輸出(概率)、模型在預訓練期間隱式學習的內容(記憶),以及數量推理中涉及的中間操作(噪聲推理)。

實驗結果顯示,這些因素可以極大地影響模型的準確率,并且可以得出結論,CoT提示帶來的性能提升,既反映了模型在推理過程中有記憶的因素,也有真實推理的概率因素。

研究方法

以往的方法在研究模型推理能力時,往往在一系列復雜的推理任務上進行評估,其中任務的多樣性和復雜性可能會掩蓋CoT推理背后的影響因素,所以這篇論文只關注一個相對簡單的任務:使用移位密碼編碼的文本進行破譯(deciphering text encoded with a shift cipher)。

使用移位密碼(shift cipher)來編碼消息的過程為,將每個字母替換為在字母表中向前移動一定數量位置(shift_level)的另一個字母;解碼則為相反的操作,即向后移動。

圖片

這種密碼也可以稱為旋轉密碼(rotation ciphers),過程等價于將字母表向前旋轉一定數量的步rot-k,其中k對應于shift_level

例如,給定測試詞「FDW」并使用rot-3加密(shift_level = 3),解碼需要將每個字母向后移動3步,即F → C,D → A,W → T,最后獲得解碼輸出「CAT」。

在實驗設計時,研究人員給大模型輸入一個使用移位密碼編碼的單詞,并要求模型對文本進行解碼以恢復原始單詞。

任務動機

研究人員使用移位密碼任務的主要出發點在于「任務復雜性」和「任務頻率」之間存在明顯的分離。

解密任務的復雜性也可以動態變化,移位級別(shift level)更高的密碼,需要更多中間步驟,也更復雜;不同的移位級別在互聯網文本中的頻率也不同,在大型語言模型的訓練數據中也是如此。

比如rot-13在互聯網論壇中廣泛用于隱藏文本,如謎題解答和劇透,而rot-3和rot-1通常用在解密教程中(rot-3也被稱為凱撒密碼)。

此外,移位密碼有助于研究概率的影響,因為正確答案可以是任意字符串,可以很容易地調節字符串的概率,并且生成樣本和正確性驗證也很容易。

最重要的是,解碼信息時,每個字母都是一個獨立的步驟,更容易分析。

CoT在移位密碼上的影響

數據

研究人員構建了一個數據集,每個單詞包含7個字母(從詞表中組合3個字母和4個字母的單詞),用GPT-4分詞器后為2個token,以控制與分詞器無關的因素。

使用GPT-2計算對數概率,用句子「The word is "WORD"」的對數概率減去「The word is」的對數概率,然后把單詞按其對數概率評分,并按降序排列。

通過選擇等距的對數概率值作為中心,形成了五個區間,其中區間1具有最高的概率,區間5具有最低的概率,再手動檢查了數據集中的單詞,并進行了篩選,以確保沒有使用不恰當的單詞,其中每個區間包含150個單詞。

數據集中總共包含150個樣本,劃分為兩個子集:1)包含100個單詞以評估GPT-4;2)包含50個單詞,用于評估擬合到GPT-4在100個單詞子集上表現的邏輯回歸模型。

最后在1-25移位級別上生成來自5個概率區間的單詞的移位密碼編碼版本,作為模型的輸入;評估只運行一次,基于100個樣本報告準確率。

評估提示

研究人員使用多種不同的提示對數據集的性能進行了評估:

1. 標準(standard)提示,只有任務描述和演示但沒有推理步驟的提示;

圖片

2. 文本思維鏈(Text-CoT),使模型逐個字母解碼消息。

圖片

要想正確得到推理步驟,模型必須在預訓練期間學會字母表。

3. 數學思維鏈(Math-CoT),模型需要將每個字母轉換為數字,然后通過數字應用算術來執行移位,再將結果轉換回字母;提示中還指定了字母和位置之間的映射。

圖片

4. 數字序列思維鏈(Number-CoT),該任務基于數字域(即輸入和輸出是數字序列),與移位密碼同構;推理需要對數字序列中的輸入元素應用算術運算以獲得相應的輸出序列。

圖片

實驗結果

研究人員使用了開源和閉源模型進行實驗:GPT-4(gpt-4-0613),Claude 3(claude-3-opus-20240229),以及Llama-3.1-405B-Instruct,其中溫度設置為0,并將max_new_tokens設置為200。

在使用標準提示時,GPT-4在大多數移位級別上的準確率為零,但當使用文本CoT時,其準確率大幅提升(平均準確率達到32%),跟以前的研究結果相同,即CoT對移位密碼很有幫助,但仍然遠非完美;但在使用數字CoT時,GPT-4的表現結果幾乎達到了完美。

圖片

上述結果顯示,如果CoT提示中用到的是符號推理,那GPT-4的推理能力就會很完美;而事實上沒有得到完美分數,也表明了CoT推理并非純粹的符號推理。

盡管如此,CoT也很明顯優于標準提示,所以CoT推理不太可能僅僅是簡單的記憶。

如果CoT推理既不是簡單的記憶也不是純粹的符號推理,那會是什么?

推理過程分解

研究人員考慮了大型語言模型(LLMs)可能采用的四種推理過程:

1. 符號推理(Symbolic reasoning)是使用離散的、確定性的推理規則。移位密碼可以通過簡單的符號算法完美解碼,因此一個使用完全系統化推理的系統應該達到100%的準確率。


2. 噪聲推理(Noisy reasoning)類似于符號推理,但增加了噪聲,導致推理過程中每個中間操作出錯的可能性。如果系統使用噪聲推理,那應該看到隨著需要執行的操作數量的增加,準確率會下降;移位密碼可以測試出這種可能性:通過改變移位級別,可以調節每個推理步驟中需要執行的操作數量,并觀察準確率是否相應變化。

3. 記憶(Memorization)策略,模型可以記住在預訓練中遇到的任務,但無法泛化到新任務。如果LLMs所做的只是記憶,應該看到在預訓練中經常遇到的情況比那些不經常遇到的任務表現更好。

之前有研究表明,13是自然語料庫中最常見的移位級別,在一些網絡社區中很常見。

4. 概率推理(Probabilistic reasoning)將任務框架為選擇給定輸入下最可能的輸出,推理會受到輸出的先驗概率的影響,概率推理器應該隨著正確答案的先驗概率增加,準確率也會有所提升。

圖片

對比假設準確率,研究人員發現,隨著移位級別的增加,準確率通常會下降,代表LLM在執行噪聲推理,并且是雙向噪聲推理,模型可以對字母進行向前或向后的移位來解碼消息,例如,向后移動25個字母和向前移動1個字母相同,但后者的中間步驟更少;雙向性質的具體表現為,當移位級別從20變為25時,準確率會增加。

其次,模型進行概率推理的證據是,準確率在最高概率區間(區間1)遠高于最低概率區間(區間5),其中「高概率」大多為常見的單詞,如{'mariner', 'shrines', 'paywall', ...},而「低概率」的情況大多是無意義的字母序列,如{'xcbrouw', 'jsxrouw', 'levjspx', ...}。

最后,雖然移位級別13比其他移位級別需要更多的推理步驟,但移位級別13上的準確率存在一個峰值,代表模型執行了記憶(13是自然語料庫中最常見的移位級別)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-23 09:40:00

AI數學模型

2022-07-26 09:56:48

模型AI

2023-09-12 14:45:18

2025-02-14 10:23:00

LLM模型谷歌

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2024-09-23 08:24:06

CoT解密技術

2023-08-27 15:28:53

人工智能語言模型

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-12-05 13:25:00

數據訓練

2025-05-21 09:02:20

2024-01-24 13:11:00

AI模型

2025-02-12 12:04:54

2024-07-19 09:59:31

2024-09-05 12:27:17

2025-05-16 08:58:09

2023-05-22 15:17:02

谷歌AI

2025-06-16 14:41:07

模型開源AI

2025-03-25 09:50:23

2011-04-22 10:14:34

無線網絡DHCPAndroid

2023-11-19 23:36:50

點贊
收藏

51CTO技術棧公眾號

五月天久久久久久| 91网址在线观看精品| 人成在线免费视频| 日本不卡一区二区三区| 日韩中文字幕在线看| 天天操精品视频| 97成人资源| 中文字幕欧美一| 国语精品免费视频| 中文字幕+乱码+中文乱码91| 一本一道久久a久久精品蜜桃| 精品日本一线二线三线不卡| 国产成人综合一区| 特级毛片在线| 国产精品欧美综合在线| 国产精品日韩高清| 亚洲自拍偷拍另类| 久久久夜夜夜| 欧美高跟鞋交xxxxxhd| 性欧美一区二区| a看欧美黄色女同性恋| 欧美日韩美女一区二区| 欧美成人一区二区在线观看| 免费在线观看av片| 久久久久久亚洲综合| 91久久久久久久久久久| 免费无码国产精品| 亚洲免费观看| 欧美激情精品久久久久久蜜臀 | 国产a级免费视频| 久久精品五月| 91精品国产成人www| 91麻豆免费视频网站| 精品香蕉视频| 亚洲欧美国产精品专区久久| 精品无码人妻少妇久久久久久| 精品国产黄a∨片高清在线| 黄色成人av在线| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 久久婷婷国产综合尤物精品| 精品国产区一区二| 国产在线视频一区二区三区| 国产精品高潮呻吟视频| 看片网址国产福利av中文字幕| 欧美激情麻豆| 美女性感视频久久久| 亚洲av无一区二区三区| 日本欧美视频| 正在播放欧美视频| 99久久精品免费视频| 九九综合在线| 亚洲片在线观看| 成人网站免费观看| 性人久久久久| 亚洲深夜福利在线| 91成年人网站| 欧美美女一区| 中文字幕在线精品| 国产农村妇女精品一区| 手机亚洲手机国产手机日韩| 色阁综合伊人av| 成人做爰视频网站| 亚洲成人一区| 欧美黑人巨大xxx极品| 久草视频手机在线观看| 在线成人国产| 97在线观看免费高清| 天天爽夜夜爽夜夜爽精品| 亚洲免费中文| 国产精品欧美在线| a级片在线播放| 成人国产精品免费观看动漫| 久久艹中文字幕| 蝌蚪视频在线播放| 中文字幕不卡在线播放| 中文字幕一区二区三区5566| a视频在线播放| 亚洲成av人影院在线观看网| 成人在线免费在线观看 | 国产日韩欧美黄色| 97人妻一区二区精品免费视频 | 日本乱码高清不卡字幕| 在线观看亚洲色图| 美女久久精品| 亚洲精品资源美女情侣酒店 | 日韩精品诱惑一区?区三区| 日韩最新免费不卡| 国产精品日日夜夜| 日本成人在线视频网站| 7777精品久久久大香线蕉小说| 免费看国产片在线观看| 国产亚洲欧美中文| 永久免费在线看片视频| 波多野一区二区| 欧美午夜电影一区| 国产精品99精品无码视亚| 久草成人在线| 欧美日本亚洲视频| 国产一区二区视频免费| 国产乱人伦偷精品视频不卡| 久久亚洲高清| 中日韩高清电影网| 91福利区一区二区三区| 亚洲最大视频网| 精品一区不卡| 孩xxxx性bbbb欧美| 亚洲一区二区人妻| 91免费观看视频在线| 福利网在线观看| 欧美18—19sex性hd| 欧美一区二区三区免费| 免费在线观看你懂的| 欧美在线高清| 国产欧亚日韩视频| 免费黄网站在线观看| 一区二区三区.www| 中文字幕第17页| 久操成人av| 97碰在线观看| 国产夫绿帽单男3p精品视频| 国产拍揄自揄精品视频麻豆| 99视频在线免费播放| www.久久草.com| 中文字幕av一区中文字幕天堂| 国产精品99精品| 国产一区二区视频在线| 日韩和欧美的一区二区| 美女av在线免费看| 精品国产青草久久久久福利| 91人妻一区二区三区蜜臀| 日本在线播放一区二区三区| 精品久久久久久中文字幕动漫| 中中文字幕av在线| 欧美久久久久免费| jizz18女人高潮| 天堂蜜桃一区二区三区| 久久久综合亚洲91久久98| www555久久| 精品日本一线二线三线不卡| 久久久久久激情| 国产精品一区二区视频| wwwjizzjizzcom| 久久精品免视看国产成人| www.日韩av.com| 最近中文字幕免费在线观看| 国产女人18毛片水真多成人如厕 | 99久久婷婷国产综合精品| 97久久国产亚洲精品超碰热| 粉嫩av国产一区二区三区| 日韩资源在线观看| 国产精品久久久久久久久久久久久久久久| 久久精品日产第一区二区三区高清版 | 国产福利免费在线观看| 91激情五月电影| 精品亚洲aⅴ无码一区二区三区| 久久精品三级| 亚洲精品白虎| 97色婷婷成人综合在线观看| 久久伊人精品天天| 亚洲av少妇一区二区在线观看| 亚洲激情图片小说视频| 日本精品一二三| 99精品国产一区二区青青牛奶| 久久久99爱| 电影在线观看一区二区| 日韩有码片在线观看| 国产极品久久久| 亚洲电影第三页| 最近日本中文字幕| 老司机久久99久久精品播放免费| 亚洲欧美电影在线观看| 精品国产亚洲一区二区在线观看 | 国产性猛交xxxx免费看久久| 欧美另类高清videos的特点| 1024亚洲合集| 岛国av免费观看| 男人的天堂亚洲| 亚洲自拍的二区三区| 日韩精品一区二区三区中文| 久久久久国产视频| 欧洲伦理片一区 二区 三区| 欧美三级日韩在线| 欧美日韩精品亚洲精品| 91在线精品一区二区三区| 五月婷婷深爱五月| 欧美精品国产| 日本一区二区三区免费观看| av日韩一区| 欧美亚洲国产另类| 麻豆视频在线| 日韩电影在线观看中文字幕| 亚洲自拍第二页| 天天色 色综合| 青青草华人在线视频| 成人综合在线观看| 国产又黄又猛又粗| 在线播放日韩| 一区二区三区日韩视频| 色婷婷久久久| 亚洲影视中文字幕| 超薄肉色丝袜脚交一区二区| 欧美巨大黑人极品精男| 岛国在线大片| 亚洲国产精品视频在线观看| 亚洲图片视频小说| 欧美日韩国产一区二区| 日韩影院一区二区| 欧美激情一区二区三区四区| 伊人久久一区二区三区| 久久超级碰视频| 久久久精品在线视频| 午夜精品av| 一区二区三区国产福利| 伊人久久大香线蕉综合网蜜芽| 国产日韩在线观看av| 午夜不卡影院| 久久久久久这里只有精品| 欧美激情二区| 伊人久久男人天堂| 头脑特工队2在线播放| 欧美成人免费网站| 国产精品欧美久久久久天天影视| 欧美视频在线看| 日本熟妇成熟毛茸茸| 亚洲人成人一区二区在线观看 | 亚洲一区二区三区视频在线播放| 国产精品麻豆免费版现看视频| 91一区在线观看| 亚洲av永久无码精品| 国产毛片精品视频| www.com污| 久久99精品久久久久久动态图| 日韩av一二三四| 国产精品久久国产愉拍| 韩日视频在线观看| 国产在线不卡| 少妇久久久久久被弄到高潮| 亚洲国产一区二区在线观看| 亚洲精品久久区二区三区蜜桃臀| 久草成人在线| 日韩欧美亚洲日产国产| 精品久久精品| 视频一区在线免费观看| 奇米狠狠一区二区三区| 欧洲精品国产| 成人毛片在线| 在线观看一区欧美| 国产精品成人av| 看一级黄色录像| 你懂的成人av| 久久久久久久久久伊人| 欧美日韩一卡| 欧美一级视频免费看| 伊人久久婷婷| 女人扒开屁股爽桶30分钟| 欧美亚洲专区| 中文字幕第80页| 蜜桃精品视频在线| 精品国产鲁一鲁一区二区三区| 韩国视频一区二区| 91亚洲一线产区二线产区| 不卡欧美aaaaa| 3d动漫精品啪啪一区二区下载 | 在线亚洲美日韩| 永久亚洲成a人片777777| 日本福利视频网站| 亚洲制服av| 日韩av片网站| 国产精品456| 无码人妻aⅴ一区二区三区| 久久久久国产精品麻豆ai换脸 | 在线观看不卡| 欧美性大战久久久久xxx| 手机看片久久久| 成人在线综合网| 国产精品边吃奶边做爽| 欧美国产97人人爽人人喊| 一级性生活免费视频| 亚洲一线二线三线久久久| 久久免费激情视频| 欧美日韩中文另类| 性猛交富婆╳xxx乱大交天津| 精品美女在线播放| 欧美777四色影视在线| 综合网中文字幕| 69av成人| 成人黄色av播放免费| a级日韩大片| 亚洲一区二区精品在线| 亚洲视频观看| 日韩一区二区三区不卡视频| 成人午夜免费电影| 极品久久久久久久| 亚洲成人精品在线观看| 在线观看国产精品视频| 亚洲第一av网站| 不卡在线视频| 国内免费精品永久在线视频| 成人啊v在线| 国产99在线播放| 日本电影一区二区| 国产极品尤物在线| 激情综合色综合久久综合| 青青草视频播放| 亚洲免费在线看| 免费一级a毛片| 亚洲黄色有码视频| 超鹏97在线| 国产精品美女主播| 高清欧美性猛交xxxx黑人猛| 青少年xxxxx性开放hg| 久久激情视频| 国产十八熟妇av成人一区| 一区二区中文字幕在线| 无码人妻精品一区二区蜜桃色欲 | 一级中文字幕一区二区| 少妇又紧又色又爽又刺激视频| 精品成人私密视频| www免费视频观看在线| 国产女人精品视频| 国产欧美亚洲精品a| www国产精品内射老熟女| 国产99久久久国产精品潘金网站| 日本 欧美 国产| 欧美视频精品在线| 福利视频在线导航| 国产成人拍精品视频午夜网站 | 欧美h视频在线观看| 奇米影视一区二区三区小说| 中文字幕一区二区人妻在线不卡 | 自拍偷拍福利视频| 国产婷婷色综合av蜜臀av| 欧美调教sm| 精品国产一区二区三区四区精华 | 91精品国产99久久久久久| 风间由美中文字幕在线看视频国产欧美| 成年人黄色在线观看| 久久成人羞羞网站| 久久av红桃一区二区禁漫| 欧美日韩免费视频| 98在线视频| 国产日韩欧美影视| 欧美电影免费| 手机在线国产视频| 亚洲欧美视频在线观看| www.av网站| 久久久久久久久国产精品| 9国产精品午夜| 日本一本中文字幕| 99在线视频精品| 久久精品无码av| 国产亚洲精品久久| 四虎精品在线观看| 最近免费观看高清韩国日本大全| 国产精品亚洲成人| 懂色av.com| 亚洲人a成www在线影院| 精品裸体bbb| 日本xxx免费| 国产成人亚洲综合a∨婷婷| 日本一区二区欧美| 亚洲人成毛片在线播放| 97人人做人人爽香蕉精品| 亚洲欧洲国产精品久久| 国产乱淫av一区二区三区| 日本三级免费看| 国产视频欧美视频| 激情久久99| 久久亚洲国产成人精品无码区 | 欧美一区日韩一区| 免费网站在线观看人| 久久99精品久久久水蜜桃| 日韩激情一二三区| 老熟妇高潮一区二区三区| 精品国产一区二区三区不卡| 北岛玲heyzo一区二区| 亚洲国产精品久久久久久女王| 精品中文字幕一区二区| 国产一级一级片| 一个色综合导航| 日韩精品成人在线观看| aa在线免费观看| 亚洲色图制服丝袜| 亚洲av电影一区| 成人激情视频在线观看| 亚洲激情黄色| 久久av红桃一区二区禁漫| 亚洲精品久久久久久下一站 | 精品免费国产二区三区| 亚洲www免费| 久久久久久久久久伊人| 国产三级精品视频| 亚洲欧美激情另类| 国产精品视频免费在线| 亚洲欧洲一区| 国产精品久久久免费看| 亚洲美女久久久| 中文字幕日韩在线| 五月婷婷六月丁香激情| 天天操天天干天天综合网|