精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則

人工智能 新聞
盡管如 ChatGPT 這樣的大語言模型(Large Language Models, LLMs)已經在各種復雜任務中展現出令人驚艷的性能,它們在處理一些對人類來說十分簡單的數學推理問題時仍會面臨困難,例如長整數加法。

本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。

圖片


  • 論文地址:https://arxiv.org/abs/2402.17709
  • 項目主頁:https://github.com/GraphPKU/Case_or_Rule
  • 論文標題:Case-Based or Rule-Based: How Do Transformers Do the Math? 

Case-based or rule-based?

人類可以輕松地學習加法的基本規則,例如豎式加法,并將其應用于任意長度的新的加法問題,但 LLMs 卻難以做到這一點。相反,它們可能會依賴于訓練語料庫中見過的相似樣例來幫助解決問題。來自北京大學張牧涵團隊的 ICML 2024 論文深刻研究了這一現象。研究者們將這兩種不同的推理機制定義為 “基于規則的推理”(rule-based reasoning)和 “基于樣例的推理”(case-based reasoning)。圖 1 展現了兩種推理機制在遇到同一個加法問題時,采用的不同模式。

圖片

圖 1:case-based reasoning 與 rule-based reasoning 示意圖

由于 rule-based reasoning 對于獲得系統性的泛化能力 (systematic generalization) 至關重要,作者在文章中探討了 transformers 在數學問題(例如 "")中到底是使用何種推理機制。為了測試模型是否依賴特定樣例來解決問題,作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依賴的訓練集中的樣例,然后將它們從訓練集中移除,以觀察它們是否影響模型的測試性能。對于數學推理,作者的假設是,在解決某個測試樣本時,transformers 傾向于依賴與測試樣本 “接近” 的訓練樣本來進行推理。因此,作者在樣本的二維空間中挖掉了一塊正方形作為測試集(test square)。根據假設,若模型在做 case-based reasoning,且模型依賴的是與 test sample 距離較近的 training sample 來做推理,那么模型將無法答對正方形中心附近的 test samples,因為模型在訓練集中沒有見過接近的樣例。

圖片

圖 2:GPT-2 在加法、模加法、九進制加法、線性回歸上利用 Leave-Square-Out 方法進行 fine-tune 后在全數據集上的正確率。其中,紅框中的方形區域為測試集,其他部分為訓練集合。

通過在五個數學任務(包括加法、模加法、九進制加法、線性回歸以及雞兔同籠問題)的干預實驗,transformers 無一例外都表現出了 case-based reasoning 的行為。作者利用 Leave-Square-Out 方法對 GPT-2 進行了 fine-tune,具體的模型表現展示于圖 2。可見,測試集內,模型的性能由邊界到中心迅速下降,出現了 holes。這說明當我們把 holes 周圍的 similar cases 移出訓練集時,模型便無法做對 holes 中的 test samples 做出準確推理。也即展現出模型依賴 similar cases 進行推理的行為。為了確保結論的公平性,作者同時利用 random split 方法對數據集進行了訓練集 / 測試集的劃分,并觀察到 random split 下模型可輕易在測試集上達到接近 100% 的準確率,說明 Leave-Square-Out 實驗中的訓練樣例數是足夠模型完成推理的,且再次側面印證了 transformers 在做基于樣例的推理(因為 random split 下所有 test samples 都有接近的 training samples)。

Scratchpad 是否會改變模型推理行為?

圖片

圖 3:利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。

此外,作者探討了是否可以通過加入 scratchpad,即引導模型在輸出中一位一位地做加法來消除 case-based reasoning 的行為,使模型轉向 rule-based reasoning(scratchpad 的具體方法可見圖 4)。圖 3 展示了利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。

一方面,可發現 test square 中仍然有一部分模型無法做對的區域,表現出模型仍然在做 case-based reasoning;另一方面,與不加入 scratchpad 時模型在 test square 中出現整塊連續的 hole 的現象相比,模型在使用 scratchpad 時對于訓練樣例的依賴情況顯然發生了變化。

具體而言,test square 中無法做對的區域呈現為三角形,其斜邊沿著個位和十位的 “進位邊界”。例如,圖 3 中自左向右第 2 張圖(test square 邊長)有兩個三角形區域,模型的準確率幾乎為零。小三角形表示,模型無法解決如47+48的問題,因為訓練集中沒有包含十位上進位的步驟(所有四十幾 + 四十幾的樣例都在測試集中)。而對于不涉及十位進位的測試樣本,如42+43 ,模型則能夠成功,因為它可以從大量其他訓練數據中學習到 4+4這個中間步驟(例如)。對于大三角形中的數據而言,模型無法解決例如57+58這樣的問題,因為訓練集中沒有包含十位上需要進位到百位的案例。

這些黑色區域的形狀和位置表明,只有當測試案例的每一步在訓練集中都出現過時,模型才能夠成功;否則就會失敗。更重要的是,這一現象表明,即使有 step-by-step 的推理過程的幫助,transformers 也難以學會 rule-based reasoning —— 模型仍然在機械地記憶見過的單個步驟,而沒有學會背后的規則

其他影響因素

Scratchpad 以外,作者也在文章中對 test square 的位置、大小,模型的大小(包括 GPT-2-Medium,與更大的模型:Llama-2-7B 和 GPT-3.5-Turbo),數據集的大小等因素進行了豐富的測試。模型在做 case-based reasoning 的結論是統一的。具體的實驗細節可見文章。

Rule-Following Fine-Tuning (RFFT)

通過上述的干預實驗,作者發現 transformers 在數學推理中傾向于使用 case-based reasoning,然而,case-based reasoning 會極大地限制模型的泛化能力,因為這意味著模型如果要做對新的 test sample ,就需要在訓練集中見過相似的樣本。而在訓練集中覆蓋到所有未知推理問題的相似樣本是幾乎不可能的(尤其對于存在長度泛化的問題)。

圖片

圖 4:direct answer,scratchpad 與 rule-following 三種方法的 input-output sequence

為了緩解此類問題,作者提出了名為 Rule-Following Fine-Tuning(RFFT)的規則遵循微調技術,旨在教 transformers 進行 rule-based reasoning。具體來說,如圖 4 所示,RFFT 在輸入中提供顯式的規則,然后指導 transformers 逐行地回憶規則并執行。

實驗中,作者在 1-5 位數的加法上使用圖 4 所示的三種方法對 Llama-2-7B 和 GPT-3.5-turbo 進行了 fine-tune,并分別在 6-9 與 6-15 位數的 OOD 的加法任務上進行了測試。

圖片

圖 5:Llama-2-7b 和 GPT-3.5-turbo

由圖 5 可見,RFFT 在長度泛化的性能上明顯超過了 direct answer 和 scratchpad 這兩種微調方法。使用 Llama-2-7B 進行 RFFT 時,模型在 9 位數的加法中也能保持 91.1% 的準確率。相比之下,使用 scratchpad 進行 fine-tune 的模型在此任務中的準確率不到 40%。對于擁有更強的基礎能力的 GPT-3.5-turbo,RFFT 使其能夠驚人地泛化到涉及多達 12 位數字的加法,盡管只在 1-5 位加法上訓練了 100 個訓練樣本,但其在 12 位數的加法上仍然保持了 95% 以上的準確率。這也顯著超過了 scratchpad 和 direct answer 的結果。這些結果突出顯示了 RFFT 在引導 transformers 進行 rule-based reasoning 方面的有效性,并展現了其在增強模型長度泛化能力方面的潛力。

值得注意的是,作者發現 Llama-2-7B 需要 150,000 個訓練樣本才能泛化到 9 位數字,而 GPT-3.5 僅用 100 個訓練樣本就能掌握規則并泛化到 12 位數字。因此,規則遵循(rule-following)可能是一種 meta learning ability—— 它可能通過在多樣化的 rule-following 數據上進行訓練而得到加強,并可更容易地遷移到新的未在訓練集中見過的領域中。相應地,基礎模型越強大,理解并學習新的規則就越容易。這也與人類學習新規則的能力相符 —— 經驗豐富的學習者通常學習得更快。

總結

本文探究了 transformers 在做數學推理問題時究竟是采用 case-based reasoning 還是 rule-based reasoning,并提出了 Rule-Following Fine-Tuning 的規則遵循微調方法來顯式地教會 transformers 進行 rule-based reasoning。RFFT 展現了強大的長度泛化能力,并有潛力全面提升 LLMs 的推理能力。

責任編輯:張燕妮 來源: 計算機視覺研究院
相關推薦

2024-07-30 11:40:00

數據庫NoSQLSQL

2024-09-12 15:28:38

localhost?網絡IPv4

2020-10-18 07:25:55

MQ消息冪等架構

2022-11-26 00:00:07

內存數組程序

2025-01-17 10:49:01

2024-09-03 14:16:54

2016-01-28 09:51:55

2018-02-01 09:32:16

傳統運維SRE

2015-07-09 10:44:53

微服務分布式DevOps

2011-05-07 15:13:24

兼容墨盒評測

2012-10-22 13:18:05

KVM

2021-12-01 10:05:12

模型人工智能計算

2010-06-30 09:09:15

預覽版SQL Serv

2011-08-04 10:33:39

筆記本用戶體驗

2025-06-18 13:07:01

2020-12-21 09:57:33

無鎖緩存并發緩存

2022-10-21 16:07:10

編碼器自然語言模型

2019-11-11 09:30:46

區塊鏈比特幣物聯網

2017-10-16 15:41:13

SDN路由器NFV

2024-11-21 16:06:02

點贊
收藏

51CTO技術棧公眾號

狂野欧美性猛交xxxx| 黄色片视频在线观看| 亚洲毛片在线| 一本一道久久a久久精品逆3p| 天天干在线影院| 成人短视频在线| 成人av在线播放网站| 国产精品国产三级国产专播精品人 | 国产精品久久久久久久久毛片| 国产专区一区| 一本一道久久a久久精品逆3p | 无码无遮挡又大又爽又黄的视频| 国产成人无吗| 久久综合色8888| 97在线中文字幕| 波多野结衣小视频| 在线日韩欧美| 久久6免费高清热精品| 亚洲码无人客一区二区三区| 亚洲精品视频一二三区| 在线观看不卡一区| 久久国产亚洲精品无码| 神马午夜伦理不卡| 亚洲欧洲性图库| 欧美日韩精品一区| 日韩在线一区二区三区四区| 国产在线播放一区三区四| 日本欧美一级片| 欧美三级 欧美一级| 色综合天天爱| 中文字幕日韩精品有码视频| 国产传媒第一页| 日本一区二区三区播放| 在线播放国产精品二区一二区四区| 久久成人免费观看| aa级大片免费在线观看| 亚洲精品视频自拍| 超碰免费在线公开| 欧美另类极品| 国产精品第13页| 日韩av在线影院| 一级淫片在线观看| 精品久久在线| 欧美日韩久久久久久| 能看的毛片网站| 欧亚一区二区| 色狠狠色狠狠综合| 看欧美ab黄色大片视频免费 | 国产粉嫩一区二区三区在线观看| 91美女在线观看| 精品欧美一区二区三区久久久| 亚洲精品字幕在线| 福利一区二区在线观看| 成人黄动漫网站免费| 亚洲成人第一区| 粉嫩高潮美女一区二区三区| 国产传媒欧美日韩| 欧美一级一区二区三区| 99久久国产免费看| 日韩av一区二区三区美女毛片| 国产小视频在线观看| 久久精品人人做| 亚洲国内在线| 免费在线观看av| 亚洲精品日韩一| 国产色一区二区三区| 白浆视频在线观看| 色综合天天综合网国产成人综合天| 欧美成人免费高清视频| 日韩三区免费| 91精品国产一区二区| 中文字幕人妻熟女人妻a片| ccyy激情综合| 亚洲区中文字幕| 来吧亚洲综合网| 欧美国产三级| 国产91|九色| 中文字幕+乱码+中文| 国产一区二区精品久久| 国模精品娜娜一二三区| 高清美女视频一区| 亚洲精品水蜜桃| 欧美 日韩精品| 成人国产精品久久| 亚洲精品成人久久电影| 天天操天天舔天天射| 亚洲国产精品综合久久久| 欧美高跟鞋交xxxxhd| 91玉足脚交嫩脚丫在线播放| 蜜桃av一区二区三区| 国产高清精品一区二区| 黄色av网站在线| 一区二区三区在线播| 成人免费观看视频在线观看| 久久精品97| 亚洲国产精品女人久久久| 阿v天堂2014| 亚洲黄色一区| 国产欧美日韩丝袜精品一区| 手机看片一区二区三区| 国产精品传媒入口麻豆| 91九色在线观看视频| 国产精品国产三级在线观看| 亚洲日本成人女熟在线观看| 久草免费在线视频观看| 老司机午夜精品| 久久一区二区精品| 欧美hdxxxx| 777午夜精品视频在线播放| 少妇真人直播免费视频| 在线成人黄色| 亚洲a一级视频| 9191在线观看| 色综合中文字幕| 在线观看成人动漫| 综合久久亚洲| 国产日韩在线看| 国产香蕉视频在线看| 午夜欧美一区二区三区在线播放 | av网站一区二区三区| 黄黄视频在线观看| 四虎国产精品免费久久5151| 国产亚洲欧美视频| 欧美日韩一二三四区| 成人午夜精品在线| 久久香蕉视频网站| www一区二区三区| 伊人亚洲福利一区二区三区| 精品免费囯产一区二区三区 | 99色在线观看| 日韩欧美一区二区视频| 麻豆精品国产免费| 狠狠色狠狠色合久久伊人| 视频一区二区三区在线观看| 亚洲高清黄色| 亚洲深夜福利视频| 无码视频在线观看| 久久亚洲二区三区| 能在线观看的av| 国产探花在线精品一区二区| 日韩暖暖在线视频| 欧美zzoo| 91黄色在线观看| 成人在线手机视频| 久久国产精品色婷婷| 在线观看日韩羞羞视频| 日韩五码电影| 欧美成人精品三级在线观看 | 懂色av一区二区三区蜜臀| 干日本少妇视频| 91精品尤物| 97人人爽人人喊人人模波多| 人人妻人人澡人人爽久久av| 精品国产乱码久久久久久婷婷| 日本丰满少妇裸体自慰| 每日更新成人在线视频| 手机看片福利永久国产日韩| 国产精品久久乐| 欧美成人免费全部| 日韩一区二区三区在线观看视频| 色综合久久88色综合天天免费| 波多野结衣一本| 青青草成人在线观看| 成年人免费观看的视频| 一区二区精彩视频| 2021国产精品视频| 成人午夜电影在线观看| 7777精品伊人久久久大香线蕉超级流畅| 久久免费看少妇高潮v片特黄| 国产91在线观看| 久草青青在线观看| 欧美gay男男猛男无套| 亚洲专区国产精品| 性感女国产在线| 最近更新的2019中文字幕| 国产黄色一区二区| 日韩欧美精品在线观看| 久久精品在线观看视频| av中文字幕一区| 北条麻妃视频在线| 欧美一区二区三区免费看| 久久99蜜桃综合影院免费观看| 69堂免费精品视频在线播放| 久久国产精品偷| 亚洲伦理在线观看| 狠狠综合久久av一区二区小说| 91视频啊啊啊| 久久成人久久鬼色| 亚洲 欧美 日韩 国产综合 在线 | h无码动漫在线观看| 欧美日韩爱爱| 99视频在线免费观看| 第84页国产精品| 欧美大肥婆大肥bbbbb| 你懂的视频在线| 日韩写真欧美这视频| 黄色av网站免费观看| 一片黄亚洲嫩模| 秋霞网一区二区三区| 99热99精品| 日本77777| 日韩成人一区二区三区在线观看| 狠狠精品干练久久久无码中文字幕| 日韩av资源网| 69堂成人精品视频免费| 欧美一级大黄| 久久久久久久久久久网站| 春暖花开成人亚洲区| 亚洲电影第1页| 国产精品久久久国产盗摄| 欧美网站在线观看| 国产无遮挡aaa片爽爽| 亚洲婷婷综合色高清在线| 91网站免费视频| av在线播放不卡| 岛国大片在线免费观看| 免费高清在线视频一区·| 久久久久久久久久久视频| 欧美激情aⅴ一区二区三区| 日韩欧美三级电影| 亚洲精品小区久久久久久| 国产激情美女久久久久久吹潮| 亚洲精品一区二区在线播放∴| 国产999精品久久久| 免费看男女www网站入口在线 | 丁香天五香天堂综合| 一二三av在线| 精品亚洲欧美一区| 亚洲老女人av| 免费高清在线一区| a在线观看免费视频| 日韩黄色免费网站| 色婷婷综合久久久久中文字幕| 国产一区二区高清| 黄色一级视频片| 亚洲中字黄色| 日韩久久一级片| 亚洲欧美日本国产专区一区| 免费看日本毛片| 午夜在线精品| 无遮挡又爽又刺激的视频| 欧美亚洲三级| 女人另类性混交zo| 欧美aⅴ一区二区三区视频| 不要播放器的av网站| 日韩影院在线观看| 日本久久久久久久久久久久| 日韩va亚洲va欧美va久久| 欧美成人黄色网址| 久久草av在线| 日韩高清在线一区二区| 国产精品77777| 国产精品19p| 99re66热这里只有精品3直播| a天堂视频在线观看| 99亚偷拍自图区亚洲| 亚洲av无码一区二区三区观看| www国产成人| 欧美人与性囗牲恔配| 国产精品入口麻豆九色| 99热这里只有精品4| 亚洲激情第一区| 国产第100页| 色菇凉天天综合网| 艳妇乳肉豪妇荡乳av| 欧美一级艳片视频免费观看| 成人免费观看在线视频| 日韩禁在线播放| www.91在线| 欧美美女操人视频| 7777kkk亚洲综合欧美网站| 欧美亚洲国产视频小说| 91国拍精品国产粉嫩亚洲一区| 成人激情在线播放| 超碰97久久| 日产国产精品精品a∨| 91tv官网精品成人亚洲| r级无码视频在线观看| 视频一区在线播放| 亚洲精品永久视频| 99在线精品一区二区三区| 日韩免费成人av| 亚洲激情男女视频| 成人黄色三级视频| 日韩欧美电影一二三| 免费a级毛片在线观看| 久久艳片www.17c.com| 人人草在线视频| 91久久在线播放| 欧美美女在线直播| 手机成人av在线| 国产精品丝袜xxxxxxx| 国产亚洲视频一区| 成人avav影音| 一区二区三区在线播放视频| 午夜国产精品影院在线观看| 伊人网综合在线| 日韩av在线直播| 亚洲综合伊人久久大杳蕉| 国产精品av电影| 97青娱国产盛宴精品视频| 亚洲国产精品www| 9国产精品视频| 日本高清免费在线视频| 国产欧美一区二区三区网站| 欧美亚韩一区二区三区| 欧美精品日韩精品| 国产人成在线视频| 97香蕉超级碰碰久久免费的优势| 国产亚洲观看| 亚洲精品美女久久7777777| 9色精品在线| 少妇搡bbbb搡bbb搡打电话| 中文字幕一区二区三区在线不卡| 精品人妻一区二区色欲产成人| 精品国产精品一区二区夜夜嗨| 美女羞羞视频在线观看| 国产精品激情av在线播放| 日韩av三区| 国产深夜男女无套内射| 国产99一区视频免费| 国产精品视频看看| 欧美视频一区二区在线观看| 免费在线稳定资源站| 欧美一区深夜视频| 欧美变态挠脚心| 精品视频免费在线播放| 国产成人精品午夜视频免费| √天堂中文官网8在线| 欧美日韩精品系列| av电影在线网| 国产剧情久久久久久| 日韩中字在线| 国产精品v日韩精品v在线观看| 国产日韩精品视频一区| 懂色av中文字幕| 在线播放国产一区二区三区| 亚洲wwww| 亚洲人成网站在线播放2019| 免费成人av在线| 男人天堂资源网| 欧美日韩国产三级| 亚洲精品传媒| 成人精品福利视频| 91精品福利| www.美色吧.com| 亚洲777理论| 神马久久高清| 国产精品白丝jk喷水视频一区| 俺要去色综合狠狠| 岛国毛片在线播放| 亚洲视频在线一区| www.国产黄色| 国产做受高潮69| 日韩母乳在线| 日韩肉感妇bbwbbwbbw| 中文字幕在线观看一区| 国产三级在线观看视频| 欧美日韩成人在线观看| 久久超级碰碰| 国产精品99久久免费黑人人妻| 国产精品美女久久久久久久久久久 | 激情深爱一区二区| 黄页网站免费观看| 日韩av在线网页| 国产麻豆一区| 欧美无砖专区免费| 久久久久久电影| 一二三区中文字幕| 欧美激情欧美激情| 亚洲人成精品久久久 | 亚洲乱码国产乱码精品| 色天天综合狠狠色| youjizz亚洲| 激情婷婷综合网| 一区二区不卡在线视频 午夜欧美不卡在| 欧日韩在线视频| 国产成人一区二区三区电影| 一本一本久久a久久综合精品| 荫蒂被男人添免费视频| 欧洲人成人精品| 女人黄色免费在线观看| 日韩av电影在线观看| 国产成人亚洲综合色影视| 国产精品久久久久久人| 久久久999精品免费| 神马日本精品| 91亚洲一区二区| 色av综合在线| 欧美黑人猛交的在线视频| 日本一区二区三不卡| 国产99久久久久久免费看农村| 久久久国产免费| 久久久久久久久久久免费 | 欧洲grand老妇人| 性xxxxxxxxx| 欧美日韩国产小视频在线观看| 182在线播放| 狠狠干视频网站| 亚洲国产精品成人久久综合一区 |