精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則

發布于 2024-7-1 09:08
瀏覽
0收藏

文章第一作者為來自北京大學物理學院、即將加入人工智能研究院讀博的胡逸。胡逸的導師為北京大學人工智能研究院助理教授、北京通用人工智能研究院研究員張牧涵,主要研究方向為圖機器學習和大模型的推理和微調。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區


  • 論文地址:https://arxiv.org/abs/2402.17709
  • 項目主頁:https://github.com/GraphPKU/Case_or_Rule
  • 論文標題:Case-Based or Rule-Based: How Do Transformers Do the Math??


Case-based or rule-based?


盡管如 ChatGPT 這樣的大語言模型(Large Language Models, LLMs)已經在各種復雜任務中展現出令人驚艷的性能,它們在處理一些對人類來說十分簡單的數學推理問題時仍會面臨困難,例如長整數加法。


人類可以輕松地學習加法的基本規則,例如豎式加法,并將其應用于任意長度的新的加法問題,但 LLMs 卻難以做到這一點。相反,它們可能會依賴于訓練語料庫中見過的相似樣例來幫助解決問題。來自北京大學張牧涵團隊的 ICML 2024 論文深刻研究了這一現象。研究者們將這兩種不同的推理機制定義為 “基于規則的推理”(rule-based reasoning)和 “基于樣例的推理”(case-based reasoning)。圖 1 展現了兩種推理機制在遇到同一個加法問題時,采用的不同模式。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 1:case-based reasoning 與 rule-based reasoning 示意圖


由于 rule-based reasoning 對于獲得系統性的泛化能力 (systematic generalization) 至關重要,作者在文章中探討了 transformers 在數學問題(例如 "")中到底是使用何種推理機制。為了測試模型是否依賴特定樣例來解決問題,作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依賴的訓練集中的樣例,然后將它們從訓練集中移除,以觀察它們是否影響模型的測試性能。對于數學推理,作者的假設是,在解決某個測試樣本時,transformers 傾向于依賴與測試樣本 “接近” 的訓練樣本來進行推理。因此,作者在樣本的二維空間中挖掉了一塊正方形作為測試集(test square)。根據假設,若模型在做 case-based reasoning,且模型依賴的是與 test sample 距離較近的 training sample 來做推理,那么模型將無法答對正方形中心附近的 test samples,因為模型在訓練集中沒有見過接近的樣例。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 2:GPT-2 在加法、模加法、九進制加法、線性回歸上利用 Leave-Square-Out 方法進行 fine-tune 后在全數據集上的正確率。其中,紅框中的方形區域為測試集,其他部分為訓練集合。


通過在五個數學任務(包括加法、模加法、九進制加法、線性回歸以及雞兔同籠問題)的干預實驗,transformers 無一例外都表現出了 case-based reasoning 的行為。作者利用 Leave-Square-Out 方法對 GPT-2 進行了 fine-tune,具體的模型表現展示于圖 2。可見,測試集內,模型的性能由邊界到中心迅速下降,出現了 holes。這說明當我們把 holes 周圍的 similar cases 移出訓練集時,模型便無法做對 holes 中的 test samples 做出準確推理。也即展現出模型依賴 similar cases 進行推理的行為。為了確保結論的公平性,作者同時利用 random split 方法對數據集進行了訓練集 / 測試集的劃分,并觀察到 random split 下模型可輕易在測試集上達到接近 100% 的準確率,說明 Leave-Square-Out 實驗中的訓練樣例數是足夠模型完成推理的,且再次側面印證了 transformers 在做基于樣例的推理(因為 random split 下所有 test samples 都有接近的 training samples)。


Scratchpad 是否會改變模型推理行為?


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 3:利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。


此外,作者探討了是否可以通過加入 scratchpad,即引導模型在輸出中一位一位地做加法來消除 case-based reasoning 的行為,使模型轉向 rule-based reasoning(scratchpad 的具體方法可見圖 4)。圖 3 展示了利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。


一方面,可發現 test square 中仍然有一部分模型無法做對的區域,表現出模型仍然在做 case-based reasoning;另一方面,與不加入 scratchpad 時模型在 test square 中出現整塊連續的 hole 的現象相比,模型在使用 scratchpad 時對于訓練樣例的依賴情況顯然發生了變化。


具體而言,test square 中無法做對的區域呈現為三角形,其斜邊沿著個位和十位的 “進位邊界”。例如,圖 3 中自左向右第 2 張圖(test square 邊長)有兩個三角形區域,模型的準確率幾乎為零。小三角形表示,模型無法解決如47+48的問題,因為訓練集中沒有包含十位上進位的步驟(所有四十幾 + 四十幾的樣例都在測試集中)。而對于不涉及十位進位的測試樣本,如42+43 ,模型則能夠成功,因為它可以從大量其他訓練數據中學習到 4+4這個中間步驟(例如)。對于大三角形中的數據而言,模型無法解決例如57+58這樣的問題,因為訓練集中沒有包含十位上需要進位到百位的案例。


這些黑色區域的形狀和位置表明,只有當測試案例的每一步在訓練集中都出現過時,模型才能夠成功;否則就會失敗。更重要的是,這一現象表明,即使有 step-by-step 的推理過程的幫助,transformers 也難以學會 rule-based reasoning —— 模型仍然在機械地記憶見過的單個步驟,而沒有學會背后的規則


其他影響因素


Scratchpad 以外,作者也在文章中對 test square 的位置、大小,模型的大小(包括 GPT-2-Medium,與更大的模型:Llama-2-7B 和 GPT-3.5-Turbo),數據集的大小等因素進行了豐富的測試。模型在做 case-based reasoning 的結論是統一的。具體的實驗細節可見文章。


Rule-Following Fine-Tuning (RFFT)


通過上述的干預實驗,作者發現 transformers 在數學推理中傾向于使用 case-based reasoning,然而,case-based reasoning 會極大地限制模型的泛化能力,因為這意味著模型如果要做對新的 test sample ,就需要在訓練集中見過相似的樣本。而在訓練集中覆蓋到所有未知推理問題的相似樣本是幾乎不可能的(尤其對于存在長度泛化的問題)。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 4:direct answer,scratchpad 與 rule-following 三種方法的 input-output sequence


為了緩解此類問題,作者提出了名為 Rule-Following Fine-Tuning(RFFT)的規則遵循微調技術,旨在教 transformers 進行 rule-based reasoning。具體來說,如圖 4 所示,RFFT 在輸入中提供顯式的規則,然后指導 transformers 逐行地回憶規則并執行。


實驗中,作者在 1-5 位數的加法上使用圖 4 所示的三種方法對 Llama-2-7B 和 GPT-3.5-turbo 進行了 fine-tune,并分別在 6-9 與 6-15 位數的 OOD 的加法任務上進行了測試。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 5:Llama-2-7b 和 GPT-3.5-turbo


由圖 5 可見,RFFT 在長度泛化的性能上明顯超過了 direct answer 和 scratchpad 這兩種微調方法。使用 Llama-2-7B 進行 RFFT 時,模型在 9 位數的加法中也能保持 91.1% 的準確率。相比之下,使用 scratchpad 進行 fine-tune 的模型在此任務中的準確率不到 40%。對于擁有更強的基礎能力的 GPT-3.5-turbo,RFFT 使其能夠驚人地泛化到涉及多達 12 位數字的加法,盡管只在 1-5 位加法上訓練了 100 個訓練樣本,但其在 12 位數的加法上仍然保持了 95% 以上的準確率。這也顯著超過了 scratchpad 和 direct answer 的結果。這些結果突出顯示了 RFFT 在引導 transformers 進行 rule-based reasoning 方面的有效性,并展現了其在增強模型長度泛化能力方面的潛力。


值得注意的是,作者發現 Llama-2-7B 需要 150,000 個訓練樣本才能泛化到 9 位數字,而 GPT-3.5 僅用 100 個訓練樣本就能掌握規則并泛化到 12 位數字。因此,規則遵循(rule-following)可能是一種 meta learning ability—— 它可能通過在多樣化的 rule-following 數據上進行訓練而得到加強,并可更容易地遷移到新的未在訓練集中見過的領域中。相應地,基礎模型越強大,理解并學習新的規則就越容易。這也與人類學習新規則的能力相符 —— 經驗豐富的學習者通常學習得更快。


總結


本文探究了 transformers 在做數學推理問題時究竟是采用 case-based reasoning 還是 rule-based reasoning,并提出了 Rule-Following Fine-Tuning 的規則遵循微調方法來顯式地教會 transformers 進行 rule-based reasoning。RFFT 展現了強大的長度泛化能力,并有潛力全面提升 LLMs 的推理能力。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/aVRiGW3xU_LpvxZzjDpwzQ??

收藏
回復
舉報
回復
相關推薦
华人av在线| 香蕉国产在线视频| 欧美~级网站不卡| 欧美va亚洲va| 日韩a在线播放| 日本暖暖在线视频| 成人一级视频在线观看| 日韩av123| 欧美三根一起进三p| 农村少妇一区二区三区四区五区| 欧美少妇xxx| 天堂8在线天堂资源bt| 精品推荐蜜桃传媒| 国产成人精品www牛牛影视| 欧美孕妇孕交黑巨大网站| 精品国产国产综合精品| 亚洲小说图片| 欧美一二三四在线| 国产精品久久久久9999小说| 欧美家庭影院| 中文字幕综合网| 欧美一区二区影视| 天堂成人在线视频| 国产一区二区0| 国产精品激情av电影在线观看| 妺妺窝人体色www婷婷| 成人精品中文字幕| 亚洲国产欧美日韩精品| 丰满饥渴老女人hd| 日韩欧美一区二区三区在线观看 | 国产精品无码无卡无需播放器| 香蕉大人久久国产成人av| 在线观看视频一区| av天堂永久资源网| 成人黄色动漫| 亚洲自拍偷拍图区| 国产精品8888| 国产黄网站在线观看| 中文字幕av一区二区三区免费看| 久久av一区二区三区亚洲| 亚洲av无码一区二区三区性色| 看国产成人h片视频| 日本成人精品在线| 成人午夜视频精品一区| 激情久久久久久| 欧美日韩国产成人在线| 中文字幕手机在线观看| 欧美一区二区| 成人444kkkk在线观看| 在线观看黄网址| 91久久电影| 精品国产一区二区三区四区在线观看| 9.1成人看片免费版| 婷婷综合一区| 亚洲男人天天操| 欧美特黄一区二区三区| 精品日韩一区| 视频在线一区二区| 免费成人美女女在线观看| 91日韩免费| 欧美精品在线免费播放| 久久亚洲成人av| 亚洲国产电影| 欧美又大又粗又长| 国产三级理论片| 久久99精品久久久久婷婷| 成人黄色网免费| 国产sm主人调教女m视频| 麻豆成人91精品二区三区| 成人福利视频网| www.黄色一片| hitomi一区二区三区精品| 久久精品国产精品青草色艺| 极品美乳网红视频免费在线观看| 国产精品三级在线观看| 欧美xxxx吸乳| 国产美女一区视频| 欧美午夜影院在线视频| 国产wwwxx| 日本在线成人| 日韩高清不卡av| 免费看的黄色录像| 欧美精品二区| 欧美中文在线观看国产| 亚洲一区二区三区网站| 国产成人精品一区二| 久久国产主播精品| 蜜芽在线免费观看| 婷婷久久综合九色综合绿巨人 | 午夜精品一区二区三区视频| 激情久久中文字幕| 国产精品久久久久秋霞鲁丝| 99精品视频在线播放免费| 本田岬高潮一区二区三区| 欧美h视频在线| fc2ppv国产精品久久| 亚洲电影第三页| 色播五月综合网| 国偷自产av一区二区三区| 在线观看久久av| 国产精品1000| 久久精品国产第一区二区三区| 国产精品福利视频| a√资源在线| 午夜影视日本亚洲欧洲精品| 亚洲三级视频网站| 国产欧美三级电影| 最好看的2019年中文视频| 亚州国产精品视频| 久久精品国产精品亚洲综合| 久久波多野结衣| 最新日本在线观看| 欧美午夜一区二区三区免费大片| 丰满饥渴老女人hd| 999视频精品| 秋霞av国产精品一区| a毛片在线免费观看| 国产午夜亚洲精品羞羞网站| 日韩精品在线中文字幕| 成人黄色免费网站| 日韩精品在线免费观看| 69av视频在线| 精品一区二区三区在线观看| 日韩精品av一区二区三区| 成年男女免费视频网站不卡| 日韩一区二区三区在线视频| 亚洲色图 激情小说| 久久九九免费| 国产一区二区三区免费不卡| 在线免费av导航| 欧美日韩夫妻久久| 69精品无码成人久久久久久| 亚洲精品影院在线观看| 97神马电影| 99自拍视频在线观看| 欧美日韩高清一区二区不卡| 天堂在线中文视频| 日韩高清不卡一区| 日本一区网站| 日韩影片中文字幕| 亚洲欧美国产精品久久久久久久| 日本三级视频在线| 成人深夜在线观看| 欧美日韩午夜爽爽| 日韩欧美中文在线观看| 欧美精品在线网站| www.久久伊人| 亚洲制服丝袜av| 国产精品果冻传媒| 国内久久视频| 国产精品免费在线 | 亚洲成在人线在线播放| 人妻 丝袜美腿 中文字幕| 欧美在线三级| 国产福利一区二区三区在线观看| 国模雨婷捆绑高清在线| 亚洲国产成人久久综合| 国产午夜在线播放| 久久在线免费观看| 黄色片在线免费| 99久久婷婷| 97自拍视频| 国产探花在线观看| 亚洲欧美日韩第一区| www.国产毛片| 国产精品国产成人国产三级| 波多野结衣免费观看| 精品白丝av| 欧美成熟毛茸茸复古| 性欧美超级视频| 久久精品91久久香蕉加勒比| www.黄色小说.com| 福利视频一区二区| 又色又爽的视频| 丁香激情综合国产| 久久国产乱子伦免费精品| 日本a口亚洲| av一区二区三区免费| 一本大道色婷婷在线| 这里只有精品视频在线| 国产人妻精品一区二区三| 午夜精品久久久| 免费一级特黄3大片视频| 国产精品一二三四区| 欧美 日韩 国产一区| 亚洲激情中文在线| 欧美久久久久久| 成人国产精品久久| 青青草99啪国产免费| 成人影欧美片| 亚洲欧美日韩国产中文专区| 国产视频在线观看视频| 欧美日韩中文字幕日韩欧美| 久久久久久久麻豆| 久久午夜电影网| 一卡二卡三卡四卡五卡| 天堂蜜桃一区二区三区| 天堂а√在线中文在线| 国产一区二区三区网| 99se婷婷在线视频观看| 国产成人精品一区二三区在线观看| 精品自在线视频| а√天堂中文在线资源bt在线| 精品国产在天天线2019| 姑娘第5集在线观看免费好剧| 午夜精品一区二区三区电影天堂| 你懂得视频在线观看| 99国内精品久久| 欧美熟妇另类久久久久久多毛| 久久婷婷激情| 无码 制服 丝袜 国产 另类| 99精品视频在线| 欧美日韩无遮挡| 女同另类激情重口| 91麻豆蜜桃| 亚洲精品自拍| 国产精品嫩草视频| 电影一区二区三| 国模视频一区二区三区| 毛片免费不卡| 伊人久久大香线蕉av一区二区| 天天躁日日躁狠狠躁伊人| 欧美一区二区三区视频免费播放 | 视频一区二区三区免费观看| 国产精品高潮呻吟久久久久| 51成人做爰www免费看网站| 国产亚洲精彩久久| 国产精品久久激情| 亚洲伊人av| 欧美孕妇与黑人孕交| 99色在线观看| 久久免费国产视频| h网站久久久| 久久精品视频中文字幕| eeuss影院在线观看| 亚洲欧洲国产精品| 日韩精品系列| 精品视频在线观看日韩| 天堂在线观看av| 亚洲精品一区二区精华| 亚洲精品国产片| 日韩精品一区二区三区视频| a级片免费观看| 欧美不卡激情三级在线观看| 超碰在线观看99| 精品国产凹凸成av人网站| 亚洲精品国产suv一区| 亚洲电影免费观看高清完整版在线观看 | 亚洲伊人成综合成人网| 国内精品视频| 国产精品国产亚洲精品看不卡15| 成人h动漫精品一区二区器材| 国产成人av一区二区三区| 开心激情综合| 九色综合婷婷综合| 深爱激情综合| 在线不卡日本| 在线国产一区二区| 波多野结衣av一区二区全免费观看 | 欧美brazzers| 欧美日韩在线免费视频| 国产一区二区在线视频观看| 91精品国产免费| 亚洲毛片在线播放| 国产婷婷97碰碰久久人人蜜臀| 黄色在线小视频| 日韩视频欧美视频| 手机在线免费观看av| 97在线看福利| 在线成人视屏| 亚洲综合精品一区二区| 国产精品午夜av| 日韩动漫在线观看| 亚洲人成免费网站| 日本www在线视频| 日本网站在线观看一区二区三区 | 波多野结衣黄色网址| 欧美精品1区2区3区| 成人乱码一区二区三区| 亚洲天堂av网| 性欧美video高清bbw| 2020国产精品视频| 深夜福利亚洲| 国产日韩欧美一区二区三区四区| 欧美一区二区性| 超级碰在线观看| 日韩在线一二三区| 美女流白浆视频| 国产欧美视频一区二区三区| 青青草成人免费| 91福利小视频| 亚洲经典一区二区| 中文字幕日韩免费视频| 国产丝袜精品丝袜| 国产这里只有精品| 青青久久av| 在线观看污视频| 久久三级视频| a级片在线观看视频| 国产精品电影院| 国产成人精品网| 日韩欧美色电影| shkd中文字幕久久在线观看| 久久久免费观看| 成人污污视频| 亚洲春色在线视频| 亚洲一区二区网站| 黑人性生活视频| 亚洲国产精品99久久久久久久久| 精品少妇一二三区| 制服丝袜av成人在线看| 久久手机免费观看| 久久久久久伊人| 99亚洲男女激情在线观看| 日本在线播放一区| 欧美专区18| 国模私拍在线观看| 亚洲精品国产无套在线观| 在线观看免费高清视频| 亚洲精品一区二区三区不| 日本中文字幕中出在线| 亚洲精品日韩av| 久久视频国产| 69久久久久久| 国产亚洲综合色| 久草视频一区二区| 精品亚洲一区二区三区四区五区| 啦啦啦中文在线观看日本| 91在线观看免费高清| 天天操夜夜操国产精品| 国产一伦一伦一伦| 亚洲国产精品成人综合| 无码免费一区二区三区| 日韩av在线免费看| 爱草tv视频在线观看992| 国产三区二区一区久久| 伊人激情综合| 亚洲熟女乱综合一区二区三区| 亚洲一二三区不卡| 亚洲精品久久久狠狠狠爱| 欧美激情奇米色| 成人h动漫精品一区二区器材| 日本一本中文字幕| www.爱久久.com| 一级片中文字幕| 精品视频在线播放免| 人人鲁人人莫人人爱精品| 日韩欧美第二区在线观看| 蜜桃av一区二区| av黄色免费在线观看| 制服丝袜在线91| 日韩伦理av| 精品在线观看一区二区| 亚洲欧美日韩视频二区| 级毛片内射视频| 欧美日韩一区久久| 大片免费在线观看| 91久久国产综合久久蜜月精品| 欧美激情偷拍| 日韩aaaaa| 色欧美片视频在线观看| 日本中文字幕电影在线免费观看 | 欧美影院久久久| 精品一区av| 亚洲精品20p| 亚洲国产精品久久人人爱蜜臀| 天堂在线视频观看| 国产精品男女猛烈高潮激情| 综合亚洲视频| av鲁丝一区鲁丝二区鲁丝三区| 色综合久久中文字幕| 久久99精品久久| 国产精品一区二区三区观看| 国产精品久久久久久久免费软件| 久久丫精品忘忧草西安产品| 欧美精品成人一区二区三区四区| 国产在线xxx| 日本一区二区三区四区高清视频| 精品一区二区三区免费播放| 国产一级片网址| 亚洲欧美精品suv| 免费观看性欧美大片无片| 成人午夜免费在线| 国产精品久久久久影院| 丰满大乳国产精品| 国产精品视频久久久| 国产精品v日韩精品v欧美精品网站| 久久精品综合视频| 欧美高清你懂得| 性感女国产在线| 乱子伦一区二区| 久久久91精品国产一区二区精品 | 国产视频精品xxxx| 2019中文亚洲字幕| 欧美黄色免费影院| 一区二区三区免费观看| 成年人视频网站在线| 国产精品一区二区三区不卡 | 亚洲va久久久噜噜噜| 亚洲一区二区三区四区五区午夜|