精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

「think step by step」還不夠,讓模型「think more steps」更有用

人工智能 新聞
本文對思維鏈的推理步長進行了控制變量實驗,發現推理步長和答案的準確性是線性相關的,這種影響機制甚至超越了問題本身所產生的差異。

如今,大型語言模型(LLM)及其高級提示策略的出現,標志著對語言模型的研究取得了重大進展,尤其是在經典的 NLP 任務中。這其中一個關鍵的創新是思維鏈(CoT)提示技術,該技術因其在多步驟問題解決中的能力而聞名。這項技術遵循了人類的順序推理,在各種挑戰中表現出了優秀的性能,其中包括跨域、長泛化和跨語言的任務。CoT 及其富有邏輯的、循序漸進的推理方法,在復雜的問題解決場景中提供了至關重要的可解釋性。

盡管 CoT 取得了長足的進展,但研究界尚未就 CoT 及其變體的具體機制和有效原因達成共識。這種知識差距意味著提高 CoT 性能仍是一個探索領域。而這種探索主要依賴于試錯,因為目前還缺乏改進 CoT 效果的系統性方法論,研究人員只能依賴猜測和實驗。但是這也同時表明該領域存在著重要的研究機遇:對 CoT 的內部運作形成更深入、更結構化的理解。如果實現這個目標,不僅能揭開當前 CoT 過程的神秘面紗,還能為在各種復雜的 NLP 任務中更可靠、更高效地應用這種技術鋪平道路。

來自美國西北大學、利物浦大學和新澤西理工大學等的研究者們,進一步探討了推理步驟的長度與結論準確性之間的關系,幫助人們加深關于如何有效解決 NLP 問題的理解。下面這篇文章探索了推理步驟是否是促使 CoT 發揮作用的 prompt 中最關鍵的部分(見圖 1)。本文實驗中嚴格的控制變量,特別是在加入新的推理步驟時,研究者會確保不會引入額外的知識。在零樣本實驗中,研究者將初始 prompt 從「請逐步思考」調整為「請逐步思考,并且盡可能思考出更多的步驟」。對于小樣本問題,研究者設計了一個實驗,在保持所有其他因素不變的情況下,擴展基礎推理步驟。

  • 論文標題:The Impact of Reasoning Step Length on Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2401.04925.pdf

圖片

本文的第一組實驗評估了在上述策略下,使用 Auto-CoT 技術,在零樣本和小樣本任務中推理性能的提高情況。隨后,本文評估了不同方法在不同推理步數下的準確性。接著,研究者擴大了調研對象,比較了本文提出的策略在不同 LLM(如 GPT-3.5 和 GPT-4)上的有效性。研究結果表明,在一定范圍內,推理鏈的長度與 LLM 的能力之間存在明顯的相關性。但耐人尋味的是,當研究者在推理鏈中引入誤導信息時,性能仍然有所提高。這推導出了一個重要結論:影響性能的關鍵因素似乎是思維鏈的長度,而不是其準確性。

本文的主要發現如下所示:

  • 對于小樣本 CoT,推理步數和精度之間存在直接的線性關系。這為優化復雜推理中的 CoT 提示提供了一種可量化的方法。具體來說,增加 prompt 中的推理步驟大大提高了 LLM 在多個數據集上的推理能力。反過來,即使在保留了關鍵信息的情況下,縮短推理步驟也會顯著削弱模型的推理能力。
  • 即使是不正確的推理,如果能保持必要的推理長度,也能產生有利的結果。例如,在數學問題等任務中,過程中產生的中間數字出錯也不太會影響最終結果。
  • 增加推理步驟所產生的收益大小受限于任務本身:更簡單的任務需要更少的步驟,而更復雜的任務則從更長的推理序列中獲得顯著收益。
  • 增加零樣本 CoT 中的推理步驟也可以顯著提高 LLM 的準確性。

研究方法

研究者通過分析來檢驗推理步驟與 CoT 提示性能之間的關系。方法的核心假設是,推理過程中的序列化步驟是 CoT 提示中最關鍵的組成部分,能夠使語言模型在生成回復內容時應用更多的邏輯進行推理。為了測試這一觀點,本文設計了一個實驗,在 CoT 的推理過程中先后擴展和壓縮基礎推理步驟,同時保持所有其他因素不變。具體而言,研究者只系統地改變推理步驟的數量,不引入新的推理內容或刪除已有的推理內容。研究者在下文中評估了零樣本和少樣本的 CoT 提示。整個實驗過程如圖 2 所示。通過這種控制變量分析的方法,研究者闡明了 CoT 如何影響 LLM 生成邏輯健全的應答能力。

圖片

零樣本 CoT 分析

在零樣本場景中,研究者將最初的 prompt 從「請逐步思考」修改為「請逐步思考,并且盡可能思考出更多的步驟」。之所以做出這一改變,是因為與少樣本 CoT 環境不同,使用者不能在使用過程中引入額外的推理步驟。通過改變初始 prompt,研究者引導 LLM 進行了更廣泛的思考。這種方法的重要性在于能夠提高模型的準確性,而且不需要少樣本場景中的典型方案:增量訓練或額外的示例驅動優化方法。這種精細化策略確保了更全面、更詳細的推理過程,顯著提高了模型在零樣本條件下的性能。

小樣本 CoT 分析

本節將通過增加或壓縮推理步驟來修改 CoT 中的推理鏈。其目的是研究推理結構的變化如何影響 LLM 決策。在推理步驟的擴展過程中,研究者需要避免引入任何新的任務相關信息。這樣,推理步驟就成了唯一的研究變量。

為此,研究者設計了以下研究策略,以擴展不同 LLM 應用程序的推理步驟。人們思考問題的方式通常有固定的模式,例如,一遍又一遍地重復問題以獲得更深入的理解、創建數學方程以減輕記憶負擔、分析問題中單詞的含義以幫助理解主題、總結當前狀態以簡化對主題的描述。基于零樣本 CoT 和 Auto-CoT 的啟發,研究者期望 CoT 的過程成為一種標準化的模式,并通過在 prompt 部分限制 CoT 思維的方向來獲得正確的結果。本文方法的核心是模擬人類思維的過程,重塑思維鏈。表 6 中給出了五種通用的 prompt 策略。


  • 單詞思維:這種策略是要求模型解釋單詞并重建知識庫。通常情況下,一個單詞有多種不同的含義,這樣做的效果是讓模型跳出條條框框,根據生成的解釋重新解釋問題中的單詞。這一過程不會引入新的信息。在 prompt 中,研究者給出了模型正在思考的單詞的例子,模型會根據新問題自動挑選單詞進行這一過程。
  • 問題重載:反復閱讀問題,減少其他文本對思維鏈的干擾。簡而言之,讓模型記住問題。
  • 重復狀態:與反復閱讀類似,在一長串推理之后加入一個當前狀態的小結,目的是幫助模型簡化記憶,減少其他文本對 CoT 的干擾。
  • 自我驗證:人類在回答問題時會檢查自己的答案是否正確。因此,在模型得到答案之前,研究者增加了一個自我驗證過程,根據一些基本信息來判斷答案是否合理。
  • 方程制備:對于數學問題,制作公式可以幫助人類總結和簡化記憶。對于一些需要假設未知數 x 的問題,建立方程是一個必不可少的過程。研究者模擬了這個過程,并讓模型嘗試在數學問題中建立方程。

總體而言,本文的即時策略都在模型有所體現。表 1 展示的內容是其中一個例子,其他四種策略的示例可以在原論文中查看。

圖片

實驗及結果

推理步驟與準確性的關系

表 2 比較了使用 GPT-3.5-turbo-1106 在三類推理任務的八個數據集上的準確性。

得益于研究者能夠將思維鏈過程標準化,接下來就可以量化在 CoT 的基本流程中增加步驟而對準確性的提高程度。本實驗的結果可以回答之前提出的問題:推理步驟與 CoT 性能之間的關系是什么?該實驗基于 GPT-3.5-turbo-1106 模型。研究者發現,有效的 CoT 過程,例如在 CoT 過程中增加多達六個步驟的額外思維過程,會讓大型語言模型推理能力都會得到提高,并且是在所有的數據集上都有體現。換句話說,研究者發現準確性和 CoT 復雜性之間存在一定的線性關系。

圖片

錯誤答案的影響

推理步驟是影響 LLM 性能的唯一因素嗎?研究者做了以下嘗試。將 prompt 中的一個步驟更改為不正確的描述,看看它是否會影響思維鏈。對于這個實驗,本文研究者在所有 prompt 中添加一個錯誤。有關具體示例,請看表 3。

圖片

對于算術類型的問題,即使其中一個 prompt 結果出現偏差,對推理過程中思維鏈的影響也是微乎其微的,因此研究者認為在解決算術類型的問題時,大語言模型對提示中思維模式鏈的學習要多于單一計算。對于類似硬幣數據的邏輯問題,prompt 結果中的一個偏差往往會帶來整個思維鏈的支離破碎。研究者同樣使用 GPT-3.5-turbo-1106 完成這項實驗,并根據之前實驗得出的每個數據集的最佳步數保證了性能。結果如圖 4 所示。

圖片

壓縮推理步驟

先前的實驗已經證明了增加推理步驟可以提高 LLM 推理的準確性。那么在小樣本問題中壓縮基礎推理步驟會損害 LLM 的性能嗎?為此,研究者進行了推理步驟壓縮實驗,并采用實驗設置中概述的技術,將推理過程濃縮成 Auto CoT 和 Few-Shot-CoT,減少推理步驟數。結果如圖 5 所示。

圖片

結果顯示,模型的性能顯著下降,回歸到與零樣本方法基本相當的水平。這個結果進一步表明,增加 CoT 推理步驟可以提高 CoT 性能,反之亦然。

不同規格模型的性能對比

研究者還提出疑問,我們能否觀察到縮放現象,即所需的推理步驟與 LLM 的大小有關?研究者研究了各種模型(包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4)中使用的平均推理步驟數。通過在 GSM8K 上的實驗計算出了每個模型達到峰值性能所需的平均推理步驟。在 8 個數據集中,該數據集與 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 的性能差異最大。可以看出,在初始性能最差的 text-davinci-002 模型中,本文提出的策略具有最高的提升效果。結果如圖 6 所示。

圖片

協同工作實例中問題的影響

問題對 LLM 推理能力的影響是什么?研究者想探討改變 CoT 的推理是否會影響 CoT 的性能。由于本文主要研究推理步驟對性能的影響,所以研究者需要確認問題本身對性能沒有影響。因此,研究者選擇了數據集 MultiArith 和 GSM8K 和兩種 CoT 方法(auto-CoT 和 few-shot-CoT)在 GPT-3.5-turbo-1106 中進行實驗。本文的實驗方法包括對這些數學數據集中的樣本問題進行有意的修改,例如改變表 4 中問題的內容。

圖片

值得注意的是,初步觀察表明,這些對于問題本身的修改對性能的影響是幾個要素里最小的,如表 5 所示。

圖片

這一初步發現表明,推理過程中步驟的長度是大模型的推理能力最主要的影響因素,問題本身的影響并不是最大的。 

更多詳細內容,請閱讀原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-01-06 13:48:21

自然語言推理算法

2011-04-19 14:02:09

SSAS

2021-06-22 06:24:57

Linkerd Ingress 流量網絡技術

2010-09-08 09:41:03

私有云部署

2023-05-15 09:43:49

模型數據

2009-04-22 17:18:29

Vxworks驅動加載step by ste

2021-06-16 17:42:48

Linkerd 配置CPU

2011-12-10 19:17:12

webOS

2021-06-22 06:16:24

Linkerd books webapp

2021-06-22 06:41:38

Linkerd 安裝多集群組件網絡技術

2021-06-17 06:13:29

Linkerd Prometheus 網絡技術

2021-06-17 14:29:39

Linkerd 分布式跟蹤Linkerd 2.1

2021-06-17 06:20:43

Linkerd Kustomize網絡技術

2025-04-07 09:00:00

模型AI推理

2021-06-15 05:45:56

Linkerd annotations網絡技術

2021-06-15 05:52:33

Linkerd canary網絡技術

2021-06-24 07:20:21

Linked GitOps Argo CD

2018-04-10 18:01:32

直播

2012-02-22 10:14:44

Java

2012-06-07 09:57:28

聯想服務器ThinkServer
點贊
收藏

51CTO技術棧公眾號

欧美91精品久久久久国产性生爱| 波多野结衣欲乱| 成人ssswww在线播放| 91免费视频网| 国产综合在线观看视频| 福利所第一导航| 欧美亚洲国产日韩| 欧美日韩视频在线观看一区二区三区 | 大香煮伊手机一区| 中文字幕在线播放| 成人一二三区视频| 国产精品高清在线观看| 青青草免费av| 日韩免费视频| 亚洲国产三级网| 黄色小视频免费网站| 国产乱码精品一区二三赶尸艳谈| 国产三区在线成人av| 成人av资源网| 97成人在线观看| 亚欧成人精品| 欧美激情在线一区| 久久久久久成人网| 色天下一区二区三区| 在线综合+亚洲+欧美中文字幕| 国产成人在线免费看| 伊人电影在线观看| 国产精品久久久久久久午夜片| 国产亚洲一区在线播放| 国产免费av电影| 男女视频一区二区| 国产97在线|亚洲| 亚洲精品视频在线观看免费视频| 在线看片不卡| 中文日韩在线观看| 公侵犯人妻一区二区三区| 第四色在线一区二区| 欧美精品v国产精品v日韩精品| 日韩人妻精品无码一区二区三区| 欧美14一18处毛片| 亚洲人吸女人奶水| 亚洲欧美日韩精品在线| 久久米奇亚洲| 91麻豆免费看片| 国产午夜精品一区| 四虎精品一区二区三区| 国产成人综合在线播放| 成人中文字幕在线观看| 中文字幕欧美色图| 蜜臀av亚洲一区中文字幕| 国产成人在线一区| 潘金莲一级淫片aaaaaa播放| 一本色道久久精品| 2019亚洲男人天堂| 91丝袜一区二区三区| 国产精品三上| 国产成人精品999| 日本中文字幕第一页| 国产精品毛片一区二区三区| 1769国产精品| 日日骚av一区二区| 日韩综合小视频| 国产999精品久久久| 无码人妻精品一区二区50| 久久天天综合| 国产精品女主播视频| 伊人久久一区二区| 国产真实乱偷精品视频免| 成人免费淫片视频软件| a级片在线播放| 高清视频一区二区| 久久精品一二三区| 黄色的视频在线免费观看| 欧美国产综合色视频| 一区二区三区免费看| 二区三区在线观看| 亚洲成人在线观看视频| 北条麻妃在线观看| 韩日一区二区| 日韩一区二区三区视频在线| 亚洲精品激情视频| 九热爱视频精品视频| 中文字幕日韩电影| 青娱乐国产在线| 夜夜嗨av一区二区三区网站四季av| 亲爱的老师9免费观看全集电视剧| 亚洲视频 欧美视频| 免费高清视频精品| 91福利入口| 四虎影院在线域名免费观看| 国产女同性恋一区二区| 玖玖精品在线视频| 蜜桃视频动漫在线播放| 色妞www精品视频| 在线免费黄色小视频| 欧美精品中文| 久久精品成人欧美大片古装| 国产无码精品视频| 美女性感视频久久| 国产精品自拍首页| a√资源在线| 亚洲国产你懂的| 美女少妇一区二区| 久久香蕉精品香蕉| 久久精品电影网站| 人人爽人人爽人人片av| 国产麻豆日韩欧美久久| 久久九九视频| 在线观看免费视频你懂的| 在线欧美一区二区| 中文字幕一区二区人妻电影丶| 欧美熟乱15p| 性欧美长视频免费观看不卡| 中文字幕资源网| 91在线你懂得| 日本一道在线观看| 国产精品第一| 亚洲毛片在线观看| 国产精品第二十页| 国产精品99久久久久久似苏梦涵 | 成人女保姆的销魂服务| 你懂的视频在线免费| 亚洲国产成人av| 伦伦影院午夜理论片| 欧美一区二区三区激情视频| 久久久成人av| 91九色蝌蚪91por成人| 久久这里只有精品首页| 一本久道高清无码视频| japansex久久高清精品| 在线看片第一页欧美| 国产尤物在线视频| 成人免费毛片高清视频| www.18av.com| 色成人综合网| 深夜福利一区二区| 九九热最新视频| 91性感美女视频| 国产免费黄色小视频| 婷婷视频一区二区三区| 美日韩在线视频| 99热精品在线播放| 亚洲欧美日韩中文字幕一区二区三区| 久久久久久久久久久久91| 国产精品亚洲二区| 国产精品91免费在线| 你懂的免费在线观看| 日韩欧美国产一区二区| 国产精品无码午夜福利| 一区二区三区国产盗摄 | 五月激情五月婷婷| 国产精品久久观看| 成人乱人伦精品视频在线观看| av午夜在线| 欧美另类变人与禽xxxxx| 任我爽在线视频| 久久99热狠狠色一区二区| 一区二区不卡在线观看| 偷拍自拍亚洲| 欧美插天视频在线播放| 亚洲黄色精品视频| 亚洲v精品v日韩v欧美v专区| 亚洲最大的黄色网| 久久国产精品久久w女人spa| 欧美18视频| 123成人网| 久久天天躁日日躁| 国产成人自拍一区| 精品日韩美女的视频高清| 久久国产精品影院| 久久精品国产网站| 男女啪啪免费观看| 日韩高清成人在线| 国产精品久久久久久久久久久久久| 91啦中文在线| 日韩免费高清av| 69视频免费在线观看| 亚洲国产精品t66y| www.色.com| 国产一区二区三区的电影 | 亚洲综合第一页| cao在线视频| 在线观看欧美日韩国产| 国产成人精品免费看视频| 亚洲国产精品自拍| 欧洲美熟女乱又伦| 国产黄色91视频| 国产福利视频在线播放| 婷婷综合伊人| 精品国产乱码久久久久久丨区2区| 日本欧美日韩| 欧美日韩国产第一页| 少妇性bbb搡bbb爽爽爽欧美| 欧美三级午夜理伦三级中视频| 精品欧美一区二区久久久久| 91亚洲精品乱码久久久久久蜜桃| 天天色综合天天色| 亚洲黄色大片| 国产精品av免费| 午夜精品福利影院| 91免费版黄色| 日韩三区在线| 久久免费视频这里只有精品| 91短视频版在线观看www免费| 精品粉嫩超白一线天av| 国产一级精品毛片| 精品久久久久久中文字幕| 欧美乱大交做爰xxxⅹ小说| jiyouzz国产精品久久| 中文字幕中文在线| 丝袜美腿亚洲综合| 国产中文字幕乱人伦在线观看| 成人激情在线| 免费99视频| 国产丝袜一区| 亚洲aⅴ日韩av电影在线观看 | 欧美激情免费| 国产亚洲成精品久久| 天堂在线中文网| 日韩一本二本av| 在线观看不卡的av| 色综合咪咪久久| 色播视频在线播放| 一区二区三区四区精品在线视频| 男女男精品视频网站| 2020国产成人综合网| 亚洲婷婷在线观看| 国产精品69久久久久水密桃| 在线看免费毛片| 免费人成在线不卡| 少妇高清精品毛片在线视频| 亚洲视频日本| 欧美人与动牲交xxxxbbbb| 99国产精品一区二区| 视频一区视频二区视频三区高| 亚州av日韩av| 另类小说综合网| 婷婷亚洲精品| 久久精品五月婷婷| 色88888久久久久久影院| 国产自产精品| 日本久久成人网| 久久久久久国产精品一区| 精品少妇3p| 九九久久99| 日韩电影不卡一区| 欧美一区少妇| 欧美偷拍自拍| 一区二区免费在线观看| 欧美3p视频| 亚洲AV无码成人精品一区| 久久久国产精品| 男人的天堂视频在线| 牛牛国产精品| 妺妺窝人体色www看人体| 国产精品a级| 999久久欧美人妻一区二区| 国产在线日韩| 国产日韩一区二区在线观看| 久久久久国产一区二区| 国产一级不卡毛片| 久草热8精品视频在线观看| 黄色aaaaaa| 国产成人免费视频| 91玉足脚交白嫩脚丫| 久久久久久久久蜜桃| 69精品无码成人久久久久久| 国产精品色噜噜| 日韩va亚洲va欧美va清高| 亚洲综合清纯丝袜自拍| www.国产高清| 欧美日韩一级视频| 成人av手机在线| 国产视频精品va久久久久久| 国产福利小视频在线| 久久精品人人做人人爽| 99爱在线视频| 国产精品999| 国产亚洲高清一区| 精品在线一区| 国产精品videosex性欧美| 800av在线免费观看| 久久国产福利| 美女被爆操网站| 久久久久久久久99精品| 777777国产7777777| 精品久久久视频| 一级全黄裸体免费视频| 亚洲国产日韩欧美在线图片| yw193.com尤物在线| 欧美—级a级欧美特级ar全黄| 中文字幕一区久| 亚洲a区在线视频| 一道本一区二区三区| 日本特级黄色大片| 亚洲作爱视频| 亚洲丝袜在线观看| 国产亚洲欧美日韩日本| 激情小说中文字幕| 欧美视频在线一区| 蜜桃av中文字幕| 色妞欧美日韩在线| 26uuu亚洲电影| 99re在线视频观看| 日韩精品首页| 久草青青在线观看| 粉嫩蜜臀av国产精品网站| 国产传媒在线看| 欧美日韩在线第一页| 精品人妻午夜一区二区三区四区| 亚洲人a成www在线影院| 欧美videosex性欧美黑吊| 国产欧美日韩精品在线观看| 中国av一区| 阿v天堂2017| 国产成a人亚洲精品| 538精品视频| 欧美性猛交xxx| 日批视频免费播放| 欧美日本黄视频| 精品午夜视频| 永久域名在线精品| 美美哒免费高清在线观看视频一区二区 | 久草免费在线视频观看| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 亚洲精品久久久久久久久久| 日韩亚洲在线观看| 99riav视频一区二区| 欧美久久在线| 欧美亚洲一区| av鲁丝一区鲁丝二区鲁丝三区| 亚洲一区在线视频| 国产黄色高清视频| 欧美成人在线网站| 日韩欧美激情电影| 欧美a级黄色大片| 国产在线视频精品一区| 欧美乱大交做爰xxxⅹ小说| 精品视频一区二区三区免费| 经典三级在线| 国产成人精品日本亚洲专区61 | 天天综合狠狠精品| 日韩影院免费视频| 妺妺窝人体色WWW精品| 色综合天天性综合| 黄色在线免费观看大全| 日韩美女毛茸茸| 欧洲美女日日| 久久国产精品国产精品| 中文一区二区完整视频在线观看| 樱花视频在线免费观看| 亚洲图片欧美日产| 成人一区视频| 视频一区二区视频| 国产精品一级二级三级| 麻豆一区产品精品蜜桃的特点| 日韩视频一区在线观看| 免费污视频在线| 精品亚洲欧美日韩| 久久国产主播| 99热99这里只有精品| 4438x成人网最大色成网站| 成人毛片av在线| 国产激情美女久久久久久吹潮| 黄色亚洲精品| 搡老熟女老女人一区二区| 色哟哟一区二区三区| 99re在线视频| 亚洲一区二区少妇| 亚洲三级视频| 第一次破处视频| 欧美一区二区视频观看视频| 欧美aaaxxxx做受视频| 久久伊人一区二区| 美女一区二区久久| 久久婷婷综合国产| 亚洲欧美另类自拍| 亚洲国产91视频| 日韩一级性生活片| 国产欧美精品在线观看| 国产视频一区二区三| 91国内免费在线视频| 清纯唯美亚洲综合一区| 少妇熟女视频一区二区三区| 欧美日韩在线免费观看| 免费在线观看av| 精品国产91亚洲一区二区三区www| 久久久噜噜噜| 国产高清视频免费在线观看| 日韩你懂的在线播放| 影视一区二区三区| 国产小视频免费| 国产欧美日韩中文久久| 亚洲欧美国产高清va在线播放| 国产97免费视| 好吊一区二区三区| 懂色av粉嫩av浪潮av| 亚洲成人av在线| 免费一级欧美在线观看视频| 青青青免费在线|