精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大語言模型自動思維鏈提示 原創

發布于 2024-7-1 13:01
瀏覽
0收藏

摘要:大型語言模型(LLMs)可以通過生成中間推理步驟來執行復雜推理。為提示演示提供這些步驟被稱為思維鏈(CoT)提示。CoT提示有兩種主要范式。一種利用簡單的提示,如“讓我們一步一步地思考”,以促進在回答問題之前逐步思考。另一種使用一些手動演示,每個演示由一個問題和一個推理鏈組成,該鏈導致一個答案。第二種范式的優越性能依賴于逐個手工制作任務特定的演示。我們展示了通過利用LLMs使用“讓我們一步一步地思考”的提示來生成推理鏈,以逐個生成演示,即,讓我們不僅一步一步地思考,還要逐個思考。然而,這些生成的鏈經常伴隨著錯誤。為了減輕這些錯誤的影響,我們發現多樣性對于自動構建演示至關重要。我們提出了一種自動CoT提示方法:Auto-CoT。它以多樣性采樣問題,并生成推理鏈來構建演示。在GPT-3的十個公共基準推理任務中,Auto-CoT始終匹配或超過了需要手動設計演示的CoT范式的性能。代碼可在 ??https://github.com/amazon-research/auto-cot ???上獲取。

1 引言

大型語言模型(LLMs)[Brown等人,2020年,Thoppilan等人,2022年,Rae等人,2021年,Chowdhery等人,2022年]通過將多步驟問題分解為中間步驟,然后產生答案,在復雜推理任務上表現出色。這種推理過程是通過一種非常新的技術激發的:思維鏈(CoT)提示[Wei等人,2022a]。

CoT提示可以分為兩大范式。一種是在測試問題后添加一個簡單的提示,如“讓我們一步一步地思考”,以促進LLMs中的推理鏈[Kojima等人,2022年]。由于這種提示范式是任務不可知的,不需要輸入輸出演示,因此被稱為零樣本CoT(圖1左側)。有了零樣本CoT,LLMs已經顯示出是不錯的零樣本推理者。另一種范式是使用手動推理演示的少量提示[Wei等人,2022a]。每個演示都有一個問題和一個推理鏈。推理鏈由理由(一系列中間推理步驟)和預期答案組成。所有演示都是手工設計的,這種范式被稱為手動CoT(圖1右側)。

 

大語言模型自動思維鏈提示 -AI.x社區

圖1:零樣本CoT [Kojima等人,2022年](使用“讓我們一步一步地思考”的提示)和手動CoT [Wei等人,2022a](逐個使用手動設計的演示)以及LLM的示例輸入和輸出。

在實踐中,手動CoT的性能比零樣本CoT更強[Wei等人,2022a,Kojima等人,2022年]。然而,這種優越的性能依賴于手工起草有效演示的努力。具體來說,手工起草涉及在設計問題及其推理鏈的演示方面的非平凡努力。此外,設計任務特定演示的人力工作甚至更多:不同的任務,如算術[Roy和Roth,2015年]和常識推理[Talmor等人,2019年],需要不同的演示方式。

為了消除這種手工設計,我們提倡另一種自動CoT范式,以自動構建帶有問題和推理鏈的演示。具體來說,自動CoT利用LLMs使用“讓我們一步一步地思考”的提示,逐個生成推理鏈,即,讓我們不僅一步一步地思考,還要逐個思考。

然而,我們發現這個挑戰不能通過簡單的解決方案有效解決。例如,給定數據集的測試問題,檢索語義相似的問題并調用零樣本CoT生成推理鏈將會失敗。盡管LLMs是不錯的零樣本推理者,但它們并不完美:零樣本CoT在推理鏈中仍然可能出錯。

為了減輕零樣本CoT推理鏈錯誤的影響,我們的分析表明,演示問題的多樣性是關鍵。基于這一洞見,我們提出了一種自動CoT方法來自動構建演示。自動CoT由兩個主要步驟組成。首先,將給定數據集的問題劃分為幾個簇。其次,從每個簇中選擇一個代表性問題,并使用簡單的啟發式方法使用零樣本CoT生成其推理鏈。

我們在十個基準推理任務上評估了自動CoT,包括:(i)算術推理(MultiArith[Roy和Roth,2015年],GSM8K[Cobbe等人,2021年],AQUA-RAT[Ling等人,2017年],SVAMP[Patel等人,2021年]);(ii)常識推理(CSQA[Talmor等人,2019年],StrategyQA[Geva等人,2021年]);(iii)符號推理(最后字母串聯,硬幣翻轉)[Wei等人,2022a]。實驗結果表明,使用GPT-3,自動CoT始終匹配或超過需要手工設計的手動CoT的性能。這表明LLMs可以通過自動構建演示來執行CoT推理。

2 相關工作

本節回顧了構成這項工作基礎的兩條研究線:用于多步推理的思維鏈(CoT)提示和通過示例引導LLMs學習的上下文學習。

2.1 思維鏈提示

CoT提示是一種無需梯度的技術,用于引導LLMs產生導致最終答案的中間推理步驟。Wei等人[2022a]正式研究了語言模型中的CoT提示主題。這項技術激發了LLMs生成一系列連貫的中間推理步驟,這些步驟導致問題最終的答案。研究表明,LLMs可以通過零樣本提示(Zero-Shot-CoT)[Kojima等人,2022年]或手動編寫的少量示例(Manual-CoT)[Wei等人,2022a]執行CoT推理。

零樣本CoT。Kojima等人[2022年]表明,LLMs是不錯的零樣本推理者,其生成的理由已經反映了CoT推理。這一發現激發了我們的工作,利用自生成的理由進行演示。在最近的一項工作中,LLMs生成理由被證明是實用的[Zelikman等人,2022年]。在他們的工作中,LLMs被提示生成理由,并選擇那些導致正確答案的理由。

選擇需要一個帶有注釋答案的問題的訓練數據集。相比之下,我們的工作考慮了一個更具挑戰性的場景,即只給定一組測試問題(沒有訓練數據集),遵循Wei等人[2022a]和Kojima等人[2022年]的CoT提示研究。

手動CoT。通過有效的手動演示,手動CoT通過激發CoT推理能力實現了更強的性能。推理過程的演示是手動設計的。然而,設計問題及其推理鏈的人力工作并非易事。與解決這一限制不同,最近的研究主要關注手工制作更復雜的演示或利用類似集成的方法。一種趨勢是問題分解。在最少到最多的提示[Zhou等人,2022年]中,復雜問題被簡化為子問題,然后按順序解決子問題。另一種趨勢是為測試問題投票多個推理路徑。Wang等人[2022a]引入了一種自我一致性解碼策略,以采樣LLMs的多個輸出,然后對最終答案進行多數投票。Wang等人[2022b]和Li等人[2022年]在輸入空間引入了隨機性,以產生更多樣化的輸出進行投票。他們使用手動設計的演示作為種子集,并生成額外的理由:留下種子集中的一個問題,并使用其余的演示通過LLMs為這個問題生成理由。與依賴手動設計演示的前述研究線不同,我們的工作旨在以競爭性能消除手動設計。

2.2 上下文學習

CoT提示與上下文學習(ICL)[Radford等人,2019年,Brown等人,2020年]密切相關。ICL通過將一些提示示例作為輸入的一部分,使LLMs能夠執行目標任務。ICL不進行梯度更新,允許單一模型普遍執行各種任務。有各種研究線來提高ICL的性能:(i)檢索與測試實例相關的演示,其中流行的實踐是動態檢索給定測試輸入的相關訓練示例[Rubin等人,2022年,Su等人,2022年];(ii)通過添加細粒度信息進行增強,例如整合任務指令[Mishra等人,2022年,Wei等人,2022b,Sanh等人,2022年];(iii)操作LLMs的輸出概率而不是直接計算目標標簽的可能性[Holtzman等人,2021年,Zhao等人,2021年,Min等人,2022a]。

(注釋:為了提高上下文學習的效果,研究人員采取了幾種策略:

1. 檢索相關演示:這種方法類似于我們在準備考試時,會查找和當前題目類似的過往題目來幫助理解。在機器學習中,這意味著動態地找到與當前測試輸入相關的訓練示例,以幫助模型更好地理解和解決問題。

2. 添加細粒度信息:這就像是在解題時,除了題目本身,我們還會提供一些額外的指導信息,比如題目的解題步驟或者注意事項,幫助模型更精確地完成任務。

3. 操作輸出概率:這涉及到調整模型輸出的概率,而不是直接計算目標標簽的可能性。可以類比為在投票選舉中,不是簡單地計算每個候選人的得票數,而是通過一些策略來影響最終的投票結果。)

盡管ICL取得了成功,但研究[Liu等人,2022a,Lu等人,2022年]表明,ICL的強度可能會因上下文演示的選擇而大相徑庭[Liu等人,2022b]。具體來說,提示的格式,如措辭或演示的順序,可能導致性能波動[Webson和Pavlick,2022年,Zhao等人,2021年]。最近的一項工作[Min等人,2022b]甚至質疑了真實輸入輸出映射的必要性:在示例中使用錯誤的標簽只會略微降低性能。然而,現有的ICL分析主要基于具有簡單<input→output>映射的標準分類和多項選擇數據集。我們發現,這些發現可能不適用于具有更復雜<input→rationale→output>映射的CoT提示場景。例如,無論是<input→rationale>映射還是<rationale→output>映射中的錯誤都會導致性能急劇下降(附錄A.1)。

3 自動CoT的挑戰

正如剛剛討論的,ICL的性能依賴于手工制作的示例演示。如在手動CoT [Wei等人,2022a]中報告的,使用不同注釋者編寫的演示在符號推理任務中帶來了高達28.2%的準確度差異,而改變演示的順序在大多數任務中導致不到2%的變化。這表明自動CoT的關鍵挑戰在于自動構建具有好問題及其推理鏈的演示。

回想一下,手動CoT手工制作了一些(例如,8個)演示中的問題。基于相似性的檢索方法被廣泛采用來提示LLMs [Rubin等人,2022年,Su等人,2022年],一個有希望的候選解決方案是使用基于相似性的檢索來采樣演示問題。我們遵循CoT研究中更具挑戰性的假設[Wei等人,2022a,Kojima等人,2022年],即只給定一組測試問題(沒有訓練數據集)。

按照Liu等人[2022a]的做法,我們使用Sentence-BERT [Reimers和Gurevych,2019]對問題進行編碼。對于測試數據集中的每個問題qtest,我們從其余問題中采樣演示問題qidemo(i = 1,...,k)。

我們設計了一個檢索Q-CoT方法,根據余弦相似度檢索top-k(例如,k = 8)相似的問題。

為了與這種基于相似性的方法進行比較,我們還測試了一個相對更基于多樣性的方法:隨機Q-CoT,它為每個測試問題隨機采樣k個其他測試問題。

檢索Q-CoT和隨機Q-CoT都調用零樣本CoT [Kojima等人,2022年]為每個采樣的問題qidemo生成推理鏈cdemoi(理由和答案),因為LLMs是不錯的零樣本推理者[Kojima等人,2022年]。除非另有說明,我們使用具有175B參數的GPT-3 [Brown等人,2020](text-davinci-002)作為LLM。

在高層次上,檢索Q-CoT和隨機Q-CoT都以qidemo,cdemoi對(i = 1,...,k)和qtest的串聯作為輸入,以預測qtest的推理鏈,該鏈最終包含答案(如圖1右側所示)。令我們驚訝的是,檢索Q-CoT在算術數據集MultiArith [Roy和Roth,2015](表1)上的表現不如隨機Q-CoT。請注意,檢索方法最初是在有注釋標簽的任務中提出的[Rubin等人,2022年,Su等人,2022年],然而,調用零樣本CoT并不能保證完全正確的推理鏈。因此,我們假設檢索Q-CoT的較差性能是由零樣本CoT的錯誤推理鏈引起的。為了測試這個假設,我們在另外兩個有帶注釋推理鏈的訓練集的數據集GSM8K [Cobbe等人,2021]和AQuA [Ling等人,2017]上進行了檢索Q-CoT的實驗。結果在表1中用?顯示。在有注釋推理鏈的設置下,檢索Q-CoT甚至超過了手動CoT。結果表明,當有人工注釋可用時,檢索Q-CoT是有效的。

表1:不同抽樣方法的準確率(%)。符號?表示使用帶有標注推理鏈的訓練集。


大語言模型自動思維鏈提示 -AI.x社區

盡管人工注釋很有用,但這種手工努力并非易事。然而,通過零樣本CoT自動生成推理鏈的表現不如手動CoT,特別是當沒有解決問題采樣的挑戰時。為了設計更有效的自動CoT,我們需要更好地理解其挑戰。

3.1 檢索-Q-CoT因相似性誤導而失敗

由于檢索-Q-CoT使用像手冊-CoT中那樣的少量提示性示例,檢索-Q-CoT預期也將表現出競爭力。然而,在檢索-Q-CoT中,推理鏈(包括理由和答案)是由零樣本-CoT生成的:它們可能存在錯誤,導致錯誤的答案。讓我們簡單地將帶有錯誤答案的示例稱為錯誤示例。直觀地說,在檢索到與測試問題相似的問題后,由零樣本-CoT引起的錯誤示例可能會誤導相同的大型語言模型(LLM)以錯誤的答案(例如,復制錯誤)進行類似的推理。我們將這種現象稱為相似性誤導。我們將研究相似性誤導是否導致檢索-Q-CoT性能不佳的原因。

首先,我們在MultiArith數據集的所有600個問題上調用零樣本-CoT。其中,我們收集了128個問題(記為Q),在這些問題上零樣本-CoT生成了錯誤的答案(錯誤率:21.3% = 128/600)。正如我們提到的,有了額外的示例,檢索-Q-CoT和隨機-Q-CoT預期會比零樣本-CoT表現得更有競爭力。在零樣本-CoT失敗的Q中,我們稱檢索-Q-CoT或隨機-Q-CoT仍然失敗的那些問題為它們的未解決的問題。我們將未解決的問題數量除以128(Q中問題的數量)來計算未解決率。更高的未解決率意味著一種方法更可能像零樣本-CoT一樣仍然犯錯誤。

圖2顯示,檢索-Q-CoT(46.9%)的未解決率遠高于隨機-Q-CoT(25.8%)。這表明,在為測試問題抽樣相似問題時,檢索-Q-CoT受到相似性誤導的負面影響。


大語言模型自動思維鏈提示 -AI.x社區

為了證明檢索-Q-CoT的未解決問題傾向于相似,我們在表2中展示了一個案例研究。在左側部分,檢索到的示例問題與測試問題相似,并詢問“他還需要多長時間才能煮熟剩下的?”由零樣本-CoT生成的推理鏈產生的答案涉及“總數”而不是“剩下的”。遵循示例,檢索-Q-CoT也因誤解“剩下的”的含義而失敗。相比之下,隨機-Q-CoT在沒有在示例中犯類似錯誤的情況下,更好地正確理解了“剩下的”,這得益于相對多樣化(隨機)的示例。

3.2 錯誤頻繁出現在同一個簇中

受表2觀察結果的啟發,我們使用k-means將所有600個測試問題分成k=8個簇,每個簇包含相似的問題。有了這些簇和零樣本-CoT(在3.1節中)生成的推理鏈,現在我們好奇某些簇是否包含零樣本-CoT經常失敗的問題。因此,我們計算每個簇的錯誤率(零樣本-CoT答案錯誤的問題數/總問題數)。

表2:檢索-Q-CoT和隨機-Q-CoT構建示例和預測的示例。上半部分包含自動構建的示例,下半部分包含測試問題以及預測的推理鏈。


大語言模型自動思維鏈提示 -AI.x社區

如圖3所示,存在一個簇(簇2)零樣本-CoT錯誤頻繁(52.3%)。這種現象可能是普遍的,因為零樣本-CoT可能缺乏解決目標任務中某些常見問題的技能。為了方便描述,讓我們將錯誤率最高的簇稱為頻繁錯誤簇(例如,圖3中的簇2)。因此,以零樣本方式生成的推理鏈的不完美性質,使用基于相似性的方法檢索多個頻繁錯誤簇內的類似問題存在風險。對于頻繁錯誤簇中的測試問題,檢索-Q-CoT更容易構建包含多個類似錯誤的示例。結果,檢索-Q-CoT經常像零樣本-CoT一樣犯類似的錯誤,這一點在圖2中的更高未解決率中得到了重申。


大語言模型自動思維鏈提示 -AI.x社區

3.3 多樣性可能減輕相似性誤導

到目前為止的分析有力地表明,LLMs(大型語言模型)仍然不是完美的零樣本推理器;因此,我們的目標是減輕它們的零樣本-CoT錯誤的影響,特別是減輕Auto-CoT設計中的相似性誤導。

正如我們稍后將展示的(第5.5節),展示一小部分錯誤(例如,8個中的1或2個錯誤示例)不會損害測試問題的整體推理性能。假設所有錯誤示例的問題都落入同一個頻繁錯誤簇;那么從每個不同的簇中抽取一個問題將導致構建所有8個正確示例的機會超過7/8 = 87.5%。由于不同的簇反映了問題的多樣性語義,這種基于聚類的抽樣方法可以被視為基于多樣性的,與基于相似性的檢索-Q-CoT形成鮮明對比。一方面,以多樣性抽樣問題可能減輕相似性誤導的影響(第3.1節)。另一方面,如果我們將每個示例視為一種技能,多樣化的示例似乎涵蓋了更多解決目標問題的替代技能:即使示例中仍然存在一小部分(例如,1/8)的錯誤,性能也不會受到負面影響(將在圖6中展示)。

盡管如此,基于聚類的抽樣方法可能仍然會構建一小部分錯誤的示例,例如來自頻繁錯誤簇中的問題。正如我們稍后將展示的,這些錯誤示例中的一些可能通過啟發式方法被排除。例如,錯誤的示例通常伴隨著長問題和長理由。使用簡單通用的啟發式方法,例如只考慮帶有較短理由的較短問題,進一步幫助減輕零樣本-CoT能力的不完美(附錄C.2)。

4 自動CoT:自動構建思維鏈提示

基于第3節中的觀察和考慮,我們提出了一種自動CoT(Auto-CoT)方法,用于自動構建包含問題和推理鏈的示例。自動CoT由兩個主要階段組成:(i)問題聚類:將給定數據集的問題劃分為幾個簇;(ii)示例抽樣:從每個簇中選擇一個代表性問題,并使用簡單的啟發式方法通過零樣本CoT生成其推理鏈。整個過程在圖4中進行了說明。


大語言模型自動思維鏈提示 -AI.x社區

圖4:自動CoT方法的概覽。與圖1中的手動CoT不同,示例(右側)是使用帶有“讓我們一步一步思考”提示的LLM逐個自動構建的(總數:k)。

4.1 問題聚類

因為基于多樣性的聚類可能減輕相似性誤導(第3.3節),我們對給定的問題集Q執行聚類分析。我們首先通過Sentence-BERT[Reimers和Gurevych,2019]為Q中的每個問題計算一個向量表示。上下文化的向量被平均化以形成一個固定大小的問題表示。然后,通過k-means聚類算法處理問題表示,以產生k個問題簇。對于每個簇i中的問題,將它們按距離簇i中心的升序排列成一個列表q(i) = [q(i)1, q(i)2, ...]。這個問題聚類階段在算法1中進行了總結。

4.2 示例抽樣

在第二階段,我們需要為這些抽樣問題生成推理鏈,然后抽樣滿足我們選擇標準的示例。

更具體地說,我們為每個簇i(i = 1, ..., k)構建一個示例d(i)(問題的串聯,一個理由和答案)。對于簇i,我們在排序列表q(i) = [q(i)1, q(i)2, ...](由算法1獲得)中迭代問題,直到滿足我們的選擇標準。換句話說,更靠近簇i中心的問題會被更早地考慮。假設正在考慮第j個最近的問題qj(i)。一個提示輸入被制定為:[Q: qj(i). A: [P]],其中[P]是一個單一提示“讓我們一步一步地思考”。這個形成的輸入被輸入到LLM中,使用零樣本CoT[Kojima等人,2022]輸出由理由rj(i)和提取的答案aj(i)組成的推理鏈。然后,通過串聯問題、理由和答案構建第i個簇的候選示例dj(i):[Q: qj(i), A: rj(i)?aj(i)]。

類似于Wei等人[2022a]中手工制作示例的標準,我們的選擇標準遵循簡單的啟發式方法,以鼓勵抽樣更簡單的問題和理由:如果它有一個問題qj(i),不超過60個token和一個理由rj(i),不超過5個推理步驟,則將選定的示例d(i)設置為dj(i)

大語言模型自動思維鏈提示 -AI.x社區

正如算法2所總結的,在對所有k個簇進行示例抽樣后,將構建k個示例[d(1), ..., d(k)]。構建的示例用于增強測試問題qtest的上下文學習。具體來說,輸入是所有示例[d(1), ..., d(k)]的串聯,然后是[Q: qtest. A: [P]]。這個輸入被輸入到LLM中,以獲得qtest的最終答案的推理鏈(圖4右側)。

5 實驗

我們簡要描述實驗設置,并展示主要的實驗結果。更多的實驗細節和結果可以在附錄中找到。

5.1 實驗設置

任務和數據集。我們的方法在來自三個推理任務類別的十個基準數據集上進行了評估:

(i)算術推理(MultiArith [Roy和Roth, 2015], GSM8K [Cobbe等人, 2021], AddSub [Hosseini等人, 2014], AQUA-RAT [Ling等人, 2017], SingleEq [Koncel-Kedziorski等人, 2015], SVAMP [Patel等人, 2021]);(ii)常識推理(CSQA [Talmor等人, 2019], StrategyQA [Geva等人, 2021]);(iii)符號推理(最后字母串聯,硬幣翻轉)[Wei等人, 2022a]。

實現。我們使用公共的GPT-3 [Brown等人, 2020] 文本davinci-002版本,擁有175B參數作為LLM [Ouyang等人, 2022],除非另有說明。我們選擇這個LLM是因為它在公共LLM中擁有最強的CoT推理性能,如Kojima等人 [2022] 和Wei等人 [2022a] 報告的。我們還評估了Codex模型 [Chen等人, 2021] (code-davinci-002) 作為LLM。按照Wei等人 [2022a],示例的數量k是8,除了AQuA和Letter (4),CSQA (7),和StrategyQA (6)。

基線。我們將我們的方法與四種基線方法進行比較:零樣本 [Kojima等人, 2022],零樣本CoT [Kojima等人, 2022],少樣本 [Wei等人, 2022a],和手動CoT [Wei等人, 2022a]。零樣本CoT和手動CoT在圖1中進行了說明。零樣本基線將測試問題與提示“答案是”串聯作為LLM輸入。少樣本基線與手動CoT的LLM輸入相同,除了從所有示例中移除了理由。

5.2 自動CoT在十個數據集上的競爭性能

表3比較了來自三個推理任務類別的十個數據集上的準確性。零樣本和零樣本CoT的結果取自Kojima等人[2022],少樣本和手動CoT的結果取自Wei等人[2022a],自動CoT的結果是在三次隨機運行中平均得出的。總體而言,自動CoT始終匹配或超過了需要手動設計示例的CoT范式的表現。由于手動設計的成本,手動CoT可能會為多個數據集設計相同的示例(例如,5/6的算術數據集)。相比之下,自動CoT更加靈活和任務適應性:每個單獨的數據集都獲得了自動構建的自己的示例。

表3:來自三個推理任務類別的十個數據集上的準確性


大語言模型自動思維鏈提示 -AI.x社區

5.3 問題聚類的可視化

圖5通過PCA投影可視化了十個數據集上的問題聚類。圖示表明存在通用模式,不同的模式可能由不同簇中的問題所特征化。我們在附錄D中展示了自動CoT構建的示例。


大語言模型自動思維鏈提示 -AI.x社區

圖5:在十個推理任務數據集上的問題聚類。星號表示簇中心。

5.4 使用Codex LLM的普遍有效性

為了評估使用不同LLM的自動CoT的普遍有效性,這里我們將LLM更改為Codex模型[Chen等人, 2021]。如表4所示,與使用GPT-3(text-davinci-002)LLM的表3相比,Codex LLM在手動CoT上帶來了性能提升。盡管如此,使用Codex LLM,自動CoT的整體性能與手動CoT相比仍然具有競爭力,為自動CoT的有效性提供了額外的經驗證據。


大語言模型自動思維鏈提示 -AI.x社區

5.5 錯誤示例的影響

回想我們在第3.3節中的討論,可能會有錯誤的示例(其答案是錯誤的)。為了看看多樣性是否減輕了這種影響,我們設計了一個In-Cluster Sampling基線,它通過從包含測試問題的同一簇中隨機抽樣問題來構建示例。圖6比較了在MultiArith上不同錯誤示例數量下的準確性。與In-Cluster Sampling相比,auto-CoT(使用基于多樣性的聚類)受錯誤示例的影響較小:即使在呈現50%錯誤示例時,其性能仍然沒有顯著下降。


大語言模型自動思維鏈提示 -AI.x社區

5.6 更具挑戰性的流式設置

CoT(Chain of Thought,思維鏈)研究通常假設給定了一個帶有測試問題的完整數據集[Wei等人, 2022a, Kojima等人, 2022]。基于給定的數據集,自動CoT會抽樣問題來構建示例。盡管如此,現在我們考慮一個更具挑戰性的流式設置,其中一小批測試問題(比如說m個問題)一次到來,就像在數據流中一樣。

為了應對這一挑戰,我們將自動CoT擴展為自舉版本自動CoT*:(i)初始化一個空集M0;(ii)當第一批問題q1(1), ..., qm(1)到達時,調用零樣本CoT(由于m很小,不進行聚類)為每個qi(1)獲得其推理鏈c(1)i。將問題-推理鏈對(q1(1), c(1)1), ..., (qm(1), c(1)m)添加到M0中,并稱新集合為M1;(iii)當第b批(b > 1)問題q(b)1, ..., q(b)m到達時,在Mb?1中使用現有問題和推理鏈構建示例(像自動CoT一樣),并使用這些示例對每個qi(b)進行上下文推理。將問題-推理鏈對(q(b)1, c(b)1), ..., (q(b)m, c(b)m)添加到Mb?1中,并稱新集合為Mb。

圖7比較了在這個流式設置中每個批次(m = 30)在MultiArith上的準確性(擴展版本:附錄中的圖11)。正如預期的那樣,對于第一批,自動CoT*和零樣本CoT獲得相同的準確性。從第二批開始,自動CoT*的表現與手動CoT相當。這一結果表明,我們的方法在更具挑戰性的流式設置中仍然有效。

6 結論

LLMs(大型語言模型)已經通過CoT(思維鏈)提示顯示出推理能力。手動CoT的優越性能依賴于手工制作的示例。為了消除這種手工設計,我們提出了自動CoT來自動構建示例。它通過抽樣多樣性的問題并生成推理鏈來構建示例。在十個公共基準推理數據集上的實驗結果表明,使用GPT-3,自動CoT始終匹配或超過了需要手工設計示例的CoT范式的表現。

Zhang Z, Zhang A, Li M, et al. Automatic chain of thought prompting in large language models[J]. arXiv preprint arXiv:2210.03493, 2022.

Shanghai Jiao Tong University, ?Amazon Web Services


本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/iDGJLvKgaydJbCi3ySo1QQ??




?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
欧美高清中文字幕| 国产日韩欧美另类| 一本色道久久综合亚洲精品图片| 免费观看成人性生生活片| 国产精品无圣光一区二区| 91久久久久久久久| 国产精品自拍视频一区| 你懂的一区二区三区| 欧美日韩免费视频| 久久综合久久网| av电影在线观看| 国产二区国产一区在线观看 | 色婷婷av在线| 久久久久久久久蜜桃| 成人综合网网址| 久久免费激情视频| 亚洲色图二区| 一道本无吗dⅴd在线播放一区| 中文字幕剧情在线观看| 夜鲁夜鲁夜鲁视频在线播放| 成人免费一区二区三区在线观看| 精品在线视频一区二区三区| 国产又粗又猛又爽又黄的| 亚洲精品1234| 乱亲女秽乱长久久久| 亚洲理论片在线观看| 最新精品在线| 欧美色倩网站大全免费| 国产深夜男女无套内射| av黄色在线| 国产精品美女久久久久aⅴ国产馆| 成人在线资源网址| 91在线公开视频| 久久久久久久高潮| 久久久久中文字幕2018| 欧美做爰啪啪xxxⅹ性| 亚洲欧洲色图| 亚洲精品久久7777777| 熟妇无码乱子成人精品| 日韩一区精品| 精品国产91乱高清在线观看| 男人天堂网站在线| 亚洲视频tv| 中文字幕va一区二区三区| 精品人伦一区二区三区| 韩国av电影在线观看| 国内成人免费视频| 国产日韩在线观看av| 免费无码国产精品| 亚洲免费在线| 欧美一区二区.| 91看片在线播放| 亚洲精品1234| 亚州国产精品久久久| 久久午夜鲁丝片午夜精品| 亚洲字幕久久| 久久国产精品99国产精| 国产免费美女视频| 五月婷婷六月综合| 久久精品国产一区二区三区| 老司机精品免费视频| 日韩av片子| 中文字幕v亚洲ⅴv天堂| 超碰人人人人人人人| 欧美日韩在线二区| 中文字幕av日韩| 免费精品在线视频| 亚洲一区二区日韩| 欧美富婆性猛交| 国产无码精品久久久| 中文高清一区| 日本高清不卡在线| 啪啪小视频网站| 美日韩一区二区| 91在线视频一区| 亚洲av综合色区无码一二三区| 国产成人精品免费看| 国产精品一区二区三区免费| 日本美女一级视频| 久久你懂得1024| 亚洲欧美日韩精品在线| 黄色网页在线播放| 亚洲一级电影视频| 国产a级一级片| 亚洲日本在线观看视频| 欧美日韩国产另类一区| 国产无套精品一区二区三区| 久久97久久97精品免视看秋霞| 日韩精品免费在线播放| 亚洲av成人片色在线观看高潮 | 日韩欧美在线一区二区| 老司机免费在线视频| 亚洲尤物在线视频观看| 男人天堂网视频| 黄色欧美视频| 亚洲第一av在线| 一级二级黄色片| 午夜电影亚洲| 国产成人免费91av在线| 国产成人av免费看| 久久久www免费人成精品| 最新中文字幕久久| 天堂√8在线中文| 欧美日本一区二区| 成人免费无码大片a毛片| 欧美韩日一区| 欧美亚洲日本黄色| 国产日韩免费视频| 久久麻豆一区二区| 黄黄视频在线观看| 朝桐光一区二区| 精品国产乱码久久久久久免费| 特级西西www444人体聚色| 欧美精品激情| 91精品国产自产在线观看永久| 蜜桃91麻豆精品一二三区| 久久精品在线免费观看| 成人在线国产视频| 欧美成人aaa| 亚洲精品日韩在线| 国产一级在线免费观看| 麻豆高清免费国产一区| 精品欧美一区二区在线观看视频| 黄色网址在线免费观看| 欧洲视频一区二区| 亚洲の无码国产の无码步美| 欧美日韩综合| 成人精品视频久久久久| 国产香蕉在线| 精品久久久久人成| 老司机av网站| 中文字幕免费精品| 国产日产欧美a一级在线| 日韩有码电影| 亚洲 欧美综合在线网络| 在线免费看污网站| 成人婷婷网色偷偷亚洲男人的天堂| 欧美性一区二区三区| 日本免费不卡视频| 亚洲午夜免费福利视频| 国产乱淫av片| 好看的亚洲午夜视频在线| 成人在线精品视频| 五月天婷婷在线视频| 色8久久人人97超碰香蕉987| 亚洲国产果冻传媒av在线观看| 亚洲精品精选| 韩国一区二区三区美女美女秀 | 天天操天天爱天天干| 亚洲精品国产无套在线观| www,av在线| 亚洲草久电影| 91久久精品国产91久久性色| 午夜视频在线看| 欧美日韩亚洲综合| 久久av红桃一区二区禁漫| 精品一区二区三区的国产在线播放 | 国产无遮挡又黄又爽又色视频| 91原创在线视频| 日韩精品―中文字幕| 欧美韩一区二区| 91高清在线免费观看| 日夜干在线视频| 在线亚洲免费视频| 美国精品一区二区| 国产一区视频网站| 日韩a级黄色片| 国产香蕉精品| 欧洲一区二区视频| 97电影在线| 欧美一区二区三区在线看| 久久免费视频99| 99re成人精品视频| 热久久精品免费视频| 国产精品毛片久久| 国产精品9999久久久久仙踪林| a级片免费在线观看| 亚洲精品一区二区网址| 亚洲国产无线乱码在线观看| 亚洲欧洲精品一区二区三区| 欧美久久久久久久久久久| 一区二区日本视频| 亚洲bbw性色大片| 视频精品一区| 日本免费久久高清视频| 日本中文字幕伦在线观看| 欧美成人伊人久久综合网| 男女啊啊啊视频| 国产精品日日摸夜夜摸av| 又色又爽又黄18网站| 久久久久99| 中文字幕在线中文| 少妇精品久久久一区二区三区| 91精品一区二区| 国产在线美女| 日韩一区二区欧美| 天天干天天色天天| 欧美精品自拍偷拍动漫精品| 日韩av无码中文字幕| 中文字幕免费一区| 午夜av免费看| 国产老妇另类xxxxx| 日本xxxxxxx免费视频| 欧美精品偷拍| 一区不卡字幕| 少妇精品导航| 97netav| 777午夜精品电影免费看| 欧美激情视频在线观看| av在线免费观看网| 日韩av影片在线观看| a天堂在线视频| 欧美性色综合网| 亚洲国产成人精品激情在线| 自拍av一区二区三区| 公侵犯人妻一区二区三区| 国产成人免费av在线| 99热这里只有精品在线播放| 一本一本久久| xxxx18hd亚洲hd捆绑| 在线观看国产精品入口| 五月天久久综合网| 外国成人在线视频| 国产精品久久九九| 懂色av色香蕉一区二区蜜桃| 日本中文字幕成人| 92久久精品| 美女扒开尿口让男人操亚洲视频网站| 激情福利在线| 亚洲老板91色精品久久| 无码精品一区二区三区在线| 欧美成va人片在线观看| av一级黄色片| 91精品婷婷国产综合久久性色| 日韩xxx视频| 色欧美日韩亚洲| 丰满少妇xoxoxo视频| 岛国精品视频在线播放| 国产情侣在线视频| 亚洲成人av一区二区三区| 美女视频黄免费| 艳妇臀荡乳欲伦亚洲一区| 澳门黄色一级片| 亚洲免费观看视频| 男人的天堂久久久| 一区二区三区成人| 久久久久黄色片| 亚洲一区二区三区四区五区黄| 538精品在线观看| 亚洲黄色片在线观看| 欧美成人精品欧美一级私黄| 伊人婷婷欧美激情| 久久午夜无码鲁丝片| 亚洲午夜免费电影| 99热只有这里有精品| 欧美性黄网官网| 欧美成人精品网站| 欧美色视频一区| 国产成a人亚洲精v品无码| 日韩精品一区二区三区三区免费| 亚洲精品久久久久久久久久 | 午夜精品福利在线| 日韩一区二区视频在线| 欧美性xxxxx极品| 免费av中文字幕| 欧美日本国产视频| 亚洲产国偷v产偷v自拍涩爱| 精品不卡在线视频| 青青草在线免费观看| 亚洲天堂av综合网| 欧美18一19xxx性| 欧美放荡办公室videos4k| segui88久久综合9999| 国产99久久精品一区二区| 久久电影天堂| 成人午夜电影免费在线观看| 日韩高清三区| 亚洲精品高清国产一线久久| 亚洲综合婷婷| 日日碰狠狠添天天爽超碰97| 免费不卡在线观看| 免费观看污网站| 久久午夜老司机| 卡通动漫亚洲综合| 精品久久中文字幕久久av| 狠狠躁夜夜躁人人爽视频| 日韩一级在线观看| 欧美在线一卡| 久久久成人av| 这里有精品可以观看| 国产日韩欧美黄色| 嫩草国产精品入口| 亚洲视频精品一区| 亚洲黄色三级| www.se五月| 99国产精品一区| 久久av红桃一区二区禁漫| 欧美日韩免费网站| 国产肥老妇视频| 亚洲人午夜精品| 欧美性受ⅹ╳╳╳黑人a性爽| 国产成人综合久久| 99re91这里只有精品| 婷婷五月色综合| 一区二区毛片| 日本一级大毛片a一| 中日韩av电影| 成年人视频在线免费看| 欧美一二三四区在线| 福利片在线观看| 91精品国产91久久久久| 国产精品视频一区二区三区综合| 久久青青草综合| 伊人天天综合| 天天操精品视频| 亚洲国产精品成人综合| 中文字幕亚洲高清| 精品美女被调教视频大全网站| 9i精品一二三区| 欧美在线亚洲在线| 麻豆成人入口| 800av在线免费观看| 久久电影网站中文字幕| a天堂中文字幕| 欧美午夜片在线免费观看| 午夜精品在线播放| 久久久精品视频成人| 免费视频观看成人| 日本精品一区二区| 亚欧成人精品| 北岛玲一区二区| 亚洲第一福利视频在线| www.av导航| 久久成人精品电影| 亚洲精品69| 中文字幕一区二区三区在线乱码| 日韩av中文字幕一区二区| 蜜桃av免费看| 色先锋aa成人| 男女污视频在线观看| 欧美性受xxxx黑人猛交| 人妖一区二区三区| 天堂…中文在线最新版在线| 成人美女视频在线观看| 国产精品16p| 亚洲激情在线观看视频免费| 2020av在线| 久久综合入口| 久久经典综合| 亚洲精品国产精品国自产网站| 日本精品一区二区三区高清| 国产免费av高清在线| 国产精品久久久久久久久久三级| 国产尤物久久久| 手机在线成人免费视频| 国产精品欧美经典| 国产理论片在线观看| 九九久久久久99精品| 波多野结衣在线一区二区 | 精品久久久久久无| 久久99亚洲网美利坚合众国| 国产精品一区二区三区精品| 日韩视频在线一区二区三区 | 国产伦精品一区二区三区视频 | 国产精品91xxx| 精品小视频在线观看| 日韩av中文在线| 欧美舌奴丨vk视频| 亚洲欧洲另类精品久久综合| 国产揄拍国内精品对白| 国产第一页第二页| 亚洲精品小视频| 亚洲视频自拍| 欧美男女爱爱视频| 国产日韩欧美麻豆| 国产精品一区二区三区在线免费观看| 欧美大奶子在线| 天堂在线精品| www.久久av.com| 亚洲成人av电影| www 日韩| 国产日产精品一区二区三区四区| 欧美亚洲一区| 日韩精品123区| 亚洲黄色在线看| 国产精品传媒麻豆hd| 在线播放豆国产99亚洲| 成人黄色av网站在线| 看黄色一级大片| 欧美日本啪啪无遮挡网站| 亚州精品视频| 亚洲美女性囗交| 精品福利在线观看| 好了av在线| 欧美xxxx黑人又粗又长精品| 经典一区二区三区| 亚洲熟女综合色一区二区三区| 久久这里只有精品视频首页| 日韩有码中文字幕在线| 日本高清免费在线视频|