精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024) 原創(chuàng)

發(fā)布于 2024-9-4 14:29
瀏覽
0收藏

??摘要:  我們提出了一種簡(jiǎn)單的提示技術(shù)——“退一步”提示(STEP-BACK PROMPTING),該技術(shù)能夠使大語(yǔ)言模型(LLMs)進(jìn)行抽象,從包含特定細(xì)節(jié)的實(shí)例中推導(dǎo)出高層次概念和基本原理。通過(guò)使用這些概念和原理來(lái)指導(dǎo)推理,LLMs顯著提高了沿著正確推理路徑找到解決方案的能力。我們?cè)?nbsp;PaLM-2L、GPT-4 和 Llama2-70B 模型上進(jìn)行了“退一步”提示的實(shí)驗(yàn),并在包括 STEM、知識(shí)問(wèn)答(Knowledge QA)和多跳推理(Multi-Hop Reasoning)等各種具有挑戰(zhàn)性的推理密集型任務(wù)中觀察到顯著的性能提升。例如,“退一步”提示使 PaLM-2L 在 MMLU(物理和化學(xué))上的性能分別提高了 7% 和 11%,在 TimeQA 上提高了 27%,在 MuSiQue 上提高了 7%。

1、引言

自然語(yǔ)言處理(NLP)領(lǐng)域正在經(jīng)歷一場(chǎng)由基于Transformer模型(Vaswani等,2017)的大語(yǔ)言模型(LLMs)(Devlin等,2018;Raffel等,2020;Brown等,2020;Anil等,2023)引發(fā)的革命。通過(guò)擴(kuò)大模型的規(guī)模和預(yù)訓(xùn)練語(yǔ)料庫(kù)(Hoffmann等,2022;Chowdhery等,2022),模型的能力和樣本效率得到了顯著提升,這得益于縮放定律(Kaplan等,2020;Hoffmann等,2022)的見(jiàn)解以及諸如多步推理(Wei等,2022b;Zhou等,2022)和指令跟隨(Mishra等,2022b;Wei等,2021)等新興能力。

盡管取得了這些進(jìn)展,復(fù)雜的多步推理仍然對(duì)最先進(jìn)的大語(yǔ)言模型構(gòu)成挑戰(zhàn)。Lightman等人(2023)的研究表明,通過(guò)逐步驗(yàn)證的過(guò)程監(jiān)督是一種有前景的解決方法,可以提高中間推理步驟的正確性。類似于“思維鏈”(Chain-of-Thought, CoT)(Wei等,2022b)的方法被引入,用于生成一系列連貫的中間推理步驟,從而提高沿著正確解碼路徑的成功率。受到人類在面對(duì)復(fù)雜任務(wù)時(shí)往往會(huì)退一步,通過(guò)抽象得出高層次原則來(lái)指導(dǎo)解決過(guò)程的啟發(fā),我們提出了“退一步”提示方法(STEP-BACK PROMPTING),通過(guò)在推理中引入抽象以減少中間步驟中的錯(cuò)誤概率。

在許多認(rèn)知技能中,抽象能力(Lachmy等,2022)是人類處理大量信息并推導(dǎo)出一般性原則的普遍能力。例如,開(kāi)普勒將數(shù)千個(gè)觀測(cè)數(shù)據(jù)歸納為開(kāi)普勒的三大行星運(yùn)動(dòng)定律,這些定律精確描述了行星圍繞太陽(yáng)的軌道(Russell,1964)。在關(guān)鍵決策中,抽象有助于人類獲得更廣闊的環(huán)境視角。本文研究了大語(yǔ)言模型(LLMs)如何通過(guò)抽象與推理的兩步過(guò)程來(lái)處理涉及大量低層次細(xì)節(jié)的復(fù)雜任務(wù)。第一步是通過(guò)上下文學(xué)習(xí)來(lái)引導(dǎo)LLMs“退一步”——提示它們?yōu)樘囟ㄊ纠茖?dǎo)出高層次的抽象概念和原則。第二步是利用推理能力,在這些高層次概念和原則的基礎(chǔ)上進(jìn)行推理。我們使用少樣本示例演示來(lái)在LLMs上執(zhí)行“退一步”提示方法。

我們?cè)谏婕邦I(lǐng)域特定推理的各種任務(wù)上進(jìn)行了實(shí)驗(yàn),如物理和化學(xué)、需要事實(shí)知識(shí)的知識(shí)密集型問(wèn)答、多跳常識(shí)推理。我們觀察到PaLM-2L(Anil等,2023)在這些任務(wù)上的顯著性能提升(最高達(dá)27%),這證明了“退一步”提示方法在處理復(fù)雜任務(wù)時(shí)的有效性,這些任務(wù)由于需要推理的大量細(xì)節(jié)而具有挑戰(zhàn)性。圖1總結(jié)了本文中展示的所有關(guān)鍵結(jié)果。有些任務(wù)非常具有挑戰(zhàn)性:在TimeQA和MuSiQue上,PaLM-2L和GPT-4的準(zhǔn)確率僅約為40%。鏈?zhǔn)剿季S提示在少數(shù)任務(wù)上帶來(lái)了輕微的改進(jìn),而“退一步”提示方法則在所有任務(wù)上提升了PaLM-2L的性能:在MMLU物理和化學(xué)上分別提升了7%和11%,在TimeQA上提升了27%,在MuSiQue上提升了7%。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

圖 1:STEP-BACK PROMPTING 的強(qiáng)大表現(xiàn):我們提出的“抽象與推理”方案在各種具有挑戰(zhàn)性的任務(wù)中顯著提升了性能,這些任務(wù)涉及STEM、知識(shí)問(wèn)答(Knowledge QA)和多跳推理(Multi-Hop Reasoning),并且通常需要復(fù)雜(往往是多跳)的推理。

我們進(jìn)行了多種分析,發(fā)現(xiàn)“退一步”提示方法相比鏈?zhǔn)剿季S(CoT)提示(Wei等,2022b)和“深呼吸”(TDB)提示(Yang等,2023)顯著提升了性能(最高達(dá)36%)。我們進(jìn)行了定性評(píng)估,發(fā)現(xiàn)“退一步”方法修正了基礎(chǔ)模型的大部分錯(cuò)誤(最高約40%),同時(shí)只引入了少量新的錯(cuò)誤(最高約12%)。我們還進(jìn)行了錯(cuò)誤分析,發(fā)現(xiàn)“退一步”提示方法的大多數(shù)錯(cuò)誤源于LLMs推理能力的內(nèi)在限制,而抽象技能相對(duì)容易在LLMs中展現(xiàn),這為類似“退一步”提示方法的未來(lái)改進(jìn)指明了方向。

2、退一步 PROMPTING

“退一步”提示方法的動(dòng)機(jī)源于這樣一個(gè)觀察:許多任務(wù)包含大量的細(xì)節(jié),而這讓大語(yǔ)言模型很難提取出相關(guān)信息來(lái)解決這些任務(wù)。如圖2頂部所示,對(duì)于一個(gè)物理問(wèn)題“如果溫度增加2倍,體積增加8倍,理想氣體的壓力P會(huì)發(fā)生什么變化?”,在直接對(duì)問(wèn)題進(jìn)行推理時(shí),大語(yǔ)言模型可能會(huì)偏離理想氣體定律的基本原理。同樣,對(duì)于“埃斯特拉·萊奧波德在1954年8月至1954年11月期間就讀于哪所學(xué)校?”這樣的問(wèn)題,由于時(shí)間范圍的具體限制,直接回答也非常困難。在這兩種情況下,提出一個(gè)“退一步”的問(wèn)題可以幫助模型更有效地解決問(wèn)題。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

圖 2:展示了通過(guò)概念和原理指導(dǎo)的“退一步”提示法(STEP-BACK PROMPTING)中的抽象和推理兩個(gè)步驟。**

頂部:一個(gè)MMLU高中物理的示例(Hendrycks等,2020),通過(guò)抽象檢索到理想氣體定律的基本原理。

底部:來(lái)自TimeQA的一個(gè)示例(Chen等,2021),其中高層次的“教育背景”概念是抽象的結(jié)果。

左側(cè):PaLM-2L(Anil等,2023)未能回答原始問(wèn)題。鏈?zhǔn)剿季S提示(Chain-of-Thought Prompting,Wei等,2022b;Kojima等,2022)在中間推理步驟中出現(xiàn)錯(cuò)誤(紅色部分突出顯示)。

右側(cè):通過(guò)“退一步”提示法(STEP-BACK PROMPTING),PaLM-2L(Anil等,2023)成功回答了問(wèn)題。

我們將“退一步”問(wèn)題定義為從原始問(wèn)題中提取的、更高抽象層次上的問(wèn)題。例如,與其直接詢問(wèn)“埃斯特拉·萊奧波德在特定時(shí)間段內(nèi)就讀于哪所學(xué)校”,不如提出一個(gè)“退一步”問(wèn)題(圖2底部),例如詢問(wèn)她的“教育背景”,這是一個(gè)包含原始問(wèn)題的高層次概念。在這種情況下,回答“埃斯特拉·萊奧波德的教育背景”這一“退一步”問(wèn)題,將提供所有必要的信息來(lái)推理“她在特定時(shí)期就讀于哪所學(xué)校”。前提是“退一步”問(wèn)題通常更簡(jiǎn)單。在這種抽象基礎(chǔ)上進(jìn)行推理,有助于避免中間步驟中的推理錯(cuò)誤,例如圖2左側(cè)思維鏈(Chain-of-Thought)中的例子。簡(jiǎn)而言之,“退一步”提示方法包括兩個(gè)簡(jiǎn)單的步驟:

- 抽象:與直接回答問(wèn)題不同,我們首先提示大語(yǔ)言模型提出一個(gè)關(guān)于更高層次概念或原理的泛化的“退一步”問(wèn)題,并檢索與該高層次概念或原理相關(guān)的事實(shí)。“退一步”問(wèn)題對(duì)于每個(gè)任務(wù)都是獨(dú)特的,以便檢索最相關(guān)的事實(shí)。

- 推理:基于有關(guān)高層次概念或原理的事實(shí),大語(yǔ)言模型可以推理出原始問(wèn)題的解決方案。我們將這稱為“基于抽象的推理”。

在接下來(lái)的章節(jié)中,我們將對(duì)一系列具有挑戰(zhàn)性的任務(wù)進(jìn)行“退一步”提示方法的實(shí)證研究,這些任務(wù)涉及復(fù)雜推理的領(lǐng)域,如STEM、知識(shí)問(wèn)答和多跳推理。

3、實(shí)驗(yàn)設(shè)置

在本節(jié)中,我們定義了實(shí)驗(yàn)中使用的任務(wù)和模型。同時(shí),我們還描述了我們的評(píng)估指標(biāo)和所考慮的基線方法。

3.1 任務(wù)

我們?cè)谝韵虏煌愋偷娜蝿?wù)上進(jìn)行實(shí)驗(yàn):(a)STEM,(b)知識(shí)問(wèn)答(Knowledge QA),以及(c)多跳推理(Multi-Hop Reasoning)。以下是我們所使用的數(shù)據(jù)集(詳細(xì)信息請(qǐng)參見(jiàn)附錄B)。

- STEM: 我們?cè)赟TEM任務(wù)中評(píng)估MMLU和GSM8K。MMLU(Hendrycks等,2020)包含一系列跨多領(lǐng)域的基準(zhǔn)測(cè)試,用于評(píng)估模型的語(yǔ)言理解能力。我們選擇了MMLU中的高中物理和化學(xué)部分,因?yàn)檫@些部分涉及深層次的推理。

(注釋:STEM任務(wù)指的是涉及科學(xué)、技術(shù)、工程和數(shù)學(xué)(Science, Technology, Engineering, and Mathematics)領(lǐng)域的問(wèn)題。在自然語(yǔ)言處理和大語(yǔ)言模型的研究中,STEM任務(wù)通常用于測(cè)試模型在這些特定領(lǐng)域中的理解和推理能力。)

- 知識(shí)問(wèn)答(Knowledge QA): 我們選擇了TimeQA(Chen等,2021),因?yàn)樗枰獜?fù)雜時(shí)間敏感知識(shí)的查詢。我們還實(shí)驗(yàn)了SituatedQA(Zhang & Choi,2021),這是另一個(gè)需要模型在給定時(shí)間或地理背景下回答問(wèn)題的挑戰(zhàn)性開(kāi)放檢索問(wèn)答數(shù)據(jù)集。

- 多跳推理(Multi-Hop Reasoning): 我們使用MuSiQue(Trivedi等,2022)進(jìn)行實(shí)驗(yàn),這是一種通過(guò)組合單跳問(wèn)題對(duì)創(chuàng)建的難度較大的多跳推理數(shù)據(jù)集,還使用了包含需要策略解決的開(kāi)放域問(wèn)題的StrategyQA(Geva等,2021)。

(注釋:多跳推理(Multi-Hop Reasoning)是一種需要模型進(jìn)行多步推理才能到達(dá)正確答案的任務(wù)類型。在這種任務(wù)中,問(wèn)題的解答不可能通過(guò)單一的事實(shí)或信息直接獲得。相反,模型必須將多個(gè)中間步驟的推理結(jié)果綜合起來(lái),才能找到正確的答案。這通常涉及從多個(gè)信息來(lái)源或段落中收集、連接和整合相關(guān)信息,以完成一個(gè)復(fù)雜的推理過(guò)程。

問(wèn)題:"愛(ài)因斯坦在1921年獲得諾貝爾獎(jiǎng)的那一年,哪個(gè)國(guó)家是歐洲人口最多的國(guó)家?"

推理步驟:

愛(ài)因斯坦在1921年獲得諾貝爾獎(jiǎng)。

找到1921年時(shí)歐洲人口最多的國(guó)家。

確定答案為當(dāng)時(shí)的俄羅斯。

答案:"俄羅斯")

3.2 模型

我們使用了以下最先進(jìn)的大語(yǔ)言模型:經(jīng)過(guò)指令微調(diào)的PaLM-2L(Anil等,2023)、GPT-4(OpenAI,2023)和Llama2-70B(Touvron等,2023)。

3.3 評(píng)估

傳統(tǒng)的評(píng)估指標(biāo),如準(zhǔn)確率和F1分?jǐn)?shù),在評(píng)估最先進(jìn)的大語(yǔ)言模型的生成時(shí)有其局限性,因?yàn)檫@些模型通常會(huì)生成難以量化的長(zhǎng)篇回答。因此,我們采用了PaLM-2L模型進(jìn)行的評(píng)估,其中我們使用少樣本示例來(lái)提示模型識(shí)別目標(biāo)答案和模型預(yù)測(cè)之間的等價(jià)性。用于此評(píng)估的少樣本示例、提示和其他詳細(xì)信息見(jiàn)附錄C。

3.4 基線方法

- PaLM-2L, PaLM-2L 1-shot: PaLM-2L模型直接使用問(wèn)題進(jìn)行查詢,或在提示中包含一個(gè)問(wèn)題-答案示例的單個(gè)演示樣例。

- PaLM-2L + CoT, PaLM-2L + CoT 1-shot: 使用零樣本思維鏈(Chain-of-Thought, CoT)提示(Kojima等,2022)來(lái)查詢PaLM-2L模型:“讓我們一步一步思考”被添加到問(wèn)題中。對(duì)于1-shot,提示中提供了一個(gè)問(wèn)題和答案對(duì)的示例,其中答案采用CoT風(fēng)格(Wei等,2022b)。

- PaLM-2L + TDB: 使用零樣本提示“深呼吸并一步一步解決這個(gè)問(wèn)題。”(Yang等,2023)添加到問(wèn)題之前。

- PaLM-2L + RAG: 在第5和第6節(jié)中,我們使用檢索增強(qiáng)生成(RAG),其中檢索到的段落作為上下文被大語(yǔ)言模型使用。

- GPT-4 和 Llama2-70B: 我們?cè)贛MLU任務(wù)上對(duì)所有方法運(yùn)行了GPT-4和Llama2-70B。此外,我們還在所有基線上對(duì)所有任務(wù)運(yùn)行了GPT-4。

由于STEM任務(wù)的內(nèi)在推理性質(zhì),我們沒(méi)有對(duì)這些任務(wù)使用RAG。所有推斷都是使用貪婪解碼進(jìn)行的。

4、STEM

我們?cè)赟TEM任務(wù)上評(píng)估“退一步”提示法(STEP-BACK PROMPTING),以衡量我們的方法在高度專業(yè)領(lǐng)域中的推理能力。以下是我們?cè)贛MLU高中物理和化學(xué)以及GSM8K基準(zhǔn)測(cè)試上應(yīng)用“退一步”提示法的實(shí)驗(yàn)設(shè)置、結(jié)果和分析。

4.1 “退一步”提示法

MMLU基準(zhǔn)測(cè)試中的問(wèn)題需要更深層次的推理。此外,它們還需要理解和應(yīng)用通常為物理和化學(xué)原理和概念的公式。在這種情況下,我們首先向模型展示抽象技能,這些技能表現(xiàn)為概念和基本原理,如牛頓第一運(yùn)動(dòng)定律、多普勒效應(yīng)和吉布斯自由能等。

在這里,隱含的“退一步”問(wèn)題是“解決此任務(wù)涉及哪些物理或化學(xué)原理和概念?”我們提供了一些示例來(lái)引導(dǎo)模型從自身的知識(shí)中背誦解決任務(wù)所需的相關(guān)原理(參見(jiàn)附錄D.1了解少樣本示例)。

4.2 結(jié)果

表1展示了不同模型族的各種設(shè)置下的模型性能:PaLM-2L、GPT-4和Llama2-70B。表中報(bào)告的是5次評(píng)估運(yùn)行的平均準(zhǔn)確率,并附上標(biāo)準(zhǔn)差(括號(hào)內(nèi)的數(shù)值)。PaLM-2L的基線性能在物理和化學(xué)上的準(zhǔn)確率分別為66.4%和70.9%。我們發(fā)現(xiàn),CoT和TDB零樣本提示并未顯著提升模型性能,這可能是由于這些任務(wù)固有的難度和深層次的推理要求。PaLM-2L的1-shot和PaLM-2L + CoT的1-shot方法也未對(duì)基線有太多提升,這突顯了向模型展示推理步驟的挑戰(zhàn)。相比之下,“退一步”提示法顯著提高了模型性能:相比于PaLM-2L,物理和化學(xué)分別提高了7%和11%。同樣,對(duì)于GPT-4和Llama2-70B模型,“退一步”提示法在我們測(cè)試的所有基線方法中表現(xiàn)非常有競(jìng)爭(zhēng)力,這表明“退一步”提示法是模型無(wú)關(guān)的。我們?cè)诟戒汚.1中展示了GSM8K的結(jié)果。

表 1:在 MMLU 任務(wù)中,"退一步"提示法(STEP-BACK PROMPTING)在三個(gè)模型系列上表現(xiàn)出色。** CoT:零樣本鏈?zhǔn)剿季S提示(Chain of Thought prompting,Kojima等,2022),TDB:“深呼吸”提示(Take a Deep Breath prompting,Yang等,2023)。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

4.3 消融實(shí)驗(yàn)和分析

少樣本消融實(shí)驗(yàn): 首先,在圖3中,我們觀察到“退一步”提示法對(duì)用作示例的少樣本(問(wèn)題和原理對(duì))的數(shù)量具有魯棒性。增加超過(guò)一個(gè)示例的演示并不會(huì)帶來(lái)進(jìn)一步的改進(jìn)。這表明,通過(guò)上下文學(xué)習(xí),檢索相關(guān)原理和概念的任務(wù)對(duì)模型來(lái)說(shuō)相對(duì)容易,一個(gè)示例就足夠了。因此,除非是消融實(shí)驗(yàn),否則本文中使用的少樣本提示都是單個(gè)示例。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

錯(cuò)誤分析: 比較“退一步”提示法對(duì)MMLU高中物理的預(yù)測(cè)結(jié)果和PaLM-2L基線模型的預(yù)測(cè)結(jié)果,我們發(fā)現(xiàn)“退一步”提示法修正了20.5%的基線錯(cuò)誤,同時(shí)引入了11.9%的新錯(cuò)誤。

為了進(jìn)一步了解“退一步”提示法的錯(cuò)誤來(lái)源,我們對(duì)測(cè)試集中所有的錯(cuò)誤預(yù)測(cè)進(jìn)行了標(biāo)注,并將其分為5類(參見(jiàn)附錄E.1了解每類中的示例):

- 原理錯(cuò)誤: 在抽象步驟中發(fā)生的錯(cuò)誤,模型生成的基本原理是錯(cuò)誤的或不完整的。

- 事實(shí)錯(cuò)誤: 當(dāng)模型背誦自身的事實(shí)知識(shí)時(shí),至少有一個(gè)事實(shí)錯(cuò)誤。

- 數(shù)學(xué)錯(cuò)誤: 在涉及數(shù)學(xué)計(jì)算的中間步驟中存在至少一個(gè)數(shù)學(xué)錯(cuò)誤。

- 上下文丟失: 模型響應(yīng)丟失了問(wèn)題的上下文,從而偏離了對(duì)原始問(wèn)題的回答。

- 推理錯(cuò)誤: 我們將推理錯(cuò)誤定義為在到達(dá)最終答案之前的中間推理步驟中至少出現(xiàn)一個(gè)錯(cuò)誤。

圖4顯示,除原理錯(cuò)誤外,所有五種類型的錯(cuò)誤都發(fā)生在推理步驟中,原理錯(cuò)誤指向抽象步驟的失敗。推理錯(cuò)誤和數(shù)學(xué)錯(cuò)誤是主要的錯(cuò)誤類別。這與上述消融研究中的發(fā)現(xiàn)相吻合,即僅需少量示例就可以向大語(yǔ)言模型展示抽象技能。推理步驟仍然是“退一步”提示法執(zhí)行需要復(fù)雜推理的任務(wù)(如MMLU)的瓶頸。具體到MMLU物理,推理和數(shù)學(xué)技能對(duì)于成功解決這些問(wèn)題至關(guān)重要:即使正確地檢索了基本原理,也需要通過(guò)典型的多步推理過(guò)程進(jìn)行深入推理和數(shù)學(xué)運(yùn)算,以得出正確的最終答案。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

5、知識(shí)問(wèn)答(Knowledge QA)

我們?cè)谛枰芗聦?shí)知識(shí)的問(wèn)答基準(zhǔn)上評(píng)估了“退一步”提示法(STEP-BACK PROMPTING)。知識(shí)問(wèn)答對(duì)大語(yǔ)言模型(LLMs)來(lái)說(shuō)是一個(gè)挑戰(zhàn)。在本節(jié)中,我們首先描述實(shí)驗(yàn)設(shè)置,然后是對(duì)“退一步”提示法的結(jié)果和分析。

5.1 “退一步”提示法

我們?cè)谥R(shí)問(wèn)答類別中評(píng)估了“退一步”提示法,使用了TimeQA(Chen等,2021)和SituatedQA(Zhang & Choi,2021)數(shù)據(jù)集。我們首先通過(guò)上下文中的演示向LLMs展示如何進(jìn)行抽象。圖2中的“退一步”問(wèn)題“埃斯特拉·萊奧波德的教育背景是什么?”就是通過(guò)少樣本演示生成的(詳細(xì)信息見(jiàn)附錄D.2)。鑒于這些查詢的知識(shí)密集性質(zhì),我們結(jié)合“退一步”提示法使用了檢索增強(qiáng)(RAG)。“退一步”問(wèn)題用于檢索相關(guān)事實(shí),這些事實(shí)作為額外的上下文(提示見(jiàn)表14)以支持最終的推理步驟。

5.2 結(jié)果

我們?cè)赥imeQA的測(cè)試集上對(duì)模型進(jìn)行了評(píng)估。如表2所示,GPT-4和PaLM-2L的基線模型分別達(dá)到了45.6%和41.5%的準(zhǔn)確率,這突顯了任務(wù)的難度。將CoT或TDB零樣本(以及單樣本)提示應(yīng)用于基線模型并未顯示出改進(jìn)。相反,通過(guò)常規(guī)檢索增強(qiáng)(RAG)增強(qiáng)基線模型,將準(zhǔn)確率提升至57.4%,這突顯了任務(wù)的事實(shí)密集性質(zhì)。“退一步”+ RAG的結(jié)果顯示了回到高層次概念的有效性,這使得檢索增強(qiáng)更加可靠:TimeQA的準(zhǔn)確率達(dá)到了顯著的68.7%。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

接下來(lái),我們將TimeQA按原始數(shù)據(jù)集中提供的難度等級(jí)分為易和難兩個(gè)級(jí)別。正如預(yù)期的那樣,所有方法在困難子集上的表現(xiàn)都較差。雖然RAG可以將易級(jí)別的準(zhǔn)確率從42.6%提升到67.8%,但在難級(jí)別上的提升要小得多:從40.4%提升到46.8%。這正是“退一步”提示法的優(yōu)勢(shì)所在,它通過(guò)檢索高層次概念的事實(shí)來(lái)支持最終推理:“退一步”+ RAG進(jìn)一步將難級(jí)別的準(zhǔn)確率提升到62.3%,超越了GPT-4的42.6%。我們假設(shè)關(guān)于高層次概念(如教育背景)的事實(shí)比低層次細(xì)節(jié)更容易獲取。

在SituatedQA基準(zhǔn)測(cè)試中,我們觀察到從54.3%到我們最佳方法“退一步”+ RAG(61%)的適度質(zhì)量提升,與GPT-4的63.2%有小的差距。與TimeQA類似,諸如CoT和TDB之類的提示對(duì)于SituatedQA并沒(méi)有顯著幫助。

5.3 消融實(shí)驗(yàn)和分析

少樣本消融實(shí)驗(yàn): 我們?cè)趫D5(左)中觀察到,“退一步”提示法在TimeQA上的表現(xiàn)對(duì)演示中使用的示例數(shù)量具有魯棒性,這再次顯示了PaLM-2L模型在上下文中學(xué)習(xí)抽象技能的樣本效率。

錯(cuò)誤分析: 圖5(右)顯示了“退一步”提示法在TimeQA上的所有剩余錯(cuò)誤的分類。類似于第4.3節(jié),我們將錯(cuò)誤分類為:

- StepBack: 生成的“退一步”問(wèn)題對(duì)解決任務(wù)沒(méi)有幫助。

- RAG: 盡管“退一步”問(wèn)題是準(zhǔn)確的,但RAG未能檢索到相關(guān)信息。

- 評(píng)分錯(cuò)誤: 評(píng)估模型的判斷錯(cuò)誤。

- 推理錯(cuò)誤: 檢索到的上下文是相關(guān)的,但模型仍未能通過(guò)上下文得出正確答案。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

圖5TimeQA上“退一步”提示法的消融和錯(cuò)誤分析。左圖:與少樣本示例數(shù)目相關(guān)的消融研究。右圖:錯(cuò)誤類別分布,推理和RAG是主要的錯(cuò)誤來(lái)源。

我們發(fā)現(xiàn)“StepBack”很少失敗。相反,我們發(fā)現(xiàn)超過(guò)一半的錯(cuò)誤是由于推理錯(cuò)誤。此外,45%的錯(cuò)誤是由于未能檢索到正確信息,盡管抽象提供的“退一步”問(wèn)題使其成為一個(gè)更容易的任務(wù)。這反映了TimeQA任務(wù)的難度。TimeQA的更多錯(cuò)誤分析見(jiàn)附錄A。

6、多跳推理(MULTI-HOP REASONING)

我們?cè)诰哂刑魬?zhàn)性的多跳推理基準(zhǔn)數(shù)據(jù)集MuSiQue(Trivedi等,2022)和StrategyQA(Geva等,2021)上評(píng)估了“退一步”提示法(STEP-BACK PROMPTING)。我們遵循第5節(jié)中的相同協(xié)議來(lái)實(shí)施“退一步”提示法。

表3顯示了在MuSiQue和StrategyQA的開(kāi)發(fā)集上的各種基線的性能。由于MuSiQue是一個(gè)難度較大的多跳推理基準(zhǔn)數(shù)據(jù)集,PaLM-2L和GPT-4的基線性能較低(分別為35.5%和38.5%)。相比之下,StrategyQA的基線性能較強(qiáng)(PaLM-2L為82.8%,GPT-4為78.3%),這可能是因?yàn)樗且粋€(gè)二元分類任務(wù)。在MuSiQue的情況下,CoT和TDB提示略微提高了模型性能(分別約為3%和3.5%),這可能歸因于該任務(wù)固有的推理性質(zhì),而這些方法已被證明是有幫助的。在StrategyQA的情況下,由于該任務(wù)基線性能較高,這些提示方法并沒(méi)有顯著的性能提升,這限制了它們改進(jìn)性能的空間。通常情況下,1-shot性能顯著低于零樣本方法,這可能是由于潛在的示例偏差(Zhao等,2021;Parmar等,2023)。RAG提升了模型性能(MuSiQue約4%,StrategyQA約2%)。憑借抽象的優(yōu)勢(shì),“退一步”提示法產(chǎn)生了所有方法中最好的性能:MuSiQue為42.8%,StrategyQA為86.4%,在這兩個(gè)任務(wù)上顯著超過(guò)了GPT-4。我們?cè)诟戒汚.3中提供了StrategyQA的詳細(xì)錯(cuò)誤分析。

Take a Step Back:通過(guò)抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

7、 討論(DISCUSSION)

抽象幫助人類通過(guò)去除無(wú)關(guān)細(xì)節(jié)并提煉高層次概念和原則來(lái)解決復(fù)雜任務(wù)。“退一步”提示法將復(fù)雜任務(wù)(如知識(shí)密集型問(wèn)答、多跳推理和科學(xué)問(wèn)題)分為抽象和推理兩個(gè)獨(dú)立步驟。我們通過(guò)實(shí)證實(shí)驗(yàn)表明,對(duì)于諸如PaLM-2L之類的大語(yǔ)言模型來(lái)說(shuō),抽象是一項(xiàng)通過(guò)樣本高效的上下文學(xué)習(xí)容易掌握的技能。基于高層次概念和原則,大語(yǔ)言模型可以利用其內(nèi)在的推理能力來(lái)推導(dǎo)解決方案。這減少了中間步驟中推理失敗的機(jī)會(huì),并被證明在廣泛的復(fù)雜推理任務(wù)中提高了性能。盡管取得了成功,但通過(guò)錯(cuò)誤分析,我們發(fā)現(xiàn)推理仍然是大語(yǔ)言模型最難掌握的技能之一:即使在“退一步”提示法大幅降低了任務(wù)復(fù)雜性之后,它仍然是主要的失敗模式。

然而,抽象并非在所有情況下都是必要或可行的。例如,任務(wù)可能簡(jiǎn)單到只需要回答“2000年美國(guó)的總統(tǒng)是誰(shuí)?”這種情況下沒(méi)有必要退一步并提出一個(gè)高層次的問(wèn)題,因?yàn)榇祟悊?wèn)題的答案顯而易見(jiàn)。諸如“光速是多少?”之類的問(wèn)題本身就指向了基本原理。在這種情況下,進(jìn)行抽象并不會(huì)產(chǎn)生差異。

8、相關(guān)工作(RELATED WORK)

提示(Prompting)

少樣本提示(Brown等,2020;Liu等,2023;Mishra等,2022a;Wei等,2022b)在不需要更新模型參數(shù)的情況下顯著提高了模型在各種任務(wù)上的表現(xiàn)。我們的工作“退一步”提示法(STEP-BACK PROMPTING)與鏈?zhǔn)剿季S提示法(Chain-of-Thought Prompting,Wei等,2022b)和草稿紙方法(Scratchpad,Nye等,2021)屬于同一類別,因?yàn)樗鼈兌季哂泻?jiǎn)單性和通用性。但是,我們的方法專注于抽象這一核心理念,這一靈感來(lái)源于人類在執(zhí)行復(fù)雜任務(wù)時(shí)經(jīng)常退一步的做法。我們的工作也與背誦增強(qiáng)語(yǔ)言模型(Recitation-Augmented Language Models,Sun等,2022)相關(guān);然而,與他們的工作相比,我們明確執(zhí)行退一步和抽象,并根據(jù)任務(wù)的性質(zhì)選擇性地使用檢索增強(qiáng)。

分解(Decomposition)

將一個(gè)任務(wù)分解為更簡(jiǎn)單的子任務(wù)并通過(guò)解決這些子任務(wù)來(lái)完成原始任務(wù),一直是提高模型在復(fù)雜任務(wù)上表現(xiàn)的有效方法(Zhou等,2022;Patel等,2022;Khot等,2022;Press等,2022)。幾種提示方法在這方面取得了成功。我們的“退一步”提示法與此不同,它旨在將問(wèn)題變得更抽象和高層次,而分解往往是對(duì)原始問(wèn)題的低層次細(xì)分。例如,一個(gè)關(guān)于“1990年史蒂夫·喬布斯為哪個(gè)雇主工作?”的通用問(wèn)題可以被改寫(xiě)為“史蒂夫·喬布斯的就業(yè)歷史是什么?”。而分解會(huì)導(dǎo)致生成多個(gè)子問(wèn)題,如“史蒂夫·喬布斯在1990年做了什么?”,“1990年史蒂夫·喬布斯是否受雇?”以及“如果史蒂夫·喬布斯受雇,他的雇主是誰(shuí)?”。此外,諸如“史蒂夫·喬布斯的就業(yè)歷史是什么?”的抽象問(wèn)題往往具有多對(duì)一的映射關(guān)系,因?yàn)槎鄠€(gè)問(wèn)題(如“1990年史蒂夫·喬布斯為哪個(gè)雇主工作?”和“2000年史蒂夫·喬布斯為哪個(gè)雇主工作?”)可以具有相同的抽象問(wèn)題。這與分解通常具有一對(duì)多映射的特性不同,因?yàn)橥ǔP枰鄠€(gè)分解的子問(wèn)題來(lái)解決一個(gè)問(wèn)題。

9、結(jié)論(CONCLUSION)

我們提出了“退一步”提示法,這是一種簡(jiǎn)單而通用的方法,可以通過(guò)抽象在大語(yǔ)言模型中引發(fā)深層次的推理。我們?cè)谑聦?shí)查詢、常識(shí)推理和領(lǐng)域特定推理基準(zhǔn)測(cè)試上對(duì)大語(yǔ)言模型進(jìn)行了實(shí)驗(yàn),結(jié)果表明“退一步”提示法顯著提高了模型的表現(xiàn)。我們假設(shè),抽象幫助模型減少幻覺(jué),并更好地進(jìn)行推理,這可能反映了模型的真實(shí)能力,而這些能力通常在模型回答原始問(wèn)題時(shí)隱藏起來(lái)。我們希望我們的工作能夠激發(fā)更多靈感來(lái)自人類的方式,以開(kāi)發(fā)大語(yǔ)言模型的潛力。

?

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/B2qO3gAeOpL1A1wD77X4og??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲黄色小视频| 国产精品无码久久久久| 国产成人自拍网| 亚洲男人天堂手机在线| 无需播放器的av| 成人1区2区3区| 黄色成人在线网址| 伊人精品在线观看| 大桥未久恸哭の女教师| 成人网ww555视频免费看| 一区二区三区日本| 日本一区免费看| 日本高清www免费视频| 成人在线免费小视频| 图片区小说区国产精品视频| 日韩中文一区| 蜜臀av中文字幕| 日韩二区三区在线观看| 日韩经典中文字幕| www.国产福利| 黄瓜视频成人app免费| 亚洲另类中文字| 成人免费高清完整版在线观看| 一级黄色录像视频| 日韩国产欧美| 亚洲女人天堂色在线7777| 日本人dh亚洲人ⅹxx| 99九九久久| 欧美午夜精品伦理| 福利视频一二区| av毛片在线看| 国产精品欧美精品| 人禽交欧美网站免费| 秋霞视频一区二区| 国产精品资源网| 国产欧美久久一区二区| aaa在线视频| 亚洲欧美日本日韩| 国模极品一区二区三区| 老妇女50岁三级| 亚洲午夜精品一区 二区 三区| 一个人看的www久久| 97伦伦午夜电影理伦片| 国内精品国产成人国产三级粉色 | 成人高清视频在线| 亚洲综合在线中文字幕| 国产精品久久久久久免费| 国产欧美高清| 2021久久精品国产99国产精品| 久久久一二三区| 欧美.日韩.国产.一区.二区| 538prom精品视频线放| 视色视频在线观看| 久久亚洲精品爱爱| 欧美性欧美巨大黑白大战| 色婷婷综合久久久久中文字幕 | 91高清在线| 国产精品日产欧美久久久久| 视频二区一区| 91精品国产91久久久久游泳池| 国产拍揄自揄精品视频麻豆| 欧美日韩一区二| 免费在线黄色影片| 国产欧美一区二区精品性| 日韩欧美精品久久| 91美女视频在线| √…a在线天堂一区| 日本一区二区三区四区五区六区| 成人影院www在线观看| 一区二区三区四区在线| 人妻互换免费中文字幕| 91av久久| 色噜噜狠狠一区二区三区果冻| 成年人在线看片| 久久久久黄色| 日韩一区二区三区av| 国产人成视频在线观看| 欧美一区 二区| 亚洲视频自拍偷拍| xxxx视频在线观看| 农村少妇一区二区三区四区五区| 日韩精品中文字| 99自拍偷拍视频| 国产一区视频在线观看免费| 5566成人精品视频免费| 综合久久中文字幕| 国产一区二区三区久久悠悠色av| 成人免费观看网站| 精品三级久久久久久久电影聊斋| 国产曰批免费观看久久久| 成人av免费电影| 毛片在线免费| 亚洲另类在线一区| 色综合av综合无码综合网站| 成人福利一区二区| 亚洲电影免费观看高清完整版在线观看 | 欧美性x x x| 激情久久久久久久| 国产精品日韩欧美综合| 黄色av免费观看| 欧美激情在线一区二区三区| 日本福利视频网站| jizz久久久久久| 亚洲国产成人久久| 亚洲人与黑人屁股眼交| 一区二区三区成人精品| 91免费电影网站| 国产福利免费在线观看| 亚洲午夜免费福利视频| 欧美成人福利在线观看| 台湾亚洲精品一区二区tv| 欧美久久婷婷综合色| 日本一区二区免费视频| 日韩欧美一区二区三区免费看| 久久久久久久久久久网站| 无码人妻精品中文字幕| 国产精品普通话对白| 亚洲综合中文字幕在线观看| 国产视频福利在线| 精品二区三区线观看| 亚洲国产欧美日韩在线| 色乱码一区二区三区网站| 国外成人免费在线播放| 国产黄a三级三级看三级| 国产女主播一区| 黄页免费在线观看视频| 精品视频91| 日韩欧美高清在线| 免费一级做a爰片久久毛片潮| 亚洲午夜精品一区二区国产| 国产精品嫩草视频| 精品无吗乱吗av国产爱色| 无码av免费一区二区三区试看| 午夜性福利视频| 先锋资源久久| 国产主播精品在线| a黄色在线观看| 色国产综合视频| 久久精品成人av| 国产日韩欧美一区二区三区在线观看 | 欧美性猛交内射兽交老熟妇| 香蕉久久一区| 久久视频在线免费观看| 亚洲午夜精品久久久| 欧美国产综合一区二区| 毛葺葺老太做受视频| 国产亚洲第一伦理第一区| 一本色道久久综合亚洲精品小说| 亚洲天堂一区在线观看| 97精品电影院| 欧洲av无码放荡人妇网站| 色狼人综合干| 日本久久久久久久| 国产日韩精品在线看| 91久久精品网| 粉嫩精品久久99综合一区| 日本午夜一区二区| 亚洲一区二区三区欧美| 在线观看亚洲精品福利片| 欧美成人合集magnet| 国产suv一区二区| 一区二区三区av电影| 精品国产乱码久久久久夜深人妻| 激情综合亚洲| 蜜桃狠狠色伊人亚洲综合网站| 成人国产二区| 欧美成人一区二区三区片免费| 丁香花五月激情| 国产成人午夜高潮毛片| 男人日女人逼逼| 国产精品免费不| 成人h视频在线| 欧美xxxx做受欧美88bbw| 亚洲精品99久久久久中文字幕| 草久视频在线观看| 国产精品热久久久久夜色精品三区| 在线看免费毛片| 欧美体内she精视频在线观看| 国产精品我不卡| 二吊插入一穴一区二区| 久久久国产一区二区三区| 亚洲成熟女性毛茸茸| 欧美性猛交xxxx乱大交3| 一区二区三区在线播放视频| 国产成人免费高清| 日本精品久久久久中文字幕| 午夜国产一区二区| 国内视频一区二区| 精品176极品一区| 欧美激情一级精品国产| 国产精品一区在线看| 日韩午夜激情电影| 黄色片网站在线免费观看| 亚洲视频一二区| 瑟瑟视频在线观看| 国产一区二区三区四| 熟女性饥渴一区二区三区| 女同性一区二区三区人了人一| 欧美国产综合视频| 亚洲超碰在线观看| 欧美xxxx做受欧美.88| 天堂√在线中文官网在线| 欧美精品久久久久久久多人混战| 日韩黄色a级片| 国产成人自拍网| 99视频在线免费| 黄色免费成人| 一本一道久久a久久精品综合| 日韩激情网站| 91丝袜脚交足在线播放| 国产成人免费9x9x人网站视频 | 精品香蕉在线观看视频一| 国产精品久久777777换脸| 日韩欧美精品免费在线| 免费在线一区二区三区| 国产精品国产三级国产普通话三级 | 国产精品无码专区av免费播放| 欧美日韩综合视频网址| 色在线观看视频| 国产精品久久久久久久裸模| 超碰97在线资源站| 国产成人一区二区精品非洲| 黄色小视频免费网站| 人人狠狠综合久久亚洲婷| 国产一区免费| h视频久久久| 99国产超薄肉色丝袜交足的后果| 狠狠久久综合| 国产精品视频大全| 欧洲av一区二区| 欧美最顶级的aⅴ艳星| 国产亚av手机在线观看| 欧美另类在线播放| 国精产品一区| 久久久国产一区| 黄网站免费在线观看| 色综合影院在线| 自拍视频在线| 深夜福利一区二区| 最新国产在线观看| 永久免费毛片在线播放不卡| 男女av在线| 伊人久久久久久久久久久| 国产高清视频免费最新在线| 亚洲欧美中文另类| 国产一区精品| 中文字幕成人在线| 成人性爱视频在线观看| 在线观看精品自拍私拍| av成人手机在线| 日韩在线视频导航| 欧美性猛交xxx乱大交3蜜桃| 精品国产欧美一区二区五十路 | av男人天堂网| 日韩精品一区二区在线| 黄色aaa大片| 日韩精品视频在线免费观看| 色中色在线视频| 亚洲视频综合网| 欧美jizz18性欧美| 欧美大胆在线视频| heyzo在线播放| 7777精品视频| 91精品影视| 成人国产精品一区| 视频精品一区二区三区| 国产伦精品一区二区三毛| 欧美日韩直播| 亚洲第一导航| 亚洲字幕久久| 日本a在线免费观看| 久久亚洲图片| www,av在线| 成a人片国产精品| 一色道久久88加勒比一| 中文字幕在线不卡| 国产在线免费视频| 色猫猫国产区一区二在线视频| 一区二区精品视频在线观看| 亚洲图片欧美一区| 欧产日产国产69| 777久久久精品| 熟妇人妻一区二区三区四区| 在线成人免费观看| 老熟妇高潮一区二区高清视频| 精品视频偷偷看在线观看| 午夜毛片在线| 久久久久久综合网天天| 韩国女主播一区二区| 91久久极品少妇xxxxⅹ软件| 亚洲传媒在线| 一本大道东京热无码aⅴ| 久久亚洲综合| 日本久久久久久久久久| 国产精品无遮挡| 日韩成人高清视频| 91精品国产高清一区二区三区| 午夜视频福利在线| 亚洲成年人在线| 自拍视频在线播放| 5278欧美一区二区三区| 免费观看在线一区二区三区| 欧美久久久久久久| 欧美精品一卡| 国产色视频在线播放| 91年精品国产| 欧美日韩亚洲国产另类| 欧美婷婷六月丁香综合色| 少妇高潮一区二区三区99小说| 日韩三级成人av网| 精品免费av一区二区三区| 黑人巨大精品欧美一区二区小视频| 欧美精品一区二区久久| www.av毛片| 国产剧情在线观看一区二区| 丁香激情五月少妇| 欧美日韩性视频在线| 性色av蜜臀av| 日韩在线中文字| 素人一区二区三区| 欧美精品成人一区二区在线观看| 欧美日韩国产一区精品一区| 伊人影院综合在线| 国产精品区一区二区三区| 狠狠人妻久久久久久综合| 欧美精品一区二| 欧美videosex性欧美黑吊| 成人午夜黄色影院| 精品国产午夜| 一本色道无码道dvd在线观看| 91在线一区二区三区| 久久综合成人网| 日韩欧美电影一区| 蜜桃视频网站在线| 成人福利视频网| 亚洲va在线| 日韩a一级欧美一级| 国产精品成人在线观看| 欧美男人天堂网| 亚洲片在线资源| 日本欧美不卡| 亚洲v欧美v另类v综合v日韩v| 视频一区二区三区中文字幕| 国产美女精品久久| 欧美视频在线观看 亚洲欧| 亚欧在线观看视频| 欧美亚洲另类在线| 你懂的一区二区三区| 黑鬼大战白妞高潮喷白浆| 久久久综合视频| 污软件在线观看| 欧美剧在线免费观看网站| 成年人黄视频在线观看| 91麻豆桃色免费看| 中文乱码免费一区二区三区下载| 亚洲一区二区中文字幕在线观看| 亚洲免费毛片网站| 秋霞视频一区二区| 日韩av男人的天堂| 色999日韩| 丰满饥渴老女人hd| 婷婷中文字幕综合| 国产一级片在线播放| 国产精品普通话| 一本到12不卡视频在线dvd| 丰满少妇xbxb毛片日本| 午夜激情久久久| 国产中文字幕在线看| 国产精品揄拍500视频| 亚洲一区二区三区无吗| 老司机免费视频| 欧美亚洲自拍偷拍| 中文字幕有码在线观看| 国产亚洲二区| 奇米四色…亚洲| 麻豆成人在线视频| 日韩精品免费在线视频观看| 日本成人一区二区| 欧美精品卡一卡二| 日本一区二区三区dvd视频在线 | 久久99精品国产麻豆婷婷洗澡| 东方av正在进入| 国产视频精品在线| 亚洲精品成人一区| cao在线观看| 中文字幕电影一区| 亚洲精品中文字幕成人片| 日韩av大片在线| 影视一区二区| 日韩av在线看免费观看| 91麻豆精品国产91久久久资源速度 | 色哟哟国产精品免费观看| 亚洲乱熟女一区二区| 欧美亚洲国产成人精品| 午夜精品久久久久久久四虎美女版| 欧美xxxxx精品| 777色狠狠一区二区三区| 中文字幕在线免费观看视频| 精品免费国产| 韩国理伦片一区二区三区在线播放|