Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）原創(chuàng)

發(fā)布于 2024-9-4 14:29

瀏覽

0收藏

??摘要: 我們提出了一種簡(jiǎn)單的提示技術(shù)——“退一步”提示（STEP-BACK PROMPTING），該技術(shù)能夠使大語(yǔ)言模型（LLMs）進(jìn)行抽象，從包含特定細(xì)節(jié)的實(shí)例中推導(dǎo)出高層次概念和基本原理。通過(guò)使用這些概念和原理來(lái)指導(dǎo)推理，LLMs顯著提高了沿著正確推理路徑找到解決方案的能力。我們?cè)?nbsp;PaLM-2L、GPT-4 和 Llama2-70B 模型上進(jìn)行了“退一步”提示的實(shí)驗(yàn)，并在包括 STEM、知識(shí)問(wèn)答（Knowledge QA）和多跳推理（Multi-Hop Reasoning）等各種具有挑戰(zhàn)性的推理密集型任務(wù)中觀察到顯著的性能提升。例如，“退一步”提示使 PaLM-2L 在 MMLU（物理和化學(xué)）上的性能分別提高了 7% 和 11%，在 TimeQA 上提高了 27%，在 MuSiQue 上提高了 7%。

1、引言

自然語(yǔ)言處理（NLP）領(lǐng)域正在經(jīng)歷一場(chǎng)由基于Transformer模型（Vaswani等，2017）的大語(yǔ)言模型（LLMs）（Devlin等，2018；Raffel等，2020；Brown等，2020；Anil等，2023）引發(fā)的革命。通過(guò)擴(kuò)大模型的規(guī)模和預(yù)訓(xùn)練語(yǔ)料庫(kù)（Hoffmann等，2022；Chowdhery等，2022），模型的能力和樣本效率得到了顯著提升，這得益于縮放定律（Kaplan等，2020；Hoffmann等，2022）的見(jiàn)解以及諸如多步推理（Wei等，2022b；Zhou等，2022）和指令跟隨（Mishra等，2022b；Wei等，2021）等新興能力。

盡管取得了這些進(jìn)展，復(fù)雜的多步推理仍然對(duì)最先進(jìn)的大語(yǔ)言模型構(gòu)成挑戰(zhàn)。Lightman等人（2023）的研究表明，通過(guò)逐步驗(yàn)證的過(guò)程監(jiān)督是一種有前景的解決方法，可以提高中間推理步驟的正確性。類似于“思維鏈”（Chain-of-Thought, CoT）（Wei等，2022b）的方法被引入，用于生成一系列連貫的中間推理步驟，從而提高沿著正確解碼路徑的成功率。受到人類在面對(duì)復(fù)雜任務(wù)時(shí)往往會(huì)退一步，通過(guò)抽象得出高層次原則來(lái)指導(dǎo)解決過(guò)程的啟發(fā)，我們提出了“退一步”提示方法（STEP-BACK PROMPTING），通過(guò)在推理中引入抽象以減少中間步驟中的錯(cuò)誤概率。

在許多認(rèn)知技能中，抽象能力（Lachmy等，2022）是人類處理大量信息并推導(dǎo)出一般性原則的普遍能力。例如，開(kāi)普勒將數(shù)千個(gè)觀測(cè)數(shù)據(jù)歸納為開(kāi)普勒的三大行星運(yùn)動(dòng)定律，這些定律精確描述了行星圍繞太陽(yáng)的軌道（Russell，1964）。在關(guān)鍵決策中，抽象有助于人類獲得更廣闊的環(huán)境視角。本文研究了大語(yǔ)言模型（LLMs）如何通過(guò)抽象與推理的兩步過(guò)程來(lái)處理涉及大量低層次細(xì)節(jié)的復(fù)雜任務(wù)。第一步是通過(guò)上下文學(xué)習(xí)來(lái)引導(dǎo)LLMs“退一步”——提示它們?yōu)樘囟ㄊ纠茖?dǎo)出高層次的抽象概念和原則。第二步是利用推理能力，在這些高層次概念和原則的基礎(chǔ)上進(jìn)行推理。我們使用少樣本示例演示來(lái)在LLMs上執(zhí)行“退一步”提示方法。

我們?cè)谏婕邦I(lǐng)域特定推理的各種任務(wù)上進(jìn)行了實(shí)驗(yàn)，如物理和化學(xué)、需要事實(shí)知識(shí)的知識(shí)密集型問(wèn)答、多跳常識(shí)推理。我們觀察到PaLM-2L（Anil等，2023）在這些任務(wù)上的顯著性能提升（最高達(dá)27%），這證明了“退一步”提示方法在處理復(fù)雜任務(wù)時(shí)的有效性，這些任務(wù)由于需要推理的大量細(xì)節(jié)而具有挑戰(zhàn)性。圖1總結(jié)了本文中展示的所有關(guān)鍵結(jié)果。有些任務(wù)非常具有挑戰(zhàn)性：在TimeQA和MuSiQue上，PaLM-2L和GPT-4的準(zhǔn)確率僅約為40%。鏈?zhǔn)剿季S提示在少數(shù)任務(wù)上帶來(lái)了輕微的改進(jìn)，而“退一步”提示方法則在所有任務(wù)上提升了PaLM-2L的性能：在MMLU物理和化學(xué)上分別提升了7%和11%，在TimeQA上提升了27%，在MuSiQue上提升了7%。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

圖 1：STEP-BACK PROMPTING 的強(qiáng)大表現(xiàn)：我們提出的“抽象與推理”方案在各種具有挑戰(zhàn)性的任務(wù)中顯著提升了性能，這些任務(wù)涉及STEM、知識(shí)問(wèn)答（Knowledge QA）和多跳推理（Multi-Hop Reasoning），并且通常需要復(fù)雜（往往是多跳）的推理。

我們進(jìn)行了多種分析，發(fā)現(xiàn)“退一步”提示方法相比鏈?zhǔn)剿季S（CoT）提示（Wei等，2022b）和“深呼吸”（TDB）提示（Yang等，2023）顯著提升了性能（最高達(dá)36%）。我們進(jìn)行了定性評(píng)估，發(fā)現(xiàn)“退一步”方法修正了基礎(chǔ)模型的大部分錯(cuò)誤（最高約40%），同時(shí)只引入了少量新的錯(cuò)誤（最高約12%）。我們還進(jìn)行了錯(cuò)誤分析，發(fā)現(xiàn)“退一步”提示方法的大多數(shù)錯(cuò)誤源于LLMs推理能力的內(nèi)在限制，而抽象技能相對(duì)容易在LLMs中展現(xiàn)，這為類似“退一步”提示方法的未來(lái)改進(jìn)指明了方向。

2、退一步 PROMPTING

“退一步”提示方法的動(dòng)機(jī)源于這樣一個(gè)觀察：許多任務(wù)包含大量的細(xì)節(jié)，而這讓大語(yǔ)言模型很難提取出相關(guān)信息來(lái)解決這些任務(wù)。如圖2頂部所示，對(duì)于一個(gè)物理問(wèn)題“如果溫度增加2倍，體積增加8倍，理想氣體的壓力P會(huì)發(fā)生什么變化？”，在直接對(duì)問(wèn)題進(jìn)行推理時(shí)，大語(yǔ)言模型可能會(huì)偏離理想氣體定律的基本原理。同樣，對(duì)于“埃斯特拉·萊奧波德在1954年8月至1954年11月期間就讀于哪所學(xué)校？”這樣的問(wèn)題，由于時(shí)間范圍的具體限制，直接回答也非常困難。在這兩種情況下，提出一個(gè)“退一步”的問(wèn)題可以幫助模型更有效地解決問(wèn)題。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

圖 2：展示了通過(guò)概念和原理指導(dǎo)的“退一步”提示法（STEP-BACK PROMPTING）中的抽象和推理兩個(gè)步驟。**

頂部：一個(gè)MMLU高中物理的示例（Hendrycks等，2020），通過(guò)抽象檢索到理想氣體定律的基本原理。

底部：來(lái)自TimeQA的一個(gè)示例（Chen等，2021），其中高層次的“教育背景”概念是抽象的結(jié)果。

左側(cè)：PaLM-2L（Anil等，2023）未能回答原始問(wèn)題。鏈?zhǔn)剿季S提示（Chain-of-Thought Prompting，Wei等，2022b；Kojima等，2022）在中間推理步驟中出現(xiàn)錯(cuò)誤（紅色部分突出顯示）。

右側(cè)：通過(guò)“退一步”提示法（STEP-BACK PROMPTING），PaLM-2L（Anil等，2023）成功回答了問(wèn)題。

我們將“退一步”問(wèn)題定義為從原始問(wèn)題中提取的、更高抽象層次上的問(wèn)題。例如，與其直接詢問(wèn)“埃斯特拉·萊奧波德在特定時(shí)間段內(nèi)就讀于哪所學(xué)校”，不如提出一個(gè)“退一步”問(wèn)題（圖2底部），例如詢問(wèn)她的“教育背景”，這是一個(gè)包含原始問(wèn)題的高層次概念。在這種情況下，回答“埃斯特拉·萊奧波德的教育背景”這一“退一步”問(wèn)題，將提供所有必要的信息來(lái)推理“她在特定時(shí)期就讀于哪所學(xué)校”。前提是“退一步”問(wèn)題通常更簡(jiǎn)單。在這種抽象基礎(chǔ)上進(jìn)行推理，有助于避免中間步驟中的推理錯(cuò)誤，例如圖2左側(cè)思維鏈（Chain-of-Thought）中的例子。簡(jiǎn)而言之，“退一步”提示方法包括兩個(gè)簡(jiǎn)單的步驟：

- 抽象：與直接回答問(wèn)題不同，我們首先提示大語(yǔ)言模型提出一個(gè)關(guān)于更高層次概念或原理的泛化的“退一步”問(wèn)題，并檢索與該高層次概念或原理相關(guān)的事實(shí)。“退一步”問(wèn)題對(duì)于每個(gè)任務(wù)都是獨(dú)特的，以便檢索最相關(guān)的事實(shí)。

- 推理：基于有關(guān)高層次概念或原理的事實(shí)，大語(yǔ)言模型可以推理出原始問(wèn)題的解決方案。我們將這稱為“基于抽象的推理”。

在接下來(lái)的章節(jié)中，我們將對(duì)一系列具有挑戰(zhàn)性的任務(wù)進(jìn)行“退一步”提示方法的實(shí)證研究，這些任務(wù)涉及復(fù)雜推理的領(lǐng)域，如STEM、知識(shí)問(wèn)答和多跳推理。

3、實(shí)驗(yàn)設(shè)置

在本節(jié)中，我們定義了實(shí)驗(yàn)中使用的任務(wù)和模型。同時(shí)，我們還描述了我們的評(píng)估指標(biāo)和所考慮的基線方法。

3.1 任務(wù)

我們?cè)谝韵虏煌愋偷娜蝿?wù)上進(jìn)行實(shí)驗(yàn)：（a）STEM，（b）知識(shí)問(wèn)答（Knowledge QA），以及（c）多跳推理（Multi-Hop Reasoning）。以下是我們所使用的數(shù)據(jù)集（詳細(xì)信息請(qǐng)參見(jiàn)附錄B）。

- STEM: 我們?cè)赟TEM任務(wù)中評(píng)估MMLU和GSM8K。MMLU（Hendrycks等，2020）包含一系列跨多領(lǐng)域的基準(zhǔn)測(cè)試，用于評(píng)估模型的語(yǔ)言理解能力。我們選擇了MMLU中的高中物理和化學(xué)部分，因?yàn)檫@些部分涉及深層次的推理。

（注釋：STEM任務(wù)指的是涉及科學(xué)、技術(shù)、工程和數(shù)學(xué)（Science, Technology, Engineering, and Mathematics）領(lǐng)域的問(wèn)題。在自然語(yǔ)言處理和大語(yǔ)言模型的研究中，STEM任務(wù)通常用于測(cè)試模型在這些特定領(lǐng)域中的理解和推理能力。）

- 知識(shí)問(wèn)答（Knowledge QA）: 我們選擇了TimeQA（Chen等，2021），因?yàn)樗枰獜?fù)雜時(shí)間敏感知識(shí)的查詢。我們還實(shí)驗(yàn)了SituatedQA（Zhang & Choi，2021），這是另一個(gè)需要模型在給定時(shí)間或地理背景下回答問(wèn)題的挑戰(zhàn)性開(kāi)放檢索問(wèn)答數(shù)據(jù)集。

- 多跳推理（Multi-Hop Reasoning）: 我們使用MuSiQue（Trivedi等，2022）進(jìn)行實(shí)驗(yàn)，這是一種通過(guò)組合單跳問(wèn)題對(duì)創(chuàng)建的難度較大的多跳推理數(shù)據(jù)集，還使用了包含需要策略解決的開(kāi)放域問(wèn)題的StrategyQA（Geva等，2021）。

（注釋：多跳推理（Multi-Hop Reasoning）是一種需要模型進(jìn)行多步推理才能到達(dá)正確答案的任務(wù)類型。在這種任務(wù)中，問(wèn)題的解答不可能通過(guò)單一的事實(shí)或信息直接獲得。相反，模型必須將多個(gè)中間步驟的推理結(jié)果綜合起來(lái)，才能找到正確的答案。這通常涉及從多個(gè)信息來(lái)源或段落中收集、連接和整合相關(guān)信息，以完成一個(gè)復(fù)雜的推理過(guò)程。

問(wèn)題："愛(ài)因斯坦在1921年獲得諾貝爾獎(jiǎng)的那一年，哪個(gè)國(guó)家是歐洲人口最多的國(guó)家？"

推理步驟：

愛(ài)因斯坦在1921年獲得諾貝爾獎(jiǎng)。

找到1921年時(shí)歐洲人口最多的國(guó)家。

確定答案為當(dāng)時(shí)的俄羅斯。

答案："俄羅斯"）

3.2 模型

我們使用了以下最先進(jìn)的大語(yǔ)言模型：經(jīng)過(guò)指令微調(diào)的PaLM-2L（Anil等，2023）、GPT-4（OpenAI，2023）和Llama2-70B（Touvron等，2023）。

3.3 評(píng)估

傳統(tǒng)的評(píng)估指標(biāo)，如準(zhǔn)確率和F1分?jǐn)?shù)，在評(píng)估最先進(jìn)的大語(yǔ)言模型的生成時(shí)有其局限性，因?yàn)檫@些模型通常會(huì)生成難以量化的長(zhǎng)篇回答。因此，我們采用了PaLM-2L模型進(jìn)行的評(píng)估，其中我們使用少樣本示例來(lái)提示模型識(shí)別目標(biāo)答案和模型預(yù)測(cè)之間的等價(jià)性。用于此評(píng)估的少樣本示例、提示和其他詳細(xì)信息見(jiàn)附錄C。

3.4 基線方法

- PaLM-2L, PaLM-2L 1-shot: PaLM-2L模型直接使用問(wèn)題進(jìn)行查詢，或在提示中包含一個(gè)問(wèn)題-答案示例的單個(gè)演示樣例。

- PaLM-2L + CoT, PaLM-2L + CoT 1-shot: 使用零樣本思維鏈（Chain-of-Thought, CoT）提示（Kojima等，2022）來(lái)查詢PaLM-2L模型：“讓我們一步一步思考”被添加到問(wèn)題中。對(duì)于1-shot，提示中提供了一個(gè)問(wèn)題和答案對(duì)的示例，其中答案采用CoT風(fēng)格（Wei等，2022b）。

- PaLM-2L + TDB: 使用零樣本提示“深呼吸并一步一步解決這個(gè)問(wèn)題。”（Yang等，2023）添加到問(wèn)題之前。

- PaLM-2L + RAG: 在第5和第6節(jié)中，我們使用檢索增強(qiáng)生成（RAG），其中檢索到的段落作為上下文被大語(yǔ)言模型使用。

- GPT-4 和 Llama2-70B: 我們?cè)贛MLU任務(wù)上對(duì)所有方法運(yùn)行了GPT-4和Llama2-70B。此外，我們還在所有基線上對(duì)所有任務(wù)運(yùn)行了GPT-4。

由于STEM任務(wù)的內(nèi)在推理性質(zhì)，我們沒(méi)有對(duì)這些任務(wù)使用RAG。所有推斷都是使用貪婪解碼進(jìn)行的。

4、STEM

我們?cè)赟TEM任務(wù)上評(píng)估“退一步”提示法（STEP-BACK PROMPTING），以衡量我們的方法在高度專業(yè)領(lǐng)域中的推理能力。以下是我們?cè)贛MLU高中物理和化學(xué)以及GSM8K基準(zhǔn)測(cè)試上應(yīng)用“退一步”提示法的實(shí)驗(yàn)設(shè)置、結(jié)果和分析。

4.1 “退一步”提示法

MMLU基準(zhǔn)測(cè)試中的問(wèn)題需要更深層次的推理。此外，它們還需要理解和應(yīng)用通常為物理和化學(xué)原理和概念的公式。在這種情況下，我們首先向模型展示抽象技能，這些技能表現(xiàn)為概念和基本原理，如牛頓第一運(yùn)動(dòng)定律、多普勒效應(yīng)和吉布斯自由能等。

在這里，隱含的“退一步”問(wèn)題是“解決此任務(wù)涉及哪些物理或化學(xué)原理和概念？”我們提供了一些示例來(lái)引導(dǎo)模型從自身的知識(shí)中背誦解決任務(wù)所需的相關(guān)原理（參見(jiàn)附錄D.1了解少樣本示例）。

4.2 結(jié)果

表1展示了不同模型族的各種設(shè)置下的模型性能：PaLM-2L、GPT-4和Llama2-70B。表中報(bào)告的是5次評(píng)估運(yùn)行的平均準(zhǔn)確率，并附上標(biāo)準(zhǔn)差（括號(hào)內(nèi)的數(shù)值）。PaLM-2L的基線性能在物理和化學(xué)上的準(zhǔn)確率分別為66.4%和70.9%。我們發(fā)現(xiàn)，CoT和TDB零樣本提示并未顯著提升模型性能，這可能是由于這些任務(wù)固有的難度和深層次的推理要求。PaLM-2L的1-shot和PaLM-2L + CoT的1-shot方法也未對(duì)基線有太多提升，這突顯了向模型展示推理步驟的挑戰(zhàn)。相比之下，“退一步”提示法顯著提高了模型性能：相比于PaLM-2L，物理和化學(xué)分別提高了7%和11%。同樣，對(duì)于GPT-4和Llama2-70B模型，“退一步”提示法在我們測(cè)試的所有基線方法中表現(xiàn)非常有競(jìng)爭(zhēng)力，這表明“退一步”提示法是模型無(wú)關(guān)的。我們?cè)诟戒汚.1中展示了GSM8K的結(jié)果。

表 1：在 MMLU 任務(wù)中，"退一步"提示法（STEP-BACK PROMPTING）在三個(gè)模型系列上表現(xiàn)出色。** CoT：零樣本鏈?zhǔn)剿季S提示（Chain of Thought prompting，Kojima等，2022），TDB：“深呼吸”提示（Take a Deep Breath prompting，Yang等，2023）。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

4.3 消融實(shí)驗(yàn)和分析

少樣本消融實(shí)驗(yàn): 首先，在圖3中，我們觀察到“退一步”提示法對(duì)用作示例的少樣本（問(wèn)題和原理對(duì)）的數(shù)量具有魯棒性。增加超過(guò)一個(gè)示例的演示并不會(huì)帶來(lái)進(jìn)一步的改進(jìn)。這表明，通過(guò)上下文學(xué)習(xí)，檢索相關(guān)原理和概念的任務(wù)對(duì)模型來(lái)說(shuō)相對(duì)容易，一個(gè)示例就足夠了。因此，除非是消融實(shí)驗(yàn)，否則本文中使用的少樣本提示都是單個(gè)示例。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

錯(cuò)誤分析: 比較“退一步”提示法對(duì)MMLU高中物理的預(yù)測(cè)結(jié)果和PaLM-2L基線模型的預(yù)測(cè)結(jié)果，我們發(fā)現(xiàn)“退一步”提示法修正了20.5%的基線錯(cuò)誤，同時(shí)引入了11.9%的新錯(cuò)誤。

為了進(jìn)一步了解“退一步”提示法的錯(cuò)誤來(lái)源，我們對(duì)測(cè)試集中所有的錯(cuò)誤預(yù)測(cè)進(jìn)行了標(biāo)注，并將其分為5類（參見(jiàn)附錄E.1了解每類中的示例）：

- 原理錯(cuò)誤: 在抽象步驟中發(fā)生的錯(cuò)誤，模型生成的基本原理是錯(cuò)誤的或不完整的。

- 事實(shí)錯(cuò)誤: 當(dāng)模型背誦自身的事實(shí)知識(shí)時(shí)，至少有一個(gè)事實(shí)錯(cuò)誤。

- 數(shù)學(xué)錯(cuò)誤: 在涉及數(shù)學(xué)計(jì)算的中間步驟中存在至少一個(gè)數(shù)學(xué)錯(cuò)誤。

- 上下文丟失: 模型響應(yīng)丟失了問(wèn)題的上下文，從而偏離了對(duì)原始問(wèn)題的回答。

- 推理錯(cuò)誤: 我們將推理錯(cuò)誤定義為在到達(dá)最終答案之前的中間推理步驟中至少出現(xiàn)一個(gè)錯(cuò)誤。

圖4顯示，除原理錯(cuò)誤外，所有五種類型的錯(cuò)誤都發(fā)生在推理步驟中，原理錯(cuò)誤指向抽象步驟的失敗。推理錯(cuò)誤和數(shù)學(xué)錯(cuò)誤是主要的錯(cuò)誤類別。這與上述消融研究中的發(fā)現(xiàn)相吻合，即僅需少量示例就可以向大語(yǔ)言模型展示抽象技能。推理步驟仍然是“退一步”提示法執(zhí)行需要復(fù)雜推理的任務(wù)（如MMLU）的瓶頸。具體到MMLU物理，推理和數(shù)學(xué)技能對(duì)于成功解決這些問(wèn)題至關(guān)重要：即使正確地檢索了基本原理，也需要通過(guò)典型的多步推理過(guò)程進(jìn)行深入推理和數(shù)學(xué)運(yùn)算，以得出正確的最終答案。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

5、知識(shí)問(wèn)答（Knowledge QA）

我們?cè)谛枰芗聦?shí)知識(shí)的問(wèn)答基準(zhǔn)上評(píng)估了“退一步”提示法（STEP-BACK PROMPTING）。知識(shí)問(wèn)答對(duì)大語(yǔ)言模型（LLMs）來(lái)說(shuō)是一個(gè)挑戰(zhàn)。在本節(jié)中，我們首先描述實(shí)驗(yàn)設(shè)置，然后是對(duì)“退一步”提示法的結(jié)果和分析。

5.1 “退一步”提示法

我們?cè)谥R(shí)問(wèn)答類別中評(píng)估了“退一步”提示法，使用了TimeQA（Chen等，2021）和SituatedQA（Zhang & Choi，2021）數(shù)據(jù)集。我們首先通過(guò)上下文中的演示向LLMs展示如何進(jìn)行抽象。圖2中的“退一步”問(wèn)題“埃斯特拉·萊奧波德的教育背景是什么？”就是通過(guò)少樣本演示生成的（詳細(xì)信息見(jiàn)附錄D.2）。鑒于這些查詢的知識(shí)密集性質(zhì)，我們結(jié)合“退一步”提示法使用了檢索增強(qiáng)（RAG）。“退一步”問(wèn)題用于檢索相關(guān)事實(shí)，這些事實(shí)作為額外的上下文（提示見(jiàn)表14）以支持最終的推理步驟。

5.2 結(jié)果

我們?cè)赥imeQA的測(cè)試集上對(duì)模型進(jìn)行了評(píng)估。如表2所示，GPT-4和PaLM-2L的基線模型分別達(dá)到了45.6%和41.5%的準(zhǔn)確率，這突顯了任務(wù)的難度。將CoT或TDB零樣本（以及單樣本）提示應(yīng)用于基線模型并未顯示出改進(jìn)。相反，通過(guò)常規(guī)檢索增強(qiáng)（RAG）增強(qiáng)基線模型，將準(zhǔn)確率提升至57.4%，這突顯了任務(wù)的事實(shí)密集性質(zhì)。“退一步”+ RAG的結(jié)果顯示了回到高層次概念的有效性，這使得檢索增強(qiáng)更加可靠：TimeQA的準(zhǔn)確率達(dá)到了顯著的68.7%。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

接下來(lái)，我們將TimeQA按原始數(shù)據(jù)集中提供的難度等級(jí)分為易和難兩個(gè)級(jí)別。正如預(yù)期的那樣，所有方法在困難子集上的表現(xiàn)都較差。雖然RAG可以將易級(jí)別的準(zhǔn)確率從42.6%提升到67.8%，但在難級(jí)別上的提升要小得多：從40.4%提升到46.8%。這正是“退一步”提示法的優(yōu)勢(shì)所在，它通過(guò)檢索高層次概念的事實(shí)來(lái)支持最終推理：“退一步”+ RAG進(jìn)一步將難級(jí)別的準(zhǔn)確率提升到62.3%，超越了GPT-4的42.6%。我們假設(shè)關(guān)于高層次概念（如教育背景）的事實(shí)比低層次細(xì)節(jié)更容易獲取。

在SituatedQA基準(zhǔn)測(cè)試中，我們觀察到從54.3%到我們最佳方法“退一步”+ RAG（61%）的適度質(zhì)量提升，與GPT-4的63.2%有小的差距。與TimeQA類似，諸如CoT和TDB之類的提示對(duì)于SituatedQA并沒(méi)有顯著幫助。

5.3 消融實(shí)驗(yàn)和分析

少樣本消融實(shí)驗(yàn): 我們?cè)趫D5（左）中觀察到，“退一步”提示法在TimeQA上的表現(xiàn)對(duì)演示中使用的示例數(shù)量具有魯棒性，這再次顯示了PaLM-2L模型在上下文中學(xué)習(xí)抽象技能的樣本效率。

錯(cuò)誤分析: 圖5（右）顯示了“退一步”提示法在TimeQA上的所有剩余錯(cuò)誤的分類。類似于第4.3節(jié)，我們將錯(cuò)誤分類為：

- StepBack: 生成的“退一步”問(wèn)題對(duì)解決任務(wù)沒(méi)有幫助。

- RAG: 盡管“退一步”問(wèn)題是準(zhǔn)確的，但RAG未能檢索到相關(guān)信息。

- 評(píng)分錯(cuò)誤: 評(píng)估模型的判斷錯(cuò)誤。

- 推理錯(cuò)誤: 檢索到的上下文是相關(guān)的，但模型仍未能通過(guò)上下文得出正確答案。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

圖5TimeQA上“退一步”提示法的消融和錯(cuò)誤分析。左圖：與少樣本示例數(shù)目相關(guān)的消融研究。右圖：錯(cuò)誤類別分布，推理和RAG是主要的錯(cuò)誤來(lái)源。

我們發(fā)現(xiàn)“StepBack”很少失敗。相反，我們發(fā)現(xiàn)超過(guò)一半的錯(cuò)誤是由于推理錯(cuò)誤。此外，45%的錯(cuò)誤是由于未能檢索到正確信息，盡管抽象提供的“退一步”問(wèn)題使其成為一個(gè)更容易的任務(wù)。這反映了TimeQA任務(wù)的難度。TimeQA的更多錯(cuò)誤分析見(jiàn)附錄A。

6、多跳推理（MULTI-HOP REASONING）

我們?cè)诰哂刑魬?zhàn)性的多跳推理基準(zhǔn)數(shù)據(jù)集MuSiQue（Trivedi等，2022）和StrategyQA（Geva等，2021）上評(píng)估了“退一步”提示法（STEP-BACK PROMPTING）。我們遵循第5節(jié)中的相同協(xié)議來(lái)實(shí)施“退一步”提示法。

表3顯示了在MuSiQue和StrategyQA的開(kāi)發(fā)集上的各種基線的性能。由于MuSiQue是一個(gè)難度較大的多跳推理基準(zhǔn)數(shù)據(jù)集，PaLM-2L和GPT-4的基線性能較低（分別為35.5%和38.5%）。相比之下，StrategyQA的基線性能較強(qiáng)（PaLM-2L為82.8%，GPT-4為78.3%），這可能是因?yàn)樗且粋€(gè)二元分類任務(wù)。在MuSiQue的情況下，CoT和TDB提示略微提高了模型性能（分別約為3%和3.5%），這可能歸因于該任務(wù)固有的推理性質(zhì)，而這些方法已被證明是有幫助的。在StrategyQA的情況下，由于該任務(wù)基線性能較高，這些提示方法并沒(méi)有顯著的性能提升，這限制了它們改進(jìn)性能的空間。通常情況下，1-shot性能顯著低于零樣本方法，這可能是由于潛在的示例偏差（Zhao等，2021；Parmar等，2023）。RAG提升了模型性能（MuSiQue約4%，StrategyQA約2%）。憑借抽象的優(yōu)勢(shì)，“退一步”提示法產(chǎn)生了所有方法中最好的性能：MuSiQue為42.8%，StrategyQA為86.4%，在這兩個(gè)任務(wù)上顯著超過(guò)了GPT-4。我們?cè)诟戒汚.3中提供了StrategyQA的詳細(xì)錯(cuò)誤分析。

Take a Step Back：通過(guò)抽象激發(fā)大模型推理能力（ICLR2024）-AI.x社區(qū)

7、討論（DISCUSSION）

抽象幫助人類通過(guò)去除無(wú)關(guān)細(xì)節(jié)并提煉高層次概念和原則來(lái)解決復(fù)雜任務(wù)。“退一步”提示法將復(fù)雜任務(wù)（如知識(shí)密集型問(wèn)答、多跳推理和科學(xué)問(wèn)題）分為抽象和推理兩個(gè)獨(dú)立步驟。我們通過(guò)實(shí)證實(shí)驗(yàn)表明，對(duì)于諸如PaLM-2L之類的大語(yǔ)言模型來(lái)說(shuō)，抽象是一項(xiàng)通過(guò)樣本高效的上下文學(xué)習(xí)容易掌握的技能。基于高層次概念和原則，大語(yǔ)言模型可以利用其內(nèi)在的推理能力來(lái)推導(dǎo)解決方案。這減少了中間步驟中推理失敗的機(jī)會(huì)，并被證明在廣泛的復(fù)雜推理任務(wù)中提高了性能。盡管取得了成功，但通過(guò)錯(cuò)誤分析，我們發(fā)現(xiàn)推理仍然是大語(yǔ)言模型最難掌握的技能之一：即使在“退一步”提示法大幅降低了任務(wù)復(fù)雜性之后，它仍然是主要的失敗模式。

然而，抽象并非在所有情況下都是必要或可行的。例如，任務(wù)可能簡(jiǎn)單到只需要回答“2000年美國(guó)的總統(tǒng)是誰(shuí)？”這種情況下沒(méi)有必要退一步并提出一個(gè)高層次的問(wèn)題，因?yàn)榇祟悊?wèn)題的答案顯而易見(jiàn)。諸如“光速是多少？”之類的問(wèn)題本身就指向了基本原理。在這種情況下，進(jìn)行抽象并不會(huì)產(chǎn)生差異。

8、相關(guān)工作（RELATED WORK）

提示（Prompting）

少樣本提示（Brown等，2020；Liu等，2023；Mishra等，2022a；Wei等，2022b）在不需要更新模型參數(shù)的情況下顯著提高了模型在各種任務(wù)上的表現(xiàn)。我們的工作“退一步”提示法（STEP-BACK PROMPTING）與鏈?zhǔn)剿季S提示法（Chain-of-Thought Prompting，Wei等，2022b）和草稿紙方法（Scratchpad，Nye等，2021）屬于同一類別，因?yàn)樗鼈兌季哂泻?jiǎn)單性和通用性。但是，我們的方法專注于抽象這一核心理念，這一靈感來(lái)源于人類在執(zhí)行復(fù)雜任務(wù)時(shí)經(jīng)常退一步的做法。我們的工作也與背誦增強(qiáng)語(yǔ)言模型（Recitation-Augmented Language Models，Sun等，2022）相關(guān)；然而，與他們的工作相比，我們明確執(zhí)行退一步和抽象，并根據(jù)任務(wù)的性質(zhì)選擇性地使用檢索增強(qiáng)。

分解（Decomposition）

將一個(gè)任務(wù)分解為更簡(jiǎn)單的子任務(wù)并通過(guò)解決這些子任務(wù)來(lái)完成原始任務(wù)，一直是提高模型在復(fù)雜任務(wù)上表現(xiàn)的有效方法（Zhou等，2022；Patel等，2022；Khot等，2022；Press等，2022）。幾種提示方法在這方面取得了成功。我們的“退一步”提示法與此不同，它旨在將問(wèn)題變得更抽象和高層次，而分解往往是對(duì)原始問(wèn)題的低層次細(xì)分。例如，一個(gè)關(guān)于“1990年史蒂夫·喬布斯為哪個(gè)雇主工作？”的通用問(wèn)題可以被改寫(xiě)為“史蒂夫·喬布斯的就業(yè)歷史是什么？”。而分解會(huì)導(dǎo)致生成多個(gè)子問(wèn)題，如“史蒂夫·喬布斯在1990年做了什么？”，“1990年史蒂夫·喬布斯是否受雇？”以及“如果史蒂夫·喬布斯受雇，他的雇主是誰(shuí)？”。此外，諸如“史蒂夫·喬布斯的就業(yè)歷史是什么？”的抽象問(wèn)題往往具有多對(duì)一的映射關(guān)系，因?yàn)槎鄠€(gè)問(wèn)題（如“1990年史蒂夫·喬布斯為哪個(gè)雇主工作？”和“2000年史蒂夫·喬布斯為哪個(gè)雇主工作？”）可以具有相同的抽象問(wèn)題。這與分解通常具有一對(duì)多映射的特性不同，因?yàn)橥ǔＰ枰鄠€(gè)分解的子問(wèn)題來(lái)解決一個(gè)問(wèn)題。

9、結(jié)論（CONCLUSION）

我們提出了“退一步”提示法，這是一種簡(jiǎn)單而通用的方法，可以通過(guò)抽象在大語(yǔ)言模型中引發(fā)深層次的推理。我們?cè)谑聦?shí)查詢、常識(shí)推理和領(lǐng)域特定推理基準(zhǔn)測(cè)試上對(duì)大語(yǔ)言模型進(jìn)行了實(shí)驗(yàn)，結(jié)果表明“退一步”提示法顯著提高了模型的表現(xiàn)。我們假設(shè)，抽象幫助模型減少幻覺(jué)，并更好地進(jìn)行推理，這可能反映了模型的真實(shí)能力，而這些能力通常在模型回答原始問(wèn)題時(shí)隱藏起來(lái)。我們希望我們的工作能夠激發(fā)更多靈感來(lái)自人類的方式，以開(kāi)發(fā)大語(yǔ)言模型的潛力。

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/B2qO3gAeOpL1A1wD77X4og??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大模型

大語(yǔ)言模型

贊

回復(fù)