大模型的條件推理和模態推理

發布于 2024-7-12 10:12

瀏覽

0收藏

大型語言模型（LLMs）如GPT-4、Claude和Llama等已經展示了令人矚目的能力，這些模型不僅能夠生成流暢的文本，還能在各種任務中表現出色，如翻譯、摘要、問答等。盡管這些模型在許多方面表現出色，它們在邏輯推理，特別是條件推理和模態推理方面的能力仍然存在爭議。

條件推理和模態推理是邏輯學和認知科學中的核心研究領域。條件推理，即“如果…那么…”的推理形式，是人類思維中最基本的邏輯結構之一。例如，“如果下雨，那么地面會濕”就是一個典型的條件推理。模態推理則涉及“可能”、“必須”等模態詞的使用，這些詞語表達了不同的可能性和必然性。例如，“他可能在家”或“她必須完成作業”就是模態推理的例子。

在邏輯學中，條件推理和模態推理被廣泛研究，因為它們涉及到邏輯連接詞和模態運算符的精確定義和使用。經典邏輯中的材料條件分析（material conditional analysis）和模態邏輯中的可能世界語義（possible worlds semantics）是研究這些推理形式的主要方法。材料條件分析認為，“如果p，那么q”在p為假或q為真時為真，而可能世界語義則通過量化可能世界來解釋模態詞的含義。

在認知科學中，條件推理和模態推理被認為是人類認知能力的重要組成部分。研究表明，人類在日常生活中頻繁使用這些推理形式來進行計劃、決策和問題解決。例如，當我們考慮“如果我明天早起，我就能趕上早班車”時，我們實際上是在進行條件推理。同樣，當我們說“他可能已經離開了”時，我們是在進行模態推理。

7 月 4 日自加利福尼亞大學伯克利分校、紐約大學和麻省理工學院的研究團隊發表修訂版論文《Conditional and Modal Reasoning in Large Language Models》，論文的主要研究問題是當前最先進的LLMs在處理條件推理和模態推理任務時，能否做出與人類一致的判斷？具體來說，他們希望回答以下幾個問題：

LLMs在處理涉及條件句和模態詞的推理任務時，表現如何？
LLMs在這些任務中是否存在邏輯不一致或錯誤判斷？
不同的提示方法（如零樣本提示、少樣本提示和鏈式思維提示）對LLMs的推理能力有何影響？
LLMs在邏輯推理任務中的表現與其他基準測試（如Chatbot Arena、MMLU和GSM8K）有何關系？

通過回答這些問題，研究團隊希望揭示LLMs在條件推理和模態推理方面的能力和局限，為未來的模型改進和應用提供參考。團隊三位學者的合作結合了邏輯學、哲學和計算機科學的跨學科視角，為論文的研究提供了堅實的理論基礎和技術支持。

大模型的條件推理和模態推理-AI.x社區

圖1：對實驗結果（第4節）中討論的簡單邏輯推理模式的性能總結。猜測準確率為 50%。較大的模型通常表現更好，大多數模型在此任務中表現出明顯的弱點。

研究背景和相關工作

邏輯推理是人類認知的重要組成部分，它涉及從一個或多個前提推導出結論的過程。在哲學中，邏輯推理被視為一種嚴格的思維方式，其有效性僅依賴于邏輯詞的含義，如“和”、“或”、“不”、“如果”、“必須”、“可能”等。邏輯推理的有效性意味著，如果前提為真，結論必然為真，無論前提和結論中的非邏輯詞如何理解（Tarski, 1936）。

這種嚴格的邏輯推理與日常生活中的推理有所不同。在日常生活中，人們常常進行各種推理，這些推理不僅依賴于邏輯詞的含義，還涉及對世界知識和背景信息的理解。例如，“A在B的左邊，因此B在A的右邊”在邏輯上并不總是有效，因為其正確性依賴于“左”和“右”的具體含義。然而，“A在B的左邊，因此有東西在B的左邊”則是邏輯有效的，因為其正確性僅依賴于邏輯詞“有東西”的含義。

在大模型（LLMs）的研究中，邏輯推理被廣泛應用于評估模型的推理能力。LLMs如GPT-4、Claude和Llama等，已經展示了在生成流暢文本和處理復雜任務方面的強大能力。然而，評估這些模型在邏輯推理任務中的表現，對于理解它們的推理能力和改進模型具有重要意義。

邏輯推理任務通常包括多步推理和單步推理。多步推理需要從前提到假設的證明過程，而單步推理則關注基本的推理模式，如“如果p，那么q；非q；因此，非p”（Modus Tollens）。研究表明，LLMs在多步推理任務中表現出一定的能力，但在識別基本推理模式方面仍存在顯著差距（Tafjord et al., 2020; Tian et al., 2021）。

模態運算符如“必須”和“可能”在邏輯學中被成功地建模為對可能世界的量化。例如，“必須下雨”表示在所有可能的世界中都在下雨，而“可能下雨”表示在某些可能的世界中在下雨。這種解釋方法產生了相應的模態邏輯，其細節取決于如何獲得可能世界的域（Kripke, 1963; Kratzer, 1981）。

模態邏輯的研究進展使得我們能夠更好地理解和分析模態運算符的邏輯性質。例如，模態邏輯可以幫助我們分析“可能”和“必須”之間的關系，以及它們在不同上下文中的使用方式。這對于理解自然語言中的模態表達具有重要意義。

條件運算符“如果…那么…”也通過可能世界語義進行分析。在經典邏輯中，“如果p，那么q”被視為材料條件，其在p為假或q為真時為真。然而，這種處理方式被廣泛認為不適用于自然語言中的“如果”。例如，根據材料條件分析，“如果學生努力學習，那么她不會失敗”將意味著“每個學生都會努力學習”，顯然這并不符合我們的直覺（Stalnaker, 1968）。

相反，條件運算符通常被視為一種受限的模態運算符，表示在所有p世界中，q為真。這種解釋方法產生了相應的條件邏輯，其細節取決于哪些p世界在域中，以及其他連接詞和運算符的解釋方式（Stalnaker, 1968; Lewis, 1973b）。

材料條件分析和模態分析在處理條件句時存在顯著差異。材料條件分析認為，“如果p，那么q”在p為假或q為真時為真，而模態分析則認為，“如果p，那么q”表示在所有p世界中，q為真。盡管材料條件分析在形式邏輯中具有簡潔性和一致性，但它在處理自然語言中的條件句時往往不符合我們的直覺。

例如，根據材料條件分析，“如果下雨，那么地面濕”在下雨為假時為真，即使地面實際上是干的。然而，模態分析則認為，這種條件句在所有下雨的世界中，地面都是濕的，更符合我們的直覺和實際經驗。因此，模態分析在處理自然語言中的條件句時，通常被認為更為準確和有效。

自然語言推理（NLI）是一種評估模型理解和推理能力的任務格式。在NLI任務中，模型需要判斷一個前提和一個假設之間的關系，具體來說，前提是否蘊涵、矛盾或與假設無關。NLI任務通常基于常識推理，而不是嚴格的邏輯推理（Bowman et al., 2015; Williams et al., 2018）。

NLI任務的評估方法通常包括準確率、召回率和F1分數等指標。這些指標用于衡量模型在不同推理任務中的表現，幫助研究人員評估和改進模型的推理能力。

本研究與傳統的NLI任務有所不同。首先，本研究專注于單步邏輯推理，而不是一般的常識推理。我們關注的是模型在處理基本邏輯推理模式時的表現，如Modus Tollens、Modus Ponens等，而不是復雜的多步推理或常識推理任務。

其次，本研究引入了哲學、語言學和邏輯學中關于條件句和模態的復雜方法。這些方法幫助我們更準確地評估模型在處理條件句和模態詞時的邏輯推理能力，而不僅僅是基于常識和背景知識的推理。

實驗設計

模型選擇

在本研究中，我們測試了25個大型語言模型（LLMs），這些模型包括開源和閉源的不同版本。具體來說，這些模型涵蓋了Anthropic、Google和OpenAI等公司的產品，以及一些本地運行的模型。測試的模型包括但不限于以下幾種：

GPT-4系列：包括GPT-4 Turbo（2024-04-09）、GPT-4 Turbo（1106）、GPT-4（0613）、GPT-4（0314）和GPT-4o（2024-05-13）。

Claude系列：包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。

Llama系列：包括Llama 3 Instruct 70B、Llama 3 Instruct 8B、Llama 2 Chat 13B、Llama 2 Chat 70B和Llama 2 Chat 7B。

其他模型：如Gemini 1.5 Pro、Gemini 1.5 Flash、Mixtral 8x7B、Phi-2、Mistral 7B、Code Llama 13B、Code Llama 7B、Code Llama 34B、GPT-3.5 Turbo（0613）、GPT-3.5 Turbo（0125）、GPT-3.5 Turbo（1106）和Yi Chat 34B。

這些模型的選擇旨在涵蓋不同的架構和訓練方法，以便全面評估LLMs在條件和模態推理任務中的表現。

大模型的條件推理和模態推理-AI.x社區

表1：檢驗的推論；p、 q表示模態/條件自由命題，?表示“not”，∧表示“or”，→表示“if…”。然后“可能”，?表示“必須”。φ1, . . . , φn?ψ是從前提φ1，φn到結論ψ。圖1總結了所有且僅在沒有模態的無爭議推理上的成功。

對于Anthropic、Google和OpenAI的模型，我們通過各自的API進行測試。這些API提供了訪問模型的接口，使我們能夠在云端運行推理任務。對于本地模型，我們使用了LM Studio在Apple M2 Ultra Mac Studio上創建本地推理服務器。所有本地模型都是在Hugging Face上提供的Q6_K GGUF格式的6位量化版本。這種設置確保了我們能夠在本地環境中高效地運行推理任務，同時保持模型的性能和準確性。

數據集構建

為了評估LLMs的推理能力，我們創建了一個包含多個推理模式的問題庫。這些推理模式包括經典的邏輯推理模式，如Modus Tollens（MT）、Modus Ponens（MP）、析取消去（DS）等。每個推理模式的問題庫包含多個實例，以便全面測試模型在不同推理任務中的表現。

為了確保模型的推理能力評估不受世界知識的影響，我們為每個推理模式設計了范例實例和無意義謂詞實例。例如，對于Modus Tollens（MT），我們設計了以下范例實例：“如果瑪麗參加了婚禮，那么蘇參加了婚禮；蘇沒有參加婚禮；因此，瑪麗沒有參加婚禮。”此外，我們還使用Claude 2創建了19個額外實例和20個無意義謂詞的實例，如：“如果flugel被blimmed，那么flugel被zargled；flugel沒有被zargled；因此，flugel沒有被blimmed。”這些無意義謂詞實例確保了模型的推理判斷基于邏輯形式，而不是具體的世界知識。

為了測試前提順序對推理結果的影響，我們為每個推理模式設計了前提順序交換的版本。例如，對于Modus Tollens（MT），我們設計了前提順序交換的版本（MTx），即交換前提的順序。此外，我們還設計了無意義謂詞和前提順序交換的組合版本（ox），以全面評估模型在不同前提順序下的推理能力。

大模型的條件推理和模態推理-AI.x社區

表2：在不同提示設置下，一些簡單推斷的模型性能。

評估方法

在評估過程中，我們對每個推理模式的問題實例和每個LLM進行了多次測試，設置了不同的溫度和提示條件。具體來說，我們在溫度為0和1的情況下進行了測試，并使用了零樣本、少樣本和零樣本鏈式思維提示條件。溫度設置為0時，模型的輸出更為確定，而溫度設置為1時，模型的輸出更具隨機性。提示條件包括零樣本提示（直接給出問題）、少樣本提示（提供幾個示例）和零樣本鏈式思維提示（引導模型逐步推理）。

為了確保我們的評估結果具有可靠性，我們進行了相關性分析和詞語敏感性測試。具體來說，我們計算了模型在無意義謂詞實例和有意義謂詞實例上的回答頻率之間的皮爾遜相關系數。高相關性表明模型的推理判斷主要基于邏輯形式，而不是具體實例的特征。此外，我們測試了使用不同詞語（如“推斷”、“得出結論”等）對結果的敏感性，發現使用不同詞語對結果影響不大。

通過這些評估方法，我們能夠全面、準確地評估LLMs在條件和模態推理任務中的表現，為理解和改進模型提供了重要的參考依據。

實驗結果

材料分析與模態分析的差異

在邏輯推理中，材料條件分析和模態分析是兩種主要的方法。材料條件分析認為，“如果p，那么q”在p為假或q為真時為真，而模態分析則認為，“如果p，那么q”表示在所有p世界中，q為真。在本研究中，我們特別關注了兩種推理模式：CT（Conditional Transitivity）和AS（Antecedent Strengthening）。

根據材料條件分析，CT推理模式是有效的。然而，模態分析和直覺反例表明，CT推理模式實際上無效。例如，從“如果下雨，那么不下大雨”推導出“如果下大雨，那么不下雨”顯然是不合理的，但如果CT有效，這種推理模式就會成立（Stalnaker, 1968）。

類似地，AS推理模式在材料條件分析中是有效的，但模態分析和直覺反例表明，AS推理模式實際上無效。例如，從“如果火柴被劃燃，它會點燃”推導出“如果火柴被劃燃且被浸泡在水中，它會點燃”顯然是不合理的（Stalnaker, 1968）。

在我們的實驗中，LLMs在拒絕CT和AS推理模式方面表現出與人類判斷一致的傾向。這表明，LLMs在處理自然語言中的條件句時，并不像材料條件那樣進行推理，而是更接近于模態分析。這一發現強調了在評估LLMs的推理能力時，不應簡單地假設材料條件分析的有效性，否則可能會錯誤地認為模型在這些情況下犯了錯誤。

不一致性和過度泛化

我們測試了多種涉及模態與條件句或析取交互的推理模式。這些推理模式特別有趣，因為哲學和邏輯學的研究表明，替換模態句子可以改變推理模式的有效性。例如，析取消去（DS）在布爾句子中是有效的，但在模態句子中則不一定有效（DSmu）。類似地，否定前件（MT）在布爾句子中是有效的，但在模態句子中則不一定有效（MTmu）。

大模型的條件推理和模態推理-AI.x社區

圖2:MTmu（上圖）和MTmi（下圖）的零樣本響應顯示了許多模型的不一致性。

大模型的條件推理和模態推理-AI.x社區

圖 3：DSmu（上圖）和 DSmi（下圖）的零樣本響應顯示許多模型存在不一致。

大模型的條件推理和模態推理-AI.x社區

圖4：當我們按某種順序同時詢問領先模型有關 DSmu、MiN 和 DSmi 的問題時，聯合一致的響應百分比。較大的標準差（誤差線）表明對問題順序具有很強的敏感性，這是非常不理想的。

我們的研究發現，許多LLMs在這些復雜推理模式上表現出過度泛化的傾向。例如，盡管人類能夠識別MTmu、DSmu和CMP（Conditional Modus Ponens）推理模式的無效性，許多LLMs卻不能。這表明，LLMs在處理這些復雜推理模式時，往往會從簡單的布爾情況過度泛化到更復雜的情況。

在我們的實驗中，我們發現一些模型在拒絕MTmi（模態否定前件）時表現出類似人類的判斷，但同時接受MTmu，這在邏輯上是不一致的。這種不一致性表明，LLMs在處理模態和條件句的交互時，可能會出現邏輯錯誤。此外，我們還發現，即使是表現最好的模型，在處理CMP推理模式時，仍然會以高頻率接受其有效性，這與人類判斷相悖。

大模型的條件推理和模態推理-AI.x社區

圖5:CMP、零樣本（上圖）和思維鏈（下圖）的反應；LLM被問及推理是否保留了可能性，即當p→（q→r）是確定的并且p是可能的時，如果q→r必須是可能的。

與流行基準測試的關系

為了將我們的邏輯推理任務與LLMs評估的廣泛領域進行比較，我們將模型在我們的基準測試（非爭議性推理）上的表現與Chatbot Arena（通用輔助）、MMLU（領域知識）和GSM8K（數學推理）等流行基準測試進行了比較。結果顯示，我們的結果與這些基準測試的結果高度相關。

這種高相關性支持了邏輯推理能力與數學推理能力及領域通用能力相關的假設。這表明，邏輯推理能力不僅與數學推理能力相關，還與模型的整體能力密切相關。未來的研究可以進一步探討這種因果關系：提高邏輯推理能力是否也能提高模型的其他推理和輔助能力。

大模型的條件推理和模態推理-AI.x社區

圖6：我們的評估結果（零樣本）與 LMSYS Elo 評分、MMLU 分數和 GSM8k 分數的相關性。相關性分別為 0.74、0.77 和 0.72。所有 p 值均小于 0.01。

討論

在本研究中，我們測試了25個大型語言模型（LLMs）在條件和模態推理任務中的表現。總體而言，較大的模型在這些推理任務中表現更好，這與我們在過去幾年中對LLMs的認識一致。具體來說，GPT-4系列模型在大多數推理任務中表現優異，特別是在零樣本鏈式思維提示條件下，表現尤為突出。

即使是最先進的模型在某些推理任務中仍然表現出不一致和反直覺的推理行為。例如，盡管GPT-4系列模型在許多推理模式上表現出色，但在處理涉及模態和條件句交互的復雜推理模式時，仍然會出現邏輯不一致的情況。這表明，盡管LLMs在許多方面已經接近人類水平，但在處理某些復雜推理任務時仍存在顯著差距。

鏈式思維提示（Chain-of-Thought，CoT）是一種引導模型逐步推理的方法。在我們的實驗中，鏈式思維提示顯著提高了模型在推理任務中的表現。具體來說，GPT-4系列模型、Gemini 1.5 Pro和Claude 3 Opus在使用鏈式思維提示時，幾乎達到了完美的準確率（98.6%以上），而Llama 3 70B也能夠達到90%以上的準確率。

這種提示方法的有效性表明，通過引導模型逐步推理，可以顯著提高其在復雜推理任務中的表現。這一發現對于未來的模型改進具有重要意義，因為它表明，通過適當的提示和引導，可以幫助模型更好地理解和處理復雜的推理任務。

盡管鏈式思維提示在許多情況下顯著提高了模型的表現，但我們仍然識別出了一些不一致和反直覺的推理行為。例如，在處理MTmu（模態否定前件）和DSmu（模態析取消去）等復雜推理模式時，許多模型表現出過度泛化的傾向，即從簡單的布爾情況過度泛化到更復雜的模態情況。

此外我們還發現，即使是表現最好的模型，在處理CMP（條件推理模式）時，仍然會以高頻率接受其有效性，這與人類判斷相悖。這些不一致和反直覺的推理行為表明，LLMs在處理某些復雜推理任務時，可能會出現邏輯錯誤和判斷失誤。

未來的研究可以進一步探討LLMs與人類受試者在推理任務中的行為比較。盡管本研究報告了專家人類判斷，但實驗性人類受試者的判斷可能會展示出與LLMs類似或不同的錯誤。這種比較可以幫助我們更好地理解LLMs在推理任務中的表現，并為改進模型提供參考。

研究主要集中在一些經典的推理模式，如Modus Tollens、Modus Ponens和析取消去等。未來的研究可以探索更多的推理模式，特別是涉及模態、條件句以及其他邏輯運算符的推理模式。例如，廣義量詞、態度謂詞和程度結構等推理模式也值得進一步研究。

模態和條件推理與其他推理主題，如概率推理、因果模型和心理模擬等，有著天然的聯系。未來的研究可以探討模態和條件語言在這些推理主題中的應用。例如，模態和條件語言可以提供另一種視角來研究LLMs和人類在概率推理和因果推理中的表現。

本研究揭示了LLMs在條件和模態推理任務中的表現和局限，為未來的模型改進和應用提供了重要的參考。通過進一步探索這些推理模式的復雜性，以及與其他推理主題的聯系，我們可以更好地理解和改進LLMs的推理能力。（END）

參考資料：https://arxiv.org/pdf/2401.17169

本文轉載自 ??大噬元獸??，作者： FlerkenS

標簽

大模型

模態

LLMs

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

大模型的條件推理和模態推理

研究背景和相關工作

實驗設計

模型選擇

數據集構建

評估方法

實驗結果

材料分析與模態分析的差異

與流行基準測試的關系

討論

目錄