ICML 2025 | 大模型能在信息不完備的情況下問(wèn)出正確的問(wèn)題嗎？

2025-07-25 08:45:00

我們將簡(jiǎn)要介紹 TMLR 課題組和斯坦福大學(xué)合作的 AR-Bench，并展示我們從廣泛地測(cè)試實(shí)驗(yàn)中提取出來(lái)的重要發(fā)現(xiàn)，相關(guān)論文已發(fā)表于 ICML 2025 會(huì)議。

大語(yǔ)言模型（Large Language Model, LLM）在復(fù)雜推理任務(wù)中表現(xiàn)卓越。借助鏈?zhǔn)剿季S（Chain-of-Thought, CoT），LLM 能夠?qū)?fù)雜問(wèn)題分解為簡(jiǎn)單步驟，充分探索解題思路并得出正確答案。LLM 已在多個(gè)基準(zhǔn)上展現(xiàn)出優(yōu)異的推理能力，尤其是數(shù)學(xué)推理和代碼生成。

然而，當(dāng)前針對(duì) LLM 推理能力的研究主要集中于被動(dòng)推理（Passive Reasoning, PR），即在提供完整信息的前提下讓模型進(jìn)行推理。相比之下，對(duì)信息不完備場(chǎng)景下模型推理能力的研究明顯不足。

這類場(chǎng)景在實(shí)際應(yīng)用中十分常見(jiàn)，例如偵探需要通過(guò)詢問(wèn)和走訪獲取破案線索，醫(yī)生需要通過(guò)問(wèn)診收集診斷依據(jù)。我們將這類需要主動(dòng)獲取信息的推理稱為主動(dòng)推理（Active Reasoning, AR）。

目前關(guān)于 AR 的方法和基準(zhǔn)研究較少，探索不足，制約了 LLM 在復(fù)雜現(xiàn)實(shí)場(chǎng)景中的應(yīng)用。如圖 1 所示，被動(dòng)推理是直接從給定的充分信息中求解，而主動(dòng)推理則需要從不完整的信息出發(fā)，通過(guò)多輪交互來(lái)獲取關(guān)鍵線索，最終得出結(jié)論。可以說(shuō)，被動(dòng)推理的核心是找到答案，而主動(dòng)推理的核心是提出正確的問(wèn)題。

圖 1 被動(dòng)推理（左）與主動(dòng)推理（右）的示意圖。

盡管主動(dòng)推理對(duì)實(shí)現(xiàn)通用人工智能至關(guān)重要，但目前學(xué)術(shù)界對(duì)此關(guān)注甚少，LLM 在這方面的能力也亟待一個(gè)系統(tǒng)性的評(píng)估。為此，我們提出了 AR-Bench，一個(gè)旨在全面評(píng)估大模型主動(dòng)推理能力的基準(zhǔn)，并進(jìn)行了一系列深入的實(shí)驗(yàn)分析。

我們的主要貢獻(xiàn)有如下三點(diǎn)：

新問(wèn)題：我們提出了主動(dòng)推理這一亟待研究的新問(wèn)題，并系統(tǒng)定義了其相對(duì)于被動(dòng)推理的核心挑戰(zhàn)。
新基準(zhǔn)：我們提出了專門(mén)用于評(píng)估主動(dòng)推理能力的基準(zhǔn) AR-Bench ，系統(tǒng)的測(cè)試模型在復(fù)雜場(chǎng)景中的主動(dòng)推理能力。
新發(fā)現(xiàn)：我們通過(guò)在 AR-Bench 上的全面評(píng)測(cè)，揭示了當(dāng)前頂尖 LLM 在主動(dòng)推理方面的普遍且嚴(yán)重的短板，并指出了未來(lái)的研究方向。

接下來(lái)，我們將簡(jiǎn)要介紹 TMLR 課題組和斯坦福大學(xué)合作的 AR-Bench，并展示我們從廣泛地測(cè)試實(shí)驗(yàn)中提取出來(lái)的重要發(fā)現(xiàn)，相關(guān)論文已發(fā)表于 ICML 2025 會(huì)議。

論文標(biāo)題：From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?
論文鏈接：https://arxiv.org/abs/2506.08295
代碼鏈接：https://github.com/tmlr-group/AR-Bench

新問(wèn)題：主動(dòng)推理

傳統(tǒng)的 LLM 推理研究，如 CoT，大多遵循被動(dòng)推理的范式。在這種范式下，模型接收一個(gè)包含所有必要信息的問(wèn)題，然后逐步地推導(dǎo)出最終答案。然而，現(xiàn)實(shí)中許多場(chǎng)景都存在著信息不完整的情況。以醫(yī)療診斷為例，醫(yī)生需要通過(guò)與患者互動(dòng)主動(dòng)獲取癥狀、病史等關(guān)鍵信息，而非被動(dòng)接收完整數(shù)據(jù)。這類信息不完整的場(chǎng)景要求 LLM 通過(guò)提問(wèn)、信息探索和動(dòng)態(tài)交互來(lái)補(bǔ)充缺失信息，最終完成推理任務(wù)。

我們將這種推理范式定義為主動(dòng)推理。在 AR 范式下，模型僅獲得部分信息，并且必須通過(guò)與外部環(huán)境（如數(shù)據(jù)庫(kù)、API 或人類用戶）的交互來(lái)主動(dòng)提問(wèn)，以獲取缺失的關(guān)鍵信息來(lái)解決問(wèn)題。AR 綜合了提問(wèn)、檢索和迭代推理，是一個(gè)更全面、更動(dòng)態(tài)、更具挑戰(zhàn)性的問(wèn)題解決框架。

對(duì)主動(dòng)推理問(wèn)題的探索，有助于我們更好地理解和提升 LLM 在真實(shí)、復(fù)雜場(chǎng)景下的智能水平，推動(dòng)其從一個(gè)被動(dòng)的文本處理器，轉(zhuǎn)變?yōu)橐粋€(gè)能夠主動(dòng)解決問(wèn)題的人工智能體。

圖 2 PR 要求模型通過(guò)一步步推理從給定的問(wèn)題得到正確答案，而 AR 要求模型分析當(dāng)前任務(wù)，提出一系列關(guān)鍵的問(wèn)題來(lái)獲取重要信息，并利用這些信息得到正確的答案。本質(zhì)上，PR 的核心要求是根據(jù)問(wèn)題得到正確答案，而 AR 的核心要求是提出正確的問(wèn)題來(lái)獲取關(guān)鍵的信息。

新基準(zhǔn)：AR-Bench

為了系統(tǒng)地評(píng)估和衡量 LLM 的主動(dòng)推理能力，我們構(gòu)建了 AR-Bench (Active Reasoning Benchmark)。AR-Bench 旨在模擬真實(shí)世界中的信息獲取場(chǎng)景，它包含三個(gè)不同類型的任務(wù)，分別對(duì)應(yīng)三種核心的推理能力：

偵探案件 (Detective Cases, DC): 模擬刑事案件調(diào)查，模型需要通過(guò)提問(wèn)來(lái)搜集線索、分析案情，考驗(yàn)其常識(shí)推理能力。

情景謎題 (Situation Puzzles, SP): 也被稱為「海龜湯」，模型需要通過(guò) 「是 / 否」問(wèn)題來(lái)揭開(kāi)一個(gè)看似矛盾或離奇情景背后的真相，考驗(yàn)其邏輯推理和發(fā)散思維能力。

數(shù)字猜謎 (Guessing Numbers, GN): 經(jīng)典的主動(dòng)推理游戲，模型需要根據(jù)反饋猜測(cè)一個(gè)由不重復(fù)數(shù)字組成的四位數(shù)，考驗(yàn)其符號(hào)推理能力。

圖 3 AR-Bench 中三種任務(wù)的示例。

我們的評(píng)估框架采用多輪交互范式，其中提問(wèn)方 LLM 與扮演信息源的「回答者」智能體進(jìn)行動(dòng)態(tài)對(duì)話。該評(píng)估體系包含兩個(gè)維度：

1) 結(jié)果評(píng)估：在 DC 和 GN 任務(wù)中判斷模型結(jié)論與標(biāo)準(zhǔn)答案的匹配度，對(duì)于開(kāi)放式問(wèn)題 SP 則采用 F1-Score 衡量回答相似度；

2) 過(guò)程評(píng)估：基于預(yù)設(shè)關(guān)鍵問(wèn)題（Key Questions），通過(guò) LLM-as-a-judge 方法以交互輪次為粒度評(píng)估對(duì)話是否有效解決關(guān)鍵問(wèn)題（適用于 DC 和 SP ），而在 GN 任務(wù)中則直接計(jì)算反饋信息的數(shù)字準(zhǔn)確率作為過(guò)程評(píng)分指標(biāo)。這一綜合評(píng)估方案不僅關(guān)注最終答案的正確性，更重視模型在交互過(guò)程中提出問(wèn)題的質(zhì)量和信息獲取的有效性，從而全面刻畫(huà)模型的主動(dòng)推理能力。

新發(fā)現(xiàn)：

大模型主動(dòng)推理能力嚴(yán)重不足

我們?cè)?AR-Bench 上對(duì)包括 GPT-4o 在內(nèi)的多個(gè)先進(jìn) LLM，以及基于 prompting 和基于訓(xùn)練的推理方法進(jìn)行了廣泛測(cè)試。

實(shí)驗(yàn)結(jié)果（圖 4，5）表明：目前的語(yǔ)言模型和推理方法都無(wú)法有效解決 AR-Bench 提出的問(wèn)題，我們發(fā)現(xiàn)：

1. 即使是最先進(jìn)的 GPT-4o 模型也只能在 GN 任務(wù)上達(dá)到 35% 的準(zhǔn)確率。

2. 細(xì)粒度的指導(dǎo)和基于搜索的方法（ToT）只能提供非常有限的性能提升。

3. 基于訓(xùn)練的方法（SFT, DPO）甚至在一些任務(wù)上使模型性能變差。

圖 4 不同模型在 AR-Bench 上的性能對(duì)比。

圖 5 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 上的性能對(duì)比。

我們還測(cè)試了兩個(gè)先進(jìn)的主動(dòng)推理方法（Proactive CoT 和 Uncertanty of Thoughts）以及人類在 AR-Bench 上的表現(xiàn)（見(jiàn)圖 6）。我們發(fā)現(xiàn)：

1. 即使是目前提出的先進(jìn)的主動(dòng)推理方法也無(wú)法提升模型在 AR-Bench 上的性能。

2. 人類在 AR-Bench 上的推理表現(xiàn)顯著優(yōu)于目前先進(jìn)的語(yǔ)言模型。

圖 6（左）先進(jìn)的主動(dòng)推理方法在 AR-Bench 上的性能表現(xiàn)，（右）人類在 AR-Bench 上的表現(xiàn)和 GPT-4o 對(duì)比。

為了更細(xì)致的研究語(yǔ)言模型在主動(dòng)推理上的表現(xiàn)，理解目前模型和方法的不足，我們測(cè)量了模型在主動(dòng)推理交互過(guò)程中模型對(duì)該任務(wù)的解決程度（見(jiàn)圖 7,8），我們發(fā)現(xiàn)：

1. 在交互過(guò)程中，模型的收益呈現(xiàn)遞減趨勢(shì)，在后期問(wèn)題質(zhì)量低下

2. 較弱的模型問(wèn)出的問(wèn)題質(zhì)量偏低，并且無(wú)法對(duì)交互機(jī)會(huì)進(jìn)行有效利用

3. 較強(qiáng)的模型能夠利用多輪交互機(jī)會(huì)，持續(xù)獲得有用的信息

4. 基于搜索的方法在 AR-Bench 中依賴于每一輪評(píng)估問(wèn)題質(zhì)量的驗(yàn)證器的可靠性，表現(xiàn)在對(duì) GN 任務(wù)有顯著提升（驗(yàn)證器基于數(shù)值反饋構(gòu)建，簡(jiǎn)單可靠），而在 SP 任務(wù)下無(wú)法提升推理表現(xiàn) （驗(yàn)證器基于自然語(yǔ)言反饋構(gòu)建，復(fù)雜且相對(duì)不可靠）。

圖 7 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 推理中過(guò)程分的變化趨勢(shì)。

圖 8 不同模型在 AR-Bench 各任務(wù)上推理中過(guò)程分的變化趨勢(shì)。

我們還進(jìn)行在 AR-Bench 進(jìn)行了三方面的消融實(shí)驗(yàn)（見(jiàn)圖 9,10,11）：

1. 固定交互信息，探究不同模型的推理能力的表現(xiàn)。

2. 延長(zhǎng)交互的輪數(shù)，給予模型更多的機(jī)會(huì)進(jìn)行信息獲取，探究模型的表現(xiàn)變化。

3. 探究在實(shí)驗(yàn)中扮演回答者的模型的可靠性。

我們發(fā)現(xiàn)：

1. 更大的模型能夠在固定的記錄中提取出更多的有效信息。

2. 簡(jiǎn)單延長(zhǎng)交互輪數(shù)無(wú)法完全解決主動(dòng)推理任務(wù)。

3. 面對(duì)主模型提出的問(wèn)題，回答者能夠給出可靠的回復(fù)。

圖 9 使用 Llama-3.1-70B 和 Llama-3.1-405B 在交互過(guò)程中獲得的交互記錄測(cè)試不同模型在給定信息的情況下給出正確結(jié)論的能力。

圖 10 延長(zhǎng)交互輪數(shù)后，比較模型的推理表現(xiàn)變化。

圖 11 回答者模型的可靠性驗(yàn)證。

為更直觀評(píng)估模型在主動(dòng)推理中的表現(xiàn)，我們系統(tǒng)分析了不同任務(wù)中的典型錯(cuò)誤模式（見(jiàn)圖 12），并通過(guò)具體案例深入剖析了模型的失誤原因（見(jiàn)圖 13）。

我們發(fā)現(xiàn)：

1. 模型會(huì)問(wèn)出寬泛，不具體的問(wèn)題。

2. 模型會(huì)問(wèn)出沒(méi)有幫助的問(wèn)題。

3. 模型在主動(dòng)推理中會(huì)頻繁出現(xiàn)時(shí)間線誤解，忽視證據(jù)，強(qiáng)行提出未經(jīng)驗(yàn)證的假設(shè)，以及沒(méi)有完全利用符號(hào)反饋等典型問(wèn)題。

圖 12 GPT-4o 模型在不同任務(wù)下的推理正確和推理錯(cuò)誤的案例分析。

圖 13 Llama-3.1-8B 和 GPT-4o 在不同任務(wù)下的出現(xiàn)的典型錯(cuò)誤統(tǒng)計(jì)。

總結(jié)

我們的工作系統(tǒng)地定義了主動(dòng)推理這一重要問(wèn)題，并構(gòu)建了 AR-Bench 作為社群的評(píng)估工具。我們的實(shí)驗(yàn)結(jié)果清晰地表明，當(dāng)前的大語(yǔ)言模型雖然在被動(dòng)推理上能力強(qiáng)大，但在更貼近現(xiàn)實(shí)的主動(dòng)推理場(chǎng)景下卻舉步維艱。

展望未來(lái)工作，我們認(rèn)為 AR-Bench 存在以下拓展方向：

提升模型的主動(dòng)推理能力：

1. 采集小規(guī)模但是高質(zhì)量的微調(diào)數(shù)據(jù)集

2. 將強(qiáng)化學(xué)習(xí)推理方法（PPO, GRPO, DAPO）和推理模型適配到主動(dòng)推理

3. 為搜索方法開(kāi)發(fā)更先進(jìn)可靠的驗(yàn)證器，以提升搜索方法在主動(dòng)推理上的表現(xiàn)

將 AR-Bench 拓展到更多的任務(wù)和領(lǐng)域：

1. 醫(yī)療場(chǎng)景和定制化代理

2. 多輪檢索增強(qiáng)生成和工具調(diào)用

3. 模擬真實(shí)環(huán)境和多模態(tài)場(chǎng)景，例如機(jī)器人和游戲

更多的實(shí)驗(yàn)分析和技術(shù)細(xì)節(jié)，請(qǐng)參閱我們的論文及源碼，我們也將持續(xù)更新本工作的內(nèi)容。

我們希望 AR-Bench 能夠激發(fā)更多關(guān)于主動(dòng)推理的研究，推動(dòng)開(kāi)發(fā)出能夠主動(dòng)提問(wèn)、高效探索、真正解決現(xiàn)實(shí)世界問(wèn)題的人工智能。非常感謝大家關(guān)注我們的工作！

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心