蘋果再發(fā)論文:精準定位LLM幻覺,GPT-5、o3都辦不到
蘋果這幾天真是進入了論文高產(chǎn)期,時不時就有新的研究發(fā)布出來。
就在近日,蘋果又發(fā)布了一篇引發(fā)學界與業(yè)界關注的重磅論文。
這篇論文非常有意思,它用強化學習訓練模型,讓模型能夠準確標出答案中哪些部分是幻覺(hallucinated)。
其核心突破在于:模型不再只是籠統(tǒng)地提示有錯誤,而是能直接指出具體哪一段文字是錯誤的。這對于需要修改輸出或進行事實審查的用戶來說,大大節(jié)省了時間。
論文提出的方法名為 RL4HS,它使用了片段級獎勵(span-level rewards)和類別感知的 GRPO(Class-Aware Group Relative Policy Optimization),從而避免模型偷懶、只輸出無錯誤預測。
該方法在片段級幻覺檢測任務上,甚至超過了 GPT-5 和 o3。
總體而言,片段級獎勵 + 類別平衡機制讓模型真正學會了核查依據(jù)并精確指出錯誤內(nèi)容,這是讓大語言模型更可靠、更可審計的重要一步。

來源:https://x.com/rohanpaul_ai/status/1974652007068967315
接下來我們看看論文內(nèi)容。
論文摘要部分,作者表示大語言模型常常會生成幻覺內(nèi)容,即與事實不符、缺乏支持的信息,這會削弱模型輸出的可靠性。以往的大多數(shù)研究都將幻覺檢測視為一個二分類任務(即判斷是否存在幻覺),但在許多實際應用中,人們需要識別具體的幻覺片段(hallucinated spans),這實際上是一個多步驟決策過程。
這自然引出了一個關鍵問題:顯式推理是否能幫助完成幻覺片段檢測這一復雜任務?
為了解答這個問題,來自蘋果等機構的研究者首先對有無思維鏈推理的預訓練模型進行了評估,結果表明:具備 CoT 推理的模型在多次采樣時,往往能至少生成一個正確答案。
受到這一發(fā)現(xiàn)的啟發(fā),研究者提出了一個新的框架 RL4HS(Reinforcement Learning for Hallucination Span detection)。
該框架通過強化學習機制,利用片段級(span-level)獎勵函數(shù)來激勵模型進行推理。RL4HS 基于組相對策略優(yōu)化(GRPO)方法構建,并引入了類別感知策略優(yōu)化,以緩解獎勵不平衡問題。
在 RAGTruth 基準測試集(涵蓋摘要生成、問答、數(shù)據(jù)到文本等任務)上的實驗結果顯示:
- RL4HS 的表現(xiàn)優(yōu)于預訓練的推理模型與傳統(tǒng)監(jiān)督微調(diào)方法;
- 這表明,對于幻覺片段檢測任務,基于片段級獎勵的強化學習機制是必要且有效的。

- 論文地址:https://arxiv.org/pdf/2510.02173
- 論文標題:Learning to Reason for Hallucination Span Detection
RL4HS 框架
本研究的核心問題之一是:顯式推理是否有助于識別幻覺片段。
作為初步實驗,研究者選取了 Qwen2.5-7B 和 Qwen3-8B 兩種模型,在是否啟用思維鏈兩種模式下進行評估。研究者讓大模型(Qwen 系列)分別在先推理后判斷和直接判斷兩種模式下工作。
針對每個輸入,本文對模型進行 K 次采樣,并根據(jù) Span-F1 指標選擇最佳預測結果。相應的 Span-F1@K 結果如圖 1 所示。

結果顯示,當 K=1 時,思維鏈推理對 Qwen2.5-7B 模型沒有帶來性能提升,對 Qwen3-8B 模型的提升也較為有限。然而隨著 K 值增大,Span-F1@K 指標的差距顯著擴大,這證明思維鏈推理在多次采樣時至少能產(chǎn)生一次準確預測的潛力。這些結果為采用強化學習方法來激發(fā)大語言模型在幻覺片段檢測方面的推理能力提供了明確依據(jù)。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也進行了相同實驗,觀察到了類似現(xiàn)象。
此外,本文還采用了 GRPO,其學習目標定義如下:

盡管 GRPO 在組內(nèi)對優(yōu)勢值進行了標準化處理,但本文發(fā)現(xiàn)預測類型會顯著影響優(yōu)勢值的大小,如圖 3 所示。

這種偏差源于獎勵函數(shù) r_span 固有的不對稱性。在非幻覺類別中,模型只需預測一個空片段列表即可獲得高獎勵;而在幻覺類別中,模型必須精確定位并輸出正確的片段范圍。后者是更困難的目標,細微誤差就會導致基于 F1 的獎勵大幅降低。因此,GRPO 會過度激勵模型做出非幻覺預測,最終形成高精確率但召回率被抑制的偏差行為。
為了解決這種不平衡問題,本文提出了類別感知策略優(yōu)化(Class-Aware Policy Optimization,簡稱 CAPO)。該方法為非幻覺類別的樣本引入一個縮放因子 α,用于調(diào)整其對應的優(yōu)勢值,從而緩解獎勵偏差。本實驗中使用 α = 0.5。

實驗
實驗數(shù)據(jù)集如下所示:

實驗主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為基礎模型。
作為對比,本文還評估了以下幾類模型:
- 預訓練推理模型:Qwen3-8B、Qwen3-14B 和 QwQ-32B;
- 商用推理模型:GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini。
表 1 報告了 RAGTruth 在摘要、問答和數(shù)據(jù)轉文本等任務中的幻覺檢測結果。

- 預訓練指令微調(diào)模型: Qwen2.5-7B/14B-Instruct(無論是否使用 CoT)在任務中的表現(xiàn)都較差,F(xiàn)1 分數(shù)低于 30,這表明僅依靠提示并不足以實現(xiàn)精確的片段級定位。
- 預訓練推理模型:具備推理能力的模型(如 QwQ-32B、Qwen3-8B、Qwen3-14B)在幻覺檢測任務中能夠遷移部分推理能力。例如,Qwen3-14B 在摘要任務上的 F1 提升至 35.8,而 Qwen2.5-14B-Instruct 僅為 32.9。然而,這些模型的表現(xiàn)仍落后于微調(diào)模型,這說明僅具備一般推理能力還不足以勝任片段級幻覺檢測任務。
- 微調(diào)基線模型:監(jiān)督微調(diào)顯著提升了性能,在 14B 規(guī)模下 F1 達到 55.4。
- RL4HS 模型:RL4HS 在所有基線模型之上表現(xiàn)出一致的優(yōu)勢,包括專有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三個任務上的平均 F1 達到 55.9,顯著優(yōu)于 SFT 的 50.1。在 14B 規(guī)模下,RL4HS-14B 在摘要、問答和數(shù)據(jù)到文本任務上分別取得 57.6、54.8 和 62.6 的成績,超越了 Qwen3 系列以及表現(xiàn)最強的 GPT-5 和 o3 模型。
下圖表明 CAPO 有效地解決了優(yōu)勢分布分析中揭示的不平衡問題。


為了更好地理解 RL4HS 所學習到的推理行為,本文在 RAGTruth 數(shù)據(jù)集上進行了定性結果分析(見表 3)。這一示例聚焦于一個具體的不一致問題。
預訓練模型。在微調(diào)之前,預訓練模型未能識別這一不一致。雖然它檢查了結構化的營業(yè)時間和用戶評價,但忽略了一個關鍵事實:結構化數(shù)據(jù)中并沒有任何與餐飲服務相關的屬性。因此,模型未標注出任何幻覺片段。
RL4HS。相比之下,RL4HS 成功識別出了提供餐飲服務這一聲明是幻覺內(nèi)容。其推理過程與人工設計的啟發(fā)式檢測流程高度一致
這一案例表明,RL4HS 的推理不僅停留在表面解釋層面。不同于生成籠統(tǒng)或無關的說明,它能夠執(zhí)行系統(tǒng)化的、一致性檢驗式的推理,與傳統(tǒng)幻覺檢測流程中使用的啟發(fā)式規(guī)則高度契合。這說明在片段級獎勵機制下,RL4HS 所學到的推理行為是真實的、可靠的。

了解更多內(nèi)容,請參考原論文。
































