精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果再發(fā)論文:精準定位LLM幻覺,GPT-5、o3都辦不到

人工智能 新聞
就在近日,蘋果又發(fā)布了一篇引發(fā)學界與業(yè)界關注的重磅論文。

蘋果這幾天真是進入了論文高產(chǎn)期,時不時就有新的研究發(fā)布出來。

就在近日,蘋果又發(fā)布了一篇引發(fā)學界與業(yè)界關注的重磅論文。

這篇論文非常有意思,它用強化學習訓練模型,讓模型能夠準確標出答案中哪些部分是幻覺(hallucinated)。

其核心突破在于:模型不再只是籠統(tǒng)地提示有錯誤,而是能直接指出具體哪一段文字是錯誤的。這對于需要修改輸出或進行事實審查的用戶來說,大大節(jié)省了時間。

論文提出的方法名為 RL4HS,它使用了片段級獎勵(span-level rewards)和類別感知的 GRPO(Class-Aware Group Relative Policy Optimization),從而避免模型偷懶、只輸出無錯誤預測。

該方法在片段級幻覺檢測任務上,甚至超過了 GPT-5 和 o3。

總體而言,片段級獎勵 + 類別平衡機制讓模型真正學會了核查依據(jù)并精確指出錯誤內(nèi)容,這是讓大語言模型更可靠、更可審計的重要一步。

來源:https://x.com/rohanpaul_ai/status/1974652007068967315

接下來我們看看論文內(nèi)容。

論文摘要部分,作者表示大語言模型常常會生成幻覺內(nèi)容,即與事實不符、缺乏支持的信息,這會削弱模型輸出的可靠性。以往的大多數(shù)研究都將幻覺檢測視為一個二分類任務(即判斷是否存在幻覺),但在許多實際應用中,人們需要識別具體的幻覺片段(hallucinated spans),這實際上是一個多步驟決策過程。

這自然引出了一個關鍵問題:顯式推理是否能幫助完成幻覺片段檢測這一復雜任務?

為了解答這個問題,來自蘋果等機構的研究者首先對有無思維鏈推理的預訓練模型進行了評估,結果表明:具備 CoT 推理的模型在多次采樣時,往往能至少生成一個正確答案。

受到這一發(fā)現(xiàn)的啟發(fā),研究者提出了一個新的框架 RL4HS(Reinforcement Learning for Hallucination Span detection)。

該框架通過強化學習機制,利用片段級(span-level)獎勵函數(shù)來激勵模型進行推理。RL4HS 基于組相對策略優(yōu)化(GRPO)方法構建,并引入了類別感知策略優(yōu)化,以緩解獎勵不平衡問題。

在 RAGTruth 基準測試集(涵蓋摘要生成、問答、數(shù)據(jù)到文本等任務)上的實驗結果顯示:

  •  RL4HS 的表現(xiàn)優(yōu)于預訓練的推理模型與傳統(tǒng)監(jiān)督微調(diào)方法;
  •  這表明,對于幻覺片段檢測任務,基于片段級獎勵的強化學習機制是必要且有效的。

  • 論文地址:https://arxiv.org/pdf/2510.02173
  • 論文標題:Learning to Reason for Hallucination Span Detection

RL4HS 框架

本研究的核心問題之一是:顯式推理是否有助于識別幻覺片段。

作為初步實驗,研究者選取了 Qwen2.5-7B 和 Qwen3-8B 兩種模型,在是否啟用思維鏈兩種模式下進行評估。研究者讓大模型(Qwen 系列)分別在先推理后判斷和直接判斷兩種模式下工作。

針對每個輸入,本文對模型進行 K 次采樣,并根據(jù) Span-F1 指標選擇最佳預測結果。相應的 Span-F1@K 結果如圖 1 所示。

結果顯示,當 K=1 時,思維鏈推理對 Qwen2.5-7B 模型沒有帶來性能提升,對 Qwen3-8B 模型的提升也較為有限。然而隨著 K 值增大,Span-F1@K 指標的差距顯著擴大,這證明思維鏈推理在多次采樣時至少能產(chǎn)生一次準確預測的潛力。這些結果為采用強化學習方法來激發(fā)大語言模型在幻覺片段檢測方面的推理能力提供了明確依據(jù)。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也進行了相同實驗,觀察到了類似現(xiàn)象。

此外,本文還采用了 GRPO,其學習目標定義如下:

盡管 GRPO 在組內(nèi)對優(yōu)勢值進行了標準化處理,但本文發(fā)現(xiàn)預測類型會顯著影響優(yōu)勢值的大小,如圖 3 所示。

這種偏差源于獎勵函數(shù) r_span 固有的不對稱性。在非幻覺類別中,模型只需預測一個空片段列表即可獲得高獎勵;而在幻覺類別中,模型必須精確定位并輸出正確的片段范圍。后者是更困難的目標,細微誤差就會導致基于 F1 的獎勵大幅降低。因此,GRPO 會過度激勵模型做出非幻覺預測,最終形成高精確率但召回率被抑制的偏差行為。

為了解決這種不平衡問題,本文提出了類別感知策略優(yōu)化(Class-Aware Policy Optimization,簡稱 CAPO)。該方法為非幻覺類別的樣本引入一個縮放因子 α,用于調(diào)整其對應的優(yōu)勢值,從而緩解獎勵偏差。本實驗中使用 α = 0.5。

實驗

實驗數(shù)據(jù)集如下所示:

實驗主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為基礎模型。

 作為對比,本文還評估了以下幾類模型:

  • 預訓練推理模型:Qwen3-8B、Qwen3-14B 和 QwQ-32B;
  • 商用推理模型:GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini。

表 1 報告了 RAGTruth 在摘要、問答和數(shù)據(jù)轉文本等任務中的幻覺檢測結果。

  • 預訓練指令微調(diào)模型: Qwen2.5-7B/14B-Instruct(無論是否使用 CoT)在任務中的表現(xiàn)都較差,F(xiàn)1 分數(shù)低于 30,這表明僅依靠提示并不足以實現(xiàn)精確的片段級定位。
  • 預訓練推理模型:具備推理能力的模型(如 QwQ-32B、Qwen3-8B、Qwen3-14B)在幻覺檢測任務中能夠遷移部分推理能力。例如,Qwen3-14B 在摘要任務上的 F1 提升至 35.8,而 Qwen2.5-14B-Instruct 僅為 32.9。然而,這些模型的表現(xiàn)仍落后于微調(diào)模型,這說明僅具備一般推理能力還不足以勝任片段級幻覺檢測任務。
  • 微調(diào)基線模型:監(jiān)督微調(diào)顯著提升了性能,在 14B 規(guī)模下 F1 達到 55.4。
  • RL4HS 模型:RL4HS 在所有基線模型之上表現(xiàn)出一致的優(yōu)勢,包括專有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三個任務上的平均 F1 達到 55.9,顯著優(yōu)于 SFT 的 50.1。在 14B 規(guī)模下,RL4HS-14B 在摘要、問答和數(shù)據(jù)到文本任務上分別取得 57.6、54.8 和 62.6 的成績,超越了 Qwen3 系列以及表現(xiàn)最強的 GPT-5 和 o3 模型。

下圖表明 CAPO 有效地解決了優(yōu)勢分布分析中揭示的不平衡問題。 


為了更好地理解 RL4HS 所學習到的推理行為,本文在 RAGTruth 數(shù)據(jù)集上進行了定性結果分析(見表 3)。這一示例聚焦于一個具體的不一致問題。

預訓練模型。在微調(diào)之前,預訓練模型未能識別這一不一致。雖然它檢查了結構化的營業(yè)時間和用戶評價,但忽略了一個關鍵事實:結構化數(shù)據(jù)中并沒有任何與餐飲服務相關的屬性。因此,模型未標注出任何幻覺片段。

RL4HS。相比之下,RL4HS 成功識別出了提供餐飲服務這一聲明是幻覺內(nèi)容。其推理過程與人工設計的啟發(fā)式檢測流程高度一致

這一案例表明,RL4HS 的推理不僅停留在表面解釋層面。不同于生成籠統(tǒng)或無關的說明,它能夠執(zhí)行系統(tǒng)化的、一致性檢驗式的推理,與傳統(tǒng)幻覺檢測流程中使用的啟發(fā)式規(guī)則高度契合。這說明在片段級獎勵機制下,RL4HS 所學到的推理行為是真實的、可靠的。

了解更多內(nèi)容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-14 09:31:24

GPT-5AI

2011-05-10 15:26:30

藍影鼠標微軟

2025-02-13 09:10:47

2025-08-07 01:00:00

2025-04-07 07:18:48

2025-09-09 09:01:00

2022-04-07 13:22:06

5G物聯(lián)網(wǎng)蜂窩

2025-08-15 12:50:19

2025-06-19 09:06:00

2025-04-22 09:18:57

2025-08-11 08:42:00

GPT-5AI模型

2013-08-29 11:32:19

企業(yè)移動App定位

2016-05-12 09:33:11

IBM大型機實時分析

2025-04-21 16:25:58

OpenAI測試模型

2025-04-21 09:27:00

2024-01-22 13:57:00

模型訓練

2016-06-02 14:11:34

銳捷網(wǎng)絡機車無線定位

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-07-21 09:11:00

點贊
收藏

51CTO技術棧公眾號

精品伦精品一区二区三区视频| 久久久久在线观看| 57pao国产成永久免费视频| 成年人黄视频在线观看| 国产**成人网毛片九色| 2019最新中文字幕| 成人信息集中地| 成人av激情人伦小说| 日韩欧美亚洲综合| 亚洲日本精品一区| 日本免费不卡视频| 日韩av电影免费观看高清完整版| 欧美理论电影在线播放| 亚洲乱码国产乱码精品精大量 | 国产成人精品综合久久久| 中国1级黄色片| 国产欧美啪啪| 欧美久久久久免费| 久久国产成人精品国产成人亚洲| shkd中文字幕久久在线观看| 国产精品99久久久久| 国产成人avxxxxx在线看 | 天天综合一区| 亚洲剧情一区二区| 国产综合内射日韩久| 欧美视频免费看| 黑人巨大精品欧美一区二区三区 | 米奇777四色精品人人爽| 97精品电影院| 99在线影院| 888奇米影视| 日韩电影在线一区| 欧美亚洲在线视频| 国产亚洲精品码| 亚洲精品在线观看91| 在线播放日韩专区| 亚洲天堂视频一区| 天天久久夜夜| 亚洲成人av在线| 免费不卡av网站| 亚洲一区二区小说| 欧美日韩美少妇| 欧美三级午夜理伦三级富婆| 成人免费网站视频| 欧美日韩精品国产| 国产精品免费入口| 热色播在线视频| 五月婷婷久久综合| 国产手机免费视频| 香蕉成人app免费看片| 成人免费在线播放视频| 亚洲啪啪av| av网站在线免费播放| 亚洲国产岛国毛片在线| 日本福利一区二区三区| 国产在线日本| 国产欧美精品一区| 日韩电影大全在线观看| 国产精品一二三区视频| 久久久高清一区二区三区| 欧美人xxxxx| 黄色美女网站在线观看| 国产人成亚洲第一网站在线播放 | 黑人极品videos精品欧美裸| 91猫先生在线| 国模一区二区| 欧美色视频在线| wwwwwxxxx日本| 成人污版视频| 日韩久久久精品| 在线看黄色的网站| 丝袜美腿综合| 亚洲网站视频福利| 91大神福利视频| 午夜精品偷拍| 91精品国产91久久久久久| 日本韩国欧美中文字幕| 日韩高清在线电影| 成人黄色免费看| 欧美一级性视频| 久久这里都是精品| 宅男在线精品国产免费观看| 成人午夜在线影视| 欧美日韩国产专区| 911福利视频| swag国产精品一区二区| 亚洲精品一区二区三区婷婷月| 欧洲美一区二区三区亚洲| 日韩精品久久| 久久久久久久国产精品视频| 国产超碰人人爽人人做人人爱| 日韩和欧美的一区| aa成人免费视频| 黄色片免费在线| 一区二区三区在线高清| 日本福利视频在线| 日韩成人免费av| 亚洲第一视频在线观看| 精品人伦一区二区| 欧美日韩视频| 国产精品久久久久77777| 精品国产区一区二| 国产亚洲欧美色| 青草视频在线观看视频| 中韩乱幕日产无线码一区| 日韩精品资源二区在线| x88av在线| 激情久久久久久久| 成人av资源在线播放| 色吊丝在线永久观看最新版本| 国产精品久久久久久久午夜片 | 操人在线观看| 91精品欧美一区二区三区综合在| free性中国hd国语露脸| 你懂的成人av| 国产精品成人在线| 外国精品视频在线观看| 亚洲欧美日韩国产成人精品影院| 日韩毛片在线免费看| 波多野结衣欧美| 久久久精品影院| 伊人久久中文字幕| 99久久99精品久久久久久| 国内自拍中文字幕| 欧洲亚洲精品| 亚洲欧美综合精品久久成人| 久久久久黄色片| 国内外成人在线视频| 日本10禁啪啪无遮挡免费一区二区| 四季久久免费一区二区三区四区| 欧美色综合久久| 亚洲久久久久久久| 毛片一区二区| 久久久久久欧美精品色一二三四| 91精品久久| 欧美二区在线观看| jizz18女人高潮| 日韩高清不卡一区二区| 欧美lavv| 黄色亚洲网站| 亚洲免费精彩视频| 毛片在线免费视频| 99久久伊人精品| 久草热视频在线观看| jizz性欧美2| 国内精品久久影院| 亚洲精品97久久中文字幕无码 | 中文字幕一区二区三区四区五区| 日韩一级二级| 在线亚洲国产精品网| 天天操天天操天天操天天| 9色porny自拍视频一区二区| 国产av熟女一区二区三区| 日本免费精品| 欧美大秀在线观看| 欧美一区二区三区黄片| 性做久久久久久久久| a视频免费观看| 香蕉久久a毛片| 日韩欧美第二区在线观看| 福利视频亚洲| 日韩中文视频免费在线观看| 五月激情丁香网| 中文字幕一区二区日韩精品绯色| 色悠悠久久综合网| 1024精品久久久久久久久| 91在线看网站| 大菠萝精品导航| 亚洲免费视频一区二区| 18国产免费视频| 亚洲色图制服丝袜| 国产大学生视频| 另类av一区二区| 色一情一乱一伦一区二区三区| 国产精品4hu.www| 久热精品在线视频| 人人妻人人玩人人澡人人爽| 欧美午夜女人视频在线| 黑人と日本人の交わりビデオ| 精品在线你懂的| 欧妇女乱妇女乱视频| 青青操综合网| 国产热re99久久6国产精品| 色婷婷视频在线观看| 亚洲精品视频在线播放| 91好色先生tv| 亚洲第一激情av| 美国美女黄色片| 国产成人在线观看免费网站| 欧美一区二区三区爽大粗免费| 成人影院在线| 国产精品永久入口久久久| 97久久香蕉国产线看观看| 欧美乱妇40p| 欧美女v视频| 日韩一区二区三| 99超碰在线观看| 一区二区三区不卡在线观看| 欧美黄色一级生活片| 国产精品一区二区在线播放| 91av资源网| 在线中文字幕亚洲| 日本一区二区在线| 国产精品毛片视频| 国产人妖伪娘一区91| 男女羞羞在线观看| 久久综合免费视频影院| 欧美套图亚洲一区| 欧美mv日韩mv国产网站app| 久久久久精彩视频| 天天色天天操综合| 男女免费视频网站| 国产精品高潮呻吟久久| 91精品人妻一区二区| 国产成人精品三级麻豆| www.99在线| 国产亚洲永久域名| 人妻激情另类乱人伦人妻| 日韩精品永久网址| 欧美午夜精品久久久久免费视| 成人免费直播在线| 91久久大香伊蕉在人线| 亚洲精品第一| 国产精选久久久久久| 成人亚洲欧美| 午夜精品久久久久久久男人的天堂| 二区三区在线观看| 中文字幕免费国产精品| 国产在线黄色| 亚洲一区二区久久久| 四虎影视在线播放| 亚洲精品99久久久久| 亚洲国产精品久久人人爱潘金莲| 欧美精品丝袜中出| 91一区二区视频| 欧洲一区在线观看| 毛片在线免费播放| 欧美性xxxxxx少妇| 中文字幕在线天堂| 日本韩国欧美国产| 一级黄色在线视频| 色天使久久综合网天天| 日韩色图在线观看| 日韩欧美一区二区三区久久| wwwwww国产| 色综合色综合色综合| 天天操天天操天天操天天| 天天做天天摸天天爽国产一区| 国产 日韩 欧美 成人| 亚洲国产综合色| 日韩少妇高潮抽搐| 欧美日韩国产页| 久久精品久久久久久久| 欧美综合天天夜夜久久| 中文字幕网址在线| 欧美精品久久99久久在免费线| 亚洲系列第一页| 777久久久精品| 精品人妻一区二区三区三区四区| 日韩视频免费观看高清完整版| 精品久久久免费视频| 精品国产乱码久久久久久免费 | 国产精品亚洲四区在线观看| 91久久久久久国产精品| 伊人久久大香线蕉av超碰| 国产日韩精品一区观看| 亚洲精华一区二区三区| 日韩中文字幕一区| 911精品美国片911久久久| 黄色成人在线免费观看| 亚洲精品系列| 黄色国产小视频| 激情国产一区二区| 丰满熟女人妻一区二区三区| 99精品一区二区三区| 免费看的黄色网| 亚洲女人的天堂| 亚洲精品男人的天堂| 欧美视频精品在线观看| 精品国产免费无码久久久| 亚洲精品视频播放| 麻豆tv在线| 91成人免费观看网站| 国产第一亚洲| 成人av免费看| 国产一区二区亚洲| 青青草综合视频| 可以看av的网站久久看| 手机av在线网站| 久久亚洲精品国产精品紫薇| 任我爽在线视频| 香蕉av福利精品导航| 一区二区国产欧美| 亚洲国产天堂久久综合网| 91精品国产91久久久久游泳池 | 国产精品18久久久久久久久| theav精尽人亡av| 国产精品久久久久久久久快鸭 | av在线导航| 国产成人拍精品视频午夜网站| 精品一区二区三区在线观看视频 | 99久久精品网| 春日野结衣av| 处破女av一区二区| 中文字幕求饶的少妇| 日韩欧美在线播放| 亚洲精品综合网| 久久久久www| 成人在线不卡| 玛丽玛丽电影原版免费观看1977| 五月天久久久| 国产视频手机在线播放| 99久久久久久| 免费无码毛片一区二区app| 欧美日免费三级在线| 深夜福利免费在线观看| 九色精品美女在线| 亚洲伊人精品酒店| 水蜜桃一区二区| 欧美资源在线| 真人bbbbbbbbb毛片| 亚洲综合精品久久| 国产毛片久久久久| www.国产精品一二区| 我爱我色成人网| 欧美区高清在线| 亚洲制服av| 日本japanese极品少妇| 亚洲在线视频网站| 国产xxxx在线观看| 久久天堂电影网| 999久久久国产999久久久| 涩涩涩999| 日韩精品电影在线| 在线免费观看麻豆| 日韩欧美中文字幕在线观看| 人妻va精品va欧美va| 欧美激情网站在线观看| 日韩欧美一级| 成人免费看片'免费看| 懂色av一区二区三区蜜臀 | 黄色av一区| 苍井空张开腿实干12次| 亚洲老妇xxxxxx| www国产在线| 欧美激情一区二区久久久| 亚洲国产aⅴ精品一区二区| 男女啪啪免费观看| 国产精品亚洲а∨天堂免在线| 丝袜 亚洲 另类 欧美 重口| 在线播放亚洲一区| 在线āv视频| 国产精品日韩二区| 亚洲精品日本| 国产黄色网址在线观看| 色综合久久中文字幕综合网| 免费在线黄色影片| 国产精品久久久久久久天堂| 久久激情电影| 毛毛毛毛毛毛毛片123| 亚洲一区二区三区三| 少妇高潮一区二区三区69| 欧美一级免费视频| 成人高清电影网站| 6080国产精品| 亚洲成人av电影在线| 日本在线丨区| 国产精品永久免费| 欧美.www| jlzzjizz在线播放观看| 91成人在线观看喷潮| 男人天堂手机在线| 国产精品裸体一区二区三区| 日韩视频精品在线观看| 舐め犯し波多野结衣在线观看| 欧美久久久久久蜜桃| xxxcom在线观看| 日本成人黄色免费看| 国产一区二区不卡| 日韩欧美成人一区二区三区| 最近中文字幕日韩精品| 澳门成人av| 亚洲 欧美 日韩系列| 亚洲最大成人网4388xx| 免费福利在线视频| 91精品在线看| 亚洲欧美日韩国产一区| 国产精品精品软件男同| 亚洲国产高清自拍| 国产成人福利夜色影视| 六月婷婷激情综合| 国产日韩av一区| 亚洲精品无amm毛片| 国产成人精品电影| 欧美精品午夜| 免费成人深夜蜜桃视频| 亚洲黄色片网站| 97色婷婷成人综合在线观看| 男人添女人下面高潮视频| 国产精品妹子av|