精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源模型「幻覺」更嚴重,這是三元組粒度的幻覺檢測套件

人工智能 新聞
BSChecker:細粒度大模型幻覺檢測工具與基準測試排行榜

大模型長期以來一直存在一個致命的問題,即生成幻覺。由于數據集的復雜性,難免會包含過時和錯誤的信息,這使得輸出質量面臨著極大的挑戰。過多的重復信息還可能導致大型模型產生偏見,這也算是一種形式的幻覺。如何檢測和有效緩解大模型的生成幻覺問題一直是學術界的熱門課題。

近日,亞馬遜上海人工智能研究院推出細粒度大模型幻覺檢測工具 BSChecker,包含如下重要特性:

  • 細粒度幻覺檢測框架,對大模型輸出文本進行三元組粒度的幻覺檢測。
  • 幻覺檢測基準測試集,包含三種任務場景,滿足用戶的不同需求。
  • 兩個基準測試排行榜,目前涵蓋15個主流大模型的幻覺檢測結果。

另外,BSChecker的作者們在Gemini推出后也很快做了自動檢測的幻覺測試。

圖片

幻覺檢測框架示意圖

  • 項目地址:https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
  • 排行榜地址:https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術亮點

更細的粒度:與傳統的段落或句子級別的分析方法不同,BSChecker 將大模型的輸出文本分解成知識三元組。進行這樣的細粒度檢測不僅能驗證單個知識的真實性,還為進一步的精確分析提供了可能。

通常我們將幻覺檢測的最小單元稱為一個聲明(claim)。在前人的工作中,有使用輸出文本中的句子作為聲明的(SelfCheckGPT),也有使用模型從輸出文本中抽取更短的子句作為聲明的(FActScore,FACTOOL)。BSChecker 探索了使用知識三元組表示聲明的方法,這個想法受到知識圖譜的啟發,在知識圖譜中三元組被用來封裝事實和知識單元。知識三元組采用(主語,謂詞,賓語)的結構,捕捉輸出文本中的細粒度信息。以下示例展示了一句句子和其對應的細粒度三元組表示:

吳京在電影《戰狼》中飾演了主角冷鋒。

圖片

三元標簽模式:不同于傳統幻覺檢測方法將整個輸出文本分類為是否存在幻覺這兩種類別標簽,BSChecker 對輸出文本中的每一個聲明都進行幻覺檢測并分類。通過這種方式,輸出文本和其相應的參考文本之間的關系可以可視化為下圖:

圖片


圖中輸出文本和參考文本之間的交集是可以直接驗證的部分,其中又分為蘊涵(Entailment,圖中綠勾?)和矛盾(Contradiction,圖中紅叉?)兩類,具體取決于聲明是否得到參考文本的支撐。然而,在實際應用中,參考文本可能并不總是能提供足夠的證據來驗證所有聲明。在這種情況下,這些聲明的真實性需要額外的參考文本才能進行評估(橙色問號),我們將這樣的聲明稱為中性(Neutral)。

這三個類別與事實核查(Fact Checking)領域中的支撐(Support)、反駁(Refute)和信息不足(Not Enough Information)這三個概念密切相關,并且它們在自然語言推理(NLI)中也有應用。BSChecker 使用這種三元標簽模式取代傳統的二分類標簽,使得輸出文本與參考文本之間的關系得到更精確的表達。 

更廣泛的覆蓋范圍:BSChecker 根據輸入大模型的上下文的數量和質量,設定了三種不同的場景,分別是無上下文(如開放性問答任務),帶噪聲的上下文(如檢索增強生成任務)和準確上下文(如文本摘要、信息抽取任務)。

圖片

三種場景對比示意圖

基于這三種場景,作者構建了一個基準數據集,包括 300 個示例,每種場景對應 100 個示例。這些示例是從下表中列出的數據源中隨機抽取的:

圖片

BSChecker 工作流程

BSChecker 具有模塊化的工作流程,分為三個可配置的模塊:聲明抽取器 E,幻覺檢測器 C,以及聚合規則 τ。這三個模塊互相解耦合,可以通過增強其中的部分模塊對整個框架進行擴展和改進。

圖片

BSChecker 工作流程圖

其中兩個主要模塊是:

  • 基于大模型的聲明抽取器:作者發現大模型很擅長提取聲明三元組,在當前版本中,他們使用 GPT-4 和 Claude 2 作為聲明抽取器。
  • 基于人工或模型的幻覺檢測器:對于給定的聲明三元組和參考文本,標注者可以相應地進行標注,如下圖所示。該標注工具也將很快發布。基于模型的幻覺檢測器將在后續的自動評估排行榜章節中介紹。

圖片

無上下文場景下的評估過程

人工評估結果

BSChecker 目前收錄了 2100 個經過細粒度人工標注的大模型輸出文本,涵蓋了 7 個主流大模型,如 GPT-4、Claude 2、LLaMA 2 等。基于這個結果,作者構建了一個交互式的排行榜,見下圖。人工評估排行榜包含兩個可交互的選項:1)上文中提到的三種任務場景,以及三種場景上平均的結果(頂部選項);2)評估指標(左側 “排名依據” 選項)。下圖顯示了依據蘊涵排名得到的排行榜。

圖片

根據人工評估結果,作者得出了以下發現:

上下文信息對于輸出符合事實的文本至關重要

平均而言,從無上下文到帶噪聲的上下文,再到準確上下文,評估結果為矛盾的比例從 21% 降至 11%,再到 5%。

圖片

在真實性方面,最新的商業閉源大模型比大多數開源大模型更強

最新的商業大模型,如 Claude 2、GPT-4 和 GPT-3.5-Turbo,相較于大多數開源大模型,產生了更少的幻覺。具體而言,商業大模型在準確上下文場景中表現良好。例如,GPT-4 在這個場景中幾乎沒有幻覺(0.9% 矛盾和 1.2% 中性)。LLaMA 2 70B 在排行榜上與商業大模型結果接近,特別是在提供上下文的情況下。

圖片

GPT 系列大模型的真實性穩步提高

GPT-4 比 GPT-3.5 更好,而 GPT-3.5 又遠遠優于 InstructGPT。作者從相關文獻中尋找并總結了一些可能的解釋,詳見代碼倉庫中的 README。其中一個實驗是:他們將相同的文本輸入 GPT-4,并要求它解釋,這是一種修改過的檢索增強生成(RAG)場景。有趣的是,GPT-4 犯了一個明顯的錯誤,它宣稱在真實性方面 InstructGPT 比 GPT-3.5 更好。

圖片

即使對于最新的商業大模型,無上下文場景仍然具有挑戰性

雖然 GPT-4 和 Claude 2 在很大程度上領先于開源大模型,但 GPT4 仍然有超過 10% 的錯誤,這是一個不可忽視的錯誤比例。Claude 2 相對保守,犯的錯誤(即矛盾)較少,但往往提供更多無法驗證的輸出文本。

圖片


自動評估排行榜

人工標注有助于深入了解大模型的幻覺,但對于評估更多的大模型而言,它們不具備可擴展性。BSChecker 框架允許插入基于模型的幻覺檢測器,作者發現大模型和自然語言推理(NLI)模型都是不錯的選擇。它可以在命令行輕松配置,從而形成一個完全自動化的端到端幻覺檢測框架。

以下動圖顯示了由 GPT-4 作為聲明抽取器和幻覺檢測器得到的排行榜。作者現在在排行榜上評估了 15 個大模型。用戶可以方便地使用他們的工具將自己檢測的結果放在排行榜上。

圖片

自動幻覺檢測框架的性能如何?

作者使用 Kendall's tau 來衡量自動排行榜與人工評估排行榜之間的一致性。具體地,他們使用了 scipy.stats.kendalltau,它可以返回兩個排名之間的 p 值(表示置信度)和 tau 值(表示相關性)。下面的熱度圖顯示了聲明抽取器(列)、幻覺檢測器(行)和任務場景(水平條)的各種組合結果,他們展示了其中高置信度(p 值 < 0.05)的組合。有趣的是,這些高置信度的條目也都顯示出了很高的相關性(tau>0.3)。例如,想要在無上下文場景中依據矛盾比例排名,用戶可以使用 GPT-4 聲明抽取器和 GPT-4 或 NLI 幻覺檢測器;想要排名準確上下文場景中的蘊涵比例,可以使用 Claude 2 聲明抽取器和 GPT4 幻覺檢測器。

圖片

他們使用 BSChecker 的自動檢測框架對 Gemini 進行了幻覺檢測,將 GPT-4 作為聲明抽取器和幻覺檢測器,在無上下文場景下按照矛盾比例進行排名(和上述推薦設置一致),得到的結果與 Gemini 報告中的實驗結果一致。他們還進一步對其中的 10 個輸出文本進行了人工標注,其中共包含 118 個聲明三元組,標注結果顯示自動檢測和人工標注的一致性達到了 90.7%。

BSChecker 使用方式

用戶現在可以在 GitHub 代碼倉庫中訪問 BSChecker,也可以通過 pip 進行安裝。使用方式可參閱 README 中的 Quick Start 部分。其中包含如何使用 BSChecker 提取知識三元組、在三元組級別檢測幻覺以及評估自定義大模型的詳細說明。此外,用戶可以將自定義的評估結果添加到自動評估排行榜中,與其他結果進行比較。

合作邀請:共同推動 BSChecker 的發展

作者相信,細粒度的檢測和準確定位幻覺是有效緩解幻覺的第一步。BSChecker 仍有很大的改進空間,他們熱情地邀請大家參與開源貢獻。以下是一些可能的方向:

  • 開源聲明抽取器和幻覺檢測器:目前,性能最好的配置使用了閉源的商業大模型,作者在當前版本中也包含了一個基于自然語言推理的幻覺檢測器,盡管速度更快,但在處理長文檔時仍存在較大的性能差距。
  • 錯誤記憶追溯:對于無上下文場景,使用搜索引擎查找最新的參考文獻是一種非常簡略的解決方案。但理想情況下,我們應該回到大模型的訓練數據,去追溯有問題的記憶。
  • 三元組抽取的優化:三元組是簡潔的,但在處理更復雜的語義時存在困難。它們也是對文本的一個采樣,因此不能涵蓋文本中的全部語義,也不善于處理上下文中的細微差別。
  • 幻覺檢測證據的定位:將三元組映射回文本可能并不容易,例如在處理多步推理時存在挑戰。
  • 對齊人工評估結果:在復雜環境中,特別是在復雜上下文中縮小檢測器和人工評估者之間的差距。
  • 擴展任務覆蓋:大模型在許多不同的任務和場景中被使用。由于資源限制,本研究在某些領域的覆蓋范圍較小。例如,在當前的基準測試集中,僅有 6 個示例涵蓋了摘要任務。
  • 平衡真實性與有益性:BSChecker 目前僅評估幻覺的數量,這可以通過生成真實但無益的文本來操縱評估結果,正如作者觀察到的一些大模型的表現那樣。因此,對于 BSChecker 來說,引入一個關于有益性的評估標準可能很重要。

作者表示,如果有任何反饋,可以隨時通過 GitHub issues 聯系他們。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 09:14:14

2025-10-03 08:34:14

2025-06-27 08:40:00

模型推理AI

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-12-31 08:20:00

暹羅網絡機器學習神經網絡

2025-03-19 08:43:17

檢索增強生成RAG大型語言模型

2024-06-17 14:07:41

2024-01-02 13:19:00

AI模型

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-05-24 15:15:55

2025-06-13 08:06:41

2023-09-27 10:23:06

人工智能語言模型

2025-02-28 08:20:00

2025-11-10 09:00:00

AI大模型幻覺

2023-11-18 09:30:42

模型AI

2023-10-30 11:37:12

2025-09-08 09:43:02

OpenAI大模型幻覺

2025-06-13 01:33:00

2023-10-10 12:47:07

谷歌論文

2025-09-09 09:01:00

點贊
收藏

51CTO技術棧公眾號

www.youjizz.com在线| 亚洲av无码国产综合专区| 国产精品片aa在线观看| 91久久奴性调教| 亚洲欧洲一二三| 精品人妻无码一区二区色欲产成人| 国产精品啊v在线| 亚洲免费电影在线观看| 九色porny91| 成人video亚洲精品| 国产一区二区美女| 韩国日本不卡在线| 国产jizz18女人高潮| 牛牛视频精品一区二区不卡| 精品视频1区2区3区| 男人插女人视频在线观看| 成人在线观看网站| 不卡电影免费在线播放一区| 国产精品视频网址| 天堂网一区二区三区| 久久久久久美女精品| 亚洲美女性视频| 久久无码人妻一区二区三区| 成人黄色动漫| 亚洲激情第一区| 日韩欧美视频一区二区三区四区 | 欧美午夜寂寞影院| 波多野结衣av一区二区全免费观看| 国产中文字幕在线播放| 成人美女视频在线观看| 91精品视频在线免费观看| 一级黄色在线视频| 亚洲激情一区| 欧美第一黄网免费网站| 午夜激情福利电影| 少妇精品久久久一区二区三区| 精品国产一区二区三区忘忧草 | 欧洲成人一区| 亚洲人成精品久久久久| 国产伦精品一区二区三区四区视频| 国产精品免费无遮挡| 日本aⅴ亚洲精品中文乱码| 国产91成人video| 国产一级av毛片| 欧美激情1区2区| 久久成人国产精品| 欧美另类videoxo高潮| 欧美电影三区| 色噜噜狠狠狠综合曰曰曰| 日本成人免费视频| 精品高清在线| 一区二区三区无码高清视频| 永久免费毛片在线观看| 成人激情在线| 日韩亚洲精品电影| 亚洲怡红院在线观看| 91亚洲国产高清| 久久精品欧美视频| 青草影院在线观看| 欧美日韩亚洲一区三区| 久久久久久91| 日韩无码精品一区二区三区| 野花国产精品入口| 国产成人精品电影久久久| 日韩免费av网站| 麻豆精品一区二区| 成人欧美一区二区三区在线 | 韩国v欧美v日本v亚洲v| 7777奇米亚洲综合久久| 精品免费久久久| 成人黄色a**站在线观看| 国产欧美韩日| 精品久久av| 中文字幕亚洲一区二区av在线| 在线视频不卡国产| 牛牛电影国产一区二区| 五月激情综合网| 国产第一页视频| 欧美美女被草| 欧美xxxxx牲另类人与| 久久久久久久无码| 欧美色婷婷久久99精品红桃| 日韩视频免费观看| 精品视频在线观看免费| 天堂一区二区在线免费观看| 国产一区二中文字幕在线看| 亚洲国产999| www日韩大片| 一区二区三区四区国产| 18网站在线观看| 欧美视频裸体精品| 日韩一级免费片| 久久97精品| 中文字幕一精品亚洲无线一区| 国产精品免费人成网站酒店| 在线综合欧美| 91久久精品美女高潮| 天天摸天天碰天天爽天天弄| 国产精品久久久久久久第一福利 | 久久久久久精| 嫩草在线视频| 精品欧美国产一区二区三区| 91国内在线播放| 日本欧美高清| 美女精品视频一区| 手机在线看片1024| 成人午夜电影小说| 久久久一二三四| 天堂av中文在线观看| 日韩一区二区三区视频在线观看| b站大片免费直播| 好看不卡的中文字幕| 国产精品高潮呻吟视频| 亚洲欧美国产高清va在线播放| 日本一区二区在线不卡| 日韩伦理在线免费观看| 成人综合日日夜夜| 亚洲一区第一页| 国产亚洲精品成人| 国产主播一区二区| 先锋影音日韩| 校园春色亚洲色图| 亚洲第一页在线| a级片在线观看免费| 日本在线不卡一区| 人偷久久久久久久偷女厕| av资源网在线播放| 精品国免费一区二区三区| 裸体武打性艳史| 美女一区二区三区| 欧美精品亚洲精品| 国产直播在线| 亚洲成av人片在线观看香蕉| 欧美人妻精品一区二区免费看| 精品一区二区成人精品| 亚洲精品一卡二卡三卡四卡| 日韩高清不卡| 亚洲一品av免费观看| 国产成人无码av| 久久影视一区二区| 日韩在线一级片| 精品在线91| 日韩美女免费视频| 蜜桃成人在线视频| 色婷婷久久一区二区三区麻豆| 日本一区二区三区网站| 国产欧美精品久久| 欧美日韩国产精品一区二区| 国模冰冰炮一区二区| 亚洲人线精品午夜| 天天干天天操天天操| 国产日韩欧美精品一区| 黄色片在线免费| 成人免费电影网址| 91精品在线观| 天堂8中文在线| 亚洲国产精品国自产拍av秋霞| 精品无码人妻一区二区三| www.久久久久久久久| 男人揉女人奶房视频60分| 亚洲精品国模| 国产精品久久二区| 免费大片黄在线| 欧美一区二区三区公司| 久久久久久免费观看| av中文字幕在线不卡| 国产超级av在线| 日韩国产一区二区| 亚洲自拍小视频| 美女搞黄视频在线观看| 亚洲欧美成人网| 一级淫片免费看| 亚洲制服丝袜一区| 黑人巨大精品欧美| 久久国产精品99久久久久久老狼| 肉大捧一出免费观看网站在线播放| 粉嫩久久久久久久极品| 日本久久精品视频| 美女av在线播放| 亚洲国模精品一区| 在线观看av大片| 亚洲最大成人综合| 全黄一级裸体片| 国产乱理伦片在线观看夜一区| 国产96在线 | 亚洲| 波多野结衣在线观看一区二区| 亚洲va久久久噜噜噜久久天堂| 亚洲人成在线网站| 久久久国产精品x99av| 三级视频在线| 91精品国产美女浴室洗澡无遮挡| 国产一级特黄aaa大片| 国产精品久久午夜夜伦鲁鲁| 日本国产在线视频| 久久精品国产77777蜜臀| 91免费黄视频| 久久中文字幕av| 久久精品国产99精品国产亚洲性色| 欧美亚洲人成在线| 欧美一级大片在线免费观看| 麻豆网站在线看| 亚洲精品自拍第一页| 国产精品一二三四五区| 色94色欧美sute亚洲线路一ni| www青青草原| 国产精品污网站| 一级国产黄色片| 国产成人综合网站| 日日干夜夜操s8| 久久国产精品99国产| 日韩一级片免费视频| 国产精品久久久乱弄| 免费影院在线观看一区| 91麻豆精品激情在线观看最新| 国产精品久久久久久五月尺| 在线最新版中文在线| 欧美激情视频网| 国产精品久久麻豆| 综合136福利视频在线| 青青操视频在线| 亚洲国产精品久久| 好吊色一区二区| 欧美一区二区三区四区视频| 中文字幕人妻精品一区| 91国偷自产一区二区开放时间 | 亚洲影视综合| 国产 欧美 日韩 一区| 婷婷激情综合| 久久免费看毛片| 日韩精品一区二区久久| 神马影院我不卡午夜| 精品国产精品| 奇米影视首页 狠狠色丁香婷婷久久综合 | 福利在线免费视频| 欧美激情亚洲综合一区| 视频在线观看入口黄最新永久免费国产 | 一本大道综合伊人精品热热| av大片免费观看| 午夜久久久久久电影| 黄色激情视频在线观看| 亚洲一区二区在线免费观看视频 | 91欧美激情另类亚洲| 欧美天堂一区二区| 国产日韩欧美在线观看| 日韩专区视频| 亚洲一区二区三区视频| 国产亚洲字幕| 99国产超薄肉色丝袜交足的后果| 日韩欧美高清一区二区三区| 91蜜桃网站免费观看| 亚洲综合网狠久久| 国产精品区一区二区三在线播放 | 中文字幕欧美日韩一区二区三区| 久久亚洲国产| 日本道在线视频| 精品99视频| 浮妇高潮喷白浆视频| 久久成人国产| 在线免费视频一区| 国产精品一区二区久久不卡| 日韩精品xxx| va亚洲va日韩不卡在线观看| 人妻丰满熟妇aⅴ无码| www久久精品| 久久精品国产亚洲AV成人婷婷| 国产精品网站在线观看| 亚洲综合网在线| 亚洲图片欧美色图| 国产一级淫片a视频免费观看| 在线视频欧美区| 国产男女猛烈无遮挡| 亚洲成色777777在线观看影院| 欧美精品少妇| www日韩欧美| 免费在线观看的电影网站| 欧美中文字幕视频| 四虎精品在线观看| 国产精品久久国产精品| 精品久久国产| 超碰人人爱人人| 男女精品网站| 成人免费黄色av| 久久网站热最新地址| 精品少妇一区二区三区密爱| 亚洲一区二区三区国产| 欧美一区免费看| 日韩视频免费观看高清完整版| 五月婷婷六月丁香综合| xvideos亚洲| 日韩伦理福利| 亚洲最大成人免费视频| 伊人久久大香线蕉| www国产免费| 日韩av电影天堂| 亚洲美女高潮久久久| 中文字幕免费不卡在线| 国产欧美日韩另类| 91精品国产综合久久精品性色| 亚洲av成人无码久久精品老人| 久久九九有精品国产23| jk漫画禁漫成人入口| 亚洲综合中文字幕在线| 精品一区二区三| 黄色www网站| 国产精品自在在线| 国产调教在线观看| 一本一本大道香蕉久在线精品 | 无码人妻丰满熟妇区毛片18| 国产乱一区二区| 免费看黄色的视频| 亚洲成av人片观看| 亚洲精品97久久中文字幕无码| 最近中文字幕mv在线一区二区三区四区 | 美女久久久久| 国产老熟妇精品观看| 懂色av一区二区夜夜嗨| 男人晚上看的视频| 欧美性受xxxx黑人xyx| 四虎精品在线| 久久久久久亚洲精品| 国产视频一区二| 中文字幕一区二区三区最新| 日韩不卡一二三区| 女女互磨互喷水高潮les呻吟| 精品国产1区2区| 全国男人的天堂网| 欧美国产日产韩国视频| 久久免费精品| 成人性做爰片免费视频| 久久国产精品72免费观看| 久久久久久成人网| 欧美视频一区二区三区在线观看| 国际av在线| 国产成人久久久精品一区| 亚洲伊人春色| 日韩手机在线观看视频| 久久综合色天天久久综合图片| a v视频在线观看| 日韩电影中文字幕av| а√在线天堂官网| 精品国产电影| 免费视频久久| 91网站免费入口| 欧美性一区二区| 午夜激情视频在线观看| 国产精品综合不卡av| 日韩一区二区三区免费播放| wwwwwxxxx日本| 亚洲视频中文字幕| 精品久久久中文字幕人妻| 色综合五月天导航| 大伊香蕉精品在线品播放| 欧美爱爱视频免费看| 26uuuu精品一区二区| 中文字幕第31页| 久久久精品在线| 91在线一区| 丰满爆乳一区二区三区| 久久久影院官网| 中文永久免费观看| 欧美成人网在线| 国产伦精品一区二区三区免费优势| 欧美精品99久久| 国产精品久久久久永久免费观看 | 国产一区二区三区av电影| 国产性猛交普通话对白| 亚洲女人被黑人巨大进入| www.一区| 黄色片免费在线观看视频| 99久久精品国产一区二区三区 | 日韩国产高清一区| 久久66热re国产| 中文在线观看免费网站| 亚洲色图av在线| 韩国三级成人在线| 97国产精东麻豆人妻电影| 成人欧美一区二区三区视频网页| 黄频网站在线观看| 日韩美女激情视频| 欧美日本一区| 国产精品jizz| 欧美一级艳片视频免费观看| 成人一级福利| 亚洲一区三区在线观看| 北条麻妃国产九九精品视频| 亚洲一区二区影视| 久久久久久久影院| 波多野结衣在线观看一区二区三区 | 亚洲人成网站在线播| crdy在线观看欧美| 哪个网站能看毛片| 亚洲精品成人悠悠色影视| 免费观看成年在线视频网站| 亚洲在线一区二区| 日韩国产成人精品| 日本中文字幕在线免费观看| 视频在线观看一区二区| 伊人春色精品| 日本黄色录像片| 日韩一区二区精品葵司在线|