精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻覺

人工智能 新聞
DeepMind發表了一篇名為「To Believe or Not to Believe Your LLM」的新論文,探討了LLM的不確定性量化問題,通過「迭代提示」成功將LLM的認知不確定性和偶然不確定性解耦。研究還將新推導出的幻覺檢測算法應用于Gemini,結果表明,與基線方法相比,該方法能有效檢測幻覺。

大語言模型產生幻覺、胡說八道的問題被詬病,已經不是一天兩天了。

前有ChatGPT編造法律案件,后有谷歌搜索建議披薩放膠水。

就連號稱模型更安全、幻覺更少的Claude系列,在Reddit上也能看到不少吐槽。

圖片

LLM輸出虛假信息的問題,似乎并不能在短時間內徹底解決。

這就給很多場景下的應用帶來了巨大的障礙,尤其是法律、醫療、學術這樣比較嚴謹的知識領域。如果答案有錯,還不如不用。

那么能不能有一種方法,至少為LLM的輸出劃定一個置信區間呢?

6月5日,DeepMind發表了一篇名為「To Believe or Not to Believe Your LLM」,就開始著手解決這個問題。

如果無法強迫LLM堅持輸出真實信息,知道它什么時候在胡說八道也很重要。

圖片

論文地址:https://arxiv.org/abs/2406.02543

這篇論文由DeepMind Foundations團隊出品,帶頭人是加拿大阿爾伯塔大學教授Csaba Szepesvari,他也是這篇論文的作者之一。

圖片

論文探討了大語言模型中的不確定性量化問題,也就是說,旨在確定LLM的響應何時會出現較高的不確定性。

不確定性分為兩個范疇,一個是認知不確定性(epistemic uncertainty),另一個是偶然不確定性(aleatoric uncertainty)。

前者是指對基本事實的不了解,比如,不清楚事實或者語言不通所造成的不確定性,可能來源于訓練數據量或者模型容量不足。

后者則是一種不可約的隨機性,比如同一個問題存在多種可能的答案。

LLM的工作本質是對文本的概率分布進行建模,因此會很自然地通過統計不確定性的視角看待問題的真實性。

以前的許多工作通過啟發式的方法計算LLM回答的對數似然性,但這一般只適用于偶然不確定性較低的情況,也就是有「標準答案」的問題。

對于有多個正確答案的問題,需要將認知不確定性和偶然不確定性解耦。

因此,團隊推導出了一種信息論度量(information-theoretic metric)方法,能可靠地檢測出認知不確定性占多數的情況,這時我們就可以說,模型的輸出沒有那么可靠,Not to Believe!

這種方法根據什么來計算?

其實,可以完全基于模型的輸出來考察,只需根據之前的回答進行一些特殊的迭代prompting即可。

有了這個量化方法,無論是面對有單一答案的問題,還是有多個可能答案的問題,都可以檢測出回答中的幻覺,也就是認知不確定性很高的情況。

這和此前的不確定性量化策略相比,形成了鮮明對比,因為之前的方法都不能檢測出多答案情況下的幻覺。

DeepMind Foundations團隊進行了一系列實驗,證明了他們方法的優勢。

此外,研究還揭示了如何通過迭代prompting放大LLM指定給定輸出的概率,這可能會引起人們的興趣。

方法概述

首先,我們需要形成這樣一個共識:

如果從基本事實(語言)中獲得對同一查詢的多個回復,那么它們應該是相互獨立的。

也就是說,在概率論解釋中,對于一個固定的查詢,這些多個回復的聯合分布必須是一個乘積分布。

基于這一點,我們就可以將其用于衡量LLM的輸出與基本事實之間的距離。

由語言模型實現的序列模型允許我們構建多個響應的聯合分布,基于LLM先前的響應和概率鏈規則,對LLM進行迭代prompting。

具體來說,先給定查詢要求模型提供一個響應,然后將查詢和相應輸入給LLM,要求提供另一個響應,然后給定查詢和前兩個響應提供第三個響應,依此類推。

關鍵思路是,在對LLM進行迭代prompting的過程中,激發模型重復潛在回答,可以觀察到不同的行為模式,反映不同程度的認知不確定性。。

如果模型對某個查詢的認知不確定性較低,那么在prompting中重復一個不正確的回答不會顯著增加其概率。

但是,如果認知不確定性較高,重復一個不正確的回答就會大大增加其概率。

下面是這一過程的prompt模板:

圖片

不斷誘導LLM

下面的例子可以更好地解釋這一過程——

給定問題:「英國的首都是什么?」通過在提示中重復錯誤答案(如巴黎),正確答案倫敦仍然保持很高的概率。

這意味著該模型的答案是確定的,它的認知不確定性較低。

相反,如果答案的概率發生了變化,那么模型就具有高度的認識不確定性。

圖片

如上圖最左邊的示例所示,當我們將錯誤回答的重復次數增加到100次的時候,正確回答「倫敦 」的條件歸一化概率從100%下降到大約 96%。

在這些示例中,最初對查詢的回答的認識不確定性較低,即使在錯誤信息重復出現的情況下,正確回答的概率仍然很大。

可是當面對更有挑戰性的問題時,模型就不那么容易「堅持己見 」了。

比如,問LLM「愛爾蘭的民族樂器是什么?」,它回答「豎琴」和 「尤利安管  」的概率都很大(第一個答案是正確答案)。

這一次,通過多次在提示中加入錯誤的回答,正確答案的概率迅速下降到接近于零。

圖片

認知不確定性度量

在對LLM進行完上述觀察,研究者推導出了一種信息論度量方法。

通過測量模型的輸出分布對重復添加以前的(可能不正確的)提示回答的敏感程度,來量化認知不確定性。

更確切地說,如果LLM對之前的回復不敏感,模型就有了所需的獨立性,并且LLM得出的聯合分布可以任意接近基本事實。

如果正相反,上下文中的響應嚴重影響了模型的新響應,那么直觀地說,LLM對其參數中存儲的知識的置信度很低,因此LLM派生的聯合分布不可能接近基本事實。

這一觀察結果可用于區分高不確定性的兩種情況:一種是偶然不確定性高,另一種是認知不確定性高。

最后,利用這一指標,論文介紹了一種基于互信息分數的幻覺檢測算法M.I.。

通過應用鏈式規則,他們定義了多個響應的「偽聯合分布 」,同時將之前的響應納入提示。

這種偽聯合分布的互信息可作為認知不確定性的下限。互信息的估計值可用作得分,表示LLM對給定查詢產生幻覺的信念強度。

結果

論文在開放域問答基準上讓Gemini 1.0 Pro進行閉卷回答,對這種基于互信息(MI)的方法進行了評估,包括TriviaQA、AmbigQA以及基于WordNet創建的一個多標簽數據集。

實驗中共使用了3種基線方法作為對比:T0表示貪婪方法選擇的LLM回答,S.E.表示使用2023年提出的「語義熵」方法(semantic-entropy)選擇的前10個回答,S.V.表示2022年提出的「自我驗證」方法(self-verification)的一個版本。

對LLM的回答主要使用兩個方面衡量,一是準確率,二是召回率。

準確率表示查詢中正確決策的百分比,召回率則表示沒有棄權的查詢的百分比。

結果表明,與基線方法相比,該方法能有效檢測幻覺(認識不確定性較高的輸出),尤其是在處理包含單標簽和多標簽查詢的數據集時。

在TriviaQA和AmbigQA數據集上,論文提出的M.I.方法與S.E.方法基本表現相當,但明顯優于T0和S.V.。

而后兩個數據集包含大量的高熵、多標簽查詢,此時M.I.方法明顯優于S.E.方法。

圖片

將LLM輸出回答的熵進行分區后,分別查看兩種方法的召回率和錯誤率,可以更直觀地看到M.I.方法在高熵查詢中的優越性能,不僅很少犯錯誤,而且召回值更高。

圖片

這篇論文相對于考慮LLM整體不確定性的一階方法,將認知不確定性和任意不確定性分開考量,從而確定了LLM認知不確定性的可證明的下界。

此外,在認知不確定性視角下提出的基于互信息的棄權方法,能讓LLM在混合單標簽/多標簽查詢任務上取得更好的表現。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-05-21 12:59:51

邊緣存儲存儲物聯網

2018-04-26 10:38:34

2020-07-08 13:26:47

Python

2023-10-06 13:35:11

AI數據

2025-11-06 09:02:00

2024-04-09 15:16:58

AI論文

2015-08-21 13:10:14

APM數據

2015-08-19 14:01:14

APM

2025-03-20 10:03:44

2024-09-18 10:40:00

AI生成

2024-07-10 13:20:45

2017-08-01 15:55:14

互聯網

2023-06-07 07:21:28

USB接口版本

2018-01-11 15:15:13

2010-07-23 10:47:52

病毒

2023-05-08 12:43:14

2022-08-22 15:47:48

谷歌模型

2019-06-10 08:04:26

分布式鎖JVM服務器

2025-11-17 08:59:00

AI數據模型

2022-04-29 15:51:16

模型自然語言人工智能
點贊
收藏

51CTO技術棧公眾號

久久久91精品国产| 亚洲视频在线一区二区| 欧美在线视频a| 免费看黄色的视频| 青青伊人久久| 香蕉影视欧美成人| 亚洲一区二区三区四区中文| 亚洲精品国产精| 日日摸夜夜添夜夜添精品视频 | 日本黄色三级网站| 51av在线| 亚洲丝袜自拍清纯另类| 久久久久久久有限公司| 一本一道精品欧美中文字幕| 1024日韩| 欧美尺度大的性做爰视频| 精品久久久久久中文字幕人妻最新| 欧美大片网站| 欧美午夜精品在线| 神马午夜伦理影院| 国产毛片在线| 99久久综合色| 欧美mv日韩mv国产| 亚洲精品成人免费| 国产日本在线播放| 欧美猛烈性xbxbxbxb| 成人爱爱电影网址| 成人性生交大片免费看小说| www.国产com| 国产精品国码视频| 精品国产欧美一区二区五十路 | 亚洲国产高清aⅴ视频| 国产精品日韩一区二区| 91精品国产色综合久久不8| 在线亚洲精品| 欧美激情视频播放| 蜜臀av午夜精品久久| 欧美一区电影| 亚洲图片制服诱惑| 免费观看av网站| 蜜臀av一区| 亚洲国内精品在线| 欧美熟妇精品一区二区| 久久伦理中文字幕| 欧美日韩大陆一区二区| 黑人粗进入欧美aaaaa| 午夜影院在线播放| 午夜伦理一区二区| 国产精品12345| 成人免费高清观看| 亚洲一区二区三区国产| 久久艹国产精品| 欧美野外wwwxxx| 一区二区三区欧美视频| 国产四区在线观看| fc2ppv国产精品久久| 亚洲欧美一区二区三区极速播放| 亚洲国产一区二区三区在线播 | 日韩三级久久| 欧美电影免费提供在线观看| 中文字幕人妻熟女人妻a片| www一区二区三区| 在线综合亚洲欧美在线视频| 九九九九九九九九| 日韩在线亚洲| 久久精品女人| 亚洲男同性恋视频| 国产一二三四五| 牛牛精品在线| 激情av一区二区| av免费在线播放网站| 欧美大片免费观看网址| 欧美亚洲综合在线| 极品粉嫩美女露脸啪啪| 欧美不卡在线观看| 亚洲成人精品久久久| 美国黄色a级片| 欧美久久综合网| 不卡av电影院| 91国产丝袜播放在线| 国产精品久久777777毛茸茸| 国产精品日日做人人爱| 国产精品特级毛片一区二区三区| 国产精品影视在线观看| 国产一区二区三区四区hd| 美丽的姑娘在线观看免费动漫| 国产精品美女久久福利网站| 国产乱子伦精品视频| 亚洲最大网站| 欧美人牲a欧美精品| 欧美性猛交乱大交| 久久91麻豆精品一区| 日韩中文字幕精品| 久久久久噜噜噜亚洲熟女综合| 一区二区三区导航| 国产精品欧美激情| 免费激情视频网站| 国产日韩一级二级三级| 日本一道在线观看| 亚洲天堂av影院| 7777精品伊人久久久大香线蕉 | av在线免费观看国产| www.日韩| 日韩精品在线网站| 嘿嘿视频在线观看| aa亚洲婷婷| 91人人爽人人爽人人精88v| 色哟哟中文字幕| 成人欧美一区二区三区小说| 国产毛片久久久久久国产毛片| 日韩av超清在线观看| 日韩欧美成人激情| 永久免费毛片在线观看| 国产日韩视频一区| 中文字幕日韩在线| 日韩中文第一页| 日韩三级免费看| 黑人巨大精品欧美黑白配亚洲| 精品久久久久久中文字幕动漫| 麻豆网站在线观看| 色屁屁一区二区| www国产视频| 亚洲成av人片乱码色午夜| 日本aⅴ大伊香蕉精品视频| 精品久久国产视频| 中文天堂在线一区| 午夜精品久久久内射近拍高清 | 欧美一区日本一区韩国一区| 欧美做受高潮6| 亚洲一区二区三区高清不卡| 不卡一卡2卡3卡4卡精品在| 日本中文字幕在线看| 色婷婷国产精品| 538国产视频| 亚洲一级特黄| 国产精品国产三级国产专区53| 免费观看在线黄色网| 欧美性生活大片视频| 香蕉视频黄色在线观看| 亚洲毛片播放| 国产激情一区二区三区在线观看 | 好吊色视频一区二区| 亚洲免费在线播放| 久久久精品高清| 欧美电影三区| 91精品国产综合久久香蕉| 东凛在线观看| 精品视频一区二区三区免费| 四虎永久免费在线观看| 天堂久久久久va久久久久| 欧美xxxx黑人又粗又长密月| 蜜桃视频www网站在线观看| 欧美精品一区二区在线观看| 国产精品99re| 99视频热这里只有精品免费| 无码精品a∨在线观看中文| 欧美理伦片在线播放| 奇米一区二区三区四区久久| 青青草在线视频免费观看| 日韩欧美成人区| 国产九色91| 亚洲综合20p| 欧美日韩一区二区三区在线电影| 97视频色精品| 欧美日韩在线精品一区二区三区激情综 | 黄色小网站91| 欧美大胆成人| 日韩一区二区三区国产| 精品国自产拍在线观看| 午夜伊人狠狠久久| 日韩中文字幕电影| 日本91福利区| 伊人久久在线观看| 老司机在线精品视频| 欧洲精品久久久| 1pondo在线播放免费| 日韩亚洲欧美一区二区三区| 国产福利久久久| 久久精品免视看| 日本人69视频| 亚洲久久成人| 亚洲激情图片| 99re8这里有精品热视频8在线| 91福利视频网| 黄网页免费在线观看| 亚洲成avwww人| www.五月婷婷.com| 亚洲免费观看在线视频| 欧美一级片黄色| 免费高清成人在线| 欧美狂野激情性xxxx在线观| 免费看av成人| 91热福利电影| 波多视频一区| 久久国产精品影视| 欧美成人综合在线| 91精品一区二区三区久久久久久| 日韩黄色三级视频| 国产精品久久久久9999吃药| 9.1在线观看免费| 免费一级欧美片在线观看| 久草视频这里只有精品| 日韩毛片视频| 久久国产主播精品| 国产午夜久久av| 国产精品电影观看| 女人天堂av在线播放| 国产一区二区日韩| 色欲av永久无码精品无码蜜桃| 欧美日韩和欧美的一区二区| 成人免费a视频| 一区二区三区精密机械公司| 少妇视频在线播放| 99久久免费视频.com| 中文 日韩 欧美| 免费高清视频精品| 亚洲熟妇av一区二区三区| 国模大胆一区二区三区| 一区二区三区的久久的视频| 久久av电影| 欧美国产一区二区在线| 国产精品sss在线观看av| 亚洲va欧美va国产综合剧情 | 在线亚洲+欧美+日本专区| 高h视频免费观看| 一区在线中文字幕| 娇妻被老王脔到高潮失禁视频| 99精品在线免费| 日本人dh亚洲人ⅹxx| 狠狠狠色丁香婷婷综合久久五月| www.xxx亚洲| 欧美亚洲专区| 久久国产亚洲精品无码| 亚洲精品美女91| 国产黄色激情视频| 伊人青青综合网| 秋霞在线一区二区| 51精产品一区一区三区| 杨幂一区欧美专区| 日韩欧美午夜| 一区二区三区四区不卡| 成人高清电影网站| 日韩妆和欧美的一区二区| 妖精视频一区二区三区| 久久99欧美| 亚洲人成伊人成综合图片| 久久国产精品-国产精品| 婷婷综合电影| 欧美lavv| 成人毛片免费看| 熟女熟妇伦久久影院毛片一区二区| 羞羞答答成人影院www| 六月婷婷激情网| 黄色成人91| av之家在线观看| 玖玖视频精品| 亚洲免费一级视频| 国内精品久久久久影院一蜜桃| 交换做爰国语对白| 国产+成+人+亚洲欧洲自线| wwwxx日本| 久久你懂得1024| 四虎影视一区二区| 亚洲人成7777| 日韩av黄色片| 欧洲精品在线观看| 一区二区精品视频在线观看| 欧美一级精品在线| 女人18毛片一区二区三区| 亚洲精品资源美女情侣酒店| 国产视频网址在线| 久久国产精品影视| 九色porny丨入口在线| 国产成人久久久精品一区| 欧美一级做a| 国产99在线免费| 国产一区二区欧美| 偷拍盗摄高潮叫床对白清晰| 亚洲日产国产精品| av丝袜天堂网| 国产成人在线观看| 中文字幕狠狠干| 亚洲欧美成人一区二区三区| 欧美成人aaaaⅴ片在线看| 91国偷自产一区二区三区成为亚洲经典 | 日韩高清在线一区| 一本之道在线视频| 91日韩一区二区三区| 91n在线视频| 激情成人中文字幕| 国产又黄又粗又长| 亚洲激情视频网| 欧美a在线看| 青青草原一区二区| 日本一区二区乱| 欧美综合77777色婷婷| 欧美激情一级片一区二区| 久久久久久久久久久免费视频| 国产一区二区福利| 午夜精产品一区二区在线观看的| 国产精品久久久久aaaa| 久久亚洲天堂网| 日韩一区二区免费在线电影| 蜜桃视频在线观看网站| 久久久噜噜噜久久| 祥仔av免费一区二区三区四区| 国产一区喷水| 欧美激情第8页| 99热一区二区| 26uuu国产在线精品一区二区| 天天看片中文字幕| 欧美系列亚洲系列| 三级在线播放| 久久久久久国产三级电影| 欧美黄色a视频| 欧美精品与人动性物交免费看| 欧美在线网站| www.久久久精品| 久久久久成人黄色影片| 日韩欧美三级在线观看| 日韩欧美中文字幕一区| 在线观看免费黄色| 人体精品一二三区| 日韩mv欧美mv国产网站| 免费网站在线观看视频| 国产一区二区三区高清播放| 国产欧美小视频| 欧美影视一区在线| 欧美日韩影视| 欧美在线一级va免费观看| 精品视频高潮| 加勒比成人在线| 高潮精品一区videoshd| www.超碰在线观看| 欧美一级高清片| 97caopor国产在线视频| 91久久久久久国产精品| 久久裸体网站| 亚洲一区二区福利视频| 最新日韩av在线| 999国产精品视频免费| 色青青草原桃花久久综合| www.国产精品| 亚洲欧美日产图| 久久99精品网久久| 亚洲色偷偷综合亚洲av伊人| 7777精品伊人久久久大香线蕉 | 日本激情一区二区| 国内自拍欧美激情| 日本福利一区| 欧美黑人又粗又大又爽免费| 国产欧美一区二区三区在线看蜜臀| 国产精华7777777| 日韩中文字幕网| 狂野欧美xxxx韩国少妇| 美女av免费观看| 不卡一区二区三区四区| 亚洲另类欧美日韩| 一本色道久久综合狠狠躁篇的优点| 99精品在免费线偷拍| 亚洲欧洲免费无码| 国产最新精品免费| 免费毛片在线播放免费| 亚洲精品福利在线| 欧美色网一区| 中文字幕日韩一区二区三区不卡| 国产麻豆9l精品三级站| 国产网站在线看| 亚洲欧美在线免费| 日本免费一区二区三区等视频| 国产精品av免费观看| aaa欧美日韩| 中文字幕人妻色偷偷久久| 久久久久北条麻妃免费看| 粉嫩av一区二区| 精品少妇无遮挡毛片| 成人欧美一区二区三区| 欧美一级一区二区三区| 日韩女在线观看| 欧美黄色一区| 人人人妻人人澡人人爽欧美一区| 欧美群妇大交群中文字幕| 激情网站在线| 欧美在线3区| 国产精品一区二区你懂的| 亚洲综合一二三| 视频直播国产精品| 精品伊人久久久| 老司机午夜性大片| 欧美日韩免费看| 麻豆网站在线免费观看| 美日韩免费视频| 国产黄人亚洲片| 免费无码国产精品| 欧美高清无遮挡| 俺要去色综合狠狠| 国产制服丝袜在线| 日韩一区二区影院| 韩国成人在线| 亚洲 高清 成人 动漫|