精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind終結大模型幻覺?標注事實比人類靠譜、還便宜20倍,全開源

人工智能 新聞
AI DeepMind 這篇論文一出,人類標注者的飯碗也要被砸了嗎?

大模型的幻覺終于要終結了?

今日,社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性),文中提出的方法和結果讓人得出大膽的結論:對于負擔得起的人來說,大語言模型幻覺不再是問題了。

我們知道,大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時,通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。

首先,為了對一個模型在開放域的長篇事實性進行基準測試,研究者使用 GPT-4 生成 LongFact,它是一個包含 38 個主題、數千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator, SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

對于 SAFE,它利用 LLM 將長篇響應分解為一組單獨的事實,并使用多步推理過程來評估每個事實的準確性。這里多步推理過程包括將搜索查詢發送到 Google 搜索并確定搜索結果是否支持某個事實 。

論文地址:https://arxiv.org/pdf/2403.18802.pdf

GitHub 地址:https://github.com/google-deepmind/long-form-factuality

此外,研究者提出將 F1 分數(F1@K)擴展為長篇事實性的聚合指標。他們平衡了響應中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應長度的超參數的百分比(召回率)。

實證結果表明,LLM 智能體可以實現超越人類的評級性能。在一組約 16k 個單獨的事實上,SAFE 在 72% 的情況下與人類注釋者一致,并且在 100 個分歧案例的隨機子集上,SAFE 的贏率為 76%。同時,SAFE 的成本比人類注釋者便宜 20 倍以上。

研究者還使用 LongFact,對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 種流行的語言模型進行了基準測試,結果發現較大的語言模型通常可以實現更好的長篇事實性。

論文作者之一、谷歌研究科學家 Quoc V. Le 表示,這篇對長篇事實性進行評估和基準測試的新工作提出了一個新數據集、 一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有數據和代碼將開源以供未來工作使用。

方法概覽

LONGFACT:使用 LLM 生成長篇事實性的多主題基準

首先來看使用 GPT-4 生成的 LongFact 提示集,包含了 2280 個事實尋求提示,這些提示要求跨 38 個手動選擇主題的長篇響應。研究者表示,LongFact 是第一個用于評估各個領域長篇事實性的提示集。

LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects,根據問題是否詢問概念或對象來區分。研究者為每個主題生成 30 個獨特的提示,每個任務各有 1140 個提示。

SAFE:LLM 智能體作為事實性自動評分者

研究者提出了搜索增強事實評估器(SAFE),它的運行原理如下所示:

a)將長篇的響應拆分為單獨的獨立事實;

b)確定每個單獨的事實是否與回答上下文中的提示相關;

c) 對于每個相關事實,在多步過程中迭代地發出 Google 搜索查詢,并推理搜索結果是否支持該事實。

他們認為 SAFE 的關鍵創新在于使用語言模型作為智能體,來生成多步 Google 搜索查詢,并仔細推理搜索結果是否支持事實。下圖 3 為推理鏈示例。

圖片

為了將長篇響應拆分為單獨的獨立事實,研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實,然后通過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體,將每個單獨的事實修改為獨立的。

為了對每個獨立的事實進行評分,他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關,接著使用多步方法將每個剩余的相關事實評級為「支持」或「不支持」。具體如下圖 1 所示。

圖片

在每個步驟中,模型都會根據要評分的事實和之前獲得的搜索結果來生成搜索查詢。經過一定數量的步驟后,模型執行推理以確定搜索結果是否支持該事實,如上圖 3 所示。在對所有事實進行評級后,SAFE 針對給定提示 - 響應對的輸出指標為 「支持」事實的數量、「不相關」事實的數量以及「不支持」事實的數量。

實驗結果

LLM 智能體成為比人類更好的事實注釋者

為了定量評估使用 SAFE 獲得注釋的質量,研究者使用了眾包人類注釋。這些數據包含 496 個提示 - 響應對,其中響應被手動拆分為單獨的事實(總共 16011 個單獨的事實),并且每個單獨的事實都被手動標記為支持、不相關或不支持。

他們直接比較每個事實的 SAFE 注釋和人類注釋,結果發現 SAFE 在 72.0% 的單獨事實上與人類一致,如下圖 4 所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然后檢查隨機采訪的 100 個單獨事實的子集,其中 SAFE 的注釋與人類評分者的注釋不一致。

研究者手動重新注釋每個事實(允許訪問 Google 搜索,而不僅僅是維基百科,以獲得更全面的注釋),并使用這些標簽作為基本事實。他們發現,在這些分歧案例中,SAFE 注釋的正確率為 76%,而人工注釋的正確率僅為 19%,這代表 SAFE 的勝率是 4 比 1。具體如下圖 5 所示。

這里,兩種注釋方案的價格非常值得關注。使用人工注釋對單個模型響應進行評級的成本為 4 美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為 0.19 美元。

Gemini、GPT、Claude 和 PaLM-2 系列基準測試

最后,研究者在 LongFact 上對下表 1 中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 個大語言模型進行了廣泛的基準測試。

具體來講,他們利用了 LongFact-Objects 中 250 個提示組成的相同隨機子集來評估每個模型,然后使用 SAFE 獲取每個模型響應的原始評估指標,并利用 F1@K 指標進行聚合。


結果發現,一般而言,較大的語言模型可以實現更好的長篇事實性。如下圖 6 和下表 2 所示,GPT-4-Turbo 優于 GPT-4,GPT-4 優于 GPT-3.5-Turbo,Gemini-Ultra 優于 Gemini-Pro,PaLM-2-L-IT-RLHF 優于 PaLM- 2-L-IT。


圖片

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-01 07:00:00

模型AI

2023-03-29 19:35:43

ChatGPT標注數據

2023-03-29 15:14:15

數據AI

2023-03-31 13:23:31

ChatGPTNLPMTurk

2023-09-20 15:21:48

2023-09-18 13:14:00

AI工具

2025-07-07 06:36:14

大模型大模型開源人工智能

2023-04-26 12:19:09

大模型焦慮精神病學

2025-10-31 16:04:17

DeepMindGPT-5世界模型

2016-11-22 17:26:11

開源PowerShellLinux

2023-08-28 00:46:05

計算機模型

2024-11-02 10:28:03

2023-08-13 14:53:06

AI效率人工智能

2024-04-07 14:48:00

模型訓練

2025-08-07 09:18:29

2023-08-27 14:02:28

GPU大模型

2023-07-25 13:10:54

大模型文心大模型百度

2023-11-05 15:09:35

模型AI

2023-09-09 12:56:36

2024-08-07 12:25:39

點贊
收藏

51CTO技術棧公眾號

欧美一级高清大全免费观看| 欧美国产精品专区| 国内揄拍国内精品| 成人午夜剧场视频网站| 成人精品国产| 亚洲在线观看免费| 欧美性大战久久久久| 一级片视频免费| 尤物网精品视频| 一区二区在线免费视频| 日本中文字幕有码| 欧洲亚洲两性| 亚洲一二三区不卡| 亚洲 日韩 国产第一区| 日本高清视频在线| 精品午夜一区二区三区在线观看| 久久全球大尺度高清视频| 无码人妻aⅴ一区二区三区69岛| 高清一区二区中文字幕| 色综合久久久久综合| 中文字幕在线观看一区二区三区| 日韩欧美亚洲系列| 国产不卡高清在线观看视频| 国产精品成人免费视频| 国产成人愉拍精品久久 | 久久99精品国产麻豆婷婷洗澡| 国内成人精品一区| 国产精品国产精品88| 欧美偷拍综合| 精品亚洲一区二区三区在线观看 | 国产成人综合一区| 国产美女福利在线观看| 亚洲视频一区二区在线观看| 日韩欧美一区二区三区四区| 天天干免费视频| 国产老肥熟一区二区三区| 国产精品视频网| 无码人妻熟妇av又粗又大| 在线国产日韩| 国产+成+人+亚洲欧洲| 国产大片免费看| 亚州av乱码久久精品蜜桃| 一区二区在线免费视频| 中文字幕av久久爽一区| 久久91成人| 国产丝袜一区二区| 国产精品无码永久免费不卡| 人人香蕉久久| 日韩电影免费观看中文字幕| 中文字幕乱码一区| 99re热精品视频| 精品久久人人做人人爱| 国产又粗又猛又爽又黄| 免费一区二区三区在线视频| 91精品国产高清一区二区三区| 亚洲免费黄色录像| 久久爱www.| 日韩精品一区二区三区视频播放 | xnxx国产精品| 久久亚洲国产精品日日av夜夜| 日本激情视频网站| 99久精品国产| 欧美亚州在线观看| 国产鲁鲁视频在线观看免费| 国产欧美中文在线| 亚洲免费视频一区| 超碰在线观看免费版| 亚洲欧美日韩中文字幕一区二区三区| 好吊色这里只有精品| 欧美人与禽猛交乱配| 亚洲成a人片在线不卡一二三区| 国产精品久久..4399| 欧美freesex黑人又粗又大| 一本久久a久久免费精品不卡| 宅男噜噜噜66国产免费观看| 欧洲亚洲精品久久久久| 欧美一级在线观看| 久久久久亚洲AV成人无码国产| 天海翼亚洲一区二区三区| 亚洲欧美一区二区激情| 蜜桃视频最新网址| 你懂的视频一区二区| 国内外成人免费激情在线视频网站 | 亚洲理伦在线| 国产91热爆ts人妖在线| 97久久人国产精品婷婷| 国产**成人网毛片九色| 欧美在线3区| 成人欧美在线| 色婷婷av一区二区三区之一色屋| 欧美日韩一区二区三区69堂| 亚洲国产一区二区三区网站| 亚洲免费一在线| 中国一级片在线观看| 亚洲看片免费| 成人精品aaaa网站| 完全免费av在线播放| 激情五月婷婷基地| 天堂一区二区三区四区| 日韩在线视频网站| 天天操天天摸天天干| 六月丁香婷婷久久| 国内一区二区三区在线视频| 最新国产在线观看| 富二代精品短视频| 五月天六月丁香| 经典一区二区| 国内免费精品永久在线视频| 亚洲一区中文字幕在线| 99精品久久只有精品| 一卡二卡3卡四卡高清精品视频| 18video性欧美19sex高清| 欧美日韩国产片| 四虎永久免费影院| 激情欧美一区| 成人国产在线激情| 触手亚洲一区二区三区| 性久久久久久久久久久久| 国产无遮挡猛进猛出免费软件 | 麻豆中文字幕在线观看| 91久久国产综合久久91猫猫| 精品国产a毛片| 天天色影综合网| 日韩高清在线观看| 久久一区免费| h片精品在线观看| 欧美一区二区三区视频免费| 国产一区二区三区精品在线| 99在线精品免费视频九九视| 97中文在线| 成人影院在线看| 欧美日韩亚洲综合在线| 欧美三级视频网站| 丝瓜av网站精品一区二区| 国产精品国产三级国产专区53| 精品国产白色丝袜高跟鞋| 欧美性大战久久久久久久| 黄瓜视频污在线观看| 一本久道综合久久精品| 国产精品成人一区二区三区| bt在线麻豆视频| 91精品国产色综合久久| 熟女少妇a性色生活片毛片| 久久最新视频| 日韩福利视频| 国产第一精品| 深夜精品寂寞黄网站在线观看| 高潮毛片又色又爽免费 | 精品成人av| 国产亚洲欧美另类中文| 久久国产乱子伦精品| 日本一区二区三区在线不卡| 一区二区成人网| 欧美丝袜激情| 91精品美女在线| а√天堂8资源在线官网| 91精品欧美福利在线观看 | 欧美视频裸体精品| 日韩人妻一区二区三区| 久久精品一区| 亚洲高清乱码| 国产精品99久久免费| 久久99精品久久久久久噜噜| 亚洲欧美高清视频| 欧美日韩视频免费播放| 成人午夜剧场视频网站| 蜜桃av一区二区三区电影| 中文字幕欧美日韩一区二区三区| 国产精久久久| 97国产一区二区精品久久呦| 免费黄色片在线观看| 欧美日韩在线播放三区四区| 黑鬼狂亚洲人videos| 成人一区二区三区视频在线观看| 欧美日韩在线一| 黑丝美女一区二区| 成人免费看片视频| 77thz桃花论族在线观看| 精品网站999www| 91国产免费视频| 午夜在线电影亚洲一区| 久久久久久国产免费a片| 国产一区二区美女诱惑| 国产v片免费观看| 日韩精品1区| 鬼打鬼之黄金道士1992林正英| 美女av在线免费看| 色悠悠国产精品| 天天爱天天干天天操| 在线观看免费一区| 无码人妻精品一区二区三区夜夜嗨| 国产精品一区二区91| 日本毛片在线免费观看| 91久久电影| 欧美黑人xxxxx| 日本免费一区二区视频| 国产大片精品免费永久看nba| 在线电影福利片| 中文字幕欧美国内| 理论片中文字幕| 欧美乱妇一区二区三区不卡视频| 日本a在线观看| 亚洲欧美精品午睡沙发| 无码熟妇人妻av| 成人av在线看| 亚洲天堂伊人网| 日日夜夜一区二区| 色欲色香天天天综合网www| 99久久精品国产亚洲精品 | 欧美99在线视频观看| 欧美日韩国产精品一区二区| 亚洲综合影院| 国产精品一区二区三区在线播放| 蜜桃视频在线观看播放| 欧美日韩福利在线观看| 素人av在线| 尤物精品国产第一福利三区| 香蕉视频免费在线看| 日韩精品一区二区三区老鸭窝 | 97精品国产99久久久久久免费| 久久久久久久一区二区| dy888亚洲精品一区二区三区| 中文字幕日韩欧美| 日本福利在线观看| 亚洲成年人在线| 亚洲av无码国产精品永久一区 | 国产91在线播放精品91| 韩国成人二区| 久久久亚洲国产天美传媒修理工| 国产原创精品视频| 日韩中文字幕第一页| 在线免费av网站| 一区二区三区国产视频| 可以在线观看的黄色| 日韩av在线网| 无码精品在线观看| 日韩精品免费在线| 少妇一区二区三区四区| 精品国产髙清在线看国产毛片| 99国产精品99| 欧美一区二区三区精品| 99久久一区二区| 日韩情涩欧美日韩视频| 精品久久久免费视频| 日韩久久免费av| 亚洲精品第五页| 欧美精品一区二区三区蜜桃| 日韩在线视频免费| 亚洲精品按摩视频| 性高潮久久久久久久久久| 亚洲美女精品成人在线视频| 免费在线观看一级毛片| 一区二区三区在线播放欧美| 天堂аⅴ在线地址8| 欧美xxxx18性欧美| 欧美精品videosex| 亚洲97在线观看| 色一区二区三区| 国产精品小说在线| 成人精品视频在线观看| 国产高清一区二区三区| 美女一区二区在线观看| 欧美一区亚洲二区| 色乱码一区二区三区网站| 黄色网zhan| 日韩午夜电影| 日韩欧美在线免费观看视频| 久久国产夜色精品鲁鲁99| 黄色一级片免费播放| youjizz国产精品| 97人妻人人揉人人躁人人| ...av二区三区久久精品| 久艹视频在线观看| 色综合天天视频在线观看| 国产精品女同一区二区| 亚洲成人国产精品| 国产中文在线| 久久国产精品免费视频| 18aaaa精品欧美大片h| 国产精品久久久久久久久男| 国产一区二区| 鲁鲁视频www一区二区| 99精品视频在线观看播放| 国产素人在线观看| 美女网站视频久久| 91精品又粗又猛又爽| 国产婷婷色一区二区三区四区| 国产一区二区三区在线视频观看| 欧美色视频日本版| 99国产精品久久久久久久成人 | 久久九九电影| 三级网站免费看| 久久日韩粉嫩一区二区三区| a在线视频播放观看免费观看| 欧美性生交大片免网| 国产精品亚洲欧美在线播放| 日韩激情av在线播放| 国产黄大片在线观看画质优化| 欧美在线欧美在线| 精品国产一区二区三区2021| 奇米精品在线| 伊人久久大香线蕉综合热线| 91女神在线观看| 久久久99久久| 国产小视频在线看| 欧美日本韩国一区| 免费在线高清av| 高清视频欧美一级| 亚洲大奶少妇| 91制片厂免费观看| 日韩精品电影一区亚洲| xxxx黄色片| 亚洲综合激情网| 国产孕妇孕交大片孕| 在线日韩第一页| 成人性生活视频| 久久草.com| 在线视频观看日韩| 亚洲黄色小说在线观看| 亚洲欧洲日产国产综合网| 久草视频一区二区| 亚洲精品国产电影| 青草在线视频| 亚洲综合日韩在线| 欧美大人香蕉在线| 91国产精品视频在线观看| 久久一区二区三区国产精品| 天天操天天干视频| 亚洲国产精品va在线观看黑人| 国产网红女主播精品视频| av在线不卡一区| 欧美成人日韩| 波多野结衣三级视频| 亚洲欧美二区三区| 国产欧美日韩成人| 久久久精品国产| 9999在线精品视频| av电影一区二区三区| 精品亚洲成av人在线观看| 来吧亚洲综合网| 欧美高清性hdvideosex| 看黄网站在线观看| 亚洲一区二区三区777| 欧美国产三区| 国产乱淫av片| 性感美女极品91精品| 婷婷综合激情网| 欧美一区二区大胆人体摄影专业网站| 琪琪久久久久日韩精品| www一区二区www免费| 久久在线免费观看| 久久这里只有精品9| 最新的欧美黄色| 日韩成人视屏| 免费av手机在线观看| 91丨九色丨尤物| www.亚洲激情| 久久久极品av| 国产主播性色av福利精品一区| 国产乱子伦农村叉叉叉| 久久久久综合网| 中文字幕一级片| 欧美激情国产日韩精品一区18| 风间由美一区二区av101| 日日碰狠狠添天天爽超碰97| 久久久青草青青国产亚洲免观| 国产一级片免费视频| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 椎名由奈jux491在线播放| 国产一区中文字幕| 久久精品女人毛片国产| 日韩精品极品在线观看播放免费视频| 欧美大片免费观看网址| 一区二区三区四区在线视频| 国产成人自拍网| 激情五月婷婷网| www国产亚洲精品久久网站| 亚洲免费一区三区| 熟女性饥渴一区二区三区| 国产精品久久久久久妇女6080 | 久久久成人精品视频| eeuss国产一区二区三区四区| 精品一卡二卡三卡| 亚洲欧洲日本在线| 香港三日本三级少妇66| 国产日韩欧美成人| 精品成人国产| 成年人网站在线观看视频| 亚洲国产91色在线| 精品久久久网| 黄网站欧美内射| 一区在线中文字幕| 亚州精品国产精品乱码不99按摩| 国产精品人成电影| 亚洲大黄网站| 性生交大片免费全黄| 亚洲精品视频在线观看视频| 四虎精品一区二区免费| 久久国产午夜精品理论片最新版本| 国产精品私人自拍|