精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比人類便宜20倍!谷歌DeepMind推出「超人」AI系統

人工智能 新聞
大模型的幻覺問題怎么解?谷歌DeepMind:用AI來做同行評審!事實核驗正確率超過人類,而且便宜20倍。

AI的同行評審來了!

一直以來,大語言模型胡說八道(幻覺)的問題最讓人頭疼,而近日,來自谷歌DeepMind的一項研究引發網友熱議:

大模型的幻覺問題,好像被終結了?

圖片

論文地址:https://arxiv.org/pdf/2403.18802.pdf

項目地址:https://github.com/google-deepmind/long-form-factuality

在這篇工作中,研究人員介紹了一種名為 "搜索增強事實性評估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

對于LLM的長篇回答,SAFE使用其他的LLM,將答案文本分解為單個敘述,然后使用諸如RAG等方法,來確定每個敘述的準確性。

圖片

——簡單來說就是:AI答題,AI判卷,AI告訴AI你這里說的不對。

真正的「同行」評審。

另外,研究還發現,相比于人工標注和判斷事實準確性,使用AI不但便宜20倍,而且還更靠譜!

圖片

目前這個項目已在GitHub上開源。

長文本事實性檢驗

大語言模型經常胡說八道,尤其是有關開放式的提問、以及生成較長的回答時。

比如小編隨手測試一下當前最流行的幾個大模型。

ChatGPT:雖然我的知識儲備只到2021年9月,但我敢于毫不猶豫地回答任何問題。

圖片

Claude 3:我可以謙卑且胡說八道。

圖片

為了對大模型的長篇回答進行事實性評估和基準測試,研究人員首先使用GPT-4生成LongFact,這是一個包含數千個問題的提示集,涵蓋38個主題。

LongFact包含兩個任務:LongFact-Concepts和LongFact-Objects,前者針對概念、后者針對實體。每個包括30個提示,每個任務各有1140個提示。

圖片

然后,使用搜索增強事實性評估器(SAFE),利用LLM將長篇回復分解為一組單獨的事實,并使用多步驟推理過程來評估每個事實的準確性,包括使用網絡搜索來檢驗。

此外,作者建議將F1分數進行擴展,提出了一種兼顧精度和召回率的聚合指標。

SAFE工作流程

如上圖所示,首先提示語言模型將長篇響應中的每個句子拆分為單個事實。

然后,通過指示模型將模糊的引用(代詞等)替換為上下文中引用的適當實體,將每個單獨的事實修改為自包含的事實。

為了對每個獨立的個體事實進行評分,研究人員使用語言模型來推理該事實是否與上下文中相關,并且使用多步驟方法對每個相關事實進行評定。

如上圖所示,在每個步驟中,模型都會根據要評分的事實和先前獲得的搜索結果生成搜索查詢。

在設定的步驟數之后,模型執行推理以確定搜索結果是否支持該事實。

比人類更好用

首先,直接比較對于每個事實的SAFE注釋和人類注釋,可以發現,SAFE在72.0%的單個事實上與人類一致(見下圖),表明SAFE幾乎達到了人類的水平。

圖片

——這還沒完,跟人類一致并不代表正確,如果拿正確性PK一下呢?

研究人員在所有SAFE注釋與人類注釋產生分歧的案例中,隨機抽樣出100個,然后人工重新比較到底誰是正確的(通過網絡搜索等途徑)。

圖片

最終結果讓人震驚:在這些分歧案例中,SAFE注釋的正確率為76%,而人工注釋的正確率僅為19%(見上圖),——SAFE以將近4比1的勝率戰勝了人類。

然后我們再看一下成本:總共496個提示的評分,SAFE發出的 GPT-3.5-Turbo API調用成本為64.57美元,Serper API調用成本為 31.74 美元,因此總成本為96.31美元,相當于每個響應0.19美元。

而人類標注這邊,每個響應的成本為4美元,——AI比人類便宜了整整20多倍!

對此,有網友評價,LLM在事實核驗上有「超人」級別的表現。

圖片

評分結果

據此,研究人員在LongFact上對四個模型系列(Gemini、GPT、Claude和PaLM-2)的13個語言模型進行了基準測試,結果如下圖所示:

圖片

研究人員發現,一般情況下,較大的模型可以實現更好的長格式事實性。

例如,GPT-4-Turbo比GPT-4好,GPT-4比GPT-3.5-Turbo好,Gemini-Ultra比Gemini-Pro更真實,而PaLM-2-L-IT-RLHF比PaLM-2-L-IT要好。

在兩個選定的K值下,三個表現最好的模型(GPT-4-Turbo、GeminiUltra和PaLM-2-L-IT-RLHF),都是各自家族中超大杯。

另外,Gemini、Claude-3-Opus和Claude-3-Sonnet等新模型系列正在趕超GPT-4,——畢竟GPT-4(gpt-4-0613)已經有點舊了。

是誤導嗎?

對于人類在這項測試中顏面盡失的結果,我們不免有些懷疑,成本應該是比不過AI,但是準確性也會輸?

Gary Marcus表示,你這里面關于人類的信息太少了?人類標注員到底是什么水平?

為了真正展示超人的表現,SAFE需要與專業的人類事實核查員進行基準測試,而不僅僅是眾包工人。人工評分者的具體細節,例如他們的資格、薪酬和事實核查過程,對于比較的結果至關重要。

「這使得定性具有誤導性?!?/span>

當然了,SAFE的明顯優勢就是成本,隨著語言模型生成的信息量不斷爆炸式增長,擁有一種經濟且可擴展的方式,來進行事實核驗將變得越來越重要。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-29 13:55:05

AI模型

2023-03-29 19:35:43

ChatGPT標注數據

2023-03-31 13:23:31

ChatGPTNLPMTurk

2019-10-22 15:19:27

AI 數據人工智能

2023-03-29 15:14:15

數據AI

2022-02-18 09:53:17

AI芯片設計

2023-05-30 12:50:16

2023-09-01 13:36:24

2024-12-17 12:53:45

AI自我進化谷歌

2023-08-30 07:29:39

SynthID谷歌

2016-12-02 20:10:22

人工智能唇語序列

2023-08-13 14:53:06

AI效率人工智能

2023-11-21 14:48:11

2024-01-07 22:58:56

2021-03-05 16:14:08

AI 數據人工智能

2024-04-07 08:50:00

谷歌框架

2025-06-30 14:00:14

AI編程谷歌

2025-03-13 10:28:07

2023-09-20 12:58:00

訓練研究

2024-06-25 10:43:39

AI?人工智能
點贊
收藏

51CTO技術棧公眾號

欧美高清视频一二三区 | 91色在线porny| 国内成人精品一区| 久久久久亚洲av成人无码电影| 午夜精品成人av| 国产精品理伦片| 成人欧美一区二区三区视频xxx| 精品午夜福利在线观看| 亚洲动漫在线观看| 欧美高清视频一二三区| www.日本在线播放| av在线二区| 成人激情文学综合网| 国产精品美女免费看| 久久久久久天堂| 精品国产一区探花在线观看| 欧美一激情一区二区三区| av观看免费在线| 中文字幕中文字幕在线十八区 | 中文字幕五月天| 婷婷成人综合| 69久久99精品久久久久婷婷 | 日本一区网站| 性一交一乱一伧老太| 水野朝阳av一区二区三区| 九色精品美女在线| 超碰97av在线| 五月激激激综合网色播| 日韩西西人体444www| 超碰在线97免费| 超碰在线免费播放| 国产精品视频线看| 欧美极品视频一区二区三区| 亚洲狼人综合网| 激情综合色综合久久| 欧美在线中文字幕| 国产精品30p| 中国成人一区| xxxxxxxxx欧美| 日本一级免费视频| 色哟哟精品丝袜一区二区| 日韩欧美黄色影院| 在线免费黄色网| 成人免费在线观看视频| 色婷婷av一区二区三区gif| 美脚丝袜脚交一区二区| 日本高清在线观看| 亚洲欧美成aⅴ人在线观看| 一区二区三区四区欧美| 国产乱子伦三级在线播放| 久久综合色综合88| 丁香五月网久久综合| 精品美女www爽爽爽视频| 韩国一区二区三区| 国产日韩av在线| 一级黄色大片免费观看| 全国精品久久少妇| 国产精品高潮呻吟视频| 欧美日韩 一区二区三区| 首页国产欧美久久| 国产成人精品视频在线观看| 无码人妻熟妇av又粗又大| 久久综合九色| 国产精品久久久久久久久久免费| 成年人晚上看的视频| 日本欧美一区二区| 国产精品美女免费| 国产毛片在线视频| 日韩精品中文字幕吗一区二区| 欧美亚洲国产一区二区三区| 三级a三级三级三级a十八发禁止| aaaa欧美| 91精品国产色综合久久久蜜香臀| 99999精品| a级日韩大片| 亚洲高清不卡av| av网站免费在线播放| 国产亚洲第一伦理第一区| 国产亚洲精品久久久久久牛牛 | 欧美亚洲另类制服自拍| 久久99国产综合精品免费| 日韩精品国产精品| 91久久在线观看| 欧美一区二区公司| 久久精品无码一区二区三区| 亚洲图片在线观看| 亚洲国产精品精华素| 精品国产精品三级精品av网址| 日韩黄色片视频| 青青久久精品| 亚洲福利视频网站| 一区二区精品免费| 亚洲影视一区二区三区| 欧洲成人免费aa| 国产精品美女一区| 97久久超碰精品国产| 亚洲国产欧美日韩| 欧洲在线视频| 欧洲视频一区二区| 制服.丝袜.亚洲.中文.综合懂| 台湾佬综合网| 不卡av日日日| 手机看片久久久| 国产精品一级黄| 欧美亚洲另类在线一区二区三区| 久操视频在线观看| 欧美日韩国产精品专区| gogogo高清免费观看在线视频| 成人动态视频| 日韩视频在线免费| 国产午夜福利精品| 激情久久五月天| 久久精品国产一区二区三区日韩 | 国产成人久久久精品一区| 国产喷水吹潮视频www| 久久影院电视剧免费观看| 一区二区三区四区免费观看| 欧美xxx视频| 精品国产亚洲一区二区三区在线观看| 亚洲区自拍偷拍| 亚洲三级影院| 亚洲一区二区中文| 国产高清免费av在线| 图片区小说区区亚洲影院| 四虎成人在线播放| 精品视频亚洲| 日韩av手机在线| 色婷婷av一区二区三区之红樱桃 | 奇米777四色影视在线看| 日本在线精品| 国产丝袜一区二区三区免费视频| 青青草手机在线观看| 激情综合网最新| 亚洲欧美日韩精品久久久| 在线手机中文字幕| 亚洲国产精品va在看黑人| 国产女片a归国片aa| 九九精品视频在线看| 日韩在线国产| 怡红院成人在线| 国产视频亚洲精品| 日本在线播放视频| av网站免费线看精品| 精品成在人线av无码免费看| 日韩精品久久久久久久软件91| 在线精品国产成人综合| 国产精品第5页| 2020国产精品久久精品美国| 99精品人妻少妇一区二区| 福利片在线一区二区| 欧美极品少妇与黑人| 亚洲av无码国产精品永久一区| 自拍偷拍亚洲欧美日韩| 91精产国品一二三产区别沈先生| 日韩中文欧美| 91免费视频国产| 高清全集视频免费在线| 欧美一区二区日韩一区二区| 天天干中文字幕| 国产99久久久国产精品潘金| 97碰在线视频| 麻豆成人入口| 庆余年2免费日韩剧观看大牛| 免费成人av电影| 在线观看亚洲一区| 美女网站视频色| 国产一区高清在线| 国内少妇毛片视频| 日韩av中文字幕一区| 欧美亚洲视频在线看网址| 国产青青草在线| 欧美精品精品一区| 免费在线视频观看| 91丨porny丨首页| 五月婷婷激情久久| 中文字幕免费精品| 国产女主播一区二区三区| 新版的欧美在线视频| 一区国产精品视频| 国产免费av电影| 亚洲午夜电影在线观看| 爱爱的免费视频| 毛片不卡一区二区| 国产爆乳无码一区二区麻豆| 色哟哟精品丝袜一区二区| 国产精品丝袜一区二区三区| 性欧美猛交videos| 亚洲美女中文字幕| 国产精品久久777777换脸| 亚洲一区二区三区影院| 久久久久久久久久久久久久久| 激情欧美一区二区| 免费国产a级片| 国产精品久久久久久| 国产精品久久久久久久久久久久午夜片 | 午夜视频www| 欧美日韩一区二区三区在线看| 欧美成人综合色| 久久久99久久| 久久精品无码专区| 视频在线观看国产精品| 日本福利视频网站| 欧美中文一区二区| 国产精品一区免费观看| 激情欧美一区二区三区黑长吊| 欧美高清视频在线| h视频在线播放| 亚洲电影中文字幕| 91禁在线观看| 日韩欧美在线视频| 久久午夜无码鲁丝片| 国产校园另类小说区| 国产午夜在线一区二区三区| 青椒成人免费视频| 97国产精东麻豆人妻电影 | 久久精品国亚洲| 日本在线一二三| 精品少妇一区二区三区在线视频| 中文无码精品一区二区三区| 精品久久久在线观看| 精品国产视频在线观看| 国产欧美日韩综合精品一区二区| 午夜剧场免费看| 国产精品一区二区在线播放| 日日噜噜噜噜久久久精品毛片| 国产欧美亚洲一区| 成人小视频在线观看免费| 国产精品国产三级国产在线观看| 欧美精品123| 欧美电影完整版在线观看| 91av免费看| avtt久久| 成人中心免费视频| 国产精品99久久久久久董美香 | 久久的精品视频| 成人h小游戏| 亚洲欧美中文字幕在线一区| 午夜福利视频一区二区| 精品久久五月天| 国产成人麻豆精品午夜在线| 777亚洲妇女| 一二三四区视频| 7777精品伊人久久久大香线蕉经典版下载| 中文字幕日本视频| 欧美亚洲精品一区| 中文字幕+乱码+中文乱码www| 日本精品一区二区三区高清| 久久久免费高清视频| 狠狠综合久久av一区二区小说| 久久夜色精品亚洲| 午夜精品久久久久影视| 日韩大片免费在线观看| 亚洲国产精品久久久久婷婷884| 国产亚洲自拍av| 亚洲综合免费观看高清在线观看| 麻豆成人在线视频| 亚洲一区在线观看视频| 国产无码精品视频| 精品日本高清在线播放| 无码人妻久久一区二区三区不卡| 在线看不卡av| 中文字幕人妻互换av久久| 欧美人牲a欧美精品| 国产精品自偷自拍| 日韩欧美亚洲国产另类| 欧美少妇bbw| 日韩精品在线影院| 国产黄在线看| 久久在精品线影院精品国产| 少妇视频在线| 55夜色66夜色国产精品视频 | 欧美日韩1区| 国产午夜大地久久| 丝袜亚洲另类欧美综合| 污污网站在线观看视频| 国产精品综合网| 久久人妻少妇嫩草av无码专区 | 亚洲精品久久久久久国| 亚洲精品乱码久久久久| 久久久久久久久影院| 色拍拍在线精品视频8848| 一级黄色片在线| 亚洲精品在线观看视频| 黄色大片在线看| www.精品av.com| heyzo高清国产精品| 国产91久久婷婷一区二区| 一区二区三区| 精品一区二区三区视频日产| 欧美色女视频| 国产免费裸体视频| 爽好久久久欧美精品| 中文字幕人妻无码系列第三区| 91一区二区在线| 永久免费未视频| 动漫精品一区二区| 国产精品自偷自拍| 亚洲天天在线日亚洲洲精| 国产精品刘玥久久一区| 日韩免费在线看| 欧美专区视频| 五月天亚洲综合情| 日韩天天综合| 在线一区二区不卡| 久久色在线视频| 国产一级二级毛片| 欧美日韩高清一区二区不卡| 四虎精品在线| 欧美日本黄视频| 欧美极品在线| 国产自产精品| 欧美福利视频| 天天操,天天操| 久久先锋影音av鲁色资源| 91传媒免费观看| 一本色道久久综合亚洲精品按摩| 亚洲精品免费在线观看视频| 伊人青青综合网站| 日本在线播放一二三区| 91在线观看网站| 91亚洲自偷观看高清| 黄色片久久久久| 成人avav在线| 久久免费在线观看视频| 欧美丰满高潮xxxx喷水动漫| www.亚洲视频| 国产成人精彩在线视频九色| 久久99偷拍| 国产二区视频在线| 国产传媒一区在线| 成人涩涩小片视频日本| 欧美日免费三级在线| 男女污污视频在线观看| 97av在线播放| 精品精品国产三级a∨在线| 精品一区二区三区毛片| 精品亚洲成a人在线观看| 三区四区在线观看| 在线亚洲欧美专区二区| 欧美日本网站| 日本精品久久久| 亚洲精品aaaaa| 欧美日韩亚洲一| 91丨九色porny丨蝌蚪| 欧美精品二区三区| 日韩精品在线私人| 日韩三级影视| 欧洲一区二区在线| 日韩高清电影一区| 亚洲综合欧美综合| 欧美性视频一区二区三区| www.黄在线观看| 国产精品欧美日韩一区二区| 日本黄色精品| 午夜免费福利视频在线观看| 亚洲视频图片小说| 国产美女明星三级做爰| 久久99久国产精品黄毛片入口 | 日韩精品极品视频在线观看免费| 玖玖国产精品视频| 欧美午夜激情影院| 欧美日韩国产大片| 18视频在线观看网站| 国产精品一 二 三| 性欧美长视频| 五月激情四射婷婷| 7878成人国产在线观看| 丁香花在线影院| 久久精品magnetxturnbtih| 日韩av网站在线观看| 四虎884aa成人精品| 精品少妇一区二区三区在线播放 | 国产精品一区二区免费| 99伊人成综合| 日本成人免费视频| 欧美福利一区二区| 免费污视频在线| 欧美精品在线一区| 久久精品国产精品亚洲精品| 中文字幕在线观看成人| 亚洲黄在线观看| 国产福利亚洲| 精品一二三四五区| 久久久午夜精品理论片中文字幕| 亚洲一线在线观看| 欧美激情精品久久久久久黑人| 窝窝社区一区二区| 亚洲黄色av片| 精品久久久精品| 国内精品久久久久国产| 精品一区二区日本| 精品一区二区在线免费观看| 日韩欧美a级片| 日韩在线视频线视频免费网站| 91欧美日韩在线| 粉嫩虎白女毛片人体| 亚洲综合一区二区精品导航| 风间由美一区| 国产伦精品一区二区三区照片 | 色乱码一区二区三区88|