精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Percy Liang等人新研究:新必應等生成式搜索引擎可能沒那么好用

人工智能 新聞
斯坦福大學 Percy Liang 等人的一項測試表明,新必應等生成式搜索引擎很多時候都沒有那么靠譜:在它們生成的句子中,僅有 51.5% 的句子有引文支持,僅 74.5% 的引文支持相關句子。

生成式搜索引擎通過直接生成對輸入查詢的回應以及在線引用來滿足用戶的信息需求(如下圖 1)。現有的生成式搜索引擎正在迅速獲得用戶,微軟報告說 "大約三分之一的每日預覽用戶每天都在使用 Bing 聊天",Bing 聊天在其公開預覽的第一個月提供了 4500 萬次聊天。


圖片

生成式搜索引擎有可能改變人們在網上尋找信息的方式,但目前基于大語言模型的生成式搜索引擎生成的回復可能并不是準確的。但是鑒于它們的潛力和快速廣泛的應用,評估這些系統并更好地了解其潛在的局限性是至關重要的。

生成式搜索引擎一個值得信賴的先決條件是其可驗證性,每個生成的關于外部世界的描述都應該得到一組相關聯引用的充分支持,而且每個引文都應該支持根據其生成的相關描述。可驗證性使讀者能夠輕松地檢查任何生成的描述是否得到其引用來源的支持。

研究者通過人工評估來審核四個流行的商業生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),讓它們完成一組信息查找任務(例如,來自 NaturalQuestions 的各種類型的歷史谷歌用戶查詢,來自 Reddit 的動態收集的開放式問題;例子見表 1)。


圖片

對于每個查詢 - 回答對,研究者以人工評價來衡量下面幾種維度:

1. 流暢性(生成的文本是否流暢和連貫);

2. 感知效用(生成的回應是否對查詢有幫助,信息量是否充足);

3. 引文召回率(生成的關于外部世界的陳述中,完全由其引文支持的比例);

4. 引文精確度(生成的支持其相關陳述的引文比例)。

一個值得信賴的生成式搜索引擎應該達到較高的引文召回率和精確度,表明其生成的引文是全面的(每個生成的描述都有引文的充分支持)和正確的(每個引文都支持其相關描述)。

研究人員發現,現有的生成式搜索引擎響應通常具有很高的流暢性以及明顯的感知效用,但經常回復無支持的陳述或包含不準確的引用(低引用召回率和精確度)。平均來說,在生成句子中僅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相關句子(引文精確率)。

此外,引文召回率和精確度與流暢性和感知效用成反比 —— 看起來更有幫助的回應往往是那些沒有支持的描述或包含不準確的引文的回應。這種可信度的表象增加了現有生成式搜索引擎誤導用戶的可能性。在圖 1 的例子中,一個對詹姆斯 - 韋伯太空望遠鏡沒有什么背景知識的用戶很可能很難識別生成的回復中并沒有支持它的描述。

研究者假設這種逆向關聯的發生是因為一些生成式搜索引擎經常復制或改寫它們引用的網頁。雖然這樣的系統取得了較高的引用召回率和精確度,但是一些復制的語句可能與用戶的問題或生成的回復的其余部分無關,導致回復的流暢性和感知效用指標下降。

對流暢性、感知效用和可驗證性的人工評價

衡量流暢性和感知效用

為了測量響應的流暢性,研究人員向標注人員展示了用戶查詢、生成的回應并聲稱 "這些回應是流暢的、連貫的"。他們還要求標注人員在從 "非常不同意" 到 "非常同意" 的五點李克特量表上評定他們對該回應的認可程度。使用類似的過程來衡量感知效用,要求測試者評估他們對 “響應是對查詢的有用且信息豐富的回答” 這一說法的同意程度。

計算引文召回率

引文召回率是指完全被相關引文所支持的、值得驗證的陳述的比例(見下圖 2 的例子)。因此,計算引文召回率需要:

(1)確定回復中值得驗證的陳述;

(2)評估每個值得驗證的陳述是否有其相關引文的充分支持。


圖片

計算引用精確率

引用精確率是指在生成的所有引文中支持其相關陳述的比例(見圖 2 中的例子)。與召回率不同,引文精確率的概念在于獎勵系統準確引用的能力。如果一個生成的陳述引用了互聯網上的每個網頁,那么引文召回率可能會很高,但是引文精確率會很低(因為很多文章是不相關的,不支持其相關的陳述)。為了衡量回應 r 的引用精確率,研究者們給標注人員判斷每個引用 c_i,k 是否支持其相關陳述 s_i 提供了以下三個標準(例子見圖 1 中引用的網頁):

  • 完全支持:陳述中的所有信息都得到了引文的支持。
  • 部分支持:陳述中的一些信息得到了引文的支持,但其他部分沒有得到支持(例如,缺失或矛盾)。
  • 沒有支持:引文不支持陳述的任何部分(例如,引用的網頁完全不相關或矛盾)。

結果和分析

流暢性和感知效用

幾個生成式搜索引擎生成的回復看起來是流暢的并且很有幫助。下表 3 顯示了這些搜索引擎對每個查詢分布的回復的流暢性。


圖片

表 4 展示了它們的感知效用。


圖片

引文召回率和精確度

表 5 是生成性搜索引擎在所評估的查詢分布中的引文召回率的相關數據。

圖片

下表 6 是搜索引擎在所評估的查詢分布中關于引文精確率的實驗數據。


圖片

現有的生成式搜索引擎往往不能很正確地對引文進行引用。當對所有系統進行平均計算時,只有 51.5% 的生成語句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相關語句(精確度)。雖然生成的回答往往顯得信息量大且有用,但研究人員認為這些結果對于已經擁有數百萬用戶并正在迅速成為回答用戶查詢的主要工具的系統來說是不能接受的。

比較不同生成式搜索引擎之間的引文召回率和精確度,它們的引文召回率和精確率有很大的不同。平均而言,perplexity.ai 實現了最高的平均召回率(68.7),而其他三者的成績分別是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。

從精確率來比較,Bing Chat 實現了最高的精確率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。

可以得出,召回率最高和最低的系統之間有近 58% 的差距(perplexity.ai vs. YouChat),而精確率最高和最低的系統之間的差距近 25%(Bing Chat vs. YouChat)。

比較搜索引擎之間的不同查詢分布的引文召回率。修改評價查詢分布似乎比改變引用精確率更能影響引用召回率。例如,有長答案的 NaturalQuestions 查詢與非 NaturalQuestions 查詢之間的引用召回率差距接近 11%(分別為 58.5 與 47.8)。同樣,有短答案的 NaturalQuestions 查詢和無短答案的 NaturalQuestions 查詢之間的引用召回率差距接近 10%(有短答案的查詢為 63.4,只有長答案的查詢為 53.6,沒有長或短答案的查詢為 53.4)。

研究者假設引文召回率是由檢索到的網頁的相關性驅動的。在沒有檢索到直接回答用戶查詢的證據的情況下,系統會產生沒有引文證明的陳述,從而導致較低的召回率。例如,當對開放式的 AllSouls 論文問題進行評估時,生成式搜索引擎的引文召回率很低(平均召回率為 44.3),因為這些查詢通常在互聯網上沒有可提取的答案。

比較不同查詢分布的引文精確率,有長答案的 NaturalQuestions 查詢的精確率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察單個查詢分布的結果時,當對帶有段落答案類型的 NaturalQuestions 查詢進行評估時,生成式搜索引擎的精確率最高(當存在短答案時,精確率為 81.5,當只存在長答案時,精確度為 78.7)。另一方面,當對 AllSouls 開放式論文問題(67.8)和 davinci-debate 查詢(70.3)進行系統評估時,引文精確率是最低的。在 NaturalQuestions 子分布之間進行比較,有短答案的查詢的平均系統精確率(77.4)高于只有長答案(74.8)或沒有長答案(73.5)的查詢。

為了總結人工評估結果,表 7 列出了被評估系統的平均引文 F_1。圖 3 顯示了平均感知效用與平均引用 F_1 的對比。

現有的搜索引擎系統在引文召回率、引文精確率和感知效用之間都做了不同的權衡。


圖片


圖片

引文召回率和精率與精確率流暢性和感知效用成反比

研究者通過實驗發現,在現有的生成式搜索引擎中,引文召回率和精確率與流暢性和感知效用成反比。計算引文召回率和精確率與流暢性和感知效用之間的皮爾遜相關系數,發現兩者呈強負相關,特別是精確率顯示出更強的趨勢(表 8)。

例如,Bing Chat 達到了最高的精確度,但其流暢度和感知效用卻最低。相比之下,YouChat 的召回率和精確度最低,但它的回答得到了最高的流暢性和感知效用評價。


圖片

生成式搜索引擎經常復制或輕微改寫被引用網頁的內容

下表 9 列出了生成的陳述和從支持的網頁中提取的證據之間的相似度指標,當搜索引擎做出的陳述完全或部分得到其引文的支持時,它們往往直接從其引用的文章中復制或改寫轉述。

圖片


責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-11-07 16:49:09

微軟Bing必應

2013-01-07 10:32:46

平板搜索引擎機遇

2013-10-25 16:59:39

新搜狗搜索

2025-05-19 08:47:00

強化學習模型開源

2011-06-20 18:23:06

SEO

2021-09-18 10:31:29

Mozilla微軟Bing

2017-02-14 07:26:59

人工智能搜索引擎

2020-12-03 14:49:13

AI 技術 人工智能

2014-11-25 10:09:59

ElasticSear分布式搜索引擎Lucene

2022-08-15 14:56:30

搜索引擎分布式

2022-02-21 15:52:17

MozillaFirefox 98搜索引擎

2017-08-07 08:15:31

搜索引擎倒排

2020-03-20 10:14:49

搜索引擎倒排索引

2012-09-07 13:22:21

搜索搜狗

2022-10-08 09:13:18

搜索引擎?站

2009-09-21 16:59:04

搜索引擎

2010-04-20 11:43:46

2009-02-19 09:41:36

搜索引擎搜狐百度

2009-09-22 16:23:52

搜索引擎

2024-10-21 12:40:00

視頻生成模型
點贊
收藏

51CTO技術棧公眾號

欧美激情性做爰免费视频| 欧美熟乱第一页| 精品一区二区日本| 国产一级片一区二区| 天天综合网网欲色| 亚洲精品ady| 亚洲免费黄色网| 国产丝袜视频在线播放| 久久久亚洲国产美女国产盗摄| 国产精品日韩专区| 日本一区二区免费在线观看| 不卡中文字幕| 精品99999| 岛国毛片在线播放| 欧美gv在线观看| 亚洲欧美日韩久久精品| 你懂的网址一区二区三区| 国产又黄又猛又爽| 免费视频一区二区三区在线观看| 菠萝蜜影院一区二区免费| 成人手机在线免费视频| 高清精品久久| 色哟哟一区二区在线观看| 97久久国产亚洲精品超碰热| 超碰97在线免费观看| 成人黄色在线视频| 91麻豆桃色免费看| 99re这里只有精品在线| 国产精品v亚洲精品v日韩精品| 一本大道久久加勒比香蕉| 四虎成人免费视频| 国产精品久久久久久久久久久久久久久| 欧美午夜性色大片在线观看| 欧美久久在线观看| 久久久久久国产精品免费无遮挡| 91色.com| 激情欧美一区二区三区中文字幕| 国产日韩免费视频| 精品在线一区二区三区| 欧美一级片久久久久久久| 精品一区在线视频| 欧美成人69av| 日韩亚洲欧美中文在线| 中文字幕第24页| 国内亚洲精品| 亚洲天堂男人天堂女人天堂| 欧美成人午夜精品免费| 欧美色图五月天| 亚洲精品狠狠操| 亚洲精品乱码久久| 国产精品香蕉| 亚洲国产毛片完整版| 蜜臀视频在线观看| 操欧美女人视频| 精品久久久久久久一区二区蜜臀| 无码人妻少妇色欲av一区二区| 精品国产伦一区二区三区观看说明 | 18video性欧美19sex高清| 亚洲精品国产无套在线观| 男人草女人视频| 亚洲资源一区| 亚洲国产毛片aaaaa无费看 | 国内精品免费**视频| 成人精品一区二区三区| 97人妻精品一区二区三区| 精品一区二区日韩| 7777奇米亚洲综合久久| 国产av无码专区亚洲av| 处破女av一区二区| 久久久com| 福利在线播放| 最新日韩av在线| 97碰在线视频| 国产精品蜜芽在线观看| 色一情一伦一子一伦一区| 国产理论在线播放| 懂色av色香蕉一区二区蜜桃| 欧美不卡123| 欧美大片免费播放器| 欧美精品羞羞答答| 久久久国产一区二区| 国产亚洲精品久久久久久无几年桃| 欧美午夜电影在线观看 | 欧美成人免费在线观看| 久久久精品人妻一区二区三区四| 亚洲大胆在线| 国产成人综合精品| 国产精品乱码一区二区| 成人激情小说乱人伦| 日韩精品资源| 4438x成人网全国最大| 精品久久久在线观看| 亚洲天堂2018av| 2020最新国产精品| 亚洲精品小视频在线观看| 少妇太紧太爽又黄又硬又爽小说| 欧美在线看片| 国产成人综合久久| 亚洲国产精品国自产拍久久| 国产色91在线| 成人午夜免费在线视频| 欧美成人精品一区二区男人小说| 欧美精品在线观看播放| 丝袜熟女一区二区三区| 91视频综合| 欧美在线亚洲一区| 国产又大又黄的视频| 久久综合网色—综合色88| 青春草在线视频免费观看| 日本在线播放一二三区| 欧美一区二区三区日韩视频| 男人操女人动态图| 国产精品红桃| 国产在线精品成人一区二区三区| 天天综合永久入口| 亚洲精品国产成人久久av盗摄| 久久久久久久久久福利| 精品三级av在线导航| 色婷婷**av毛片一区| 日韩精品一区二区亚洲av| 国产成人精品免费网站| 亚洲欧洲精品在线观看| 韩国美女久久| 亚洲国产欧美一区| 日本老熟俱乐部h0930| 美国毛片一区二区三区| 美脚丝袜一区二区三区在线观看| 欧美理论电影| 91精品国产一区二区三区| 男人的天堂av网| 丝袜美腿亚洲色图| 久久天堂国产精品| 国产盗摄在线视频网站| 日韩视频一区二区三区| 九九精品视频免费| 麻豆国产欧美一区二区三区| 欧美少妇一区| 最新日韩三级| 亚洲欧美中文日韩在线v日本| 日韩激情在线播放| 成人免费毛片嘿嘿连载视频| 国产夫妻自拍一区| 操欧美女人视频| 久久99国产综合精品女同| 国产免费高清视频| 亚洲视频一二三| 成人黄色一级大片| 99国产**精品****| 国产在线观看一区二区三区 | 污污的网站免费| 日韩毛片视频| 国产乱人伦真实精品视频| 97在线观看免费观看高清| 欧美伊人久久大香线蕉综合69| 国产aⅴ激情无码久久久无码| 免费在线亚洲欧美| 欧美男人的天堂| 偷拍视频一区二区三区| 在线观看欧美日韩国产| 91久久国语露脸精品国产高跟| 欧美国产日韩精品免费观看| 欧美婷婷精品激情| 国产韩国精品一区二区三区| 成人欧美在线观看| 中日韩高清电影网| 精品国产电影一区二区| 亚州国产精品视频| 久久久久9999亚洲精品| 一区二区xxx| 91超碰国产精品| 国产v亚洲v天堂无码| 三级中文字幕在线观看| 亚洲人成网站在线播| 一级做a爰片久久毛片16| 亚洲人成影院在线观看| av网页在线观看| 天堂精品中文字幕在线| 自拍视频一区二区三区| 成人香蕉社区| 日韩av日韩在线观看| 91社区在线| 欧美sm美女调教| 久久精品无码av| 国产精品久久久久久久久图文区| 久久精品无码一区二区三区毛片| 亚洲三级视频| 亚洲最新在线| 欧美亚洲大陆| 国产情人节一区| 成人性生交大片免费看网站| 亚洲一二三在线| 草逼视频免费看| 色综合久久久网| 九九视频免费看| 久久久www免费人成精品| 色婷婷一区二区三区在线观看| 99视频精品| 懂色av一区二区三区四区五区| 先锋影音国产精品| 亚洲xxx自由成熟| 澳门成人av网| 欧美黑人xxxx| 欧美jizzhd69巨大| 亚洲激情视频在线观看| 一区二区精品视频在线观看| 五月天视频一区| 亚洲AV成人无码精电影在线| 久久免费看少妇高潮| 久久黄色一级视频| 青青草国产成人99久久| 国产精品久久..4399| 99久久精品网| 日本在线一区| 欧美精品中文字幕亚洲专区| 成人一区二区电影| 校园春色亚洲色图| 91精品国产色综合| 欧美黑人猛交| 久久精品青青大伊人av| 国产精品久久久久久久龚玥菲| 亚洲电影免费观看高清完整版在线| 一区二区www| 欧美视频一区二区三区| 免费看毛片网站| 婷婷国产在线综合| 麻豆亚洲av成人无码久久精品| 国产精品久久久久7777按摩| 欧美熟妇一区二区| 99热99精品| 最新版天堂资源在线| 国产一区二区不卡| www.久久av.com| 免费观看30秒视频久久| 熟妇人妻va精品中文字幕| 一本不卡影院| 国产精品50p| 一区二区三区国产盗摄| 国产不卡一区二区视频| 午夜日韩在线| 成人性做爰片免费视频| 国产精品国产一区| 一区二区三区av| 日韩欧美高清| 在线精品日韩| 亚洲国产精品91| 女女百合国产免费网站| 1024精品久久久久久久久| 正在播放亚洲| 欧美一区视频| 嫩草影院中文字幕| 欧美三级特黄| 男女激情无遮挡| 免费一级欧美片在线播放| 日韩av黄色网址| 另类av一区二区| 国产天堂在线播放| 蜜桃视频在线观看一区| 天堂av2020| 高清成人免费视频| 午夜视频在线免费看| 成人不卡免费av| 中文字幕免费看| 欧美国产日本韩| 黑鬼狂亚洲人videos| 一区二区三区不卡在线观看 | av在线下载| 欧美国产第二页| 在线观看的黄色| 国产精品丝袜高跟| 视频一区中文字幕精品| 含羞草久久爱69一区| 视频一区中文| 美国av在线播放| 亚洲大片av| 亚洲精品视频导航| 国产伦精品一区二区三区免费| 日韩黄色一区二区| 久久久精品tv| 欧美黄色aaa| 精品国产91久久久| 无码人妻精品一区二区三区蜜桃91| 欧美色网站导航| 国产欧美一级片| 日韩av在线免费观看一区| 成黄免费在线| 欧美精品videos另类日本| 午夜欧美巨大性欧美巨大| 91精品在线一区| 香蕉视频一区| 狠狠干视频网站| 久久av一区| 黄色片子免费看| 国产日韩av一区| 久久一级黄色片| 欧美性猛片xxxx免费看久爱 | 日韩电视剧免费观看网站| 最新av网站在线观看 | 国产精品成人国产| 国产伦精品一区二区三| 成人亚洲一区二区| 国产精品裸体瑜伽视频| 精品综合久久久久久8888| 素人fc2av清纯18岁| 亚洲人被黑人高潮完整版| www五月天com| 欧美成人一区二区三区片免费| 国产私人尤物无码不卡| 欧美高清视频在线观看| 久久99久久99精品免观看软件| 97中文在线| 欧美疯狂party性派对| 成年人免费在线播放| 福利电影一区二区| 男女男精品视频网站| 欧美日在线观看| 亚洲美女综合网| 另类美女黄大片| 久久久久久久性潮| 欧美久久久久久久| 在线亚洲成人| 日本中文字幕精品| 自拍偷拍欧美精品| 精品乱码一区内射人妻无码| 亚洲电影免费观看高清| 色呦呦在线视频| 亚洲一区二区中文| 亚洲成人av| 做a视频在线观看| 国产精品久久久久久久久免费桃花| 九一国产在线观看| 亚洲国产精品久久久久| 四虎亚洲精品| 91久久久一线二线三线品牌| 无需播放器亚洲| www.超碰97.com| 国产精品嫩草影院com| 91麻豆精品在线| 中文字幕亚洲精品| 日本成人三级电影| 日产精品一线二线三线芒果| 国产毛片一区| 麻豆精品免费视频| 日本精品一级二级| 国产综合在线观看| 国产经典一区二区| 欧洲杯半决赛直播| 三级视频中文字幕| 亚洲欧洲精品一区二区精品久久久 | 亚洲AV成人无码网站天堂久久| 欧美亚洲一区二区在线观看| 成人在线免费电影| 国产精品中文久久久久久久| 99精品在线观看| 韩国三级丰满少妇高潮| 亚洲在线免费播放| 亚洲色大成网站www| 欧美亚洲在线播放| 精品一区二区三| 五月天婷婷在线观看视频| 亚洲精品高清在线| 五月婷婷深深爱| 国产成人精品优优av| 久久精品高清| av地址在线观看| 福利二区91精品bt7086| 国产尤物视频在线| 成人免费高清完整版在线观看| 91精品国产乱码久久久久久久| 青青草精品在线| 大桥未久av一区二区三区| 国产九九在线| 亚洲在线视频观看| 99伊人成综合| 天天摸日日摸狠狠添| 欧美高清激情brazzers| missav|免费高清av在线看| 免费日韩电影在线观看| 久久精品国产99国产| 国产性生活网站| 国产一区二区三区四区福利| 欧美1区2区3| av免费播放网址| 中文字幕制服丝袜一区二区三区| 国产浮力第一页| 日本一欧美一欧美一亚洲视频| 日韩午夜电影网| 黄色激情在线观看| 在线亚洲欧美专区二区| 18videosex性欧美麻豆| 欧美日韩精品免费在线观看视频| 久久精品国产77777蜜臀| 亚洲国产精品午夜在线观看| 中文字幕久久久| 国产亚洲精品美女久久| 一路向西2在线观看| 亚洲18色成人| 九义人在线观看完整免费版电视剧| 国产一级精品aaaaa看| 精品一区二区日韩| 久久免费激情视频|