精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

維基百科+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準確率高達97.3%

人工智能 新聞
大模型固有的幻覺問題嚴重影響了LLM的表現。斯坦福最新研究利用維基百科數據訓練大模型,得到的WikiChat成為首個幾乎不產生幻覺的聊天機器人。

大語言模型的幻覺問題被解決了!

近日,來自斯坦福的研究人員發布了WikiChat——被稱為首個幾乎不產生幻覺的聊天機器人!

論文發表在EMNLP 2023,并且在Github上開源了代碼:

論文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

項目代碼:https://github.com/stanford-oval/WikiChat

作者表示自己的最佳模型在新的基準測試中獲得了97.3%的事實準確性,而相比之下,GPT-4的得分僅為66.1%。

在「recent」和「tail」兩個知識子集中,這個差距甚至更大。

另外,作者還發現了檢索增強生成(RAG)的幾個缺點,并添加了幾個重要步驟,以進一步減輕幻覺,并改進「對話性」指標。

通過這些優化,WikiChat在事實性方面比微調后的SOTA RAG模型Atlas高出8.5%,

在相關性、信息性、自然性、非重復性和時間正確性方面也大大領先。

最后,作者將基于GPT-4的WikiChat提煉成7B參數的LLaMA,這個模型在事實準確性方面仍然能拿到91.1%的高分,

并且運行速度提高了6.5倍,能效更好,可以本地部署。

大模型+維基百科,一起擊敗幻覺

眾所周知,LLM的幻覺問題由來已久、根深蒂固,

而且曾給各家的大語言模型都造成過不同程度的影響。

基于LLM使用概率來推斷輸出的原理,幻覺這個問題很難徹底解決,

研究人員們為此投入大量的心血,小編也是很期待這個WikiChat的表現!

WikiChat,顧名思義,就是基于維基百科的知識進行訓練,聽起來還挺靠譜的。

除了論文和代碼,研究團隊還部署了可以直接對話的demo供大家測試,好文明!

圖片

Demo地址:https://wikichat.genie.stanford.edu/

于是小編迫不及待地要試一試WikiChat的實力。

WikiChat首先進行了自我介紹,表示自己會記錄對話用于研究,

另外,WikiChat有以下三種模式:

圖片

默認狀態是平衡輸出速度和準確性,我們可以在右邊的設置中調節。

WikiChat還額外添加了TTS功能,輸出是個溫柔的女聲。

好了,讓我們趕緊「Ask her about anything on Wikipedia」!

——開個玩笑,既然你不會中文,那小編這點英文水平,只能獻丑了......

(注意上面的這句中文不要點擊語音輸出,有可能導致整個聊天卡住無法恢復)

下面,我們首先問一個常識性問題:Sam Altman是OpenAI的CEO嗎?

其實小編想測試她知不知道Altman被開除,然后又王者歸來這件事,

不過這一句「在2020年離開YC,全職加入OpenAI」,貌似就有事實性的錯誤。

小編接下來使用游戲信息進行測試:介紹一下「原神」中的「宵宮」。

這個回答確實沒什么問題,卡池時間和配音演員也正確,

既然提到了配音演員,那順便問一下中文CV是誰:

這......不知道她為什么產生了這樣的幻覺?實際上維基百科中是有相關信息的:

那我們提醒她反思一下:

好家伙,給出了另一個錯誤答案,小編想了一下,應該說的是游戲中另一位角色的CV(負責《神女劈觀》中的戲腔部分,知名度較高)。

那么測試一下,知名度比較高的角色。

小編選擇了在維基百科上有單獨條目的雷電將軍:

這下連卡池時間都有事實性錯誤,——而維基百科中的相關描述是沒有問題的。

WikiChat對于自己一直心心念念的配音演員,倒是沒有回答錯誤。

小編于是不死心地又測試了一遍之前的問題:

WikiChat也是不死心地給出了和之前同樣的回答,并且在要求反思之后,變成了「道歉機器人」。

把模式調整到事實性優先:

WikiChat給出回答的速度要慢了很多,但還是只能道歉。

小編于是換了另一位有單獨百科條目的角色:

除了第一句,后面就開始滿嘴跑火車了。

最后,來問一下配音演員的問題(維基百科的單獨條目中包含此信息):

......你這個聊天機器人是什么情況,認準了Juhuahua了是嗎?

測試到此結束,小編不知如何總結,有可能是我的問題有問題吧。

比如我問題的相關信息,在英語維基百科的語料中重要性很小。

不論如何,WikiChat在一些問題上的表現確實還不錯,比如宵宮那個問題,換成ChatGPT,就幾乎沒有任何沾邊的事實。

這說明研究人員確實采取了一些有效的優化方法,來解決LLM的幻覺問題。

WikiChat架構

這項工作的事實性基礎是信息檢索(IR),它基于聊天機器人的響應、以及從可信語料庫中檢索到的信息,然后生成方法利用檢索到的數據生成響應。

上圖展示了WikiChat的組件,以及一段示例對話(關于即將上映的電影)。

生成響應所采取的步驟包括:

1. 生成從維基百科檢索的查詢,

2. 總結和過濾檢索到的段落,

3. 從LLM生成響應,

4. 從LLM響應中提取聲明,

5. 使用檢索到的證據對LLM響應中的聲明進行事實核查,

6. 起草響應,

7. 完善響應。

研究人員使用用戶話語來檢索LLM可能不知道的信息,要求LLM做出回應,并對其進行事實檢查。

阻止LLM產生幻覺并不容易。一般情況下,當IR沒有檢索到任何相關信息,或知識語料庫中沒有相關信息時,LLM會產生幻覺來彌補不足。

因此,WikiChat會匯總和過濾檢索到的信息,而不是直接生成響應。

這里分別對LLM生成的每個聲明進行事實核查,并在必要時教系統說「我不知道」。

教LLM理解時間背景:例如,文章中的將來時態可能是指對話時的過去事件。

最重要的是,不能通過放棄這些必要的步驟來過早地優化速度,而是依靠模型蒸餾來減少延遲,直到達到高質量。

上圖中管道的每個階段都是使用上下文學習實現的。

生成的管道不特定于任何語料庫。雖然本文將管道應用于維基百科以創建WikiChat,但它適用于任何自由文本語料庫,包括個人和公司機密信息。

該管道也不特定于任何LLM,作者在本文中將其應用于三個不同的LLM。

策劃正確且與對話上下文相關的信息

LLM能夠解釋用戶話語,制定檢索范圍之外的響應,或者需要聚合來自多個來源的信息或得出結論,比如:

用戶:你認為蘋果會繼續成為科技行業的重要參與者嗎?

GPT-4:是的,......蘋果擁有良好的創新記錄、忠實的客戶群和穩健的財務狀況。全球市值最高的公司,市值超過2萬億美元。繼續探索增強現實、人工智能、自動駕駛汽車等新技術。這將幫助他們在競爭中保持領先地位。

但我們不能完全相信LLM,而是需要對它們的輸出進行事實檢查。此外,LLM不知道最近發生的事件。

在與用戶的對話中,WikiChat會識別何時需要訪問外部信息。這可能是因為最后一個用戶話語包含直接問題(例如「斯蒂芬·庫里是誰?」),或者需要其他信息才能做出全面的回答(例如「我真的很喜歡斯蒂芬·庫里」)。

第1階段,WikiChat生成一個搜索查詢,該查詢通過提示捕獲用戶的興趣(如下圖所示)。作者發現,現有的系統尤其難以適應時間環境。

WikiChat在查詢旁邊生成用戶需求的推斷時間。查詢時間可以是最近、year=yyyy或none之一,分別表示檢索到的信息應盡可能近、特定年份或時間不重要。

將查詢發送到信息檢索系統,從語料庫中獲取相關段落,并根據時態信息對排名靠前的結果進行重新排序,得到Npassages。

第2階段,由于這些段落可能包含相關和不相關部分的混合,WikiChat會提取檢索到的段落的相關部分,并將它們總結為要點,同時過濾掉不相關的部分(如下圖所示)。

第3階段,提示LLM生成對對話歷史記錄的響應。這種回應通常包含有趣且相關的知識,但本質上是不可靠的。

第4階段,LLM響應被分解為多種聲明(如下圖),此階段解析共同引用以減少歧義,并解析相對時間信息(如「當前」和「去年」),以使所有聲明自包含。

然后使用IR從知識語料庫中檢索Nevidence段落,以便每個聲明作為證據,并使用基于時間的重新排名來更好地處理時間敏感的主題。

第5階段,驗證提示(如下圖)使用思維鏈提示,將每個聲明分配給以下三類之一:檢索到的證據是否支持該聲明、反駁該聲明,或者證據中是否沒有足夠的信息來做出此決定。只有有證據支持的主張才會被保留。

使用收集到的信息來形成響應

實驗表明,在滿足所有會話標準的情況下一次性編寫最終響應,對于上下文學習具有挑戰性,尤其是有限的上下文長度,使得很難提供足夠的多輪對話,作為少量示例來涵蓋所有必要的方面。因此,這里采用兩步法:

第6階段,WikiChat根據給定的要點列表和對話歷史記錄生成響應草稿。

第7階段,生成反饋并進行優化——基于相關性、自然性、非重復性和時間正確性的響應。

反饋包含模型對每個標準的推理,以及每個標準的分數介于0到100之間,細化以此反饋為條件。

改進是以這種反饋和分數為條件的,作為一個思維鏈。

最后,我們來看一下WikiChat的效果:

上表展示了WikiChat的評估結果和模擬對話的基線。事實和時間準確性是百分比,其他指標是介于1和5之間的整數的平均值。

事實準確性來自人類評估,其他指標來自小樣本GPT-4。所有指標都是越高越好。


責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-15 09:23:00

模型AI

2024-01-29 12:49:00

AI模型

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-03-15 10:35:16

GPTAI

2024-11-26 08:42:14

2025-03-12 10:38:05

2023-11-20 21:56:04

AI推理

2013-10-30 16:54:46

維基百科維基百科的衰落

2023-10-12 14:18:06

2023-06-05 15:44:15

GPT-4AI

2025-05-06 15:32:23

模型AI測試

2024-01-15 06:27:00

AI工具

2023-09-19 14:56:00

模型訓練

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2024-04-07 13:40:20

2023-09-21 12:31:54

AI數據

2023-09-19 09:20:16

2024-09-02 09:25:00

AI研究
點贊
收藏

51CTO技術棧公眾號

在线免费观看黄| 久久香蕉精品视频| segui88久久综合| 91在线国产观看| 欧美在线亚洲在线| 国产精品av久久久久久无| 国产精品一区二区三区四区在线观看| 亚洲影院免费观看| 欧美主播一区二区三区美女 久久精品人 | av成人在线观看| 亚洲视频在线一区二区| 国产日韩三区| 在线观看国产精品入口男同| 欧美天堂亚洲电影院在线观看| 日韩高清免费在线| 亚洲性图一区二区| 久久大胆人体| 国产精品午夜在线观看| 国产精品久久国产三级国电话系列| 精品人妻一区二区三区潮喷在线| 欧美在线国产| 中日韩美女免费视频网址在线观看 | 懂色av一区二区夜夜嗨| 日韩av电影中文字幕| 久久国产精品国语对白| 精品影片在线观看的网站| 日韩精品一区二区三区swag| 一区二区三区入口| 麻豆mv在线观看| 亚洲精品国产a| 亚洲精品国产一区| 免费在线性爱视频| 成a人片亚洲日本久久| 91沈先生作品| 亚洲中文字幕在线观看| 久久一区二区三区四区五区| 久久全国免费视频| 卡通动漫亚洲综合| 日韩一区二区在线| 在线不卡国产精品| 女女互磨互喷水高潮les呻吟| 国内自拍欧美| 精品国产91洋老外米糕| 欧美一级xxxx| 美女久久久久久| 欧美性色黄大片| 99久久久无码国产精品6| 爱情岛亚洲播放路线| 亚洲乱码中文字幕综合| 久久av秘一区二区三区| aaa日本高清在线播放免费观看| 91在线观看视频| 精品久久蜜桃| 日本一区视频| 久久这里只有精品首页| 免费成人深夜夜行视频| 五月天丁香视频| 95精品视频在线| 久久人人九九| 精品无人乱码| 亚洲国产精品传媒在线观看| 色一情一区二区三区四区| 国产高清在线看| 国产精品青草久久| 日本黄色播放器| 在线观看小视频| 亚洲一区二区三区视频在线 | 成人黄色短视频| 色综合蜜月久久综合网| 日韩中文字幕第一页| 韩国一级黄色录像| 欧美阿v一级看视频| 欧美激情啊啊啊| 97人人澡人人爽人人模亚洲| 国产精品久久久久久久免费软件 | 欧美高清在线播放| 精品一区在线视频| 国产日韩综合| 国产精品网站大全| av网站免费大全| 成人激情黄色小说| 奇米视频888战线精品播放| 大地资源中文在线观看免费版| 国产精品福利av| 玖玖视频精品| 精品久久人人做人人爽| www.com日本| 亚洲理论电影| 久久精品国产一区| 香蕉视频一区二区| 老鸭窝毛片一区二区三区| 国产精品亚洲激情| 国模无码一区二区三区| 久久精品亚洲精品国产欧美 | 日韩精品成人av| 亚洲免费观看高清完整版在线| 亚洲中文字幕无码一区二区三区 | 五月婷婷激情综合| 亚洲精品高清无码视频| 久久久久久亚洲精品美女| 日韩av在线网| 亚洲 欧美 变态 另类 综合| 国产欧美日本| 91久久久久久久| 青青操视频在线| 亚洲理论在线观看| 老熟妇仑乱视频一区二区| 成人久久精品| 在线a欧美视频| 久久免费视频99| 蜜桃视频在线一区| 久久精品久久精品国产大片| 激情影院在线观看| 欧美性猛交xxxx久久久| 麻豆精品国产传媒| 欧美亚洲精品在线| 91精品国产91久久久久久最新| 91国在线视频| 久久精品男人天堂av| 久久人人爽人人爽人人av| 欧美黄色网络| 国产午夜精品视频| 国产精品乱子伦| 国产999精品久久| 亚洲不卡一卡2卡三卡4卡5卡精品| а√天堂资源地址在线下载| 欧美色欧美亚洲另类二区| 国产精品jizz| 欧美激情精品久久久六区热门| 国产精品福利网站| 婷婷丁香花五月天| 亚洲一二三专区| 日本黄色www| 久久久久久久久久久久久久久久久久| 国产成人拍精品视频午夜网站| 视频污在线观看| 一区二区三区欧美| 国产黑丝在线视频| 久久精品亚洲欧美日韩精品中文字幕| 国产精品av在线播放| 日韩欧美在线番号| 欧美性猛交xxxx免费看漫画| 亚洲天堂美女视频| 国产日韩精品视频一区二区三区| 国产伦精品一区二区三区四区免费| av网址在线看| 日韩一区二区三区视频| 久久中文免费视频| 国产精品一区二区久激情瑜伽| 麻豆md0077饥渴少妇| 97久久中文字幕| 日韩在线观看成人| 国产毛片久久久久| 亚洲乱码中文字幕| 国产51自产区| 亚洲巨乳在线| 欧美在线播放一区二区| 国精产品一区一区三区四川| 中文字幕久精品免费视频| 在线免费一级片| 亚洲日本中文字幕区| 北条麻妃亚洲一区| 欧美一区在线看| 久久国产欧美精品| 视频在线日韩| 久久精品中文字幕| 成人午夜福利视频| 欧美日韩裸体免费视频| 中文幕无线码中文字蜜桃| 日韩精品一卡二卡三卡四卡无卡| 亚洲欧洲精品一区| 视频在线一区| 2020欧美日韩在线视频| 精品成人一区二区三区免费视频| 欧美日韩在线播放一区| 四虎影院中文字幕| 成人精品视频网站| 国产一区视频免费观看| 久久精品不卡| 国产精品一区二区三区免费观看| 九色porny丨入口在线| 一区二区欧美亚洲| 亚洲成a人片77777精品| 欧美性20hd另类| 国产黄a三级三级| 国产99久久久精品| 久久国产成人精品国产成人亚洲 | 国产一区二区三区18| 91久久精品无码一区二区| 亚洲主播在线播放| 日韩精品电影一区二区| 国产在线乱码一区二区三区| 女人帮男人橹视频播放| 狠狠综合久久av一区二区蜜桃| 91亚洲精华国产精华| 天堂网在线最新版www中文网| 在线a欧美视频| 日本精品久久久久| 欧美日韩一区 二区 三区 久久精品| 妺妺窝人体色www婷婷| 国产精品丝袜久久久久久app| 欧美午夜精品一区二区| 日韩成人dvd| 缅甸午夜性猛交xxxx| 国产精品福利在线观看播放| 久久99精品久久久久久三级 | 精品国产乱子伦一区| 中文字幕人妻精品一区| 五月天视频一区| jizz亚洲少妇| 欧美韩国一区二区| 加勒比精品视频| 国产精品自拍在线| 538任你躁在线精品免费| 亚洲毛片av| 久久久天堂国产精品| 精品一区二区三区的国产在线观看| av电影成人| 一区二区三区无毛| 国产mv免费观看入口亚洲| 欧美6一10sex性hd| 精品国产一区二区三区四区在线观看| 视频一区二区在线播放| 欧美区在线观看| 337p粉嫩色噜噜噜大肥臀| 亚洲国产cao| 欧美 日韩 国产 一区二区三区| 日本一区二区三区视频视频| 亚洲精品乱码久久久久久久| 国产成人综合亚洲91猫咪| 一区二区免费av| 日本特黄久久久高潮| 日本成年人网址| 亚洲精品三级| 男人的天堂狠狠干| 韩国久久久久| 久草视频这里只有精品| 午夜精品视频| 中文字幕人妻熟女人妻洋洋| 亚洲一区二区三区无吗| 99亚洲精品视频| 香蕉久久网站| 日本黄色播放器| 亚洲久久久久| 一二三在线视频| 欧美1区2区| 国产精品国三级国产av| 欧美精品成人| 成人免费在线网| 亚洲国产美女| 狠狠97人人婷婷五月| 国产精品一区亚洲| 亚洲成熟丰满熟妇高潮xxxxx| 亚洲欧美视频| 四季av一区二区| 麻豆国产精品一区二区三区| 亚洲一区在线不卡| 精品中文av资源站在线观看| 欧美第一页浮力影院| 精品伊人久久久久7777人| 四川一级毛毛片| 成人av在线一区二区三区| xxxx黄色片| 久久久久久夜精品精品免费| xxxxx99| 中文字幕一区二区三区不卡 | 欧美日韩亚洲丝袜制服| 91国偷自产中文字幕久久| 日韩一卡二卡三卡| 日韩一级片免费在线观看| 精品视频在线播放| 高清福利在线观看| www.国产一区| av在线加勒比| 国产精品第二页| 懂色av色香蕉一区二区蜜桃| 国产精品对白刺激久久久| 夜夜躁狠狠躁日日躁2021日韩| 亚洲精品白虎| 在线欧美三区| 日本激情综合网| 成人av一区二区三区| 精品无码人妻一区二区免费蜜桃| 国产精品久久久久久久久免费樱桃| 欧美成人精品欧美一级私黄| 欧美午夜片欧美片在线观看| 国产精品老熟女视频一区二区| 日韩精品中文字幕一区二区三区 | 亚洲精品中文字幕99999| 伊人久久大香线蕉成人综合网| 欧美日韩福利| 国产一级不卡毛片| 国产精品亚洲午夜一区二区三区 | 一本大道久久a久久综合婷婷 | 欧美粗大gay| 91九色在线视频| 色综合久久中文| 美女在线免费视频| 久久青草久久| 国产乱国产乱老熟300部视频| 国产欧美一区二区三区在线看蜜臀| 欧美性猛交xxxxx少妇| 日韩欧美一区视频| www.av黄色| 色yeye香蕉凹凸一区二区av| 激情国产在线| 51国偷自产一区二区三区的来源 | 国产亚洲欧美日韩精品| 天堂av资源在线观看| 国产精品久久久久久超碰| 精品三级av| 亚洲乱码日产精品bd在线观看| 麻豆一区二区在线| 一本色道久久综合亚洲精品图片| 一区二区三区四区在线免费观看| 久久午夜鲁丝片| 亚洲精品美女久久久| 天堂成人av| 亚洲一区二区免费| 日韩av在线播放网址| 久久久精品在线视频| 成熟亚洲日本毛茸茸凸凹| 免费在线观看黄色小视频| 在线精品视频一区二区三四| 五月色婷婷综合| 97久久久免费福利网址| 亚洲一区二区三区中文字幕在线观看| 亚洲午夜精品久久| 玖玖精品视频| 波多野结衣片子| 欧美日韩国产一区二区三区| 欧美 日韩 国产 在线| 九色成人免费视频| 97精品资源在线观看| 中文字幕一区二区三区乱码| 九色综合狠狠综合久久| 成人一级片免费看| 欧美色综合久久| 在线免费观看黄色| 国产区精品在线观看| 久久大综合网| 91在线第一页| 亚洲精品视频一区| 国产黄色美女视频| 欧美第一黄网免费网站| 欧美黄视频在线观看| 日韩成人午夜影院| 国产成人精品综合在线观看 | 在线播放亚洲| 国产av一区二区三区传媒| 亚洲一区二区三区自拍| 高清一区二区三区四区| 国内成人精品一区| 国产亚洲成av人片在线观黄桃| 青青草国产精品视频| 97久久精品人人做人人爽50路| 毛片在线免费视频| 亚洲欧洲偷拍精品| 国产毛片精品久久| 三上悠亚免费在线观看| 懂色av一区二区三区免费观看| 国产手机在线视频| 亚洲精品中文字幕有码专区| 日韩免费va| 在线国产99| 国产91在线|亚洲| av大片在线免费观看| 一区二区三区国产视频| 91麻豆精品国产综合久久久 | 欧美极品aaaaabbbbb| 亚洲成人三级在线| 美女100%一区| 伊人久久大香线蕉成人综合网| 国产成人欧美日韩在线电影| 日韩美女视频网站| 中文字幕欧美日韩| 玖玖精品一区| 波多野结衣之无限发射| 欧美国产日韩亚洲一区| av高清一区二区| 日韩av电影在线网| 五月综合激情| 久久久久久久久免费看无码| 欧美精选一区二区| 99爱在线观看| 午夜精品一区二区在线观看 | 2020av在线| 亚洲高清在线播放| 丁香桃色午夜亚洲一区二区三区| 日本免费在线观看视频| xxx一区二区| 全国精品免费看| 女人高潮一级片| 黄色成人在线免费| 黄色小网站在线观看| 久久免费一区| 国产69精品一区二区亚洲孕妇 | 日韩三级电影网址| 成年美女黄网站色大片不卡| 亚洲区成人777777精品|