精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

和谷歌搜索搶活,FRESHLLM「緊跟時事」,幻覺更少,信息更準

人工智能 新聞
在一篇最新的論文中,來自谷歌、馬薩諸塞大學阿默斯特分校、OpenAI 的研究者發現,Perplexity 和 GPT-4 w/prompting 的性能優于谷歌搜索。

大型語言模型的能力有目共睹,如 BARD 和 CHATGPT/GPT-4,被設計成多功能開放域聊天機器人,可以就不同主題進行多輪對話。它們能夠幫助人們完成諸多任務,但這并不代表它們是萬能的。

「幻覺」與過時的信息降低了這些大模型回復的可信度。尤其對于需要信息實時更新的領域(如公司股價)而言,這更是嚴重。

與 GPT-4 對話過程中,會發現它的信息更新有限制

這種現象可部分歸因于其參數中存在編碼的過時知識。雖然利用人類反饋或知識增強任務進行額外訓練可以緩解這一問題,這種方法并不容易推廣。另外,上下文學習是一種有吸引力的替代方法,可將實時知識注入 LLM 的提示中以生成條件。雖然近期的一些研究已經開始探索利用網絡搜索結果來增強 LLM,但如何充分利用搜索引擎的輸出來提高 LLM 的事實性尚不清楚。

在一篇最新的論文中,來自谷歌、馬薩諸塞大學阿默斯特分校、OpenAI 的研究者發現,Perplexity 和 GPT-4 w/prompting 的性能優于谷歌搜索。同時,越來越多的非科技人員在搜索查詢時使用 Perplexity 而不是其他 LLM。那么谷歌搜索真的會被 LLM 取代嗎?

有網友表示,雖然在簡單問題上,LLM 的表現更好,但是對于大模型的「幻覺」問題依然保持謹慎態度他們使用谷歌搜索驗證大模型的回復。

其實,研究者也致力于解決大模型知識過時的問題。接下來,我們一起看看他們的成果。

論文地址:https://arxiv.org/pdf/2310.03214.pdf

FRESHQA 數據集

在這項工作中,研究者先是創建了一個名為「FRESHQA」的新型質量保證基準,用于評估現有 LLM 生成內容的事實性。FRESHQA 包含 600 個自然問題,大致分為圖 1 所示的四大類。這些問題跨越了一系列不同的主題,具有不同的難度級別,并要求模型「理解」世界上的最新知識,以便能夠正確回答。

此外,FRESHQA 還具有動態性:一些 ground-truth 答案可能會隨著時間的推移而改變,被歸入特定類別的問題可能會在以后的某個時間點被重新分類。就比如,「馬斯克與現任配偶結婚多久了?」在當前是一個虛假推理問題,但如果馬斯克在未來再次結婚,該問題被歸入的類別就需要變一變了。

研究者招募了一些 NLP 研究人員(包括作者及其同事)和線上自由撰稿人來收集 FRESHQA 的數據。在四類問題中的每一類中,都要求注釋者撰寫兩種不同難度的問題:一跳(one-hop),即問題明確提到了回答該問題所需的所有相關信息,因此不需要額外的推理(例如,誰是 Twitter 的首席執行官);多跳(multi-hop),即問題需要一個或多個額外的推理步驟才能收集到回答該問題所需的所有相關信息(例如,世界上最高建筑的總高度是多少?)

研究者通過向不同的 LLM 提出問題和一些問答示范,然后對其回答進行采樣,以此來衡量它們在 FRESHQA 上的表現,然后對模型回答的事實準確性進行了廣泛的人工評估,包括超過 50K 個判斷。此處采用雙模式評估程序對每個回答進行評估:「RELAXED」模式只衡量主要答案是否正確,「STRICT」模式則衡量回答中的所有說法是否都是最新的事實(即沒有幻覺)。

這個評估過程揭示了新舊 LLM 的事實性,并揭示了不同問題類型帶來的不同模型行為。不出所料,在涉及快速變化知識的問題上,會出現平坦的縮放曲線:簡單地增加模型大小并不能帶來可靠的性能提升。在假前提問題上,他們也觀察到了類似的趨勢。不過,如果明確詢問「請在回答前檢查問題是否包含有效前提」,一些 LLM 就能夠揭穿假前提問題。

總體來說,FRESHQA 對當前的 LLM 來說確實是一個挑戰,指出了很大的改進空間。

提示搜索引擎增強的語言模型

受到上述探索的啟發,研究者進一步研究了如何通過將搜索引擎提供的準確和最新信息作為 LLM 響應的基礎,有效提高 LLM 的事實性。鑒于大型 LLMS 的快速發展和知識不斷變化的性質,研究者探索了上下文學習方法,使 LLM 能夠通過其提示關注推理時提供的知識。

隨后,研究者評估了 LLM 搜索引擎增強對 FRESHQA 的影響,并提出了一種簡單的少樣本提示方法 FRESHPROMPT。該方法通過將檢索自搜索引擎(谷歌搜索)的最新相關信息整合到提示中,極大地提升了 LLM 的 FRESHQA 性能。

下圖 3 為 FRESHPROMPT 的格式。

圖片

FRESHPROMPT 方法

FRESHPROMPT 方法利用一個文本提示來將來自搜索引擎的上下文相關的最新信息(包括相關問題的答案)引入到一個預訓練 LLM,并教導該模型對檢索到的證據進行推理。

更具體來講,給定一個問題 q,研究者首先逐字地使用 q 來查詢搜索引擎,這里是谷歌搜索。他們檢索了所有搜索結果,包括答案框、自然結果和其他有用的信息(如知識圖譜、眾包 QA 平臺上的問答)、以及搜索用戶問的相關問題。示例如下圖 6 所示。

對于每個這樣的結果,研究者提取了相關的文本片段 x 以及其他的信息,比如來源 s(如維基百科)、日期 d、標題 t 和高亮文字 h,然后創建包含 k 個檢索到的證據的列表 E = {(s, d, t, x, h)}。接下來這些證據將轉換成常見的格式(如上圖 3 左),并通過上下文內學習來調整模型。此外為了鼓勵模型基于最近的結果來專注于較新的證據,研究者從舊到新對提示中的證據 E 進行排序。

為了幫助模型來理解任務和預期的輸出,研究者在輸入提示的開頭提供了輸入輸出示例的少樣本演示。每個演示首先為模型提供一個問題示例以及該問題的一組檢索到的證據,然后對證據進行思維鏈推理以找到最相關、最新的答案(如上圖 3 右)。

盡管研究者在演示中包含了少數帶有錯誤前提的問題示例,但也嘗試了在提示中進行顯式錯誤前提檢查,比如「請在回答前檢查問題中是否包含有效前提」。下圖 7 展示了一個真實的提示。

實驗設置

對于 FRESHPROMPT 設置,研究者通過將檢索到的證據整合到輸入提示中,依次將 FRESHPROMPT 應用于 GPT-3.5 和 GPT-4 中。這些證據包括了自然搜索結果 0、搜索用戶問的相關問題 r、來自眾包 QA 平臺上的問答 a 以及來自知識圖譜和答案框的文本片段(如有)。考慮到模型上下文的限制,他們在根據相應日期排序后僅保留前 n 個證據(更靠近提示末尾)。

除非另有說明,研究者針對 GPT-3.5 使用了 (o, r, a, n,m) = (10, 2, 2, 5),針對 GPT-4 使用了 (o, r, a, n,m) = (10, 3, 3, 10)。此外,他們在提示的開頭包含了 m = 5 個問答演示。

實驗結果

FRESHPROMPT 顯著提升了 FRESHQA 的準確性。下表 1 展示了 STRICT 模式下的具體數字。可以看到,相對于原始 GPT-3.5 和 GPT-4,FRESHPROMP 實現了全方位的重大改進。

其中,GPT-4 + FRESHPROMPT 在 STRICT 和 RELAXED 模式下分別較 GPT-4 實現了 47% 和 31.4% 的絕對準確率提升。STRICT 和 RELAXED 之間絕對準確率差距的縮小(從 17.8% 到 2.2%)也表明,FRESHPROMP 可以極大地減少過時和幻覺答案的出現。

此外,GPT-3.5 和 GPT-4 最顯著的改進是在快速和緩慢變化的問題類別,這些問題涉及最新知識。這意味著,關于舊知識的問題也受益于 FRESHPROMPT。比如在 STRICT 模式下,對于包含 2022 年以前知識的有效前提的問題,GPT-4 + FRESHPROMPT 的準確率比 GPT-4 高了 30.5%;在 RELAXED 模式下這一數字是 9.9%。

此外,FRESHPROMPT 在假前提問題上也取得了顯著的進步,GPT-4 在 STRICT 和 RELAXED 模式下的準確率分別提升了 37.1% 和 8.1%。

圖片

此外,FRESHPROMPT 還展示出了以下結果:

  • 大幅度優于其他搜索增強方法;
  • 前提檢查增強了假前提問題的準確率,但會損害具有有效前提的問題的準確率;
  • 在輸入上下文的末尾提供更多最新的相關證據是有幫助的;
  • 自然搜索結果之外檢索到的其他信息提供了進一步增益;
  • 檢索到的證據越多會進一步提升 FRESHPROMPT;
  • 冗長的演示有助于回答復雜的問題,但也會增加幻覺。

研究者表示,他們目前僅針對每個問題進行一次搜索查詢,因此可以通過問題分解和多個搜索查詢來進一步實現提升。此外,由于 FRESHQA 包含的是相對簡單的英語問題,因此不清楚在多語言 / 跨語言 QA 和長格式 QA 上下文中的表現如何。最后 FRESHPROMPT 依賴上下文內學習,因此可能不如根據新知識來微調基礎 LLM 的方法。

更多技術細節,請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-28 08:20:00

2024-04-11 10:00:00

云計算芯片

2011-01-28 15:06:40

沃森人機大戰

2023-02-06 18:06:05

生物性ChatGPT金融圈

2022-11-18 12:06:48

App接口搜索

2023-12-10 15:15:18

開源模型工具

2016-01-31 16:49:42

漏洞Galaxy

2016-05-16 14:21:39

VR谷歌

2022-11-02 18:33:09

谷歌Chrome瀏覽器

2024-02-26 09:36:45

SoraOpen AIAPI

2022-10-26 13:36:59

模型計算

2025-01-06 07:40:00

AI訓練數據

2020-07-25 22:00:15

谷歌TikTok開發者

2025-08-06 04:11:00

JSONPromAI

2025-07-09 08:57:55

2012-05-15 09:26:09

Google測試

2013-10-09 10:07:06

谷歌AndroidiPhone

2024-01-18 11:20:08

2009-08-27 09:53:30

谷歌搜索LinuxLinux操作系統

2025-02-03 10:04:47

擴散模型數據分布
點贊
收藏

51CTO技術棧公眾號

亚洲开发第一视频在线播放| 日韩av电影院| 少妇被狂c下部羞羞漫画| 黄色激情在线播放| 欧美韩国一区二区| 亚洲xxxxx| 亚洲日本视频在线观看| 日韩久久电影| 亚洲成人aaa| 91香蕉视频污版| 色婷婷在线播放| 久久伊人中文字幕| 91亚洲精品久久久久久久久久久久| 免费一级肉体全黄毛片| 禁断一区二区三区在线| 日韩欧美国产综合| 北条麻妃视频在线| 9999在线视频| 综合av第一页| 日本精品一区二区三区不卡无字幕| 国产三级小视频| 午夜综合激情| 久久久久久国产| 激情五月深爱五月| 神马久久av| 欧美成人bangbros| 日韩成人精品视频在线观看| 九九色在线视频| 国产精品传媒视频| 九九九九精品九九九九| 国产三级第一页| 看片的网站亚洲| 日本老师69xxx| 亚洲国产综合久久| 国产精品观看| 欧美精品一二区| 黄色裸体一级片| 黑人操亚洲人| 亚洲欧美国产一本综合首页| 国产人成视频在线观看| 国产精品亚洲综合在线观看| 欧美亚洲动漫另类| 免费黄色福利视频| 国产精品一二三产区| 一区二区三区不卡视频| 韩国黄色一级大片| 免费网站免费进入在线| 国产精品色呦呦| 日韩一区不卡| 成人免费在线观看| 欧美激情自拍偷拍| 欧洲一区二区在线观看| 飘雪影视在线观看免费观看 | 91看片在线免费观看| 玛雅亚洲电影| 日本韩国欧美国产| 日韩中文字幕二区| 日韩三区免费| 欧美亚洲一区二区在线观看| 欧美黑人又粗又大又爽免费| 高清电影一区| 欧美三级中文字幕| 亚洲另类第一页| 99亚洲男女激情在线观看| 欧美群妇大交群中文字幕| 一级黄色片国产| avtt久久| 亚洲国产欧美自拍| 国产交换配乱淫视频免费| 国产欧美日韩精品一区二区免费 | 日本不卡久久| eeuss影院在线观看| 国产精品女上位| 蜜臀av.com| 91av久久| 91精品福利在线| 狠狠操狠狠干视频| 亚洲网址在线观看| 亚洲乱码国产乱码精品精天堂| 成人在线一级片| 国产精品99久久| 孩xxxx性bbbb欧美| 在线观看国产区| 国产伦精品一区二区三区免费| 国产精品嫩草在线观看| 九色网友自拍视频手机在线| 中文字幕一区日韩精品欧美| 国产精品国产三级国产专区51| 成av人片在线观看www| 在线欧美日韩国产| 永久看看免费大片| 亚洲精品**不卡在线播he| 中文字幕亚洲无线码在线一区| 国产大学生自拍| 久久看片网站| 99久久综合狠狠综合久久止| 欧美精品少妇| 亚洲美女视频一区| 四虎永久在线精品无码视频| 电影中文字幕一区二区| 亚洲男女自偷自拍图片另类| 精品自拍偷拍视频| 久久亚洲不卡| 成人免费视频97| 三级毛片在线免费看| 亚洲三级免费电影| 日本三区在线观看| 91亚洲无吗| 中文字幕免费国产精品| 国产午夜精品无码| 国产一区二区三区免费看| 久久婷婷开心| 怡红院红怡院欧美aⅴ怡春院| 色偷偷88欧美精品久久久| 日韩精品xxx| 日韩精品永久网址| 国产成人免费av电影| 丰满岳乱妇国产精品一区| 国产精品传媒在线| 亚洲国产精品毛片av不卡在线| 一区二区网站| 久久精品福利视频| 国产精品sm调教免费专区| 91啪亚洲精品| 亚洲国产精品无码观看久久| 99国内精品久久久久| 中文字幕亚洲欧美一区二区三区 | 九九九九精品九九九九| 在线观看的网站你懂的| 欧美日韩在线观看一区二区| 中文字幕人妻一区二区| 亚洲精品视频啊美女在线直播| 91精品国产综合久久香蕉922| 经典三级在线| 色综合久久九月婷婷色综合| 熟女人妻在线视频| 亚洲欧洲一区| 国产精品视频500部| 欧洲一区二区三区| 欧美成人国产一区二区| 中文字幕手机在线观看| 国产精品自拍三区| 樱空桃在线播放| 91视频成人| 久久精视频免费在线久久完整在线看| 成人黄色片在线观看| 国产午夜精品美女毛片视频| av动漫免费看| 自拍偷拍一区| 国产精品99一区| 国产51人人成人人人人爽色哟哟| 一本久久精品一区二区| 黄色片网站免费| 视频在线观看91| 色综合666| 免费成人毛片| 中文字幕少妇一区二区三区| 亚洲天堂视频网| 亚洲视频在线观看一区| 中文字幕在线观看91| 日韩视频免费| 欧美人与性禽动交精品| 日本欧美不卡| 北条麻妃99精品青青久久| 国产美女自慰在线观看| 亚洲一区二区精品久久av| 视频免费在线观看| 日韩成人一区二区三区在线观看| 欧美一进一出视频| 婷婷精品久久久久久久久久不卡| 久久久精品日本| 丰满大乳国产精品| 色婷婷国产精品久久包臀| 极品人妻videosss人妻| 国内精品写真在线观看| 亚洲 自拍 另类小说综合图区| 欧美三级电影在线| 国产精品久久中文| 91麻豆一二三四在线| 亚洲黄页网在线观看| 国产情侣免费视频| 亚洲精品国久久99热| 亚州av综合色区无码一区| 日韩激情一区二区| av动漫在线免费观看| 全国精品免费看| 成人h猎奇视频网站| xxx在线免费观看| 亚洲一区二区黄| 国产特级黄色片| 日韩欧美一区二区在线| 少妇视频一区二区| 99久久免费精品高清特色大片| 日本激情视频在线播放| 亚洲无线一线二线三线区别av| 久久大片网站| 国产高清视频一区二区| 26uuu另类亚洲欧美日本一| 婷婷激情在线| 日韩精品一二三四区| 96亚洲精品久久久蜜桃| 激情av一区二区| 色欲人妻综合网| 国产欧美一区二区精品忘忧草| 又大又长粗又爽又黄少妇视频| 久久免费国产| 国产3p露脸普通话对白| 999久久久精品国产| 蜜桃999成人看片在线观看| 激情五月综合婷婷| 国产精品狠色婷| 麻豆免费在线| 欧美另类69精品久久久久9999| 国产h视频在线观看| 在线观看亚洲色图| 亚洲精品一二三区区别| 欧美国产一二三区| 一区二区三区免费在线看| 国产精品爽爽爽| 久久男人av资源站| 欧美国产乱视频| 免费av在线播放| 亚洲一级一级97网| 日韩av高清在线| 亚洲成人黄色网址| 国产深喉视频一区二区| 欧美三级电影网站| 久久国产视频一区| 亚洲成人av中文| 欧美黑人精品一区二区不卡| 亚洲国产精品精华液2区45| 亚洲国产综合视频| 波多野结衣精品在线| 日本黄色www| 国产精品中文有码| 亚洲免费成人在线视频| 另类专区欧美蜜桃臀第一页| 无遮挡又爽又刺激的视频| 99国产精品视频免费观看一公开| 黄网站色视频免费观看| 欧美日韩精品| 91国在线高清视频| 欧美在线国产| 成人av在线不卡| 韩国亚洲精品| 人人干视频在线| 一本综合精品| 国产aaa一级片| 亚洲综合国产| 久久久久久久久久久久久久国产| 中文精品在线| 欧洲av无码放荡人妇网站| 香蕉国产精品偷在线观看不卡| 99热自拍偷拍| 久久久精品网| 日本久久久久久久久久久久| 蜜臀久久99精品久久久久久9 | 久久中文字幕导航| 精品国产乱码久久久久久久| 亚洲天堂国产精品| 制服.丝袜.亚洲.中文.综合| 国产精品欧美综合亚洲| 欧美一区二区三区系列电影| 国产av无码专区亚洲av麻豆| 精品久久五月天| 手机在线精品视频| 亚洲女人天堂色在线7777| 国产乱子伦三级在线播放| 宅男66日本亚洲欧美视频| 一区二区高清不卡| 欧美日韩xxx| 国内精彩免费自拍视频在线观看网址 | 色综合色综合| 亚洲av综合色区| 亚洲日本黄色| 免费黄色特级片| 精品一区二区三区视频| 免费在线观看日韩av| 91丨porny丨中文| 亚洲女同二女同志奶水| 一区二区三区四区不卡在线 | 日韩欧美123| 四虎精品成人免费网站| 综合av色偷偷网| 国产理论电影在线| 国产成+人+综合+亚洲欧洲 | 亚洲国产精品va在线看黑人| 韩国三级在线观看久| 草民午夜欧美限制a级福利片| av中文资源在线资源免费观看| 国产精品日韩电影| theporn国产在线精品| 日韩高清三级| 国产精品v欧美精品v日本精品动漫| 乱妇乱女熟妇熟女网站| 看片网站欧美日韩| 女尊高h男高潮呻吟| **网站欧美大片在线观看| 中文字幕在线观看免费视频| 欧美三级视频在线播放| 色呦呦视频在线| 按摩亚洲人久久| 天天综合网站| 国产精品亚洲不卡a| 欧美高清在线| 国产免费成人在线| 成人视屏免费看| 日韩国产第一页| 欧美性猛交视频| 亚洲欧美另类一区| 日韩在线视频线视频免费网站| 美女视频在线免费| 99视频在线| 久久久久久久久久久久久久久久久久| 国产aaa一级片| 99久久免费国产| 久草成人在线视频| 宅男在线国产精品| av资源网在线观看| 日本不卡高字幕在线2019| 国产精品18hdxxxⅹ在线| 中文字幕中文字幕在线中一区高清 | www成人在线观看| 久草视频在线免费看| 欧美疯狂做受xxxx富婆| 成年人在线看| 日本一欧美一欧美一亚洲视频| 福利片一区二区| 日韩视频 中文字幕| 精品一区二区在线视频| 99久久久无码国产精品不卡| 色国产综合视频| 日韩在线免费播放| 欧美亚洲在线播放| 亚洲动漫在线观看| 日韩av在线第一页| 91蜜桃在线免费视频| 可以免费看的av毛片| 亚洲第一页自拍| 成人在线免费观看黄色| www.久久草| 精品999成人| av av在线| 午夜精品福利久久久| 三级网站免费观看| 5566成人精品视频免费| 色爱av综合网| 热久久精品国产| 国产亚洲欧美日韩在线一区| 无码人妻丰满熟妇区五十路| 亚洲色图15p| 欧美少妇激情| 艳母动漫在线观看| 岛国一区二区三区| 91porny在线| 国产一区二区三区丝袜| 97成人超碰| 中文字幕av久久| 国产成人av一区二区三区在线观看| 久久高清无码视频| 亚洲精品一区在线观看| 日本不卡1234视频| 欧美日韩视频在线一区二区观看视频| 老司机午夜精品视频在线观看| 五月激情四射婷婷| 欧美一区二区三区在线观看视频| 性xxxxfjsxxxxx欧美| 精品欧美一区二区精品久久| 久久亚洲一区| tube国产麻豆| 亚洲风情亚aⅴ在线发布| 成人免费影院| 在线观看成人av电影| 国产98色在线|日韩| av黄色在线播放| 日韩一级裸体免费视频| 超碰在线成人| 久久精品香蕉视频| 亚洲伦理在线精品| 天堂v视频永久在线播放| 国产精品美女免费视频| 欧美特黄一区| 91网站免费视频| 欧美一区二区视频网站| 精品人人视频| 中文字幕日韩一区二区三区| 成人精品电影在线观看| 一级黄色在线视频| 另类美女黄大片| 久久99国内| 久久发布国产伦子伦精品| 色天天综合色天天久久| 欧美精品videosex| 日韩精品大片| 成人少妇影院yyyy| 一区二区三区免费在线| 2021国产精品视频| 欧美日韩亚洲一区三区| 91精品国自产在线| 亚洲福利视频网|