精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG(四)Adaptive Retrieval --語言模型的信任邊界,參數與非參數記憶的有效性研究

人工智能
這篇論文深入探討了在什么情況下為大型語言模型(LLM)應用檢索增強生成技術會更有效果。并提供了一種有效的解決方案,幫助我們更合理地應用檢索增強技術,讓語言模型在更多場景下發揮出更好的性能。

大語言模型(LMs)在許多自然語言處理任務上表現優異,但它們在記憶和回憶不太常見或不流行的事實知識方面存在明顯的局限性。并且,當涉及到長尾實體(即那些在網絡上討論較少、出現頻率較低的實體)的問題時,LMs 的性能顯著下降,并且增加模型規模并不能有效地解決這一問題。

此外,LMs 對于自身知識邊界的認識有限,有時會產生幻覺,即生成看似合理但實際上錯誤的信息。這種不確定性以及對模型輸出的信任問題,在實際應用中部署 LMs 時顯得尤為重要。

因此,何時應該依賴LMs的參數知識(即存儲在其參數中的知識)?何時不應該信任其輸出?以及如何通過非參數記憶(例如檢索增強技術)來彌補參數記憶的不足?來自艾倫人工智能研究院發表在2023年ACL的一篇論文《When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories》深入探究了這些問題,并提出了極具啟發性的解決方案。

圖片


1、大模型的“記憶困境”:何時不該信任它們?

為了評估LMs在記憶事實知識的能力,通過閉卷問答(QA)任務來評估,并使用少量樣本進行測試。簡單來看下作者的評估思路:

研究重點和任務

研究重點:事實知識。這項工作關注于實體的具體細節知識,將事實知識定義為一個三元組(主體、關系、對象)。如圖2左圖

任務格式開放域問答(QA)。將任務構建為開放域QA,即給定一個問題,模型需要在沒有任何預給定段落的情況下預測答案。

評估指標準確率。如果預測的任何子串與任何金標準答案完全匹配,則將預測標記為正確。

分析維度

作者們假設在Web上討論較少的事實知識可能不會被LMs很好地記憶。先前的研究通常使用預訓練語料庫中對象實體的詞頻來理解記憶能力。相反,本文通過研究是否可以根據輸入問題中的信息預測記憶,并據此改進模型。因此,本文工作集中在事實知識三元組中的另外兩個變量:主體實體和關系類型。

主體實體流行度:使用Wikipedia月度頁面瀏覽量作為實體流行度的衡量標準,以此來代理實體在網絡上被討論的頻率。

關系類型:也考慮了關系類型作為事實知識記憶的關鍵因素。

基準數據集

PopQA:現有的常見開放領域 QA 數據集(如Natural Questions,NQ)通常由高流行度的主體實體主導,并且由于問題表面形式的多樣性,通常很難識別關系類型。為了能夠基于上述分析維度對記憶能力進行細粒度分析,構建了一個新的大規模實體中心開放域QA數據集,包含14k個問題,覆蓋了可能在流行QA數據集中被遺漏的長尾實體的事實信息。

PopQA構建流程如下:使用了維基百科頁面的瀏覽量作為衡量實體受歡迎程度的標準,從 Wikidata 中隨機抽取了 16 種不同關系類型的知識三元組,并使用自然語言模板將其轉換為自然語言問題。

問題的可接受答案集是滿足知識圖譜中存在(S,R,E) 的實體集E。

圖片

EntityQuestions:這是另一個廣泛使用的開放領域問答數據集,它也具有長尾分布的特點,即大部分問題是關于不太流行的實體。

圖片

EntityQuestions:另一個流行的開放域QA數據集,也涵蓋了長尾實體分布。

結果

整體模型性能:圖 4 的左上角展示了模型在 PopQA 上的整體表現,結果顯示,即使沒有使用上下文示例,較大的LMs也能展現出合理的性能

主體實體流行度預測記憶:圖 4(底部)顯示,幾乎所有關系類型的主體實體流行度與模型準確率之間都存在正相關關系。總體而言,主體實體流行度與準確率之間的相關性在較大的 LMs 中更強;GPT-3 003 顯示出最高的正相關性(約為 0.4),而 GPT-Neo-1.3B 的相關性相對較弱(約為 0.1)。

關系類型影響記憶:在圖 4 中可以看到,模型對某些關系類型的平均性能高于其他類型。這表明某些關系類型的事實知識比其他類型更容易記憶。同時,對于某些關系類型的問題,模型可能不需要記憶知識三元組就能通過利用表面線索來猜測答案。例如,某些關系類型(如國籍)允許模型利用主體實體名稱中的表面線索。此外,模型通常對答案實體數量較少的問題輸出最主導的答案實體(例如,對于顏色關系類型的問題,答案是“紅色”)。

擴展可能不會幫助尾部知識:如圖 4 左側所示,隨著模型規模的擴大,PopQA 數據集上的整體表現有所提升。然而,圖 5 顯示,在 PopQA 和 EntityQuestions 上,模型規模的增加對于流行度較低的問題的性能改善相對較小。

圖片

圖片

關系類型結果分解:圖 6 更詳細地展示了流行度、準確率和關系類型之間的關系,顯示了不同模型在導演和國家關系類型上的準確性與流行度分布。對于前兩種類型,可以看到流行度與準確性之間存在明顯的正趨勢,并且隨著模型規模的增大,LMs記憶的知識也更多。另一方面,在“國家”關系類型中,沒有模型顯示出趨勢,而整體準確性較高,表明LMs經常利用線索來回答不太流行的問題。

圖片


2、檢索增強:為大模型“補課”

前面分析表明,即使是當前最先進的 LMs 在處理不太受歡迎的主體或某些關系類型時也存在困難,并且增加模型規模并不會帶來進一步的性能提升。因此下面探索研究了檢索增強 LMs的有效性,這些模型利用非參數記憶(即檢索到的文本)來提高性能。

實驗設置:采用了簡單直接的方式將檢索到的上下文與原始問題連接起來。從維基百科中獲取相關段落來作為附加的上下文信息,使用BM25和神經密集檢索器作為檢索模型。BM25是一種基于統計信息檢索的算法,而神經密集檢索器則利用深度學習技術來計算文檔與查詢之間的相似度。

結果

圖7顯示,檢索顯著提升了性能,一個較小的 LM(例如,GPT-Neo 2.7B)通過 Contriever 檢索增強后,表現優于普通的 GPT-3。

圖片

對不流行實體的幫助

對于主體實體不太受歡迎的問題,非參數記憶顯著提升了所有測試模型的表現。例如,在PopQA數據集中最不受歡迎的4000個問題上,基于神經密集檢索器增強的GPT-neo 2.7B模型甚至超過了強大的GPT-3 davinci-003模型。

圖片

對流行實體可能造成的誤導

然而,對于關于流行實體的問題,檢索增強可能會導致大型LMs表現下降。這是因為檢索到的上下文有時會誤導這些已經能夠很好地記住相關信息的模型。對于 10% 的問題,檢索增強導致 LM 錯誤地回答了它本可以正確回答的問題。

圖片


3、Adaptive Retrieval:自適應檢索

雖然引入非參數記憶有助于處理長尾分布,但強大的 LMs 已經記憶了流行實體的事實知識,檢索增強可能會帶來負面影響。于是本文探索了一種兩全其美的方法,即自適應檢索(Adaptive Retrieval),該方法僅根據輸入查詢信息決定何時檢索段落,并在必要時使用檢索到的非參數記憶增強輸入

自適應檢索基于這樣的發現:當前最佳的LMs已經記憶了更受歡迎的知識,因此只有在它們沒有記憶事實知識并且需要找到外部非參數知識時才使用檢索。

使用PopQA 數據集來選擇一個基于輸入查詢信息的流行度閾值,并且僅在低于該閾值的情況下才進行檢索。對于更受歡迎的實體,則不使用檢索。閾值是獨立為每種關系類型確定的。

流行度閾值確定

采用暴力搜索(Brute Force Search)的方法來選擇閾值。具體步驟如下:

1. 定義自適應準確率:自適應準確率是指在給定的流行度閾值下,模型的綜合表現。具體來說:

  • 對于流行度低于閾值的問題,模型使用檢索增強(非參數記憶)的結果。
  • 對于流行度高于或等于閾值的問題,模型使用自身的參數記憶(即不進行檢索)的結果。

2. 搜索最優閾值:通過暴力搜索的方式,嘗試不同的流行度閾值,并計算每個閾值下的自適應準確率。最終選擇使自適應準確率達到最高的那個閾值。

性能提升結果

圖9顯示了基于每種關系類型的閾值自適應檢索非參數記憶的結果。可以看出,對于較大的模型,自適應檢索非參數記憶是有效的。在POPQA上的最佳性能是使用GPT-3 davinci-003自適應地與GenRead和Contriever結合,準確率達到了46.5%,比任何非自適應方法高出5.3%。

圖片

閾值隨模型規模變化

盡管自適應檢索對較大模型顯示出性能提升,但較小模型并沒有實現相同的性能提升。圖10顯示,較小的LMs幾乎總是需要檢索,表明對于小LMs,參數記憶并不比非參數記憶更可靠。相比之下,大型模型通常檢索得少得多。例如,GPT-3 davinci-003僅對40%的問題進行檢索,而較小的GPT-NeoX 20B也不在超過20%的問題上檢索文檔。

圖片

推理成本降低

自適應檢索還提高了效率;如果我們知道不需要檢索文檔,我們可以跳過檢索組件,并且輸入長度變得更短,這在檢索和語言模型組件中都提高了延遲。圖11顯示了GPT-J 6B和GPT-NeoX 20B的推理延遲,以及GPT-3的API成本。特別是對于較大的LMs,連接檢索上下文會導致顯著增加的延遲(例如,對于GPT-J 6B,推理時間延遲幾乎翻倍)。自適應檢索能夠將推理時間降低高達9%,從標準檢索中節省成本。圖12顯示了EntityQuestions的準確率和成本節省。盡管EntityQuestions缺乏流行實體,但自適應檢索能夠減少API成本15%,同時保持與僅檢索相當的性能。

圖片


4、總結

這篇論文深入探討了在什么情況下為大型語言模型(LLM)應用檢索增強生成技術會更有效果。并提供了一種有效的解決方案,幫助我們更合理地應用檢索增強技術,讓語言模型在更多場景下發揮出更好的性能。

但是對于自適應的方式,采用暴力搜索的方式選取自適應閾值,尤其是在效率和可擴展性方面存在明顯的局限性。這種基于暴力搜索的策略需要對大量可能的閾值進行遍歷,計算成本較高,且難以適應動態變化的數據分布或大規模應用場景。因此,探索更高效、更智能的閾值選擇方法值得研究。

責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2025-07-03 02:12:00

RAG檢索系統

2021-10-04 14:56:09

機器學習函數參數

2021-03-08 10:48:04

AI

2023-12-08 16:32:35

GenAI人工智能AI

2023-09-05 07:17:23

2022-09-28 08:18:01

I/ONIO2API

2024-10-23 08:16:58

RAG智能進化

2015-03-24 11:04:58

2010-07-19 15:07:23

SQL Server評

2016-07-26 11:21:53

2024-07-09 07:54:26

2023-07-03 09:49:49

2024-06-19 08:14:51

大型語言模型LLMRAG

2022-12-27 13:36:09

2009-07-14 15:53:21

光纖參數測試

2010-07-28 16:40:38

2024-01-22 15:36:54

大語言模型人工智能

2021-09-07 06:40:26

狀態機識別地址

2024-07-09 18:36:12

2023-06-06 12:11:51

點贊
收藏

51CTO技術棧公眾號

免费**毛片在线| а天堂中文在线资源| 免费在线小视频| 久久久久久久久久久电影| 国产91亚洲精品| 国产亚洲精品精品精品| 日本免费精品| 狠狠躁夜夜躁人人躁婷婷91| 亚洲精品国产精品国自产观看 | 色综合久久影院| 国产福利91精品| 国外成人性视频| 天堂av网手机版| 久久午夜影院| 欧美二区三区的天堂| 热99这里只有精品| 日本暖暖在线视频| 久久先锋资源网| 91久久偷偷做嫩草影院| 国产精华7777777| 亚洲第一黄色| 欧美精品一区在线播放| 久久丫精品忘忧草西安产品| 中文字幕日韩高清在线| 欧美三级日韩三级| 女人喷潮完整视频| 天堂va在线| 亚洲欧洲国产日韩| 欧洲精品亚洲精品| 女人18毛片水真多18精品| 久久国产精品99精品国产| 国a精品视频大全| 侵犯稚嫩小箩莉h文系列小说| 男男gay无套免费视频欧美| 日韩欧美在线123| 中文av字幕在线观看| 毛片无码国产| 狠狠躁夜夜躁人人爽天天天天97| 成人免费网站入口| 在线你懂的视频| 亚洲免费在线播放| 免费看啪啪网站| 9色在线视频| 国产欧美一区二区三区沐欲| 久久精品国产第一区二区三区最新章节| 国产伦理吴梦梦伦理| 久久中文在线| 日本成人激情视频| 亚洲精品www久久久久久| 欧美国产91| 美女性感视频久久久| 91久久久久久久久久久久久久 | 免费成人深夜夜行网站视频| 91社区在线观看播放| 国产午夜亚洲精品理论片色戒| 免费在线成人av| 久久久资源网| 国产区在线观看成人精品 | 神马精品久久| 91丨porny丨最新| 欧美乱偷一区二区三区在线| 日韩av成人| 久久精品夜夜夜夜久久| 日韩国产在线一区| www.成人.com| 亚洲图片你懂的| 热久久最新地址| 日韩精品卡一| 精品免费在线观看| 国产福利视频在线播放| 日本一区二区三区视频在线| 精品视频在线看| 国内av免费观看| av不卡一区二区| 亚洲国产福利在线| 国产免费看av| 欧美1级片网站| 久国内精品在线| 免费日韩一级片| 日韩电影在线一区| 91夜夜揉人人捏人人添红杏| 丰满人妻一区二区三区无码av | 7777精品伊人久久久大香线蕉超级流畅 | 成人免费高清在线播放| 国产精品你懂的在线欣赏| 视频一区二区视频| 色呦呦视频在线观看| 精品久久久在线观看| 性欧美极品xxxx欧美一区二区| 久久91视频| 精品蜜桃在线看| av男人的天堂av| 亚洲一区二区三区| 91精品国产乱码久久久久久蜜臀| 精人妻无码一区二区三区| 久久超碰97中文字幕| 国产精品10p综合二区| 亚洲人视频在线观看| 国产精品拍天天在线| 中国丰满熟妇xxxx性| 欧美一级二级视频| 精品美女在线播放| 人妻视频一区二区| 激情亚洲网站| 国产精品久久久久久久av电影| 国产黄色片av| 国产日韩欧美一区二区三区综合 | 国产欧美激情| 成人久久久久久| 日韩精品系列| 亚洲精品中文在线观看| 搡女人真爽免费午夜网站| 欧美视频二区欧美影视| 亚洲日本中文字幕免费在线不卡| 欧美黑人猛猛猛| 日日摸夜夜添夜夜添国产精品| 国产成人精品一区二区三区福利| seseavlu视频在线| 五月天亚洲婷婷| 日批视频在线看| 日韩1区2区| 欧美亚洲第一页| 亚洲国产成人一区二区| 国产精品久久免费看| 日韩少妇内射免费播放18禁裸乳| 日韩精品一区二区三区中文在线| 在线一区二区日韩| 91午夜视频在线观看| 国产精品一级在线| 在线观看日韩羞羞视频| 日本精品网站| 精品视频在线播放色网色视频| 久久久久久久久久久97| 国产一区二区在线看| 一区二区三区国| 国产一区二区三区朝在线观看| 亚洲国产成人一区| 精品少妇久久久久久888优播| 久久97超碰色| 亚洲乱码国产乱码精品天美传媒| 成人美女大片| 亚洲精品一区二区三区不| 亚欧视频在线观看| 粉嫩13p一区二区三区| 久久人妻无码一区二区| 97久久中文字幕| 日韩亚洲综合在线| 一区二区三区在线免费观看视频| 久久久亚洲精品一区二区三区| 逼特逼视频在线| 欧美一性一交| 日本久久91av| 国产在线一二三区| 欧美综合亚洲图片综合区| 久久亚洲无码视频| 美腿丝袜亚洲色图| 一卡二卡3卡四卡高清精品视频| jizz欧美| 久久久精品999| 精品国产va久久久久久久| 亚洲欧美日韩国产综合| 精品久久久久久无码人妻| 欧美亚洲不卡| 精品1区2区| 国产伦精品一区二区三区视频金莲| 日韩av影视综合网| 毛片视频网站在线观看| 久久毛片高清国产| 日日噜噜夜夜狠狠| 五月天久久网站| 3d动漫精品啪啪一区二区三区免费| 91麻豆国产福利在线观看宅福利| 欧美va日韩va| av黄色在线播放| 欧美激情一区在线观看| 亚洲精品在线视频播放| 国产精品多人| 欧美日韩另类丝袜其他| 成人在线视频观看| 久久91亚洲人成电影网站| 六月婷婷综合网| 91久久精品一区二区三区| 欧美另类69xxxx| 国产一区二区伦理片| 久久久久久久9| 色先锋久久影院av| 国产欧美精品xxxx另类| 久草在线新免费首页资源站| 亚洲免费一级电影| 亚洲天堂视频网| 亚洲国产精品综合小说图片区| wwwwxxxx国产| 国产精品123区| 欧美日韩一区二区在线免费观看| 久久理论电影| 国产亚洲精品美女久久久m| 电影天堂国产精品| 欧美激情免费观看| 国产精品一区在线看| 日韩欧美国产系列| 伊人久久久久久久久久久久 | 国产九色精品成人porny| 国产h视频在线播放| 欧美激情欧美| 久久人人九九| 亚洲国产欧美在线观看| 日韩av大片在线| 91亚洲天堂| 中文字幕日韩在线观看| 视频污在线观看| 91 com成人网| 波多野结衣电影在线播放| 亚洲综合一区二区| 亚洲天堂最新地址| 99热精品一区二区| 久久无码人妻一区二区三区| 日韩高清欧美激情| 五十路熟女丰满大屁股| 亚洲综合中文| 亚洲国产一区二区精品视频| 日韩啪啪网站| 国产日韩一区二区| 久久国产精品免费一区二区三区| 国产精品成人播放| 天堂√中文最新版在线| 久久久久在线观看| 最新超碰在线| xxxx性欧美| 一区二区三区视频网站| 国产性猛交xxxx免费看久久| 污污的视频网站在线观看| 欧美一区二区私人影院日本| 亚洲天堂2021av| 欧美性生活影院| 波多野结衣视频网址| 日韩欧美黄色动漫| 日韩免费视频一区二区视频在线观看| 亚洲国产日产av| 欧美精品久久久久性色| 亚洲蜜臀av乱码久久精品蜜桃| 91ts人妖另类精品系列| 国产拍欧美日韩视频二区| 一区二区黄色片| 2023国产精品| 97伦伦午夜电影理伦片| 91影院在线免费观看| 喷水视频在线观看| jiyouzz国产精品久久| 亚洲一区二区三区综合| 99久久精品国产导航| yy6080午夜| 91美女视频网站| 中文幕无线码中文字蜜桃| 久久影院午夜片一区| 无码人妻精品一区二区中文| 91蝌蚪porny九色| 91成人破解版| 中文字幕第一页久久| 在线视频这里只有精品| 亚洲日韩欧美一区二区在线| 午夜免费激情视频| 亚洲国产精品一区二区www| 欧美精品亚洲精品日韩精品| 欧美三级免费观看| 亚洲精品久久久久久久蜜桃| 欧美精品久久99久久在免费线 | 羞羞影院体验区| 一本到一区二区三区| 最新中文字幕第一页| 91精品国产综合久久久久久久久久 | 精品国产白色丝袜高跟鞋| 久久久精品免费视频| av在线加勒比| 国产97在线视频| 国产精品亚洲欧美一级在线| 国产成人精品日本亚洲11 | 精品一区二区三区三区| 免费成人av电影| 久久躁日日躁aaaaxxxx| a√中文在线观看| 国产成人中文字幕| 国产一区二区高清在线| 国产一区二区高清不卡| 欧美色图国产精品| 青青在线免费视频| 亚洲欧美清纯在线制服| 日日噜噜夜夜狠狠| 成人av在线资源网站| 正在播放国产对白害羞| 亚洲最新视频在线播放| 成人h动漫精品一区二区下载| 91精品视频网| 色视频在线观看免费| www.欧美三级电影.com| 欧美裸体视频| 成人在线中文字幕| 香蕉久久夜色精品国产更新时间| 中文字幕成人一区| 亚洲综合不卡| 青青草精品在线| 国产欧美精品一区二区色综合朱莉| 日韩影院一区二区| 在线视频国内一区二区| 狠狠躁日日躁夜夜躁av| 日韩视频在线一区| 亚洲涩涩在线| 粉嫩高清一区二区三区精品视频 | 99视频精品全部免费在线| 日韩欧美在线视频播放| 狠狠久久五月精品中文字幕| 国产99视频在线| 这里只有精品视频在线| 国产社区精品视频| 亚洲曰本av电影| 久久国产精品亚洲人一区二区三区| 欧美黑人经典片免费观看 | 成人午夜在线影院| 欧美精品尤物在线观看| 一女被多男玩喷潮视频| 国产成人日日夜夜| 国产成人av免费在线观看| 日本道精品一区二区三区| 婷婷丁香一区二区三区| 欧美极品少妇全裸体| 精品麻豆剧传媒av国产九九九| 亚洲国产精品综合| 日欧美一区二区| 久久久精品人妻无码专区| 亚洲成人一二三| 亚洲精品国产一区二| 久操成人在线视频| 久久99成人| 糖心vlog在线免费观看| 麻豆传媒一区二区三区| 亚洲精品成人av久久| 91久久国产最好的精华液| 视频在线不卡| 日本老师69xxx| 免费观看不卡av| 丰满人妻中伦妇伦精品app| 99国产精品视频免费观看| 日韩黄色a级片| 亚洲成人久久网| av在线最新| 久久99精品久久久久久水蜜桃| 亚洲精品极品| 亚洲专区区免费| 91精品福利在线| av在线第一页| 国产精品极品在线| 日韩成人免费| 天天操夜夜操很很操| 一区二区不卡在线播放| 成人爽a毛片一区二区| 性欧美在线看片a免费观看| 欧美顶级毛片在线播放| 久久国产亚洲精品无码| 久久天天做天天爱综合色| 无码人妻丰满熟妇精品区| 最新日韩中文字幕| 中文字幕日韩亚洲| 日韩一区二区高清视频| 成人免费的视频| 欧美性猛交bbbbb精品| 国产香蕉97碰碰久久人人| 伊人久久大香| 日韩成人三级视频| 99久久综合国产精品| 波多野结衣在线观看一区| 视频在线一区二区| 视频在线亚洲| 99爱视频在线| 中文字幕第一区| 国产成人精品无码高潮| 国内精品一区二区三区四区| 最新亚洲精品| 肉色超薄丝袜脚交| 亚洲v日本v欧美v久久精品| 欧美成人综合在线| 国产日本欧美在线观看| 国产精品theporn| 亚洲熟妇无码av| 欧美日韩国产电影| 成人在线免费观看黄色| 欧美日韩免费高清| 国产美女精品人人做人人爽| 青青草av在线播放| 色综合影院在线| 欧美电影在线观看免费| 午夜视频在线网站| 偷拍日韩校园综合在线| 日本最新在线视频| 极品校花啪啪激情久久| 久久99最新地址| 久久草视频在线| 久久综合久久八八| 国产成人高清| 妖精视频一区二区| 欧美日本乱大交xxxxx| 国产激情在线播放|