精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG系統中的困境:上下文不是想加就能加的

發布于 2024-12-18 10:42
瀏覽
0收藏

“這段代碼明明是對的啊,為什么ChatGPT還給出了錯誤的解釋?我都把相關文檔放進去了!” 

“用戶問的是2024年的新聞,我也給了最新的新聞報道作為上下文,但模型回答的還是2022年的舊聞...” 

相信做RAG應用開發的同學都遇到過類似的困擾。明明提供了相關的上下文,為什么大模型還是會產生幻覺...是大模型沒有好好利用上下文,還是上下文本身就不足以回答問題? 

最近Google、UCSD等機構的研究者提出了一個新的視角來看待這個問題。他們在論文《SUFFICIENT CONTEXT: A NEW LENS ON RETRIEVAL AUGMENTED GENERATION SYSTEMS》中,首次提出了“充分上下文”的概念,并基于此深入分析了RAG系統中大模型的行為表現。 

論文鏈接:https://arxiv.org/abs/2411.06037 

從相關到充分:重新定義上下文質量

在傳統的RAG系統中,我們往往用“相關性”來評價檢索到的文檔質量。比如用戶問“特斯拉Model 3的價格是多少?”,檢索系統可能會返回以下幾種文檔: 

文檔A: 

特斯拉Model 3是一款純電動轎車,由特斯拉公司生產,采用了最新的電池技術...

文檔B: 

2024年1月,特斯拉官方宣布Model 3在中國市場的官方指導價為23.59萬元起...

文檔C: 

據悉,特斯拉計劃在2024年第二季度推出Model 3的改款版本,預計將對價格進行調整...

從相關性的角度看,這三段文本都與特斯拉Model 3有關,但它們對回答價格問題的幫助程度卻大不相同。文檔A雖然介紹了Model 3,但完全沒有價格信息;文檔B給出了明確的當前價格;文檔C提到了價格會調整,但沒有具體數字。 

研究者認為,我們需要一個更嚴格的標準:上下文是否“充分”支持回答問題。換句話說:如果基于給定的上下文能推理出一個合理的答案,那這個上下文就是充分的。在上面的例子中,只有文檔B提供了充分的上下文。 

這個概念看似簡單,但實際判斷起來并不容易。比如對于多跳推理類的問題: 

問題:2024年特斯拉在中國的市值超過了哪家傳統車企?

可能需要同時具備以下信息才算充分上下文: 

  1. 特斯拉2024年在中國的市值數據
  2. 主要傳統車企2024年在中國的市值數據
  3. 這些數據的對比關系

那大模型如何使用上下文?

研究者基于“充分上下文”的概念,分析了各種大模型在實際場景中的表現。舉個例子,假設問題是:“2024年2月舉辦的第96屆奧斯卡最佳影片是哪部?” 

場景一:提供充分上下文 

第96屆奧斯卡金像獎于2024年3月10日舉行,電影《奧本海默》獲得最佳影片獎...

場景二:提供不充分但相關的上下文 

《奧本海默》《巴比》《如何優雅地炸掉一艘船》等影片入圍第96屆奧斯卡最佳影片獎提名...

在論文中,他們研究發現,面對這兩種場景,不同類型的模型表現出明顯的差異: 

  • 專有模型(如Gemini、GPT)在場景一中能準確回答“《奧本海默》”。但在場景二中,它們傾向于自信地“預測”獲獎影片,而不是承認信息不足。這反映出這類模型可能過度依賴自身的預訓練知識。
  • 開源模型(如Llama、Mistral)即使在場景一中也表現得不夠穩定,有時會產生幻覺(比如說是《巴比》獲獎),有時又會過于保守而拒絕回答。這說明這些模型在整合上下文信息方面還有提升空間。

為什么模型有時不需要充分上下文也能對?

在論文中,存在一個比較有趣的發現:即使在上下文不充分的情況下,模型也能在35%-62%的情況下給出正確答案。這是不是就比較unbelievable。 

例如,假設問題是:“愛因斯坦是在哪個國家出生的?”,給出的上下文是: 

愛因斯坦在歐洲度過了他的童年時期,后來移居美國...

這個上下文并不充分,因為沒有直接說明出生地。但模型可能還是會正確回答“德國”,猜測可能的原因是: 

  1. 這是一個眾所周知的事實,存在于模型的預訓練知識
  2. 上下文中提到“歐洲”提供了地理范圍的線索
  3. “童年時期”暗示了這可能與出生地有關

研究者通過分析發現,模型在沒有充分上下文時得到正確答案,主要有這么幾種情況: 

  • 對于是非題,比如“愛因斯坦去過中國嗎?”,即使上下文不充分,模型也有50%的機會猜對。
  • 而對于簡單的選擇題,從有限選項中選擇也會提高正確率。
  • 更有意思的是多跳推理題。有時候上下文提供了部分關鍵信息,模型能夠結合自身知識進行推理。比如問“誰是第一個登上月球的美國宇航員?”,即使上下文只提到“阿姆斯特朗是阿波羅11號任務的指揮官”,模型也可能通過預訓練知識推斷出正確答案。

從“充分上下文”到系統改進:RAG中的深度探索

在理解了大模型的行為模式后,那么,能不能進一步探索如何利用這些發現來改進RAG系統?論文的作者他們提出了一個核心問題:既然知道了上下文的充分性如此重要,那么,能否構建一個自動化的機制來判斷上下文是否充分,并據此來指導模型的回答策略?這就面臨下一個核心問題:如何讓自動判斷上下文是否充分?

這個問題看起來就毫無頭緒。就像我們人類,面對同一個問題和上下文,不同的人可能會有不同的判斷。比如問:“特斯拉2024年第一季度的營收是多少?”,給出上下文: 

特斯拉公布2024年第一季度財報:
- 營收同比下降9%
- 毛利率為17.4%
- 交付量達到38.6萬輛

有人可能認為這個上下文不充分,因為沒有給出具體的營收數字。但也有人可能認為通過同比下降9%,如果知道去年同期數據,是可以算出具體數字的。 

好在論文作者們沒有放棄,他們搞了一些實驗,得到如下的一些自動評估方法: 

  1. 使用Gemini 1.5 Pro配合精心設計的提示詞。這種方法在人工標注的測試集上達到了93%的準確率,顯示出了最好的表現。
  2. 使用FLAMe(一個24B參數的評估模型)。雖然模型相對較小,但通過將長文本分塊評估的策略,也取得了不錯的效果。
  3. 使用傳統的蘊含關系判斷模型TRUE-NLI。這種方法的特點是需要參考標準答案,實用性相對較差。

從實驗結果來看,大模型確實能夠相當準確地判斷上下文是否充分。這為我們構建更智能的RAG系統打開了一扇門。 

選擇性生成:讓模型學會“有所為有所不為”

上面我們提到了:模型既然在信息不充分的時候,可能回答錯誤。那么,順理成章的想法就是:能否讓模型在上下文不充分時,主動選擇不回答問題?

這個想法聽起來很自然,但實現起來好像并不容易。因為如前所述,即使在上下文不充分的情況下,模型有時也能給出正確答案。如果簡單地讓模型在上下文不充分時都拒絕回答,反而會損失這部分正確答案。 

為了能夠達到這個目的,論文作者們設計了一個方案計算如下的兩個結果: 

  1. 上下文是否充分的判斷結果
  2. 模型對自己答案的確信度評分

也就是說,對于每個問題,他們會: 

  • 用FLAMe模型判斷上下文是否充分
  • 讓主模型生成答案和確信度
  • 將這兩個信號輸入到一個簡單的邏輯回歸模型中
  • 根據邏輯回歸的預測分數決定是否輸出答案

這個方案的高明之處在于:它不是簡單地依據單一因素做決定,而是學習了在什么情況下模型更容易給出正確答案。比如,即使上下文不充分,如果模型的確信度特別高,可能也值得冒險輸出答案。 

論文中的實驗結果顯示,這種方法能在保持一定回答覆蓋率的同時,將正確答案的比例提高2-10%。這個提升看似不大,但考慮到基線系統已經相當強大,這樣的改進仍然很有意義。 

微調之路:事情沒那么簡單

除了在推理階段加入控制機制,作者也嘗試了另一個直觀的想法:能否通過微調讓模型天生就更懂得在上下文不充分時保持謹慎? 

他們設計了三種訓練數據混合策略: 

  1. 保持原始答案不變
  2. 隨機選擇20%的樣本,將答案改為“不知道”
  3. 選擇20%上下文不充分的樣本,將答案改為“不知道”

然而,實驗結果有出人意料了。雖然微調后的模型確實會更多地說“不知道”,但這似乎是以犧牲某些場景下的表現為代價的。比如,有些原本能正確回答的問題,現在模型反而選擇了放棄。從這里我們可以看出:模型行為的改進并不是簡單的“多說不知道”就行了,而是需要在各種場景下都保持合理的判斷。 

這項工作不僅能讓我們更好地理解RAG系統中的行為模式,也給改進RAG系統提供了一些新的思路:

  1. 在構建RAG系統時,除了關注檢索的相關性,還應該評估上下文是否充分。可以考慮:
  • 使用自動評估工具(如FLAMe)判斷上下文充分性
  • 在檢索時增加迭代策略,當上下文不充分時嘗試檢索更多信息
  • 設計更好的提示詞,引導模型在上下文不充分時主動說“不知道”
  1. 在評估RAG系統時,應該分層次看待性能:
  • 上下文充分時的表現
  • 上下文不充分時是否能合理拒答
  • 即使上下文不充分,利用預訓練知識作答的準確率
  1. 選擇合適的基座模型:
  • 如果任務要求高準確率,專有模型在有充分上下文時表現更好
  • 如果希望模型在信息不足時更謹慎,可能需要額外的機制來約束模型行為

從“能用”到“好用”的還有一段路要走

還記得文章開頭我們提到的困擾嗎?“明明提供了相關上下文,為什么模型還是會出錯”。通過這篇論文,我們似乎找到了一些答案:上下文不只是要相關,還要充分;模型不只是要會用上下文,還要懂得合理取舍。 

就像我們人類在回答問題時,有時會說“讓我查查資料”,有時會說“這個我知道”,有時會說“抱歉,我沒有足夠的信息來回答”。 

那 RAG 系統能否更加智能一點呢?想象一下,如果你的大模型不只會判斷手上的資料夠不夠用,還能主動告訴你:“這個問題要回答準確的話,我還需要知道XX和YY”,是不是會更貼心?或者更進一步,它能說:“基于目前的信息我只能給出一個大致的答案,如果你需要更準確的信息,我建議查看最新的XX”,這樣的體驗是不是會更好? 

如果要實現這些yy 的功能,需要我們在“充分上下文”的基礎上繼續探索。比如: 

  1. 在檢索階段,不只是找相關的文檔,而是要理解問題需要哪些具體信息點,有針對性地進行檢索。
  2. 在回答階段,不只是決定說還是不說,而是要能夠進行信息完整性的評估,給出恰當的限定語和建議。
  3. 在交互階段,不只是被動地接受上下文,而是要能主動詢問,逐步完善必要的信息。

本文轉載自??芝士AI吃魚??,作者: 芝士AI吃魚 ????

收藏
回復
舉報
回復
相關推薦
69堂精品视频在线播放| 老司机午夜福利视频| 日韩久久精品| 日韩美女在线视频 | 蜜桃视频在线观看视频| 麻豆国产精品一区二区三区| 欧美日韩高清在线观看| 在线免费观看成年人视频| 成人影院在线免费观看| 一区二区成人在线视频| 欧美日韩最好看的视频| 国产福利资源在线| 老牛影视一区二区三区| 免费av一区二区| 能免费看av的网站| 日韩高清在线观看一区二区| 色婷婷国产精品| 亚洲黄色网址在线观看| 免费在线黄色影片| 国产sm精品调教视频网站| 国产精品美女免费| 国产一级理论片| 成人综合专区| 亚洲精品久久久久中文字幕欢迎你| 日本中文字幕观看| 经典三级一区二区| 婷婷中文字幕综合| a级片一区二区| 91官网在线| xnxx国产精品| 国产一区二区三区色淫影院| 91丨九色丨蝌蚪丨对白| 久久免费高清| 1769国产精品| 久久这里只有精品国产| 日韩精品诱惑一区?区三区| 日韩精品在线免费播放| 折磨小男生性器羞耻的故事| 成人豆花视频| 欧美日韩一区二区三区高清 | 精品国产欧美一区二区| 成人av毛片在线观看| 欧美日韩免费观看视频| 精品国产老师黑色丝袜高跟鞋| 日本三日本三级少妇三级66| av电影在线观看| 久久久不卡网国产精品二区| 九色91视频| 无码精品视频一区二区三区| 成人h动漫精品一区二| 99国产超薄肉色丝袜交足的后果| 97人妻人人澡人人爽人人精品| 免费的国产精品| 国产精品第七十二页| 国产精品老女人| 99国内精品| 孩xxxx性bbbb欧美| 国产午夜免费视频| 精品成人免费| 97精品国产97久久久久久| 五月天婷婷丁香| 日韩五码在线| 日韩免费在线看| 超碰超碰超碰超碰| 日本亚洲三级在线| 成人av番号网| a级片免费观看| 国产成人av电影免费在线观看| 不卡视频一区二区| 色综合视频在线| 2024国产精品| 性高潮久久久久久久久| 毛片免费不卡| 亚洲欧美日韩久久| 欧美精品在欧美一区二区| 国产亚av手机在线观看| 天天综合日日夜夜精品| 国产福利一区视频| 96视频在线观看欧美| 日韩三级在线免费观看| 在线免费观看污视频| 国产精品三级| 理论片在线不卡免费观看| 久久中文字幕在线观看| 日日夜夜精品视频免费| 91精品国产自产在线| 亚洲经典一区二区三区| 91在线国内视频| 伊人婷婷久久| free性护士videos欧美| 欧美亚洲一区三区| 免费看三级黄色片| 久久av导航| 精品中文字幕在线| 欧美一区免费看| 国产精品综合一区二区三区| 久热国产精品视频一区二区三区| 91社区在线| 午夜影视日本亚洲欧洲精品| 成人一区二区三| 9l亚洲国产成人精品一区二三| 亚洲色图狂野欧美| 中文字幕av播放| 久久综合影视| 成人资源av| 日韩伦理在线观看| 欧美午夜片在线免费观看| 一级做a免费视频| 你懂的一区二区三区| 欧美人在线视频| 中文字幕在线观看你懂的| 成人午夜激情视频| 免费成人深夜夜行网站视频| 国产不卡网站| 亚洲福利影片在线| 91插插插插插插| 日韩1区2区3区| 精品麻豆av| 日本资源在线| 欧美久久久久免费| 国产精品天天干| 国产婷婷精品| 国产精品国产精品| 国产激情视频在线| 欧洲av在线精品| 亚洲国产第一区| 午夜精品婷婷| 成人国产精品一区二区| 激情福利在线| 精品久久久久久久久中文字幕| 青青草原播放器| 欧美激情777| 国产97免费视| 青青草av免费在线观看| 亚洲成人动漫一区| 制服丝袜av在线| 国产精品九九| 动漫精品视频| 欧美高清另类hdvideosexjaⅴ| 欧美喷潮久久久xxxxx| 老头老太做爰xxx视频| 美女久久一区| 欧美系列一区| 性欧美hd调教| 国产亚洲精品久久久| 久久人人爽人人爽人人片av免费| 久久尤物电影视频在线观看| 色欲av无码一区二区人妻| 欧美日韩一区二区三区在线电影| 欧美精品videos另类日本| 性欧美8khd高清极品| 一区二区三区欧美亚洲| 精品国产aⅴ一区二区三区东京热 久久久久99人妻一区二区三区 | 给我免费观看片在线电影的| 日韩午夜一区| 欧美成人蜜桃| 成人黄页网站视频| 最近中文字幕2019免费| 国产精品国产一区二区三区四区| 国产精品福利一区二区三区| 亚洲第一成肉网| 好看的av在线不卡观看| 国产精品久久久久久久免费大片| 678在线观看视频| 日韩av在线免费观看一区| 欧美日韩乱国产| 日本一区二区免费在线| 三级一区二区三区| 欧美视频一区| 久久综合中文色婷婷| 欧美123区| 日韩有码在线播放| 丰满熟妇人妻中文字幕| 欧美日韩久久久久| 欧美日韩国产黄色| 国产激情一区二区三区四区 | 亚洲精品自在在线观看| 91精品在线免费视频| 九色91av视频| 日韩精品视频在线观看一区二区三区| 91国偷自产一区二区三区观看| 91香蕉一区二区三区在线观看| 成人天堂资源www在线| 成人在线观看a| 一区二区中文字| 久久99久久精品国产| 欧美aaaaaaaa| 性欧美在线看片a免费观看| 国产精品久久久久一区二区国产 | 欧美重口另类videos人妖| 在线日本视频| 日韩电影视频免费| 91精品国产乱码久久久久| 亚洲精品乱码久久久久久黑人| 欧洲一级黄色片| 久久99久久精品| 国产av天堂无码一区二区三区| 日韩毛片视频| 国产日韩一区二区三区| 午夜不卡一区| 欧美性视频精品| 91精品久久| 中文字幕av一区| 色婷婷av一区二区三区之红樱桃| 欧美午夜精品久久久久久孕妇| 伊人365影院| 国产精品夫妻自拍| 亚洲一级中文字幕| 国产精品 欧美精品| 午夜免费福利在线| 老司机一区二区三区| 日本aa在线观看| 91九色精品国产一区二区| 欧美日韩精品免费看| 波多野结衣在线一区二区| 成人免费xxxxx在线观看| 韩日精品一区二区| 69影院欧美专区视频| av在线麻豆| www.日韩av.com| 国产高清av在线| 亚洲国产小视频在线观看| 国产99久一区二区三区a片| 欧美三级三级三级| 无码人妻丰满熟妇精品| 疯狂蹂躏欧美一区二区精品| 麻豆一区二区三区精品视频| 亚洲人成亚洲人成在线观看图片| 久久日免费视频| 久久婷婷久久一区二区三区| 精品国产一区在线| 丁香一区二区三区| 亚洲制服在线观看| 狠狠色狠狠色综合| 蜜臀一区二区三区精品免费视频| 日韩成人免费看| 国产性生交xxxxx免费| 翔田千里一区二区| aa在线观看视频| 中文在线不卡| 国产精品免费观看久久| 亚洲欧美日本视频在线观看| 国产av国片精品| 一本久久知道综合久久| 激情深爱综合网| 国产精品一页| 国内性生活视频| 国产精品久久久亚洲一区| 1024精品视频| 久久性天堂网| 国产精品视频黄色| 免费av网站大全久久| 手机免费av片| 国产精品99久| 亚洲色图欧美日韩| 久久奇米777| 青娱乐国产视频| 最好看的中文字幕久久| 欧美一区免费观看| 亚洲大尺度视频在线观看| 日本一区二区不卡在线| 欧美视频在线视频| 中文字幕黄色av| 日韩一区二区三区高清免费看看| 日本加勒比一区| 亚洲小视频在线| 麻豆最新免费在线视频| 欧美丰满少妇xxxxx| 九九精品调教| 69影院欧美专区视频| jizz久久久久久| 成人h猎奇视频网站| 成人资源在线播放| 蜜桃狠狠色伊人亚洲综合网站| 97视频精品| 日本福利视频一区| 日本中文在线一区| 岛国大片在线免费观看| 91色porny在线视频| 老司机精品免费视频| 夜夜夜精品看看| 波多野结衣高清在线| 7777精品伊人久久久大香线蕉经典版下载 | 亚洲国产无线乱码在线观看| 日韩欧美在线不卡| 日本天堂在线| 成人97在线观看视频| 丝袜诱惑一区二区| 国产一区二区在线免费| 激情小说亚洲图片| 亚洲一区影院| 国产欧美不卡| 欧美体内she精高潮| 久久午夜色播影院免费高清 | 红桃视频成人在线观看| 亚洲天堂网在线观看视频| 亚洲精品一区二区三区香蕉 | 孩xxxx性bbbb欧美| 国产成人精品一区二区三区免费 | 日韩一级中文字幕| 北条麻妃99精品青青久久| 忘忧草在线日韩www影院| 成人网在线观看| 婷婷激情久久| 成人在线国产视频| 精品一区二区三区久久久| 三级电影在线看| 一区二区三区小说| 亚洲天天综合网| 亚洲精品影视在线观看| 欧美wwww| 91免费国产视频| 国产在视频线精品视频www666| 国产一级大片免费看| 久久精品国产亚洲一区二区三区| 中文字幕在线观看网址| 亚洲制服丝袜一区| 国产精品嫩草影院精东| 综合国产在线视频| 唐人社导航福利精品| 久久九九视频| 亚洲另类视频| 日本久久久久久久久久| 一区二区三区在线播放| 国内精品久久久久久久久久久| 中文字幕综合在线| 欧美大片1688网站| 欧美日韩在线观看一区| 国产精品尤物| www.色天使| 黄色一区二区在线观看| 全部免费毛片在线播放一个| 久久99精品国产99久久6尤物| 91精品视频一区二区| 超碰成人在线免费观看| 老司机午夜精品99久久| 中文字幕精品亚洲| 欧美性猛交xxxx乱大交退制版 | 91精品国产色综合| av一级亚洲| 国产免费一区二区视频| 成人午夜免费视频| 日韩欧美a级片| 亚洲国产高清自拍| 麻豆免费版在线观看| 久久99欧美| 欧美一级二区| 中文字幕黄色网址| 欧美日韩久久不卡| 国产在线激情| 18成人在线| 亚洲国产专区校园欧美| 中文成人无字幕乱码精品区| 精品高清美女精品国产区| 香蕉av在线播放| 欧美诱惑福利视频| 亚洲第一中文字幕| 手机看片1024日韩| 6080yy精品一区二区三区| 天堂网av成人| 亚欧在线免费观看| 亚洲欧洲在线观看av| 国产ts变态重口人妖hd| 欧美精品videossex88| 日本福利一区| 久久婷婷综合色| 亚洲最色的网站| 五月婷婷六月丁香| 国产精品96久久久久久| 99久久夜色精品国产亚洲1000部 | bt7086福利一区国产| 国产精品国产三级国产专区52| 国产一区二区三区久久精品 | 精品国产乱码久久久久久蜜柚 | 国产十八熟妇av成人一区| 懂色av中文一区二区三区天美 | 精品国产91乱码一区二区三区四区| 一级黄色香蕉视频| 亚洲精品亚洲人成人网| 亚洲色偷精品一区二区三区| 国产精品旅馆在线| 欧美日韩一区二区国产| 成人在线一级片| 日韩欧美在线不卡| 日韩精品一区二区三区| 法国空姐在线观看免费| 97成人超碰视| 国产精品欧美激情在线| 欧美又大又硬又粗bbbbb| 亚欧美无遮挡hd高清在线视频 | 亚洲一区二区三区四区五区| 一二三四区精品视频| 成年人在线视频| 国产精品一区二区三区在线观 | 国产欧美在线观看| 国产精品美女久久久| 欧美黄片一区二区三区| 一区二区国产精品视频| 大奶一区二区三区| 黄色片免费网址|