精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

看AI如何大海撈針,探索LLM能力邊界實戰?

發布于 2024-6-20 09:58
瀏覽
0收藏

關鍵鏈接

  • 視頻介紹
  • 相關代碼

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

概覽

隨著人工智能模型處理能力的增強,能夠處理的上下文信息越來越多,達到百萬級別的詞匯量,對于這類長上下文的大型語言模型(LLMs)的研究興趣也隨之增長。在這些模型中,一個流行的測試方法是將一個事實(稱為“針”)嵌入到大量的上下文信息(稱為“干草堆”)中,然后測試模型是否能在這個上下文中找到并回答與這個事實相關的問題。通過這個方法我們能夠評估并理解模型在處理長文本和檢索信息方面的能力邊界。

然而,這種方法并不完全適用于所有情況,尤其是對于那些需要檢索多個事實并在此基礎上進行推理的應用。為了解決這個問題,我們提出了一個新的測試基準,即多針檢索加推理測試。在這個測試中,我們發現了兩個主要結果:

  1. 當要求模型檢索更多的事實時,其性能會下降。
  2. 當模型需要對檢索到的事實進行推理時,性能也會下降。

下圖展示了測試結果的概覽:隨著“針”的數量增加,檢索的準確性降低;而且,對這些“針”進行推理的難度比單純檢索更大。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

我們還發現,隨著提供給模型的上下文信息量的增加,性能也會下降。此外,我們還深入研究了性能下降的原因,特別是當檢索多個“針”時。通過分析結果的熱圖,我們發現當檢索多個“針”時,GPT-4模型傾向于檢索位于上下文末尾的“針”,而忽略了開頭的“針”,這與之前的單“針”研究結果相似。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

接下來,我們將詳細介紹如何使用這個基準測試,并討論在 GPT-4 模型上的測試結果。

如何使用

要進行“多針檢索加推理”的評估,用戶需要準備三個要素:

  • 一個需要多個“針”來回答的“問題”
  • 一個基于這些“針”得出的“答案”
  • 一個將要插入上下文的“針”的列表

我們擴展了 Greg Kamradt 的“LLMTest_NeedleInAHaystack”項目,以支持多針評估,并且使用了 LangSmith 作為評估工具。通過 LangSmith,我們創建了一個評估集,其中包含了上述的“問題”和“答案”。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

以一個實際案例為例,我們創建了一個新的 LangSmith 評估集,名為“multi-needle-eval-pizza-3”,其中包含了關于披薩秘密配料的問題和答案:

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

問題:
制作完美披薩需要哪些秘密配料?

答案:
制作完美披薩的秘密配料包括無花果、帕爾馬火腿和山羊奶酪。

在創建了數據集之后,我們可以通過設置一些參數來運行評估,例如:

  • document_depth_percent_min - 第一個“針”插入的位置。其余的“針”將在第一個之后均勻插入
  • multi_needle - 執行多針評估的標記
  • needles - 要插入上下文的“針”的完整列表
  • evaluator - 選擇評估工具 LangSmith
  • eval_set - 選擇我們創建的評估集“multi-needle-eval-pizza-3”
  • context_lengths_num_intervals - 測試的上下文長度數量
  • context_lengths_min(和最大值)- 測試的上下文長度范圍

我們可以使用以下命令來執行評估:

python main.py --evaluator langsmith --context_lengths_num_intervals 6 --document_depth_percent_min 5 --document_depth_percent_intervals 1 --provider openai --model_name "gpt-4-0125-preview" --multi_needle True --eval_set multi-needle-eval-pizza-3 --needles '[ "無花果是制作完美披薩的秘密配料之一。", "帕爾馬火腿是制作完美披薩的秘密配料之一。", "山羊奶酪是制作完美披薩的秘密配料之一。"]'  --context_lengths_min 1000 --context_lengths_max 120000

這個命令將啟動一個工作流程,其中包括將“針”插入到上下文中,使用帶有這些“針”的上下文提示模型生成回答,并評估模型的生成是否正確地檢索了“針”。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

“多針檢索加推理”評估工作流程圖

GPT-4 的檢索結果

為了測試 GPT-4 的多針檢索能力,我們創建了三個 LangSmith 評估集:

  • “multi-needle-eval-pizza-1” - 插入一個“針”。
  • “multi-needle-eval-pizza-3” - 插入三個“針”。
  • “multi-needle-eval-pizza-10” - 插入十個“針”。

我們評估了 GPT-4(能夠處理 128k 標記長度的上下文)在單個回合中檢索 1、3 或 10 個“針”的能力,上下文長度分別為?。?000 標記)和大(120,000 標記)。所有運行的命令和生成結果的鏈接都已提供。

https://github.com/gkamradt/LLMTest_NeedleInAHaystack/blob/main/viz/multi-needle-datasets/

這里是我們的結果摘要圖:

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

我們可以看到:

  • 當“針”的數量從 1 增加到 10 時,模型的性能有所下降。
  • 當上下文長度從 1000 增加到 120,000 標記時,性能也會下降。

為了進一步探索和驗證這些結果,我們可以查看 LangSmith 跟蹤的一個例子,其中我們插入了 10 個“針”。GPT-4 的生成結果如下:

制作完美披薩所需的秘密配料包括浸泡在濃縮咖啡中的棗、甜藍紋奶酪、糖核桃和梨片。

在這次生成中,只有 四個 “秘密配料” 被正確提及。根據跟蹤結果,我們確認所有 10 個“針”都存在于上下文中,并記錄了它們被插入的順序:

* 無花果
* 帕爾馬火腿
* 煙熏蘋果木培根
* 檸檬
* 山羊奶酪
* 松露蜂蜜
* 梨片
* 浸泡在濃縮咖啡中的棗
* 甜藍紋奶酪
* 糖核桃

我們發現,GPT-4 在生成中只提及了我們上下文中最后四個“針”。這揭示了檢索失敗的一個有趣現象:當上下文變長時,模型更容易忽略位于文檔開頭的“針”。

因為我們記錄了每個“針”的插入位置,我們還可以探究這一點:下面的熱圖顯示了隨著上下文長度的增加,10 個“針”檢索的情況。每一列代表一個實驗,我們要求 GPT-4 在上下文中檢索 10 個“針”。

隨著上下文長度的增加,我們觀察到模型在文檔開頭的檢索失敗。這種趨勢在多“針”情況下(大約 25k 標記)比單“針”情況(對于 GPT-4 是從 73k 標記開始)更早出現。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

GPT-4 的檢索與推理

檢索增強生成(RAG)通常涉及從索引的文檔庫中檢索多個事實,然后在這些事實的基礎上進行推理。為了測試這一點,我們構建了三個數據集,通過詢問所有秘密配料的首字母來測試模型的檢索和推理能力。

  • “multi-needle-eval-pizza-reasoning-1” - 只檢索一個“針”。
  • “multi-needle-eval-pizza-reasoning-3” - 檢索三個“針”。
  • “multi-needle-eval-pizza-reasoning-10” - 檢索十個“針”。

需要注意的是,這里的推理是非?;A的形式。在未來的基準測試中,我們計劃包含不同復雜度的推理任務。

我們比較了僅檢索和檢索加推理兩種情況下的正確答案比例。所有數據和跟蹤結果都已提供。我們發現,無論是檢索還是推理,隨著上下文長度的增加,性能都會下降,而且推理的性能似乎總是落后于單純的檢索。這表明檢索能力可能限制了模型在推理任務上的表現,這是符合我們預期的。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

總結

長上下文語言模型的發展為我們帶來了巨大的潛力。為了有效地利用這些模型,無論是獨立使用還是作為外部檢索系統的替代,了解它們的能力和局限性至關重要。"多針檢索加推理"基準測試為我們提供了一個評估長上下文檢索性能的有用工具,特別是在與傳統的檢索增強生成(RAG)方法相比較時。

通過這些測試,我們可以得到一些初步的見解,但還需要進一步的驗證:

  • 檢索并非萬無一失- 并不能保證所有事實都能被檢索到,尤其是當涉及的事實數量和上下文規模增加時。
  • 檢索失敗的模式各異- 隨著上下文長度的增加,GPT-4 在檢索位于文檔開頭的事實時表現不佳。
  • 提問方式至關重要- 根據之前的研究發現,為了提高模型的檢索能力,可能需要精心設計提問方式。
  • 檢索與推理的關系- 當模型需要對檢索到的信息進行推理時,其性能會受到影響。

通過這些發現,我們可以更好地理解并優化長上下文模型在信息檢索和推理任務中的應用。

本文轉載自??AI小智??,作者: AI小智 ????

收藏
回復
舉報
回復
相關推薦
欧美调教femdomvk| 中文字幕一区不卡| 欧美一区二粉嫩精品国产一线天| 亚洲激情视频小说| 国产精品99精品一区二区三区∴| 亚洲女人****多毛耸耸8| 国产精品成人观看视频免费| 波多野结衣视频网站| 日韩精品久久| 日韩欧美国产一区二区三区| av免费中文字幕| 欧美jizzhd69巨大| 不卡视频在线看| 国产精品视频99| 精品久久免费视频| 欧美成人精品一区二区三区在线看| 欧美天天综合网| 国产va亚洲va在线va| 久久米奇亚洲| 成人91在线观看| 国产精品久久一| 国产无套粉嫩白浆内谢| 日韩精品免费| 亚洲美女在线看| 亚洲麻豆一区二区三区| 永久免费观看精品视频| 日韩欧美高清视频| av网站大全免费| 麻豆tv在线| 久久久99免费| 久久久久高清| 亚洲精品人妻无码| 极品销魂美女一区二区三区| 欧洲成人免费视频| 中文在线观看免费网站| 综合激情在线| 久久久成人av| 污污的视频在线免费观看| 深爱激情综合网| 亚洲国内精品在线| 国产香蕉精品视频| 欧美经典影片视频网站| 欧美二区在线观看| 男人的天堂最新网址| 欧美日韩国产网站| 91黄色免费版| 黄色国产小视频| 亚洲精品成人图区| 狠狠综合久久av一区二区小说| 欧美激情亚洲天堂| 日韩电影免费观看| 亚洲免费看黄网站| 制服丝袜综合日韩欧美| 91在线不卡| 国产精品美女久久久久aⅴ| 日韩免费av电影| 国产区av在线| 国产拍欧美日韩视频二区| 欧美精品一区三区在线观看| 嫩草研究院在线观看| 久久久久久免费| 日本一区二区三区免费看| 精品久久久久一区二区三区| 91色乱码一区二区三区| 欧美日韩成人一区二区三区| 黄色毛片在线看| 欧美韩国日本综合| 亚洲精品高清国产一线久久| 日本综合在线| 一区二区三区四区亚洲| 老太脱裤让老头玩ⅹxxxx| 久草免费在线视频| 在线观看91精品国产入口| 男女污污的视频| 亚洲91在线| 欧美v日韩v国产v| 日本少妇毛茸茸| 久久99国产精品视频| 爽爽爽爽爽爽爽成人免费观看| 99在线视频免费| 91精品啪在线观看国产81旧版| 日韩中文字幕不卡| aaa国产一区| 91免费看蜜桃| 亚洲av毛片成人精品| 久久精品一区二区三区av| 性欧美大战久久久久久久免费观看| 午夜免费视频在线国产| 一区二区三区中文在线观看| av高清在线免费观看| 日韩电影网站| 日韩欧美电影一区| 在线视频 日韩| 日韩精品欧美| 高清亚洲成在人网站天堂| 亚洲欧美日韩激情| 国产真实精品久久二三区| 成人欧美一区二区| 国产黄色片在线播放| 一区二区三区免费| 50路60路老熟妇啪啪| 国产一区二区三区视频在线 | 2019中文在线观看| 在线播放亚洲精品| 波多野结衣中文一区| 亚洲高清视频一区| a级片在线免费| 欧美日韩一区二区在线观看视频| 国产精品91av| av永久不卡| 午夜精品三级视频福利| 国产精品久久影视| 久久久久久久免费视频了| 精品国产无码在线| 亚洲成人激情社区| 亚洲精美色品网站| 加勒比婷婷色综合久久| 日韩高清国产一区在线| 国产一级特黄a大片99| 久操免费在线| 在线观看精品一区| 亚洲永久无码7777kkk| 女生裸体视频一区二区三区| 国产精品久久久久久婷婷天堂 | 亚洲性生活视频| 日韩av片在线播放| 国产成人免费xxxxxxxx| 亚洲综合网中心| 日韩中文视频| 亚洲人成自拍网站| 毛片在线免费视频| av中文字幕不卡| 日本男女交配视频| 欧美一级大片在线视频| 色阁综合伊人av| 国产一级片免费视频| 91热门视频在线观看| 国产精品无码一区二区在线| 一区二区三区四区视频免费观看 | 欧美一二区视频| 婷婷丁香综合网| 免费在线观看不卡| 日韩欧美三级一区二区| 竹内纱里奈兽皇系列在线观看| 亚洲国产日韩欧美在线动漫| 久草精品视频在线观看| 成人性生交大片免费看视频在线| 伊人网在线免费| 激情久久免费视频| 在线观看日韩欧美| 亚洲视屏在线观看| 国产精品青草久久| 欧美在线aaa| 91日韩视频| 成人久久18免费网站图片| 日本蜜桃在线观看| 日韩一卡二卡三卡| 国产91av视频| 91丨porny丨最新| 亚洲天堂av在线播放| 五月激情五月婷婷| 成人无号精品一区二区三区| 国产精品视频不卡| 日本a级在线| 91精品国产91久久久久久最新毛片| 中文字幕在线观看的网站| 国产精品外国| 偷拍视频一区二区| 综合久久伊人| 欧美黑人又粗大| 五月婷婷久久久| 欧美在线免费视屏| 日本爱爱小视频| 国产黄色91视频| 男人揉女人奶房视频60分| 亚洲最大在线| 国产裸体写真av一区二区| 久操视频在线观看| 亚洲国产精品网站| 中文字幕 人妻熟女| 国产精品少妇自拍| 国产ts在线观看| 免费一级欧美片在线播放| 亚洲成人一区二区三区| 综合欧美精品| 国产91精品黑色丝袜高跟鞋| 1pondo在线播放免费| 欧美一区二区免费| 人人爽人人爽人人片av| 中文字幕高清不卡| 少妇被狂c下部羞羞漫画| 欧美色综合网| 少妇免费毛片久久久久久久久| 麻豆国产一区| 国产成人精品日本亚洲| 好吊日视频在线观看| 亚洲精品短视频| 国产一区二区三区成人| 天天综合色天天| 自拍偷拍第9页| 337p粉嫩大胆噜噜噜噜噜91av| 香蕉视频999| 亚洲欧美日韩国产综合精品二区| 一区二区不卡在线观看| 台湾色综合娱乐中文网| 亚洲va久久久噜噜噜| 怡红院成人在线| 亚州精品天堂中文字幕| caopen在线视频| 亚洲香蕉成视频在线观看 | 九九国产精品视频| 欧美变态另类刺激| 欧美日韩午夜| 中文字幕一区二区三区乱码| 亚洲免费观看高清完整版在线观| 亚洲最大福利视频网| 韩国精品主播一区二区在线观看| 久久男人资源视频| 国产精品扒开做爽爽爽的视频| 亚洲美女黄色片| 免费的黄色av| 欧美一区二区在线不卡| 国模私拍一区二区| 亚洲午夜激情网站| 欧美高清视频一区二区三区| 91视频国产观看| 伊人网综合视频| 国产精品一区三区| 日韩在线不卡一区| 免费观看在线色综合| 无码人妻精品一区二区三区66| av不卡免费看| 少妇无码av无码专区在线观看| 欧美精品大片| 日本高清视频免费在线观看| 羞羞色午夜精品一区二区三区| 亚洲人体一区| 久久一区二区三区喷水| 亚洲韩国在线| 欧美日韩有码| 亚洲国产一区二区精品视频 | 成人影院网站ww555久久精品| 国产福利视频一区二区| 不卡一二三区| 欧美一区深夜视频| 2022成人影院| 国产97色在线| 国产另类xxxxhd高清| 国产精品高潮在线| 岛国一区二区| 国产日韩欧美视频| 超碰国产精品一区二页| 91精品在线观看视频| 国产精品va视频| 96久久精品| 凹凸av导航大全精品| 国产日韩精品推荐| www.久久久.com| 成人在线观看91| 大型av综合网站| 蜜桃av色综合| 精品毛片免费观看| 亚洲精品免费在线看| 91久久电影| a级免费在线观看| 噜噜噜91成人网| 无限资源日本好片| 国产乱淫av一区二区三区| 天天躁日日躁狠狠躁av| 久久蜜桃香蕉精品一区二区三区| 亚洲最大成人综合网| 亚洲色图.com| 亚洲欧美在线视频免费| 91国模大尺度私拍在线视频 | 精品国产凹凸成av人导航| 涩涩视频免费看| 国产一区二区黄| av在线播放国产| 97色在线播放视频| 青青国产精品| 国产精品一区免费观看| 欧洲福利电影| www.成年人视频| 国产综合欧美| 日韩在线xxx| 国产美女主播视频一区| 毛茸茸多毛bbb毛多视频| 国产精品久久久久永久免费观看 | 日本精品视频一区二区| 国产精品呻吟久久| 亚洲国产天堂久久国产91| 最新97超碰在线| 国内精品久久久久久久久| 欧亚在线中文字幕免费| 成人黄色在线免费| 日韩伦理一区二区三区| 黄瓜视频免费观看在线观看www | 97精品国产aⅴ7777| 亚洲成人一区在线观看| 国产精品夜夜夜一区二区三区尤| 精品国产99| 成年人午夜视频在线观看| 老汉av免费一区二区三区| 国产激情视频网站| 国产日韩精品一区二区浪潮av| 69精品久久久| 欧美高清视频在线高清观看mv色露露十八 | 欧美三级电影在线观看| 天堂在线中文网| 久久手机精品视频| 人人草在线视频| 91高跟黑色丝袜呻吟在线观看| 国产一区二区在线| 青青草精品视频在线| 国产一区二区三区免费观看| 手机看片福利视频| 黄色一区二区在线| 亚洲精品网站在线| 久久综合伊人77777| 国产一区二区三区四区五区3d| 久久国产精品亚洲va麻豆| 国产精品hd| 亚洲AV成人精品| 亚洲欧美日本在线| 在线观看毛片av| 国产亚洲视频在线观看| 涩涩av在线| 国产在线精品一区二区三区》 | 日本一区二区三区dvd视频在线| 男人天堂中文字幕| 精品国产免费一区二区三区香蕉| 黄色网址在线免费观看| 国产欧美精品在线| 第一会所sis001亚洲| 任你操这里只有精品| 久久五月婷婷丁香社区| 久久国产精品免费看| 亚洲国产日韩欧美在线动漫 | 国产精品高清在线观看| 羞羞答答一区二区| jizzjizzxxxx| 久久亚区不卡日本| 精品国产乱子伦| 国产亚洲一区精品| 成人涩涩视频| 亚洲综合网中心| 国精产品一区一区三区mba桃花| 任我爽在线视频| 欧美三级视频在线播放| 色综合久久久久综合一本到桃花网| 国产精品久久久av| 日韩av免费大片| 久久久精品高清| 亚洲欧美日韩国产另类专区| 国产国语亲子伦亲子| 欧美激情第99页| 国产精品视屏| 成人综合视频在线| 国产日韩欧美精品综合| 在线观看免费高清视频| 久久av.com| 激情视频极品美女日韩| 无码aⅴ精品一区二区三区浪潮| 久久这里只有精品6| 亚洲午夜无码久久久久| 啊v视频在线一区二区三区| 国产一区 二区| 黄色网页免费在线观看| 国产女人aaa级久久久级| 亚洲天堂手机在线| 日韩视频在线免费| 国产成人精品福利| 欧美三级午夜理伦三级| 中文字幕永久在线不卡| 丰满熟妇乱又伦| 日本精品视频网站| 婷婷综合社区| 波多野结衣办公室双飞 | 一级全黄裸体免费视频| 久久久久久久久亚洲| 国产99亚洲| 一本之道在线视频| 欧美日韩一区二区三区在线免费观看| 第三区美女视频在线| 91精品黄色| 日韩中文字幕区一区有砖一区| 免费成年人视频在线观看| 日韩国产激情在线| 亚洲伦理网站| 国产欧美高清在线| 亚洲靠逼com| 国产高清视频在线| av一区二区在线看| 国产精品丝袜xxxxxxx| 波多野结衣不卡视频| 精品一区精品二区| 另类视频一区二区三区| 99视频精品免费| 亚洲高清在线视频| 色综合久久久久综合一本到桃花网|