精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Chroma:上下文退化-增加輸入 Tokens 長度對 LLM 性能的影響

發布于 2025-9-26 00:05
瀏覽
0收藏

Chroma發現,即使是最先進的LLM在處理長輸入時也會出現性能不一致的"上下文退化"問題。通過測試主流模型發現,隨著輸入長度增加,模型性能持續下降。長上下文能力不僅是技術指標,更是需要精心設計的系統工程。

1. 現有評估基準的局限性

1.1 大海撈針測試的不足

2. 擴展后的測試方案

3. 測試項目

3.1 針與問題的相似度對性能的影響(Needle-Question Similarity)

3.2 干擾項對性能的影響(Impact of Distractors)

3.3 針與草堆的相似度對性能的影響(Needle-Haystack Similarity)

3.4 草堆的結構對性能的影響(Haystack Structure)

3.5 長記憶評估(LongMemEval)

3.6 重復的詞語(Repeated Words)

4. 測試結果(性能退化的普遍性)

5. 結論(上下文工程的重要性)

在人工智能快速發展的今天,大型語言模型(LLM)的上下文窗口長度已經成為衡量模型能力的重要指標。

從早期的幾千個token到現在的數百萬token,模型處理長上下文的能力正在不斷提升。

并且在常用的Needle in a Haystack (NIAH) 測試中,各大模型的表現都非常完美。

2025年7月14日,Chroma公司最新發布了一份技術報告《Context Rot: How Increasing Input Tokens Impacts LLM Performance》,報告發現了一個需要思考的現象:

即使是最先進的LLM,在處理長輸入時也會出現性能不一致的問題

這項研究評估了18個主流LLM模型,包括最新的GPT-4.1、Claude 4、Gemini 2.5、Qwen3等,在這些模型中都發現了一個共同的問題,就是上下文退化(Context Rot)。

正如報告中所指出的:"模型并不能均勻使用其上下文,而是隨著輸入長度增長,性能變得越來越不可靠。"

Chroma 或 ChromaDB 是一個專為大型語言模型應用設計的開源向量數據庫。

支持向量、全文、正則表達式及元數據搜索。可在本地開發,并擴展至云端 PB 級存儲。采用對象存儲支持。提供無服務器搜索與檢索功能,確保快速、經濟且可靠

2023 年 4 月,該公司成功獲得了 1800 萬美元的種子輪融資。

1. 現有評估基準的局限性

1.1 大海撈針測試的不足

目前最廣泛使用的長上下文評估基準是 "大海撈針"(Needle in a Haystack, NIAH) 測試。

這個測試將一條隨機事實("針")放在長上下文窗口("干草堆")的中間,然后詢問模型關于這個事實的問題。

然而,NIAH本質上是一個簡單的檢索任務,

這種測試方法存在明顯的局限性:

  • 過于簡單:只涉及直接的詞匯匹配
  • 缺乏語義理解:不需要復雜的推理能力
  • 脫離實際:不能反映真實應用場景的復雜性

"大海撈針"(Needle in a Haystack, NIAH)的測試方法

2. 擴展后的測試方案

在實際應用中,如智能體任務或摘要,需要對更廣泛、通常更模糊的信息進行更多的處理和推理。

僅僅能夠在大海中找到一根針是不夠的。

真實世界的長上下文任務往往需要:

  • 復雜的語義理解
  • 多層次的推理
  • 處理模糊和矛盾的信息
  • 整合來自不同來源的信息

比如:

問題:哪個角色曾經到過Helsinki?
回答:Yuki住在Kiasma博物館隔壁。

為了回答這個問題,模型首先需要知道Kiasma博物館位于Helsinki,并建立這種潛在的聯系。這不僅測試了模型非詞匯匹配的能力,還測試了它的世界知識。

這種非詞匯匹配的針-問題(需要模型推斷潛在關聯)對模型來說更具挑戰性。

模型在處理任務時還需應對干擾項,這些干擾項與主題相關但不能完全回答問題,而無關內容則與針和問題都不相關。當前的模型在不同輸入長度下的抗干擾能力尚未得到充分測試。

NIAH任務中草堆內容本身對任務性能的影響也是一個未被充分研究的領域,因為通常草堆只是被視為擴展輸入長度的手段,而未考慮其內容對模型的影響。

于是Chroma針對以上幾個局限性,做了相應的測試優化,來評估不同情況下對模型的性能影響。

測試涵蓋了當前主流的LLM模型:

Anthropic系列:Claude Opus 4、Claude Sonnet 4、Claude Sonnet 3.7/3.5、Claude Haiku 3.5

OpenAI系列:o3、GPT-4.1系列(標準版、mini、nano)、GPT-4o、GPT-4 Turbo、GPT-3.5 Turbo

Google系列:Gemini 2.5 Pro/Flash、Gemini 2.0 Flash

Alibaba系列:Qwen3-235B-A22B、Qwen3-32B、Qwen3-8B

3. 測試項目

3.1 針與問題的相似度對性能的影響(Needle-Question Similarity)

在實際應用中,模型往往需要處理模糊任務,識別相關信息,而無需依賴精確的詞匯匹配。

例如,當Agent被賦予一個需要搜索大量語料庫的任務時,用戶很少會為相關部分指定精確的關鍵詞,相反,模型必須推斷相關性。

隨著針-問題相似度的降低,模型性能會隨著輸入長度的增加而更加顯著地變差。這更符合現實情況,即精確的問題-答案匹配非常罕見,而語義上的模糊性使得長輸入處理變得更加困難。

測試結果

對于相似度較低的針-問題,隨著輸入長度的增加,性能會更快地下降。

在測試了 11 個不同的位置后,性能沒有出現明顯的變化。

藍色:高相似性; 紅色:低相似度

3.2 干擾項對性能的影響(Impact of Distractors)

干擾項會損害模型的性能,且影響程度不一。輸入長度增加后,模型的抗干擾性是否仍然有效?

測試進行三種測試條件

  • 無干擾(基線):只有
  • 單一干擾項:+ 一個隨機放置的干擾項
  • 多個干擾項:和所有四個干擾項隨機分布在干草堆中

干擾項的影響 - 三種情況

測試結果

與基準(僅)相比,即使一個干擾項也會降低性能,而添加四個干擾項會進一步加劇這種性能退化。

干擾項的影響:根據干擾項數量劃分的性能表現

3.3 針與草堆的相似度對性能的影響(Needle-Haystack Similarity)

針-草堆 的相似性是否會影響任務難度?直觀上,如果針與草堆內容混為一體,模型提取的難度可能會增加。

針-草堆相似度實驗

測試結果

這個測試,沒有得出 “針和草堆越相似,模型表現就越差” 這樣的結論。

但是看到模型在處理長上下文時并不穩定:維持任務結構和針與問題的相似度都保持不變,在調整針和草堆之間的語義相似度后,發現結果就會發生變化。

這個測試項目,還需要在以后的長上下文評測里進一步深入研究。

針-草堆相似度測試結果

3.4 草堆的結構對性能的影響(Haystack Structure)

為了評估文檔結構的影響,測試兩種情況:

  1. 原始內容:保持每個文檔的自然流暢性
  2. 句子被隨機打亂,在整個文本中重新排序,以保持相同的大致主題,但缺乏邏輯連貫性

草堆(Haystack)結構示例

測試結果

在所有 18 個模型和針-草堆配置中,模型在處理打亂順序的草堆時,表現通常優于邏輯結構化的草堆。

原始與順序打亂的草堆(Haystack)在18個模型上的平均性能

3.5 長記憶評估(LongMemEval)

為了將“記憶”功能集成到聊天助手中,一種簡單的方法是將完整的聊天歷史記錄包含在后續聊天的提示中。

這要求模型在一次調用中執行兩個任務:檢索對話歷史記錄的相關部分,然后將這些相關內容以有用的方式綜合起來。

在理想情況下,模型只需處理相關內容,從而能集中精力進行推理。若加入不相關的上下文,模型不僅需要識別哪些是相關內容,還需同時處理兩個任務,這無疑增加了其負擔。

通過兩種條件進行驗證

  1. 輸入內容集中,僅包含相關部分,這樣模型只需進行簡單的推理。
  2. 完整輸入,使用了包含無關上下文的全部輸入。在這種情況下,模型除了推理外,還需要在長上下文中進行檢索。

測試結果

在所有模型中,發現使用相關性的提示,表現明顯優于全面的提示。

長記憶評估結果:Claude系列長記憶評估結果 - Qwen 系列

3.6 重復的詞語(Repeated Words)

由于這些模型是自回歸的,模型的輸出也屬于其輸入;每個Token都是在輸入和已經生成的Tokens的條件下生成的,如果輸出長度也隨輸入長度變化,情況會怎樣?

使用一個簡單的程序,要求模型復制一個由重復單詞組成的序列,并在特定位置插入一個獨特的單詞。提示明確要求模型精確復現輸入文本,類似這個提示:

Simply replicate the following text, output the exact same text: apple apple apple apple apples(這個地方不一樣) apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple

測試結果

即使是這些簡單的任務,隨著上下文長度的增加(包括輸入和輸出長度),模型性能也會變得不均勻

Chroma:上下文退化-增加輸入 Tokens 長度對 LLM 性能的影響-AI.x社區

4. 測試結果(性能退化的普遍性)

在所有實驗中,隨著輸入長度增加,模型性能都出現了持續下降

  • 針與問題的相似度越低,性能下降速度越快。
  • 不同干擾項帶來的影響不一樣,有的特別讓模型分心,有的影響沒那么大。當輸入越長、干擾項越多時,模型的性能下降得更明顯,而且不同模型在應對這些干擾時的表現方式也不一樣
  • 針與草堆的相似度對模型性能沒有統一的影響,需要進一步的研究。
  • 草堆的結構可能會影響模型對長文本輸入的思考方式。

現實世界的應用通常涉及更大的復雜性,這意味著輸入長度的影響在實踐中可能更加明顯。

5. 結論(上下文工程的重要性)

LLMs 在不同上下文長度下表現是不穩定的,即便在簡單任務中也如此。

信息在模型上下文中呈現的位置和方式對任務性能有顯著影響,因此,上下文工程是未來優化模型性能的一個重要方向。

即精心構建和管理模型的上下文窗口。

Whether relevant information is present in a model's context is not all that matters; what matters more is how that information is presented.(相關信息是否存在于模型的上下文中并不是最重要的;更重要的是如何呈現這些信息。)

我們忽視了一個基本事實:

長上下文能力不僅僅是技術指標,更是一個需要精心設計和管理的系統工程

原文

??https://research.trychroma.com/context-rot??

本文轉載自??AI取經路??,作者:AI取經路

已于2025-9-26 11:20:46修改
收藏
回復
舉報
回復
相關推薦
日韩女同强女同hd| 在线看黄色的网站| 免费观看成人高潮| 大陆成人av片| 国产精品第1页| a一级免费视频| 粉嫩精品导航导航| 欧美亚洲动漫制服丝袜| 蜜桃视频一区二区在线观看| 四虎在线观看| 国产在线麻豆精品观看| 国产91对白在线播放| 四虎永久免费地址| 亚洲图片久久| 日韩欧美色综合网站| 日韩中文字幕免费在线 | 亚洲男人天堂古典| 亚洲欧美一区二区三区不卡| 成人欧美一区二区三区的电影| 国产精品福利电影一区二区三区四区| 国产欧美丝袜| 一区二区三区www污污污网站| 1024日韩| 久久福利视频导航| 久久久久久成人网| 日本一区福利在线| 精品国产91洋老外米糕| 日韩av.com| 成人激情综合| 精品福利免费观看| 成年人视频网站免费| 亚洲天天影视| 国产视频一区在线播放| 久久久久se| 免费av一级片| 国产成人av影院| 91在线免费视频| 中文在线免费看视频| 国产精品入口| 91精品国产乱码久久久久久久久 | 男人天堂网在线观看| 国v精品久久久网| 国产中文欧美精品| 中文字幕久久网| 欧美一级网站| 57pao国产成人免费| 日韩成人免费在线视频| 亚洲小说区图片区| 欧美国产视频日韩| 欧美国产精品一二三| 欧美在线三级| 欧美另类精品xxxx孕妇| 国产极品国产极品| 欧美在线网址| 久久免费视频在线| 日韩av片在线播放| 久久精品午夜| 国产精品扒开腿做爽爽爽的视频| 国产午夜麻豆影院在线观看| 香蕉亚洲视频| 国产精品高清网站| 中文字幕在线观看视频一区| 美女任你摸久久| 成人国产亚洲精品a区天堂华泰| 亚洲天堂999| 免费看日韩精品| 成人高清视频观看www| 国产精品久久久午夜夜伦鲁鲁| 久久99这里只有精品| 亚洲综合在线做性| 懂色av蜜臀av粉嫩av分享吧| 成人18视频日本| 欧美第一黄网| 日本不卡在线| 亚洲午夜精品一区二区三区他趣| 欧美黑人经典片免费观看| 一区二区三区四区日本视频| 在线视频国产一区| 99精品999| 超碰97成人| 亚洲系列中文字幕| 日本福利片在线观看| 在线观看亚洲| 国产精品成人一区二区三区吃奶| 国产一区二区三区中文字幕| 国产a精品视频| 欧美日韩精品久久久免费观看| 国产视频网址在线| 樱花草国产18久久久久| 日韩中文字幕三区| 成人噜噜噜噜| 亚洲精品影视在线观看| 美女三级黄色片| 99国产精品久久久久久久成人热 | 成年人午夜免费视频| 欧美黄色网页| 日韩欧美在线影院| 日本一区二区视频在线播放| 欧美a级在线| 国产成人av在线| 亚洲va天堂va欧美ⅴa在线| 久久久久久久久久看片| 99视频精品全部免费看| 午夜欧美巨大性欧美巨大 | 国产精品a久久久久久| 99久久精品无免国产免费| 久久综合一区二区| 精品嫩模一区二区三区| 美女福利一区二区三区| 欧美一区2区视频在线观看| 亚洲天堂久久新| 欧美天天视频| 国产综合色香蕉精品| 免费看男男www网站入口在线 | 欧美精品在欧美一区二区| 国产综合色区在线观看| 精品国产乱码久久久久久图片| 亚洲一二三四视频| 国产毛片一区| 国产伦精品一区二区| 成人午夜在线影视| 欧美色倩网站大全免费| 久久久久久久久久久国产精品| 午夜日本精品| 成人激情视频免费在线| 中文字幕日本在线观看| 日韩欧美亚洲范冰冰与中字| 在线播放av网址| 欧美在线不卡| 亚洲最大福利网| 免费人成在线观看播放视频 | 国产毛片毛片毛片毛片毛片| 国产午夜一区二区三区| 黄www在线观看| 精品素人av| 欧美精品第一页在线播放| 99热这里只有精品99| 自拍偷自拍亚洲精品播放| 天天插天天操天天射| 教室别恋欧美无删减版| 日韩美女中文字幕| 福利小视频在线观看| 色综合久久天天| 在线免费观看黄色小视频| 999亚洲国产精| 精品无码久久久久国产| 欧美13videosex性极品| 亚洲国产欧美一区二区丝袜黑人 | 国产呦小j女精品视频| 国产精品入口| 欧洲av一区| 日本在线中文字幕一区二区三区| 一区二区欧美久久| 最近中文字幕在线观看视频| 欧美国产日韩亚洲一区| 无人在线观看的免费高清视频 | 国产亚洲精品91在线| 亚洲大尺度在线观看| 中文字幕不卡三区| 国产精品久久久久久久av福利| 婷婷综合网站| 99在线影院| 啊啊啊久久久| 国产小视频国产精品| 国产又黄又猛又爽| 亚洲一区二区三区视频在线播放| 高清中文字幕mv的电影| 亚洲国产一区二区精品专区| 久久久久久亚洲精品不卡4k岛国| 日韩伦理三区| 久久精品视频va| 丰满人妻av一区二区三区| 天天综合天天综合色| 久久精品—区二区三区舞蹈| 精品一区二区三区蜜桃| 欧美久久久久久久久久久久久久| 亚洲国产精品免费视频| 777精品视频| 9191在线观看| 欧美videos中文字幕| www日韩精品| 国产精品美女久久久久久久久| 91aaa精品| 99日韩精品| 成年人免费观看的视频| av不卡一区| 国产精品 欧美在线| 久操视频在线| 日韩av在线最新| 97av免费视频| 精品动漫一区二区| 欧美一区二区三区爽爽爽| 99精品久久99久久久久| 日本xxxx黄色| 99精品福利视频| 99re99热| 国产免费久久| 成人免费看片网站| 成人在线视频免费| 国语自产精品视频在线看一大j8| eeuss影院在线播放| 亚洲成人av中文字幕| 特级西西444www大胆免费看| 亚洲综合在线五月| 亚洲色图日韩精品| 99久久国产综合精品色伊| 日韩在线不卡一区| 羞羞答答国产精品www一本| 天天做天天爱天天高潮| 国产精品三级| 极品校花啪啪激情久久| 精品一区二区三区四区五区 | 国产毛片视频网站| 一区二区三区在线电影| 日韩啊v在线| 色婷婷精品视频| 成人情视频高清免费观看电影| 国产毛片精品久久| 日韩av成人在线| 国产夫妻在线播放| 欧美国产欧美亚洲国产日韩mv天天看完整| 91大神xh98hx在线播放| 国产丝袜一区视频在线观看| www.看毛片| 欧美一区欧美二区| 一炮成瘾1v1高h| 欧美丝袜自拍制服另类| 国产一级做a爱片久久毛片a| 一级做a爱片久久| 麻豆明星ai换脸视频| 中文字幕日韩一区二区| 国产熟女一区二区| 久久久久99精品国产片| 欧美熟妇精品黑人巨大一二三区| 国产sm精品调教视频网站| 久久黄色一级视频| 国产精品系列在线播放| 成人高清在线观看视频| 激情综合色综合久久综合| 亚洲精品一二三四五区| 久久五月激情| 一级黄色香蕉视频| 日韩vs国产vs欧美| 国产一二三四在线视频| 日韩成人伦理电影在线观看| 黄色av免费在线播放| 日韩高清一区二区| 91n.com在线观看| 日本成人在线一区| 亚洲综合色在线观看| 九色porny丨国产精品| 欧美国产日韩另类| 国产一区二区三区免费观看| 欧美国产日韩在线视频 | 人妻大战黑人白浆狂泄| 91麻豆精品在线观看| 免费观看av网站| 欧美韩国日本一区| 午夜精品一区二区三级视频| 亚洲精品美国一| 动漫精品一区一码二码三码四码| 亚洲一区二区三区自拍| 国产午夜精品无码一区二区| 精品福利免费观看| 欧美激情一区二区三区免费观看| 欧美精三区欧美精三区| 国产av无码专区亚洲av| 亚洲国产精品99| 精品欧美不卡一区二区在线观看| 中文字幕av一区中文字幕天堂| 免费在线视频欧美| 久久人人爽人人爽人人片av高清| 天堂√8在线中文| 国产欧美韩国高清| 97久久综合区小说区图片区| 久久大片网站| 日韩理论电影| 国产精品成人久久电影| 99av国产精品欲麻豆| 超碰在线人人爱| 成人午夜视频网站| 欧美成人国产精品一区二区| 亚洲欧美偷拍另类a∨色屁股| 18精品爽视频在线观看| 在线一区二区观看| 精品人妻一区二区三区三区四区| 日韩高清av一区二区三区| 午夜视频在线观看网站| 久久久亚洲天堂| 成人国产精品一区二区免费麻豆| 91黄色精品| 精品国产一区二区三区小蝌蚪| 天天做天天爱天天高潮| 久久aⅴ乱码一区二区三区| www.com久久久| 91美女视频网站| 青青草成人免费| 欧美三级在线播放| 三级网站免费观看| 久久精品国亚洲| 韩国美女久久| 成人资源视频网站免费| 日韩在线理论| 成人在线观看黄| 成人免费视频网站在线观看| 精品伦精品一区二区三区视频密桃| 午夜视频一区二区三区| 91中文字幕在线播放| 亚洲人成人99网站| aa级大片免费在线观看| 91在线免费视频| 色喇叭免费久久综合| 欧美成人xxxxx| 不卡一区二区在线| 成人在线观看小视频| 91国产成人在线| 色婷婷激情五月| 九九视频这里只有精品| 亚洲精品成a人ⅴ香蕉片| 奇米精品在线| 99精品99| 黄色激情在线观看| 亚洲精品成人天堂一二三| 亚洲系列在线观看| 一本色道久久综合狠狠躁篇怎么玩| 2018av在线| 国产精品18毛片一区二区| 一区二区三区毛片免费| 成人日韩在线视频| 欧美国产激情二区三区| 欧美一区免费看| 亚洲人成77777在线观看网| 蜜桃视频动漫在线播放| 国产亚洲精品美女久久久m| 欧美日韩精选| 中文字幕第三区| 亚洲黄色av一区| 亚洲国产精品视频在线| 久久999免费视频| 视频精品一区二区三区| 中文字幕乱码免费| 国产一区二区三区四区五区美女| 网爆门在线观看| 4hu四虎永久在线影院成人| 日本天堂在线观看| 成人黄色在线观看| 欧美1区2区3区| 国产精品99精品无码视亚| 一二三四区精品视频| 成人久久久精品国产乱码一区二区| 免费97视频在线精品国自产拍| 国产精品美女久久久久| 男女裸体影院高潮| 丁香桃色午夜亚洲一区二区三区| 黄色小说在线观看视频| 亚洲国产精品嫩草影院久久| 日本蜜桃在线观看视频| 欧美日韩精品免费在线观看视频| 日韩精品久久理论片| 林心如三级全黄裸体| 在线播放亚洲一区| 毛片在线导航| 蜜桃日韩视频| 免费视频最近日韩| 成人性生活毛片| 日韩av在线网页| 国产毛片精品久久| 天天做天天躁天天躁| 91网上在线视频| 中文字幕第99页| 欧美乱妇高清无乱码| 精品视频自拍| 91亚洲免费视频| 一区二区三区精品| 欧美香蕉爽爽人人爽| 国产日韩亚洲欧美| 国产精品xvideos88| mm131美女视频| 91精品国产综合久久久蜜臀图片| 福利网站在线观看| 日韩精品欧美在线| 国产麻豆91精品| 国产又黄又猛又粗又爽| 色偷偷av一区二区三区乱| 日韩精品一级| 少妇性l交大片| 夜夜嗨av一区二区三区| 国模吧精品人体gogo| 91嫩草免费看| 日韩电影在线一区二区三区| 欧美三级日本三级| 亚洲女在线观看| 我要色综合中文字幕| 人人爽人人av| 午夜精品福利一区二区三区蜜桃| 国产对白叫床清晰在线播放| 国产精品国模大尺度私拍| 欧美aⅴ一区二区三区视频| 国产无遮挡又黄又爽在线观看| 在线观看国产成人av片|