精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

人工智能 新聞
這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

上下文擴展至1萬tokens,LLM集體“失智”!

且“智商”不是均勻下降,而是在一些節點突然斷崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后準確率一路下滑,從90%降到60%。

或者是下降后放緩再下降,比如GPT-4.1和Gemini 2.5 Flash。

最終,當上下文長度來到1萬tokens,大家都只剩50%準確率。

圖片

這也就意味著,大模型在讀同一本書第10頁和第100頁時的“智商”可能不一樣。

并且不同大模型在“讀這本書”時突然降智的頁數也不同。

GPT-4.1可能讀到第10頁就“失智”了,Claude興許能堅持到第100頁。

這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

結果顯示,隨著輸入長度的增加,模型的性能越來越差。

實驗還首次系統性地揭示了輸入長度對模型性能并非均勻影響,不同模型性能可能在某一tokens長度上準確率發生驟降。

這項工作得到了網友的肯定:

以往人們或許會遇到當輸入長度增加時大模型會出現性能不佳的情況,但并沒有人深入探究過這個問題。

圖片

目前代碼已開源,感興趣的朋友可復現~

1萬tokens是個坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,隨后GPT-4.1也加入到了1M上下文隊伍中。

更長的上下文意味著LLM每次調用可以處理更多信息,似乎能生成更合理的輸出。

確實,這些模型在“大海撈針”(NIAH)這些基準測試中表現良好。但實際上,現有基準測試有一個局限性是在于它們傾向于把輸入長度與任務難度混為一談。

NIAH本質上是一個簡單的檢索任務,它是將一個已知事實(“針”)放置在一大段不相關文本(“干草堆”)中,然后要求模型檢索它。

圖片

這種方法主要評估大模型直接的詞匯匹配能力,無法代表更靈活、面向語義的任務。

其他更復雜的任務,例如包含非詞匯匹配的NoLiMa和測試文本片段缺失識別的AbsenceBench,已經揭示了模型性能在輸入長度增加時出現的顯著下降,但沒有進行更深入地探討。

為了解決經典NIAH的局限性,并更好地探究僅輸入長度對模型性能的影響,研究人員擴展了標準的NIAH任務。

研究人員基于保持任務復雜度不變,只改變輸入長度核心原則,設計了四項對照實驗。

先說結論,四項對照實驗(針-問題相似度、干擾信息、針-干草堆相似度、干草堆結構實驗)共同證明了LLMs的性能會隨輸入長度增加而顯著且非均勻地下降,且這種衰減受輸入內容的語義特征、結構等因素影響。

具體表現為:

  1. 輸入長度是性能衰減的核心變量,無論任務簡單與否,模型處理長文本的可靠性都會下降;
  2. 語義關聯性(如針-問題相似度低、針與干草堆語義融合)會加劇衰減;
  3. 干擾信息和文本結構(如邏輯連貫的干草堆)會進一步削弱模型在長上下文任務中的表現;
  4. 不同模型對這些因素的敏感程度存在差異,但整體均無法維持穩定性能。

第一項是針-問題相似度實驗:驗證“針”與“問題”的語義相似度是否會影響模型在長上下文任務中的表現,尤其是輸入長度增加時,低相似度是否會加劇性能衰減。

實驗選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數據(干草堆),針對其核心主題設計問題,并為每個問題生成8個與主題匹配且未出現在干草堆中的 “針”,通過5種嵌入模型計算“針-問題”余弦相似度,分為高、低相似度兩組。

實驗控制任務復雜度和干草堆內容,僅調整輸入長度(102到10?tokens)和相似度,以模型回答準確率為指標(由GPT-4.1評估,與人類判斷一致性超過99%)。

圖片

結果顯示,所有模型性能均隨輸入長度增加而下降,到1萬token左右下降最明顯,且低相似度組衰減更顯著——

高相似度組在10?tokens 時準確率約60%-80%,低相似度組降至40%-60%,高性能模型雖在短輸入時表現更好,長輸入下仍難避免衰減。

這表明,“針-問題”語義相似度是關鍵影響因素,相似度越低,長輸入下模型性能衰減越劇烈,揭示了現有模型處理模糊信息的局限性。

第二項是干擾信息實驗:探究當輸入長度變化時,與目標信息(針)相關但不匹配的干擾內容對LLMs性能的影響,尤其是干擾項數量和個體差異是否會加劇性能衰減。

研究團隊從保羅?格雷厄姆散文和arXiv論文兩類干草堆中,選取與問題語義相似度較高的“針”,并手動設計4個干擾項。

實驗設置了三種條件:基線(僅含“針”,無干擾項)、單一干擾項(“針”+1條隨機位置的干擾項)、多重干擾項(“針”+4條隨機分布的干擾項)。

圖片

通過控制任務復雜度(僅需檢索“針”并回答問題),僅調整輸入長度(從102到10?tokens)和干擾項數量,以模型回答的準確率為指標。

圖片

結果顯示,即使單一干擾項也會導致模型性能低于基線,而加入4條干擾項會進一步加劇性能衰減。

輸入長度為10?tokens時,多重干擾項條件下模型準確率比基線低30%-50%。

圖片

此外,模型對干擾項的響應存在差異:Claude系列傾向于在不確定時棄權(明確表示無法回答),幻覺率較低;GPT系列則更可能生成自信但錯誤的答案,受干擾影響更明顯;Gemini和Qwen模型的表現波動較大,易受干擾項數量和輸入長度的雙重影響。

第三項是針-干草堆相似度實驗:探究目標信息(針)與背景文本(干草堆)的語義相似度對 LLMs長上下文任務性能的影響。

圖片

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),通過5種嵌入模型計算“針-干草堆” 余弦相似度并取平均值以保證穩健性。

實驗控制任務復雜度,僅調整輸入長度(102到 10?tokens)和相似度,以模型回答準確率為指標。

圖片

結果顯示,針-干草堆相似度對模型性能的影響不統一,不同模型敏感度存在差異,但整體上隨著輸入長度增加,各相似度條件下的模型性能普遍下降。

第四項是干草堆結構實驗:探究背景文本(干草堆)的結構模式對LLMs長上下文任務性能的影響。

圖片

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),設置連貫結構(文本按原邏輯順序呈現)和打亂結構(文本順序隨機打亂)兩種條件。

實驗控制任務復雜度,僅調整輸入長度(102 到 10? tokens)和干草堆結構。

圖片

結果顯示,多數模型在連貫結構中隨輸入長度增加性能下降更顯著,而打亂結構下性能下降較緩和——

輸入長度10?tokens 時,連貫結構中部分模型準確率降至30%-40%,打亂結構則維持在50%-60%。

這表明干草堆結構是關鍵影響因素,現有模型處理復雜邏輯結構的長文本時挑戰更大。

團隊還設計了重復單詞實驗,說明即使是最基礎的文本復現任務,LLMs 在長上下文下的穩定性也存在嚴重缺陷,且輸入與輸出長度的同步增長會加劇這一問題。

圖片

這些實驗結果共同證明,盡管大型語言模型的上下文窗口不斷增長,但其性能并非均勻一致。

基于LLMs在長文本任務上的缺陷,也有人給出了應對策略:給出明確、清晰的指令,并且在收集到足夠的信息后保存上下文,添加一個檢查點。

圖片圖片

Chroma——開源的AI應用數據庫

Chroma致力于開發開源軟件,由Jeff Huber(左)和Anton Troynikov(右)共同創立。

圖片

公司公開發布的同名數據庫Chroma是一個開源的AI應用數據庫,旨在通過將知識和技能整合為大語言模型可調用的模塊,簡化LLM應用的構建過程。

圖片

團隊活躍于LLMs長上下文處理、檢索增強生成(RAG)等領域的研究,以解決大模型在實際應用中對長文本信息的記憶、提取和利用效率問題。

目前,Chroma計劃推出免費的技術預覽,并表示:

我們100%專注于構建有價值的開源軟件。

代碼地址:https://github.com/chroma-core/context-rot

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-16 13:20:59

2025-06-10 09:10:00

2023-09-25 10:04:37

模型AI

2024-08-14 14:06:01

2012-04-29 16:25:35

App

2025-06-27 09:26:50

2024-05-21 11:35:48

阿里云通義千問

2025-02-19 13:50:00

明星編程軟件

2024-08-07 14:40:00

AI數據

2024-05-13 09:09:01

2025-05-23 08:47:00

2025-05-30 09:10:00

模型論文AI

2023-06-09 07:29:03

模型文本document

2024-04-03 13:32:24

2023-11-01 13:06:52

2023-07-05 14:53:49

模型黑馬項目Github

2025-01-16 08:40:00

點贊
收藏

51CTO技術棧公眾號

久久久久久国产精品无码| 777久久精品一区二区三区无码| 羞羞影院体验区| 国产精选一区| 欧美三级在线看| 日韩人妻精品一区二区三区| 亚洲精品18p| 亚洲激情影院| 国产亚洲aⅴaaaaaa毛片| 欧美日韩精品区别| 国产美女高潮在线观看| 国产午夜亚洲精品理论片色戒 | 日本少妇bbwbbw精品| 九九精品在线| 欧美mv日韩mv国产网站| 国产精品人人妻人人爽人人牛| 一区二区三区视频网站| 国产九九视频一区二区三区| 欧日韩在线观看| 精品人妻伦九区久久aaa片| 无码日韩精品一区二区免费| 6080国产精品一区二区| 国产成人av影视| 精品精品导航| 国产精品白丝在线| 欧美日韩电影一区二区| 亚洲精品一区二区三区新线路| 日韩国产在线观看一区| 久久免费成人精品视频| 国产精品嫩草影院俄罗斯| 美女网站一区| 亚洲国产精品高清久久久| av在线免费看片| 姬川优奈av一区二区在线电影| 一区二区三区四区在线播放 | 成人写真福利网| 啦啦啦免费高清视频在线观看| 中文字幕av亚洲精品一部二部| 一区二区三区www| 久久久无码人妻精品一区| 在线观看视频一区二区三区 | 色男人天堂av| 人人精品久久| 欧美日韩免费观看一区二区三区| 丝袜老师办公室里做好紧好爽| 日本中文字幕中出在线| 国产精品不卡在线观看| 视频一区二区三| 黄色软件在线| 久久九九国产精品| 极品尤物一区二区三区| 国产1区在线观看| 国产精品亚洲综合一区在线观看| 国产专区精品视频| 国产又黄又大又爽| 激情图区综合网| 成人国产精品一区| 国产精品色综合| 国产麻豆成人传媒免费观看| 91久久久亚洲精品| 国产欧美一级片| 国产精品一区二区黑丝| 99在线观看视频| 亚洲国产精品久久久久久6q| 福利电影一区二区三区| 国产精品视频免费一区二区三区| 亚洲黄色在线播放| 床上的激情91.| 久久99精品久久久久久水蜜桃| 天堂√在线中文官网在线| 成人三级伦理片| 精品欧美国产一区二区三区不卡| 视频二区在线| 国产婷婷色一区二区三区| 日韩欧美激情一区二区| 免费看美女视频在线网站| 亚洲男人的天堂在线观看| www.男人天堂网| 26uuu亚洲电影在线观看| 一区二区高清视频在线观看| 青青草国产精品视频| 超碰aⅴ人人做人人爽欧美| 欧美色视频在线观看| 波多野结衣国产精品| 在线精品视频一区| 亚洲色图av在线| 亚洲欧美精品aaaaaa片| 在线观看一区| 国产精品jizz在线观看麻豆| 国产免费av电影| 不卡av电影在线播放| 日本一区二区三区四区高清视频| 日本蜜桃在线观看| 亚洲国产精品一区二区www| 粉嫩虎白女毛片人体| 999精品视频在线观看| 亚洲国产欧美在线成人app| 女人十八毛片嫩草av| 伊人久久大香线蕉精品组织观看| 97精品免费视频| 伊人网av在线| fc2成人免费人成在线观看播放 | 国产综合欧美| 国产精品福利观看| 亚洲第一色网站| 国产精品网站在线观看| 91丨porny丨探花| 日韩欧美专区| 亚洲欧美日韩天堂一区二区| 强行糟蹋人妻hd中文| 奶水喷射视频一区| 成人午夜电影免费在线观看| 搞黄视频在线观看| 亚洲福利视频一区二区| 欧美丝袜在线观看| 精品产国自在拍| 国产69精品久久久久9| 中文字幕精品一区二区精| 99久久精品国产导航| 欧美 亚洲 视频| 久久人人视频| 亚洲人在线视频| 在线免费观看毛片| 精品一区二区在线观看| 日韩免费一区二区三区| 欧美二三四区| 亚洲第一在线视频| 天天看片中文字幕| 久久国产精品无码网站| 日韩高清av| xxx欧美xxx| 亚洲国产精品免费| 久久精品视频久久| 国产伦精品一区二区三区免费迷 | 91在线导航| 日本韩国一区二区三区| 亚洲欧美视频在线播放| 一区视频在线| wwwxx欧美| 在线视频观看国产| 91精品国产综合久久小美女| 一级二级黄色片| 日韩电影在线观看一区| 欧美精品一区二区三区四区五区 | 欧美日韩国产一区二区三区| 一区二区在线免费观看视频| 亚洲国产精品成人| 91视频免费在线| 麻豆电影在线播放| 777奇米成人网| 玖玖爱这里只有精品| 激情综合色播激情啊| 欧美日韩视频免费在线观看| 欧美大片网站| 精品伊人久久97| www亚洲视频| 久久亚洲综合色| 日av中文字幕| 欧洲乱码伦视频免费| 国产精品视频一区二区三区四 | 99久久精品国产成人一区二区| 国产精品久久久久久久久图文区 | 欧美高清一级片| 另类图片亚洲另类| 亚洲高清在线观看视频| 精品美女久久久久久免费| 91精品国产自产| 日韩综合一区二区| 亚洲乱码国产乱码精品天美传媒| 欧美国产视频| 欧美精品午夜视频| 蜜桃视频久久一区免费观看入口 | 久久综合国产精品台湾中文娱乐网| 国产精品国产三级国产aⅴ| 亚洲精品第一国产综合野| 国产a级片视频| 久久不射网站| 一区二区精品国产| 9l亚洲国产成人精品一区二三| 4k岛国日韩精品**专区| av色图一区| 日韩色在线观看| 久久免费激情视频| 国产精品福利一区二区| 日本一区二区免费视频| 久久天堂精品| 裸体裸乳免费看| 日韩成人一级| 国产日韩亚洲欧美| 国产啊啊啊视频在线观看| 亚洲欧美日韩高清| 99久久久无码国产精品免费| 欧美日韩激情小视频| 日韩精品久久久久久久的张开腿让| 高清不卡一区二区在线| 亚洲免费一级视频| 在线精品福利| 吴梦梦av在线| 日本精品影院| 亚洲一区二区三区在线视频| 中文日产幕无线码一区二区| 欧美超级免费视 在线| 免费一级在线观看| 日韩免费电影网站| 最好看的日本字幕mv视频大全| 亚洲黄色免费电影| www久久久久久久| av午夜精品一区二区三区| 99九九99九九九99九他书对| 免费日韩视频| 日b视频免费观看| 波多野结衣的一区二区三区| 精品国产日本| 日韩精品视频中文字幕| 国产精品亚洲视频在线观看| 欧美xxxhd| 欧美高清视频免费观看| 91在线视频免费看| 亚洲欧美变态国产另类| 好吊色一区二区| 91精品国产91综合久久蜜臀| 免费一级a毛片| 天天色天天爱天天射综合| 九九视频在线免费观看| 国产精品电影一区二区| 黄色片网站免费| 94色蜜桃网一区二区三区| 国产人妖在线观看| 精久久久久久久久久久| 在线观看高清免费视频| 久久久精品性| 91传媒久久久| 亚洲自拍另类| 亚洲 自拍 另类小说综合图区| 最新国产精品| 老汉色影院首页| 91精品国产成人观看| 亚洲精品成人自拍| 精品国产美女| 秋霞毛片久久久久久久久| 亚洲男人都懂第一日本| 久久99精品久久久久久青青日本 | 国产91富婆露脸刺激对白| 在线视频观看一区二区| 九色综合狠狠综合久久| 国产一级片自拍| 久久99精品久久久| 五月天婷婷影视| 国产综合色产在线精品| 日韩 国产 一区| 国产在线视频一区二区三区| 天堂av手机在线| 国产成人在线观看| 97精品人人妻人人| 99久久精品情趣| 国产精品扒开腿做爽爽| 国产日本亚洲高清| 男女男精品视频网站| 亚洲欧美综合色| 老湿机69福利| 亚洲宅男天堂在线观看无病毒| 久久精品一级片| 午夜日韩在线电影| 五月天婷婷激情| 欧美三级韩国三级日本三斤| 91麻豆一区二区| 日韩欧美国产系列| 天堂中文网在线| 亚洲色图日韩av| 男人天堂久久久| 欧美疯狂xxxx大交乱88av| 丁香花在线电影小说观看| 啪一啪鲁一鲁2019在线视频| 亚洲精品在线影院| 成人自拍性视频| 成人台湾亚洲精品一区二区| 美女一区视频| 日韩国产一区二区| 999久久欧美人妻一区二区| av成人天堂| 在线观看亚洲色图| 国产成a人亚洲精品| 日本黄色特级片| 国产精品国产成人国产三级 | 影音先锋日韩资源| 午夜肉伦伦影院| 久久超碰97中文字幕| 性猛交╳xxx乱大交| 久久久久久久综合狠狠综合| 99热这里只有精品4| 亚洲国产欧美在线| 国产精品久久久久久久久夜色| 91麻豆精品国产91久久久久久| 欧美少妇bbw| 在线观看91久久久久久| 免费在线观看的电影网站| 日本亚洲精品在线观看| 国产一区二区三区精品在线观看| 麻豆av一区二区| 一区二区中文| 精品久久久久久久无码| 成人丝袜高跟foot| 日本污视频网站| 亚洲国产欧美在线| 国产精品自偷自拍| 亚洲性无码av在线| 福利小视频在线| 成人激情av在线| 视频一区欧美| 奇米影视亚洲色图| 国产一区二区三区四区五区美女 | 四虎8848精品成人免费网站| 天堂…中文在线最新版在线| 国产中文字幕一区| 亚洲精品午夜视频| 精品久久久免费| 丰满人妻一区二区三区无码av | 久久精品日韩| 欧美韩日精品| 五月天激情视频在线观看| 久久综合色婷婷| 午夜偷拍福利视频| 91精品国产综合久久精品| 国产黄在线观看免费观看不卡| 久久久免费电影| 韩国一区二区三区视频| 特级西西444www大精品视频| 亚洲国产高清视频| 国产又粗又猛又爽又黄| 亚洲欧洲在线观看av| 亚洲 欧美 中文字幕| 亚洲精品中文字幕有码专区| 色yeye免费人成网站在线观看| 成人有码视频在线播放| 欧美va久久久噜噜噜久久| 日韩亚洲在线视频| 久久蜜桃一区二区| 久久免费激情视频| 日韩电影第一页| 男女羞羞在线观看| 国产在线欧美日韩| 18成人免费观看视频| 欧美做受高潮中文字幕| 亚洲一级片在线观看| 午夜精品久久久久久久第一页按摩 | 国产精品吴梦梦| 日韩精品久久久久久久电影99爱| 国产精品人人妻人人爽人人牛| 国产亚洲成aⅴ人片在线观看 | 8x8x8国产精品| 国产在线激情| 97神马电影| 欧美三区不卡| 毛茸茸free性熟hd| 欧美日韩国产色| 你懂得网站在线| 国产精品美女主播| 青青草国产成人a∨下载安卓| 五月天av在线播放| 亚洲视频在线观看一区| 99热这里只有精品在线| 欧美精品aaa| 久久影视三级福利片| 免费无码不卡视频在线观看| 91丨porny丨国产入口| 免费av中文字幕| 中文字幕日韩av电影| 日韩免费成人| 九九爱精品视频| 久久久亚洲高清| 欧美高清69hd| 欧美xxxx18国产| 欧美调教网站| 特级丰满少妇一级| 亚洲免费av高清| 午夜影院免费视频| 国产精品久久久久久久久借妻| 午夜精品毛片| 一边摸一边做爽的视频17国产| 一本色道久久综合精品竹菊| 欧美成人二区| 国产精品免费一区二区三区在线观看 | 三级中文字幕在线观看| 免费看成人午夜电影| 久久精品国产免费看久久精品| 午夜剧场免费在线观看| 亚洲国产成人一区| 亚洲www啪成人一区二区| 神马午夜伦理影院| 97se亚洲国产综合在线| 一本色道久久综合精品婷婷 | yw.尤物在线精品视频| 国产在线无码精品| 91视频xxxx| 国产欧美熟妇另类久久久| 97成人精品区在线播放| 亚洲欧美在线专区| 一卡二卡三卡四卡| 日韩欧美第一区| 色8久久影院午夜场|