精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

人工智能 新聞
新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

無情戳穿“長上下文”大模型的虛標現象——

英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長度的都有。

但一番考驗下來,在新指標“有效上下文”上縮水嚴重,能達到32K的都不多。

新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

圖片

這項研究被學者評價為“非常有洞察力”。

圖片

不少網友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。(論文中并未覆蓋)

圖片
圖片

一起來看英偉達是如何定義“有效上下文”指標的。

圖片

測試任務更多、更難

要評測大模型的長文本理解能力,得先選個好標準,現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。

所以英偉達剔除的RULER方法,一句話概括就是“確保評估側重于模型處理和理解長上下文的能力,而不是從訓練數據中回憶信息的能力”

RULER的評測數據減少了對“參數化知識”的依賴,也就是大模型在訓練過程中已經編碼到自身參數里的知識。

具體來說,RULER基準擴展了流行的“大海撈針”測試,新增四大類任務。

圖片

檢索方面,從大海撈針標準的單針檢索任務出發,又加入了如下新類型:

  • 多針檢索(Multi-keys NIAH, MK-NIAH):上下文中插入多個干擾針,模型需檢索指定的那一個
  • 多值檢索(Multi-values NIAH, MV-NIAH):一個鍵(key)對應多個值(values),模型需要檢索出與特定鍵關聯的所有值。
  • 多查詢檢索(Multi-queries NIAH, MQ-NIAH):模型需根據多個查詢在文本中檢索出相應的多個針。

除了升級版檢索,RULER還增加了多跳追蹤(Multi-hop Tracing)挑戰。

具體來說,研究人員提出了變量追蹤(VT),模擬了指代消解(coreference resolution)的最小任務,要求模型追蹤文本中變量的賦值鏈,即使這些賦值在文本中是非連續的。

挑戰第三關是聚合(Aggregation),包括:

  • 常見詞匯提取(Common Words Extraction, CWE):模型需要從文本中提取出現次數最多的常見詞匯。
  • 頻繁詞匯提取(Frequent Words Extraction, FWE):與CWE類似,但是詞匯的出現頻率是根據其在詞匯表中的排名和Zeta分布參數α來確定的。

圖片

挑戰第四關是問答任務(QA),在現有閱讀理解數據集(如SQuAD)的基礎上,插入大量干擾段落,考查長序列QA能力。

各模型上下文實際有多長?

實驗階段,如開頭所述,研究人員評測了10個聲稱支持長上下文的語言模型,包括GPT-4,以及9個開源模型開源模型Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。

這些模型參數規模范圍從6B到采用MoE架構的8x7B不等,最大上下文長度從32K到1M不等。

在RULER基準測試中,對每個模型評測了13個不同的任務,覆蓋4個任務類別,難度簡單到復雜的都有。對每項任務,生成500個測試樣例,輸入長度從4K-128K共6個等級(4K、8K、16K、32K、64K、128K)

圖片

為了防止模型拒絕回答問題,輸入被附加了answer prefix,并基于recall-based準確性來檢查目標輸出的存在。

圖片

研究人員還定義了“有效上下文長度”指標,即模型在該長度下能保持與基線Llama-7B在4K長度時的同等性能水平。

為了更細致的模型比較,使用了加權平均分數(Weighted Average, wAvg)作為綜合指標,對不同長度下的性能進行加權平均。采用了兩種加權方案:

  • wAvg(inc):權重隨長度線性增加,模擬以長序列為主的應用場景
  • wAvg(dec):權重隨長度線性減小,模擬以短序列為主的場景

來看結果。

普通大海撈針和密碼檢索測試看不出差距,幾乎所有模型在其聲稱的上下文長度范圍內均取得滿分。

而使用RULER,盡管很多模型聲稱能夠處理32K token或更長的上下文,但除了Mixtral外,沒有模型在其聲稱的長度上保持超過Llama2-7B基線的性能。

圖片

其他結果如下,總的來說,GPT-4在4K長度下表現最佳,并且在上下文擴展到128K時顯示出最小的性能下降(15.4%)

開源模型中排名前三的是Command-R、Yi-34B和Mixtral,它們都使用了較大的基頻RoPE,并且比其它模型具有更多的參數。

圖片
圖片
圖片
圖片
圖片

此外,研究人員還對Yi-34B-200K模型在增加輸入長度(高達256K)和更復雜任務上的表現進行了深入分析,以理解任務配置和失敗模式對RULER的影響。

他們還分析了訓練上下文長度、模型大小和架構對模型性能的影響,發現更大的上下文訓練通常會帶來更好的性能,但對長序列的排名可能不一致;模型大小的增加對長上下文建模有顯著好處;非Transformer架構(如RWKV和Mamba)在RULER上的表現顯著落后于基于Transformer的Llama2-7B。

更多細節,感興趣的家銀們可以查看原論文。

論文鏈接:https://arxiv.org/abs/2404.06654

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-10 09:38:56

2023-06-30 09:49:23

模型Meta

2023-11-13 18:19:54

模型訓練

2024-03-25 00:05:00

開源模型AI

2023-07-11 10:02:23

2023-05-19 10:16:27

AIGPT-4

2023-07-01 13:27:55

2024-09-30 14:10:00

2023-08-24 15:57:41

模型文檔檢索

2024-03-14 08:11:45

模型RoPELlama

2023-05-14 14:15:00

GPT-4AI

2017-05-11 14:00:02

Flask請求上下文應用上下文

2023-06-28 18:10:27

羊駝家族大模型集體進化

2023-07-24 12:27:08

論文斯坦福

2024-07-19 12:45:23

2024-04-03 10:05:00

LLM性能基準測試

2024-05-30 13:20:12

2012-12-31 10:01:34

SELinuxSELinux安全

2023-08-25 13:27:00

模型開源

2022-09-14 13:13:51

JavaScript上下文
點贊
收藏

51CTO技術棧公眾號

91影院成人| 日韩在线xxx| a级在线观看视频| 黄色一级大片在线免费看产| 午夜先锋成人动漫在线| 综合欧美一区二区三区| 欧亚精品在线观看| 欧美一级视频免费看| 中文字幕av影视| 亚洲精品一级二级三级| 亚洲一区二区偷拍精品| 亚洲影视中文字幕| 永久av免费网站| 影视一区二区三区| 久久色在线观看| 午夜精品蜜臀一区二区三区免费| 一个人看的视频www| 天堂中文а√在线| 欧美aaaaaa午夜精品| 国产午夜精品一区理论片飘花| 黄色免费观看视频网站| 天堂网www中文在线| 亚洲福利精品| 亚洲福利视频久久| 国产精品12345| 色综合久久影院| 99麻豆久久久国产精品免费| 久久久久国产精品www| 熟妇女人妻丰满少妇中文字幕| 中文字幕在线看片| 久久亚洲一级片| 91视频网页| 久久久久久久久97| 久9re热视频这里只有精品| 亚洲国产一区视频| 亚洲综合网中心| 91丨porny丨在线中文 | 色哟哟无码精品一区二区三区| 黄色网页在线看| 久久久久国色av免费看影院| 国产精品91久久久久久| 亚洲AV无码成人精品区明星换面 | 国产成人综合一区二区三区| 国产精品99精品无码视| 久久悠悠精品综合网| 欧美绝品在线观看成人午夜影视| 麻豆中文字幕在线观看| 精品人妻一区二区三区麻豆91| 一区二区三区在线| 亚洲精品在线免费观看视频| av观看免费在线| 午夜视频在线看| 欧美国产乱子伦 | 大西瓜av在线| 头脑特工队2免费完整版在线观看| 激情成人综合网| 久久久久久成人| www.毛片com| 欧美黑人巨大videos精品| 日韩欧美国产视频| 三年中文高清在线观看第6集| 国产在线视频福利| 国产精品2024| 日本a级片电影一区二区| 日韩av女优在线观看| 成人精品亚洲| 欧美va日韩va| 国产高潮免费视频| a级片在线免费| 中文字幕国产精品一区二区| 日韩欧美亚洲在线| 亚洲精品国产片| 久久亚洲美女| 久久久久国产精品免费网站| 国产亚洲精品码| 伊人激情综合| 欧美亚洲另类激情另类| 欧美老熟妇一区二区三区| 国产精品久久久久久麻豆一区软件| 日韩av综合中文字幕| 亚洲一级片av| 久久爱91午夜羞羞| 亚洲影院免费观看| 亚洲精品日韩成人| 亚洲 欧美 激情 小说 另类| 国产一区二区三区黄视频 | 亚洲欧洲久久| 2024最新电影免费在线观看| 26uuu亚洲综合色| 91在线色戒在线| 婷婷激情五月综合| 亚洲看片一区| 欧美区二区三区| jizzjizz日本少妇| 国产精品午夜一区二区三区| 亚洲成人国产精品| 91精品人妻一区二区| 97视频一区| 欧美一区二区三区免费大片| 国产区二区三区| 久久伊人久久| 91麻豆精品国产无毒不卡在线观看| 国产黄色特级片| 先锋影音网一区二区| 在线精品观看国产| 69堂免费视频| 神马久久午夜| 午夜精品久久久久久不卡8050| 粉嫩av一区二区三区天美传媒 | 精品国产一区三区| 婷婷av在线| 亚洲天堂av老司机| 一本一生久久a久久精品综合蜜| www在线看| 亚洲成av人影院在线观看网| 欧美精品无码一区二区三区| 久久www视频| 国产麻豆天美果冻无码视频 | 久草精品在线观看| 国产精品久久久久秋霞鲁丝| 狠狠人妻久久久久久| 性欧美长视频| 国产精品69久久久久| 精品人妻一区二区三区麻豆91| 国产偷国产偷亚洲高清人白洁| 欧洲亚洲一区二区三区四区五区| 日本天堂影院在线视频| 91丝袜高跟美女视频| 国产精品啪啪啪视频| 日韩漫画puputoon| 欧美日韩精品免费观看视频| 亚洲欧美日韩一级| 欧美人妖视频| 欧美激情视频网站| 日韩免费不卡视频| 亚洲免费网址| 国产亚洲福利社区| 理论视频在线| 国产精品久久久久aaaa樱花| 亚洲国产精品女人| 在线中文字幕第一页| 欧美日韩美女一区二区| 国产精品一二三区在线观看| 99re66热这里只有精品8| 国产91精品青草社区| 十八禁一区二区三区| 久久先锋影音av| 日本丰满少妇xxxx| 第一区第二区在线| 亚洲欧美色婷婷| 国产男女猛烈无遮挡在线喷水| 久久一二三四| 欧美日韩视频在线一区二区观看视频| 自拍视频在线免费观看| 一卡二卡欧美日韩| 亚洲一区二区中文字幕在线观看| 国产精品网址| 欧美激情免费观看| 亚洲国产精品久久久久久久 | 影音先锋亚洲天堂| 日韩电影在线一区二区| 91色精品视频在线| 国产三级在线播放| 欧美一区二区在线观看| 日韩a级片在线观看| 国产成人在线网站| 六月婷婷激情综合| 中文字幕日本一区二区| 亚洲天堂av网| 国产一级aa大片毛片| 国产精品91xxx| 国产一区二区三区小说| 女同久久另类99精品国产| 欧美一级成年大片在线观看| 国产爆初菊在线观看免费视频网站| 亚洲精品成人悠悠色影视| 日韩手机在线观看视频| 精品国产一区二区三区噜噜噜 | 久久亚洲欧美| 中文字幕日韩一区二区三区不卡| 国产不卡人人| 3atv一区二区三区| 久久久久国产精品夜夜夜夜夜| 妖精视频一区二区三区免费观看| 91在线你懂得| 蜜桃精品久久久久久久免费影院| 免费网站黄在线观看| 欧美视频在线观看 亚洲欧| 中文字幕狠狠干| 蜜桃视频在线一区| 亚洲理论电影在线观看| 国模精品一区| 成人高清在线观看| 成人国产免费电影| 欧美性大战xxxxx久久久| xxxwww国产| 日韩精品成人一区二区三区| 精品国产三级a∨在线| 欧美网色网址| 成人性生交xxxxx网站| 都市激情一区| 欧美xxx久久| 天天干天天操天天操| 亚洲精品久久嫩草网站秘色| 国产精品无码一区二区三区| 亚洲精品婷婷| 一区二区不卡在线视频 午夜欧美不卡'| 亚洲一区二区三区免费| 久久久精品久久久久| 亚洲天堂中文在线| 国产精品私人自拍| fc2成人免费视频| 看国产成人h片视频| 亚洲欧美日韩综合一区| 成人av影音| 国产在线视频一区| 蜜桃av在线免费观看| 亚洲激情视频网站| 青青国产在线观看| 亚洲精品菠萝久久久久久久| 男人的天堂av网| 91在线免费视频观看| 国产艳妇疯狂做爰视频| 亚洲激情专区| 综合久久国产| 精品理论电影在线| 久久综合色一本| 成人线上播放| 999国产视频| 在线播放成人| 欧美极品少妇xxxxⅹ免费视频| 在线免费黄色| 亚洲欧美视频在线| 色综合成人av| 亚洲国产精久久久久久| 性生交大片免费看女人按摩| 欧美欧美午夜aⅴ在线观看| 无码无套少妇毛多18pxxxx| 国产清纯白嫩初高生在线观看91 | 欧美一级二级三级| 青青草原在线亚洲| 精品国产_亚洲人成在线| 在线天堂新版最新版在线8| 欧美精品久久久久| 色呦呦呦在线观看| 欧美日韩成人免费| 任你弄在线视频免费观看| 亚洲乱码国产乱码精品精| 色屁屁草草影院ccyycom| 精品91自产拍在线观看一区| 肥臀熟女一区二区三区| 日本精品免费观看高清观看| 成人高潮免费视频| 91色porny在线视频| 国产精品久久久久久亚洲色| 日韩电影在线观看电影| 久久久久久久久久久免费视频| 亚洲欧美日本视频在线观看| 日日摸天天爽天天爽视频| 亚洲一区不卡| 99久久99久久精品| 欧美网站在线| 亚洲国产精品毛片| 日韩中文欧美| 精品不卡在线| 久草在线成人| 成人在线看片| 成人精品高清在线视频| 国内偷自视频区视频综合| av在线电影网| 亚洲福利在线观看| 亚洲 小说区 图片区 都市| 国产视频一区在线| 午夜精品一二三区| 精品成人佐山爱一区二区| 亚洲 美腿 欧美 偷拍| 亚洲三级 欧美三级| 欧洲不卡av| 欧美激情手机在线视频 | 亚洲免费观看在线视频| 国产精品九九九九九| 中文字幕乱码一区二区免费| 天天看天天摸天天操| 亚洲国产精品综合小说图片区| 中文字幕乱码av| 久久蜜桃av一区精品变态类天堂 | 国产精品色综合| 欧美性xxxxxxx| 一级片免费观看视频| 精品国产伦一区二区三区观看方式| 日本又骚又刺激的视频在线观看| www.久久色.com| melody高清在线观看| 欧美成人激情视频| 免费av不卡| 久久久久国色av免费观看性色| 欧美影视资讯| 成人欧美一区二区三区视频xxx| 免费看日本一区二区| 热这里只有精品| 亚洲综合国产| 国产精品一级无码| 国产一区二区三区不卡在线观看| 性活交片大全免费看| 中国av一区二区三区| 国产在线视频二区| 欧美剧在线免费观看网站 | 97超碰在线人人| 日韩精品一二三| 日本少妇xxxx| 亚洲色图视频免费播放| 免费的毛片视频| 精品国产sm最大网站| 2019中文字幕在线视频| 欧美最近摘花xxxx摘花| 欧美视频二区欧美影视| 亚洲成人自拍视频| 国产精品日韩| 国产xxxx视频| 一区二区三区欧美日| 中文字幕人妻互换av久久| 日韩久久精品电影| 国产精品186在线观看在线播放| 91精品国产综合久久香蕉最新版| 日韩三级毛片| 国产69精品久久久久999小说| 国产美女一区二区| 日日碰狠狠添天天爽| 在线精品视频免费播放| 欧美孕妇孕交| 欧美一区亚洲一区| 欧美福利在线播放网址导航| 97碰在线视频| 国产a视频精品免费观看| 国产精品成人99一区无码| 亚洲日本青草视频在线怡红院| 免费又黄又爽又猛大片午夜| 日韩久久免费视频| 伊人网在线播放| 久久久久久久有限公司| 日韩精品dvd| 日韩av播放器| 国产欧美日韩另类一区| 91视频久久久| 亚洲男人天堂视频| 亚洲色图官网| 明星裸体视频一区二区| 米奇777在线欧美播放| 99日在线视频| 国产精品成人网| 在线观看免费观看在线| 少妇久久久久久| 乱插在线www| 国产精华一区| 国产精品久久777777毛茸茸| 一本加勒比波多野结衣| 国产精品福利在线播放| 在线免费观看视频网站| 色偷偷av亚洲男人的天堂| 亚洲综合视频| 国内自拍中文字幕| 国产91综合一区在线观看| 91精品国产高潮对白| 亚洲精品美女久久久久| 成人影院入口| 亚洲最大色综合成人av| 国产美女一区二区三区| 久久网中文字幕| 国产视频精品自拍| a成人v在线| 性生活免费观看视频| 成人精品在线视频观看| 少妇视频一区二区| 欧美疯狂做受xxxx富婆| 婷婷色在线资源| 美国av一区二区三区| 蜜臀久久久99精品久久久久久| 熟女少妇a性色生活片毛片| 日韩视频免费观看高清完整版在线观看 | 亚洲二区自拍| 国产一区二区精品久久| 久久精品国产亚洲av高清色欲| 精品视频—区二区三区免费| 97欧美成人| 婷婷无套内射影院| 久久精品亚洲国产奇米99 | 亚洲护士老师的毛茸茸最新章节| 国产不卡网站| 黄黄视频在线观看| 久久久亚洲午夜电影| 91麻豆国产在线| 91精品国产色综合| 欧美特黄不卡| 国模无码视频一区二区三区| 国产精品福利av| 五月激情婷婷网| 成人信息集中地欧美| 免费亚洲网站| wwwav国产| 国产一区二区三区视频免费|