精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀

發(fā)布于 2024-11-12 14:54
瀏覽
0收藏

長(zhǎng)文本評(píng)測(cè)

隨著大模型能夠處理的上下文信息越來(lái)越多,達(dá)到百萬(wàn)級(jí)別的詞匯量,人們對(duì)于模型長(zhǎng)文本能力的研究興趣也隨之增長(zhǎng)。

司南 OpenCompass 數(shù)據(jù)集社區(qū)已經(jīng)出現(xiàn)了諸如 L-Eval、LongBench 等長(zhǎng)文本評(píng)測(cè)基準(zhǔn)。這些工作基于一些開(kāi)源 / 自建的數(shù)據(jù)集構(gòu)建樣本,其構(gòu)建評(píng)測(cè)集上的性能已可以一定程度上反映模型的能力。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

因此,在長(zhǎng)文本評(píng)測(cè)這一工作里,我們認(rèn)為一個(gè)好的長(zhǎng)文本評(píng)測(cè)集應(yīng)該具備以下性質(zhì):

  • 樣本長(zhǎng)度可控:測(cè)試樣本的上下文長(zhǎng)度最好是可控的,以便于測(cè)量和比較模型在各個(gè)上下文長(zhǎng)度下的能力變化(若測(cè)試集由不同上下文長(zhǎng)度的測(cè)試樣例混雜而成,則難以精確測(cè)量某一長(zhǎng)度下的性能)。
  • 全文理解:測(cè)試任務(wù)應(yīng)當(dāng)需要完整閱讀 / 分析整段文本后才能成功完成。一個(gè)反例是:此前存在一些長(zhǎng)文本總結(jié)任務(wù),模型閱讀特定部分文本(如開(kāi)頭 + 結(jié)尾)后即可達(dá)到不錯(cuò)性能。
  • 指標(biāo)簡(jiǎn)明清晰:測(cè)試集的指標(biāo)應(yīng)當(dāng)做到定義清晰,其數(shù)值可以定量反映模型的性能。
  • 能測(cè)試超長(zhǎng)上下文:評(píng)測(cè)集需要能夠測(cè)試模型在超長(zhǎng)上下文上的性能。目前主流 API 模型的上下文長(zhǎng)度已來(lái)到了 128,000 token 甚至更長(zhǎng),而早期的一些長(zhǎng)文本評(píng)測(cè)集最長(zhǎng)僅覆蓋到 32,000 token。

Ada-LEval評(píng)測(cè)集

基于以上思考,司南 OpenCompass 團(tuán)隊(duì)構(gòu)建了長(zhǎng)文本評(píng)測(cè)集——Ada-LEval。Ada-LEval 包含 2 個(gè)任務(wù):TSort (文本排序)、BestAnswer (選擇最佳答案),每個(gè)任務(wù)覆蓋了 1,000 到 128,000 token 的可變長(zhǎng)度。

基于 Ada-LEval,我們對(duì)一些大語(yǔ)言模型進(jìn)行了評(píng)測(cè)。我們發(fā)現(xiàn),大部分的長(zhǎng)文本模型在這一測(cè)試集上的表現(xiàn)都不盡如意。同時(shí),在 32,000+ token 的上下文長(zhǎng)度下,所有模型 (含 GPT-4-Turbo) 都未能取得顯著優(yōu)于 Random Guess 的結(jié)果。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

任務(wù)1:TSort(文本排序)

定義:對(duì)于一篇長(zhǎng)文本 (例如小說(shuō)),我們從中截取部分分為 N 段,打亂次序提供給 LLM (截取部分的前后臨近段落也會(huì)作為上下文提供),并要求 LLM 輸出段落的正確順序。

指標(biāo):若輸出的順序完全正確,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / N!)。

控制樣本長(zhǎng)度:可以通過(guò)調(diào)整 N,或是每個(gè)排序段落的長(zhǎng)度來(lái)控制測(cè)試樣本長(zhǎng)度。

處理細(xì)節(jié):對(duì)于 TSort 任務(wù),我們的原始數(shù)據(jù)來(lái)源于 BookSum 數(shù)據(jù)集。在構(gòu)建測(cè)試集的過(guò)程中,我們?nèi)コ宋谋局械亩温涮?hào)、章節(jié)號(hào)等顯式的位置信息。

在實(shí)驗(yàn)過(guò)程中,我們僅嘗試了 N=4 的設(shè)定,并沒(méi)有繼續(xù)拓展排序段落的數(shù)量。因?yàn)槲覀儼l(fā)現(xiàn),這一任務(wù)對(duì)于 LLM 來(lái)說(shuō),似乎異常困難:在全部實(shí)驗(yàn)中,僅 GPT-4 在短上下文設(shè)定 (2,000 or 4,000 tokens) 下取得了顯著優(yōu)于 Random Guess 的精度。在大部分情況下,LLM 能夠跟隨指令并輸出一個(gè) N 排列,但順序并不正確。

另外,由于我們的原始數(shù)據(jù)均為公開(kāi)數(shù)據(jù),大概率被用于 LLM 預(yù)訓(xùn)練。因此,在測(cè)試過(guò)程中,我們僅使用生成式的測(cè)試,而非基于 PPL。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

任務(wù)2:BestAnswer(選擇最佳答案)

定義:給定一個(gè)問(wèn)題,和大量備選答案,要求 LLM 指出問(wèn)題的最佳答案。在這個(gè)任務(wù)中,我們的問(wèn)題來(lái)源于 StackOverflow,并以提問(wèn)者最終選擇的答案作為最佳答案。

指標(biāo):若模型選到了正確答案,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / M),M 為備選答案數(shù)量。

控制樣本長(zhǎng)度:可以通過(guò)調(diào)整備選答案數(shù)量來(lái)控制樣本長(zhǎng)度。

處理細(xì)節(jié):

  • 我們認(rèn)定提問(wèn)者最終選擇的答案作為最佳答案。在這個(gè)答案之后依然可能有新的回答,此時(shí)這些回答不能作為備選答案中的負(fù)樣本。
  • 挑選負(fù)樣本時(shí),應(yīng)當(dāng)足夠具有迷惑性。實(shí)踐中,我們會(huì)優(yōu)先挑選同一問(wèn)題下的其他答案作為負(fù)樣本。在利用其他問(wèn)題下的答案作為負(fù)樣本的時(shí)候,我們會(huì)保證兩個(gè)問(wèn)題具有一定的相似性 (即 Tag 有所重疊)。

在 BestAnswer 任務(wù)上,大部分模型在測(cè)試樣例長(zhǎng)度較短時(shí) (1,000 / 2,000 tokens) 都顯示了顯著優(yōu)于 Random Guess 的性能。在 8,000 tokens 以上,所有開(kāi)源模型的精度下降至 Random Guess 水平;在 32,000 tokens 以上,GPT-4 的精度下降至 Random Guess 水平。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

總結(jié)

在這項(xiàng)工作中,我們提供了 4 個(gè) API 模型與 6 個(gè)開(kāi)源模型在 Ada-LEval 的評(píng)測(cè)結(jié)果。同時(shí),我們?cè)?nbsp;https://github.com/open-compass/Ada-LEval 開(kāi)源了評(píng)測(cè)數(shù)據(jù)與代碼,并提供了評(píng)測(cè) InternLM2 與 GPT-4 的樣例,以便于社區(qū)評(píng)測(cè)其他的大語(yǔ)言模型。

論文:?https://arxiv.org/pdf/2404.06480.pdf

本文轉(zhuǎn)載自??司南評(píng)測(cè)體系??,作者: 司南OpenCompass ????


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
在线 丝袜 欧美 日韩 制服| 日本欧美视频在线观看| 亚洲天天综合网| 偷拍欧美精品| 精品裸体舞一区二区三区| a级黄色一级片| 超碰97在线免费观看| 国产一区中文字幕| 韩剧1988免费观看全集| 国产精品av久久久久久无| 久久久久九九精品影院| 欧美日韩另类字幕中文| 伊人久久大香线蕉精品| 无码精品人妻一区二区三区影院| 六月丁香婷婷色狠狠久久| 欧美极品少妇与黑人| 91资源在线播放| 久久免费视频66| 欧美丰满一区二区免费视频| 国产日韩一区二区在线| 在线看女人毛片| 国产日本亚洲高清| 国产高清精品一区| 在线免费a视频| 国产欧美亚洲一区| 免费99精品国产自在在线| 在线观看日本中文字幕| 国产伦精品一区二区三区在线播放| 欧洲精品在线观看| 人人妻人人添人人爽欧美一区| 免费av在线网站| 久久久久国产精品人| 动漫一区二区在线| 国产精品毛片一区视频播 | 成人污版视频| 在线精品亚洲一区二区不卡| 毛片在线播放视频| 伊人精品影院| 亚洲欧美激情插| 一区二区国产日产| 国产小视频在线播放| 91亚洲精品一区二区乱码| 99www免费人成精品| 国产手机视频在线| 久久国产精品99久久久久久老狼 | 日本久久高清视频| av电影在线观看| 久久精品一区二区三区不卡| 精品一区二区三区自拍图片区| 午夜精品久久久久久久爽 | 插吧插吧综合网| 久久狠狠久久| 精品国产百合女同互慰| 国产成人精品一区二区三区在线观看| 亚洲国产天堂| 欧美美女bb生活片| 色一情一区二区| 中文成人激情娱乐网| 在线电影欧美成精品| 亚洲一区二区福利视频| 国产精久久久| 日韩午夜av一区| 久久黄色一级视频| 91精品导航| 亚洲激情国产精品| 久久国产精品无码一级毛片| 九九综合九九| 中文字幕亚洲天堂| 精品视频第一页| 欧美一区二区三区另类| 久久久久久高潮国产精品视| 国产成人啪精品午夜在线观看| 一道本一区二区| 国产成人精品免高潮费视频| 中文区中文字幕免费看| 精品一区二区在线免费观看| 91pron在线| 五月天久久久久久| 亚洲国产精品传媒在线观看| 公共露出暴露狂另类av| 国产网红在线观看| 日韩欧美999| 国产色视频在线播放| 国产精品色婷婷在线观看| 精品久久久久一区| 少妇按摩一区二区三区| 日韩欧美午夜| 欧美激情视频在线观看| 日本一级一片免费视频| 免费在线一区观看| 99视频免费观看蜜桃视频| 视频在线不卡| 亚洲图片欧美激情| 霍思燕三级露全乳照| 国产资源一区| 亚洲第一免费网站| 国产又黄又粗的视频| 欧美69视频| 日本中文字幕久久看| 99在线精品视频免费观看软件| 99久久国产综合精品色伊| 日韩高清欧美| 在线精品视频视频中文字幕| 美女视频黄免费| 美女爽到呻吟久久久久| 亚洲最大的网站| 国产三级电影在线观看| 一区二区理论电影在线观看| 国产精品亚洲αv天堂无码| 国产亚洲高清在线观看| 亚洲色图18p| 久草视频在线资源站| 美女在线一区二区| 国产亚洲情侣一区二区无| 亚洲xxxxxx| 欧美午夜精品久久久久久人妖| www,av在线| 日本电影一区二区| 午夜精品一区二区三区在线| 国产精品国产精品国产专区| 久久久777精品电影网影网| 日本五级黄色片| 欧美激情不卡| 亚洲人高潮女人毛茸茸| 日韩精品国产一区二区| 国产毛片精品一区| 亚洲一区3d动漫同人无遮挡 | 888久久久| 国产精国产精品| 天天干天天草天天射| 一区二区三区国产豹纹内裤在线| 美女网站色免费| 自拍偷拍一区| 97成人超碰免| 色欲av永久无码精品无码蜜桃| 一区二区三区蜜桃网| 亚洲精品20p| 日韩精品中文字幕第1页| 秋霞av国产精品一区| 香蕉视频911| 午夜激情综合网| youjizz.com日本| 欧美另类视频| 99免费在线观看视频| 日本高清在线观看视频| 日韩一区二区视频在线观看| 中国毛片直接看| 国内成人自拍视频| 少妇高潮大叫好爽喷水| 精品视频成人| 欧美精品一本久久男人的天堂| 国产乱淫av免费| 亚洲欧美日韩在线| 手机精品视频在线| 欧美成人有码| 痴汉一区二区三区| 超级白嫩亚洲国产第一| 亚洲精品不卡在线| 国产精品一区二区三区四| 26uuu久久天堂性欧美| 久久精品.com| 精品国产乱码久久久| 国产精品永久免费| 成人毛片av在线| 日韩精品一区国产麻豆| 国产一卡二卡在线| 91麻豆国产香蕉久久精品| 白嫩少妇丰满一区二区| 波多野结衣一区| 亚洲qvod图片区电影| 欧美videosex性极品hd| 亚洲黄页视频免费观看| 波多野结衣电车痴汉| 国产精品传媒视频| 性猛交╳xxx乱大交| 99亚洲视频| 色之综合天天综合色天天棕色| 四虎影视精品永久在线观看| 色综合久久久久久中文网| 同心难改在线观看| 欧美日韩一区国产| 青青草手机在线视频| 91麻豆视频网站| 国产福利精品一区二区三区| 黄色亚洲大片免费在线观看| 欧美日韩一区在线观看视频| 亚洲高清国产拍精品26u| 国模私拍一区二区三区| h视频网站在线观看| 日韩午夜电影av| 国产精品自拍第一页| 亚洲六月丁香色婷婷综合久久 | 精品国产午夜肉伦伦影院| 国产成人精品最新| a毛片在线看免费观看| 亚洲精品自产拍| a天堂在线视频| 色天天综合久久久久综合片| 国产一区二区三区在线视频观看| 91麻豆国产自产在线观看| 亚洲图片 自拍偷拍| 日韩黄色免费电影| 精品一区二区三区无码视频| 国产精品一在线观看| 亚洲伊人久久综合| 欧美特大特白屁股xxxx| 欧美成人免费大片| 国产高清视频在线播放| 亚洲国产精品嫩草影院久久| 国产视频在线观看免费| 在线免费观看日韩欧美| 日韩精品久久久久久久酒店| 亚洲柠檬福利资源导航| caopeng视频| 91亚洲永久精品| 亚洲啪av永久无码精品放毛片 | 老司机精品视频网站| 99er在线视频| 亚洲精彩视频| 亚洲国产精品一区二区第四页av| 任你弄精品视频免费观看| 成人三级在线| 精品网站999| 国产在线a不卡| 嫩草伊人久久精品少妇av杨幂| 欧美亚洲免费电影| av小说在线播放| 欧美国产亚洲视频| 宅男在线观看免费高清网站| 久久在线免费视频| 日韩毛片久久久| 亚洲美女又黄又爽在线观看| 午夜在线视频免费| 亚洲高清色综合| 日韩一区二区三区在线观看视频| 日韩无一区二区| 精品国产无码AV| 777午夜精品视频在线播放| 中文字幕在线视频第一页| 欧美性受xxxx黑人xyx性爽| 成人午夜淫片100集| 欧美色图在线视频| 色一情一乱一伦| 色婷婷综合久久久久中文一区二区| 成人精品免费在线观看| 欧美三级免费观看| 日日噜噜噜噜人人爽亚洲精品| 精品国产1区2区| 日本视频在线观看免费| 色婷婷久久久综合中文字幕| 精品久久久久久久久久久久久久久久 | 久久精品二区| 美女亚洲一区| 亚洲日本japanese丝袜| 91综合在线| 路边理发店露脸熟妇泻火| 欧美精品午夜| 免费看日本毛片| 久久综合中文| 污网站在线免费| 国产精品一区二区在线观看网站 | 欧美大胆在线视频| 免费电影视频在线看 | 麻豆久久久久| 亚洲自拍小视频| 超碰97成人| 日本精品国语自产拍在线观看| 精品国产一级毛片| 可以在线看黄的网站| 在线观看亚洲| 午夜精品久久久内射近拍高清| 美腿丝袜亚洲综合| 自拍一级黄色片| www一区二区| 特黄一区二区三区| 亚洲福利视频三区| 国产伦精品一区二区三区视频网站| 在线观看一区不卡| av免费观看网址| 国产丝袜高跟一区| 激情视频在线观看| 午夜精品美女自拍福到在线| 国产成人精品一区二区三区免费| 亚洲自拍av在线| 蜜桃一区av| 亚洲国产精品123| 亚洲精品专区| 色婷婷激情视频| 久久综合色综合88| 精品国产精品国产精品| 黄色精品在线看| 国产一区二区三区视频免费观看| 精品国产91洋老外米糕| 一级毛片视频在线| 91av成人在线| 日本99精品| 日韩欧美激情一区二区| 国产精品红桃| 自拍偷拍一区二区三区四区| 99久久er热在这里只有精品66| 成年人免费视频播放| 精品久久中文字幕| 不卡的日韩av| www.日本久久久久com.| 性感女国产在线| 99热最新在线| 亚洲精品国产首次亮相| 黑森林福利视频导航| 成人午夜视频在线| 日韩亚洲欧美中文字幕| 狠狠色狠色综合曰曰| 精品国产无码一区二区| 最近2019年好看中文字幕视频| 天堂在线中文网官网| 国产精品视频500部| 综合一区二区三区| 污污网站免费看| 2021国产精品久久精品| 国产一级特黄毛片| 91精品国产福利| 色综合久久久久综合一本到桃花网| 91av视频在线观看| 精品国产乱子伦一区二区| 嫩草影院中文字幕| 国内久久婷婷综合| 小泽玛利亚一区| 欧美美女一区二区在线观看| av在线三区| 国产精品久久久久久久久男 | 国产精品午夜影院| 欧美精品一区二| 成人福利电影| 97自拍视频| 欧美在线国产| 免费观看黄网站| 亚洲欧美另类综合偷拍| 国产精品毛片久久久久久久av| 搡老女人一区二区三区视频tv| 欧美黄色网页| 日韩福利一区二区三区| 免费欧美日韩| 国产美女永久免费无遮挡| 色婷婷狠狠综合| 户外极限露出调教在线视频| 国产suv精品一区二区| 久久99高清| 无需播放器的av| 国产精品初高中害羞小美女文| 在线视频你懂得| 久久最新资源网| 超碰cao国产精品一区二区| 成品人视频ww入口| 成人av电影在线观看| 在线观看精品国产| 亚洲欧洲午夜一线一品| 日韩漫画puputoon| 中文字幕日韩一区二区三区| 国产在线精品一区二区三区不卡| 欧美 日韩 国产 一区二区三区| 欧美精品tushy高清| 亚洲第一图区| 精品中文字幕一区| 日韩精品电影在线| 香蕉成人在线视频| 91精品国产综合久久精品app| 影音先锋中文在线视频| 国产亚洲福利社区| 久久一区激情| 神马午夜精品91| 亚洲高清久久网| 亚洲www啪成人一区二区| 美国av在线播放| 成人国产亚洲欧美成人综合网| 九九精品免费视频| 丝袜美腿精品国产二区| 风间由美性色一区二区三区四区| 日韩在线视频在线观看| 中文字幕乱码日本亚洲一区二区| 国产精品女同一区二区| 久久久视频免费观看| 国产成人影院| 视频区 图片区 小说区| 污片在线观看一区二区| jizz在线观看中文| 国产精品区一区| 麻豆久久久久久久| 国产一级特黄毛片| 中文字幕av一区二区| 亚洲视频国产精品| 91视频免费版污| 亚洲无线码一区二区三区| 黄色片在线免费看| 亚洲淫片在线视频| 日韩一区精品视频| 欧美色图一区二区| 在线国产精品视频| 天海翼亚洲一区二区三区| 91av免费观看| 欧美视频中文字幕| 精精国产xxxx视频在线播放|