精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀

發(fā)布于 2024-7-8 07:45
瀏覽
0收藏

長(zhǎng)文本評(píng)測(cè)

隨著大模型能夠處理的上下文信息越來越多,達(dá)到百萬級(jí)別的詞匯量,人們對(duì)于模型長(zhǎng)文本能力的研究興趣也隨之增長(zhǎng)。

這些工作基于一些開源 / 自建的數(shù)據(jù)集構(gòu)建樣本,其構(gòu)建評(píng)測(cè)集上的性能已可以一定程度上反映模型的能力。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

因此,在長(zhǎng)文本評(píng)測(cè)這一工作里,我們認(rèn)為一個(gè)好的長(zhǎng)文本評(píng)測(cè)集應(yīng)該具備以下性質(zhì):

  • 樣本長(zhǎng)度可控:測(cè)試樣本的上下文長(zhǎng)度最好是可控的,以便于測(cè)量和比較模型在各個(gè)上下文長(zhǎng)度下的能力變化(若測(cè)試集由不同上下文長(zhǎng)度的測(cè)試樣例混雜而成,則難以精確測(cè)量某一長(zhǎng)度下的性能)。
  • 全文理解:測(cè)試任務(wù)應(yīng)當(dāng)需要完整閱讀 / 分析整段文本后才能成功完成。一個(gè)反例是:此前存在一些長(zhǎng)文本總結(jié)任務(wù),模型閱讀特定部分文本(如開頭 + 結(jié)尾)后即可達(dá)到不錯(cuò)性能。
  • 指標(biāo)簡(jiǎn)明清晰:測(cè)試集的指標(biāo)應(yīng)當(dāng)做到定義清晰,其數(shù)值可以定量反映模型的性能。
  • 能測(cè)試超長(zhǎng)上下文:評(píng)測(cè)集需要能夠測(cè)試模型在超長(zhǎng)上下文上的性能。目前主流 API 模型的上下文長(zhǎng)度已來到了 128,000 token 甚至更長(zhǎng),而早期的一些長(zhǎng)文本評(píng)測(cè)集最長(zhǎng)僅覆蓋到 32,000 token。

Ada-LEval評(píng)測(cè)集

基于以上思考,司南 OpenCompass 團(tuán)隊(duì)構(gòu)建了長(zhǎng)文本評(píng)測(cè)集——Ada-LEval。Ada-LEval 包含 2 個(gè)任務(wù):TSort (文本排序)、BestAnswer (選擇最佳答案),每個(gè)任務(wù)覆蓋了 1,000 到 128,000 token 的可變長(zhǎng)度。

基于 Ada-LEval,我們對(duì)一些大語言模型進(jìn)行了評(píng)測(cè)。我們發(fā)現(xiàn),大部分的長(zhǎng)文本模型在這一測(cè)試集上的表現(xiàn)都不盡如意。同時(shí),在 32,000+ token 的上下文長(zhǎng)度下,所有模型 (含 GPT-4-Turbo) 都未能取得顯著優(yōu)于 Random Guess 的結(jié)果

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)



任務(wù)1:TSort(文本排序)

TSort(文本排序)

定義:對(duì)于一篇長(zhǎng)文本 (例如小說),我們從中截取部分分為 N 段,打亂次序提供給 LLM (截取部分的前后臨近段落也會(huì)作為上下文提供),并要求 LLM 輸出段落的正確順序。

指標(biāo):若輸出的順序完全正確,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / N!)。

控制樣本長(zhǎng)度:可以通過調(diào)整 N,或是每個(gè)排序段落的長(zhǎng)度來控制測(cè)試樣本長(zhǎng)度。

處理細(xì)節(jié):對(duì)于 TSort 任務(wù),我們的原始數(shù)據(jù)來源于 BookSum 數(shù)據(jù)集。在構(gòu)建測(cè)試集的過程中,我們?nèi)コ宋谋局械亩温涮?hào)、章節(jié)號(hào)等顯式的位置信息。

在實(shí)驗(yàn)過程中,我們僅嘗試了 N=4 的設(shè)定,并沒有繼續(xù)拓展排序段落的數(shù)量。因?yàn)槲覀儼l(fā)現(xiàn),這一任務(wù)對(duì)于 LLM 來說,似乎異常困難:在全部實(shí)驗(yàn)中,僅 GPT-4 在短上下文設(shè)定 (2,000 or 4,000 tokens) 下取得了顯著優(yōu)于 Random Guess 的精度。在大部分情況下,LLM 能夠跟隨指令并輸出一個(gè) N 排列,但順序并不正確。

另外,由于我們的原始數(shù)據(jù)均為公開數(shù)據(jù),大概率被用于 LLM 預(yù)訓(xùn)練。因此,在測(cè)試過程中,我們僅使用生成式的測(cè)試,而非基于 PPL。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

任務(wù)2:BestAnswer(選擇最佳答案)

定義:給定一個(gè)問題,和大量備選答案,要求 LLM 指出問題的最佳答案。在這個(gè)任務(wù)中,我們的問題來源于 StackOverflow,并以提問者最終選擇的答案作為最佳答案。

指標(biāo):若模型選到了正確答案,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / M),M 為備選答案數(shù)量。

控制樣本長(zhǎng)度:可以通過調(diào)整備選答案數(shù)量來控制樣本長(zhǎng)度。

處理細(xì)節(jié):

  1. 我們認(rèn)定提問者最終選擇的答案作為最佳答案。在這個(gè)答案之后依然可能有新的回答,此時(shí)這些回答不能作為備選答案中的負(fù)樣本。
  2. 挑選負(fù)樣本時(shí),應(yīng)當(dāng)足夠具有迷惑性。實(shí)踐中,我們會(huì)優(yōu)先挑選同一問題下的其他答案作為負(fù)樣本。在利用其他問題下的答案作為負(fù)樣本的時(shí)候,我們會(huì)保證兩個(gè)問題具有一定的相似性 (即 Tag 有所重疊)。

在 BestAnswer 任務(wù)上,大部分模型在測(cè)試樣例長(zhǎng)度較短時(shí) (1,000 / 2,000 tokens) 都顯示了顯著優(yōu)于 Random Guess 的性能。在 8,000 tokens 以上,所有開源模型的精度下降至 Random Guess 水平;在 32,000 tokens 以上,GPT-4 的精度下降至 Random Guess 水平。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

總結(jié)

在這項(xiàng)工作中,我們提供了 4 個(gè) API 模型與 6 個(gè)開源模型在 Ada-LEval 的評(píng)測(cè)結(jié)果。

論文:??https://arxiv.org/pdf/2404.06480.pdf??

代碼:???https://github.com/open-compass/Ada-LEval??

本文轉(zhuǎn)載自 ??司南評(píng)測(cè)體系??,作者: 司南OpenCompass

標(biāo)簽
已于2024-7-8 07:54:19修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美亚洲韩国| 一级黄色在线视频| xvideos.蜜桃一区二区| 亚洲h在线观看| 欧美日韩一区二| 一区二区视频在线免费观看| 中文字幕一区二区三区乱码图片 | aaa国产一区| 欧美一区二区三区免费观看| 国产农村妇女精品一区| 成人豆花视频| 欧美午夜影院在线视频| 亚洲自拍偷拍二区| 日韩一卡二卡在线| 日本特黄久久久高潮| 欧美老少做受xxxx高潮| 波多野结衣 在线| 国产精品久久久久久久久久辛辛 | 在线观看网站黄不卡| 亚洲国产一区二区在线| 狠狠综合久久av一区二区| 亚洲电影成人| 日韩在线中文字| 无码人妻一区二区三区精品视频 | 日本高清成人免费播放| 日韩一级片一区二区| 成年人视频免费在线观看| 成人免费av在线| 国产精品永久免费| 黄色片视频免费| 亚洲欧洲日本mm| 美女av一区二区| 麻豆视频免费在线播放| 蜜桃a∨噜噜一区二区三区| 欧美一级欧美三级在线观看| 色婷婷综合久久久久中文字幕 | 欧美最猛性xxxxx(亚洲精品)| 欧美一级爱爱| 少妇一级淫免费观看| 成人黄色理论片| 欧洲激情一区二区| 久久精品.com| h片在线观看视频免费免费| ...中文天堂在线一区| 欧美日韩一区在线播放| 日色在线视频| 成人性生交大合| 91福利视频导航| 国产三级小视频| 免费高清视频精品| 欧洲亚洲免费视频| 4438国产精品一区二区| 性感少妇一区| 欧美野外猛男的大粗鳮| 久久国产黄色片| 日韩视频一区二区三区在线播放免费观看| 久久在线精品视频| 国产一区二区播放| 一区二区影院| 久久91亚洲人成电影网站| 欧洲美女女同性互添| 亚洲字幕久久| 欧美激情videoshd| 欧美国产精品一二三| 国产精品v亚洲精品v日韩精品| 欧美成人精品一区二区| 久久久精品国产sm调教网站| 欧美 日韩 国产一区二区在线视频| 日韩在线播放av| 国产av无码专区亚洲av毛网站| 91精品国产自产拍在线观看蜜| 久久久精品免费| 免费一级片视频| 亚洲一区 视频| 中文在线综合| 亚洲第一二三四五区| 欧美久久久久久久久久久| 久久黄色影视| 亚洲人成在线观看网站高清| 国产精久久一区二区三区| 成人在线免费小视频| 精品国产欧美一区二区五十路 | 奇米狠狠一区二区三区| 一本色道久久综合亚洲精品小说 | 熟妇高潮一区二区高潮| 久久综合久久综合亚洲| 亚洲精品在线观看免费| 污污视频在线看| 疯狂蹂躏欧美一区二区精品| 黑森林福利视频导航| 日韩大陆av| 亚洲国产精品成人av| 日本少妇高潮喷水xxxxxxx| 91亚洲一区| 久久久视频在线| 九九热最新视频| 国产一区二区电影| 久久久久久高清| 欧洲不卡av| 亚洲国产综合视频在线观看| 日本熟妇人妻中出| 18国产精品| 色噜噜狠狠狠综合曰曰曰88av | 午夜免费福利在线观看| 亚洲自拍偷拍麻豆| 黄色三级视频片| 色妞ww精品视频7777| 国产亚洲精品久久久久久777| 欧美特级一级片| 午夜宅男久久久| 99久久99久久| 国产乱理伦片a级在线观看| 亚洲乱码国产乱码精品精可以看| www.玖玖玖| 久久视频免费| 国产亚洲美女久久| 久久露脸国语精品国产91| 青青久在线视频| 日本女优在线视频一区二区| 高清国产在线一区| 午夜在线观看视频| 欧美性感美女h网站在线观看免费| 在线观看岛国av| 亚洲另类春色校园小说| 久久99精品久久久久久青青91| 99re这里只有精品在线| 国产成人一级电影| 宅男在线精品国产免费观看| 国产精选在线| 日韩久久精品一区| 日本一级片免费| 日韩成人一级片| 欧美精品一区二区三区在线四季| 日本三级在线观看网站| 欧美裸体bbwbbwbbw| 欧美激情第六页| av电影网站在线观看| 国产精品啊啊啊| 91亚洲一区精品| 阿v免费在线观看| 欧美性猛xxx| 欧美肉大捧一进一出免费视频| 91精品一区国产高清在线gif| 国产精品亚洲综合天堂夜夜| 麻豆国产在线播放| 一本久道中文字幕精品亚洲嫩| 精品人妻一区二区免费| 成人免费在线电影| 亚洲最黄网站| 国产精品成人观看视频免费| 18+激情视频在线| 欧美精品xxxxbbbb| 午夜国产小视频| 精品一区二区三区视频在线观看| 自拍偷拍亚洲色图欧美| 亚洲二区av| 另类美女黄大片| hs视频在线观看| 亚洲免费观看高清完整版在线| 天天综合网久久| 97人人精品| 91在线视频免费| 中文字幕伦理免费在线视频| 欧美mv日韩mv国产| 国产午夜激情视频| 91女神在线视频| 男人揉女人奶房视频60分 | 日本不卡免费高清视频在线| 日韩av在线高清| 丰满少妇xoxoxo视频| 国产人伦精品一区二区| 99热这里只有精品在线播放| 99久久99久久精品国产片桃花| 91精品国产综合久久久久久久久| 麻豆网在线观看| 欧美草草影院在线视频| 国产香蕉视频在线| 国产欧美一区二区三区沐欲| 亚洲一级片免费| 欧美69wwwcom| 鲁丝片一区二区三区| 美女色狠狠久久| 久久资源免费视频| 手机看片福利永久| 色婷婷综合在线| frxxee中国xxx麻豆hd| 成人做爰69片免费看网站| 无码aⅴ精品一区二区三区浪潮 | 日本特级黄色片| 国产精品成人免费| 李丽珍裸体午夜理伦片| 日韩精品亚洲专区| 精品嫩模一区二区三区| 欧美电影在线观看完整版| 国产精品99久久久久久久久| 直接在线观看的三级网址| 亚洲精品国产精品久久清纯直播| 国产精品熟女视频| 亚洲黄色片在线观看| 久久久久久久久久久国产精品| 另类小说欧美激情| 精品无码国产一区二区三区av| 色综合综合网| 99久热re在线精品视频| 亚洲第一会所| 欧美精品久久一区二区| 97视频精彩视频在线观看| 日韩精品一区二| 伊人成人在线观看| 精品女厕一区二区三区| 九九热最新地址| 久久天天做天天爱综合色| 美女又黄又免费的视频| 日韩国产成人精品| 人妻久久久一区二区三区| 国产精品精品| 先锋影音网一区| 青青久久av| 成人黄视频免费| 成人在线观看免费播放| 国产91精品久久久久久| 欧美日韩色网| 久久久999国产精品| 精品无吗乱吗av国产爱色| 亚洲成年人在线播放| 国产免费高清视频| 欧洲人成人精品| 麻豆成人免费视频| 亚洲国产精品嫩草影院| 成人性生活毛片| 国产精品亲子乱子伦xxxx裸| 中日韩精品一区二区三区| 高清日韩电视剧大全免费| 夜夜夜夜夜夜操| 六月丁香婷婷久久| 激情网站五月天| 国产精品久久久久久久久久妞妞| 精品人妻大屁股白浆无码| 亚洲精品成人| 91制片厂免费观看| 国产精品久久观看| 亚洲一卡二卡三卡| 精品久久久久久久| 欧美日韩免费高清| 亚洲宅男一区| 久久久久国产精品视频| 思热99re视热频这里只精品| 久久精品人人做人人爽电影| 欧美黄色录像| 精品无码久久久久国产| 老司机成人在线| 国产一区二区不卡视频| 一区二区网站| 国产精品18毛片一区二区| 奇米一区二区| 国产成人女人毛片视频在线| 风间由美一区二区av101| 福利视频一区二区三区| 久久影院资源站| 久久精品国产精品国产精品污 | 亚洲黄色www| 日本大片在线观看| 亚洲免费一级电影| av每日在线更新| 日韩在线视频国产| a毛片在线播放| 欧美夫妻性视频| a√中文在线观看| 欧美在线亚洲在线| 国产精品毛片久久久久久久久久99999999| 国产91在线播放精品91| 欧美久久久网站| 亚洲精品日韩av| 国产精品久av福利在线观看| 久久综合狠狠综合久久综青草| 国产探花一区在线观看| 一区二区视频在线观看| 欧美激情五月| 欧美女人性生活视频| 视频在线观看一区| 国产黄色一区二区三区| 99热在这里有精品免费| 超薄肉色丝袜一二三| 亚洲男人电影天堂| 色婷婷av国产精品| 欧美日韩一区二区欧美激情| 亚洲国产精品久久久久久久| 国产丝袜视频一区| 好了av在线| 欧美亚洲视频在线观看| 亚洲精品无播放器在线播放| 国产精品自拍首页| 日韩欧美视频在线播放| 男的插女的下面视频| 日韩电影在线免费| 国产综合内射日韩久| 国产午夜精品一区二区| 日韩黄色免费观看| 日韩欧美精品网站| 国产日本精品视频| 国产午夜精品美女视频明星a级| 国产日产一区二区| 国产91色在线免费| 亚洲一区 二区| 日韩免费一区二区三区| 亚洲视频狠狠| 日本美女视频一区| www久久精品| 久久久久久国产精品视频| 在线一区二区视频| 亚洲男人第一天堂| 中文在线资源观看视频网站免费不卡| 午夜小视频在线观看| 国产精品偷伦一区二区| 任你弄精品视频免费观看| 欧美 另类 交| 日韩中文字幕亚洲一区二区va在线 | 中国女人特级毛片| 亚洲成a人片在线不卡一二三区| 中文字幕欧美在线观看| 国产丝袜精品第一页| 国产亚av手机在线观看| 国产日韩欧美日韩大片| 国产99久久久国产精品成人免费| 欧美国产视频一区| 韩国一区二区三区| 国产激情av在线| 日本黄色一区二区| 污视频在线免费观看| 色综合视频一区中文字幕| www999久久| 一区二区精品国产| 日韩激情一二三区| mm131美女视频| 色综合亚洲欧洲| 污视频在线免费观看| 午夜精品一区二区三区av| 亚洲精品a区| 男人天堂新网址| 国产精品亚洲视频| 国产乱国产乱老熟300| 69久久99精品久久久久婷婷| 欧美一级二级三级区| 国产在线精品自拍| 91麻豆精品国产91久久久平台| 天天操天天爽天天射| 久久久九九九九| 亚洲欧美另类在线视频| 亚洲人高潮女人毛茸茸| 超碰aⅴ人人做人人爽欧美| 久久爱av电影| 久久www成人_看片免费不卡| 免费观看av网站| 色综合久久综合网欧美综合网| 日本天堂影院在线视频| 欧美一区二区三区图| 最新精品国偷自产在线| 无码人妻丰满熟妇区毛片18| 久久久久久久久久久黄色 | 久久一区二区三区超碰国产精品| 欧美bbbbb性bbbbb视频| 色综合一区二区| 永久免费在线观看视频| 91中文精品字幕在线视频| 欧美88av| 国产精品一区二区入口九绯色| 色视频欧美一区二区三区| av免费在线一区二区三区| 成人a免费视频| 欧美日韩三级| 一级国产黄色片| 欧美三级三级三级爽爽爽| 日本福利专区在线观看| 91精品国产99久久久久久红楼| 欧美午夜久久| 国产ts丝袜人妖系列视频| 91黄视频在线观看| 福利视频在线| 韩国一区二区三区美女美女秀 | 国产精品扒开腿爽爽爽视频| 日韩成人a**站| 日韩精品xxx| 色婷婷av久久久久久久| 黄色成人影院| 精品一区二区三区国产| 另类调教123区| 国产精品二区一区二区aⅴ| 亚洲欧洲国产一区| 精品国产乱码一区二区三区 | 波多野结衣在线观看| 麻豆成人在线播放| 极品少妇xxxx精品少妇| 国产午夜激情视频| 中文字幕欧美精品在线 | 免费国产一区二区| 韩国av一区二区| 永久免费无码av网站在线观看| 久久精品久久久久久| 亚洲精品中文字幕99999| 三级av免费观看|