精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力

發(fā)布于 2024-4-2 12:06
瀏覽
0收藏

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

論文題目:

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

論文地址:

??https://arxiv.org/abs/2403.03514??

代碼地址:

??https://github.com/zexuanqiu/CLongEval??

01 研究背景和貢獻(xiàn)

為了使 LLM 能夠支持更復(fù)雜和多樣化的應(yīng)用,越來越多的研究致力于擴(kuò)展 LLM 能夠處理的上下文窗口。為了評估這些 long context LLM 支持長上下文能力,目前英文領(lǐng)域有幾個數(shù)據(jù)集被提出(如 LongBench, L-Eval, LooGLE)。

然而,在中文領(lǐng)域,對于 long context LLM 能力評估的研究還有些滯后。目前只有一個雙語基準(zhǔn) LongBench 可用,中文部分僅有平均長度約 13K 個字符的 1000 個測試實(shí)例。基于中文領(lǐng)域缺乏高質(zhì)量評估數(shù)據(jù)集的現(xiàn)狀,這篇論文提出了一個基準(zhǔn)測試集,以準(zhǔn)確評估 LLM 在中文領(lǐng)域的長文本上下文處理能力。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

論文提出了 CLongEval,一個包含了 7 種 NLP 任務(wù)、覆蓋 4 個能力維度的中文長文本能力測試集。以確保對模型能力的綜合評估,作者首先對 LLM 處理長文本所需的關(guān)鍵能力進(jìn)行了拆解。


如下圖所示的框架,基于于人類自身解決問題的范式,作者將 LLM 在解決長上下文任務(wù)時所用的基礎(chǔ)能力分解為:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中識別和獲取關(guān)鍵信息的能力;2)基于獲取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。


在這些基礎(chǔ)能力的維度上,作者構(gòu)建了了 CLongEval 基準(zhǔn)測試集。該測試集包含了 7 個任務(wù)共 7,267 個測試樣本,包括長篇故事問答(Long Story QA)、長對話記憶(Long Conversation Memory)、長篇故事摘要(Long Story Summarization)、新聞標(biāo)注(Stacked News Labeling)、錯別字檢測(Stacked Typo Detection)、段落檢索(Key-Passage Retrieval)和表格查詢(Table Querying)。


其中,長篇故事問答和長對話記憶均為全新標(biāo)注的數(shù)據(jù)。長篇故事摘要由 GPT-4 進(jìn)行輔助標(biāo)注。其余 4 個任務(wù)由公共數(shù)據(jù)集重構(gòu)得來。


由于目前 LLM 支持的文本長度窗口(context window)差異較大,為了確保基準(zhǔn)測試集的適用性,CLongEval 按照輸入文本的長度構(gòu)建了三個子集:small set、medium set 和 large set。small set 主要包括長度在 1K 到 16K 個 token 之間的測試數(shù)據(jù),medium set 是 16K 到 50K 個 token 之間,而 large set 包含的數(shù)據(jù)擴(kuò)展到 50K 到 100K 個 token。下表展示了數(shù)據(jù)集的具體統(tǒng)計信息。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

02 數(shù)據(jù)集構(gòu)建

以下是 CLongEval 包含的測試任務(wù)。每個任務(wù)針對測試一種上文提到的基礎(chǔ)能力。

  • 長篇故事問答該任務(wù)要求模型根據(jù)長篇故事中的部分上下文來回答問題,考察模型能否利用部分上下文信息進(jìn)行閱讀理解。模型需要在輸入中找到有關(guān)的上下文并進(jìn)行抽象推理來得到正確答案。作者在 153 本中國敘事小說中提取了 200 個不重復(fù)的故事,并根據(jù)故事長度分配了相應(yīng)數(shù)量的問題。最終共標(biāo)注了約 1K 個問答對。
  • 長對話記憶這個任務(wù)旨在評估模型的長期記憶能力,考察模型能否利用部分上下文信息進(jìn)行閱讀理解。該任務(wù)的輸入為用戶和伴侶聊天機(jī)器人之間連續(xù)多天的對話記錄,模型需要準(zhǔn)確地回答關(guān)于特定日期對話內(nèi)容相關(guān)的問題。數(shù)據(jù)包含 80 個虛擬用戶和伴侶聊天機(jī)器人之間的 140 天對話記錄,和人工標(biāo)注的約 1K 個問答對。
  • 長篇故事摘要作為自然語言處理的經(jīng)典任務(wù),摘要生成需要模型能夠正確理解完整的長上下文并進(jìn)行信息整合。作者首先將 BOOKSUM 數(shù)據(jù)集翻譯成了中文,之后使用 GPT-4 輔助將 BOOKSUM 數(shù)據(jù)集中每個片段的摘要整合成總摘要。該任務(wù)包含 1K 個測試樣例。
  • 新聞標(biāo)注該測試任務(wù)要求模型能對輸入的新聞做正確的分類。目標(biāo)是評估語言模型能否理解完整的輸入,并進(jìn)行信息抽取。每個樣例的輸入包含多篇新聞以及對應(yīng)的索引,輸出是對每篇新聞的類別標(biāo)簽。該任務(wù)包含約 1K 個測試樣例。
  • 錯別字檢測該任務(wù)要求模型識別出長篇輸入中存在的所有拼寫錯誤。目標(biāo)是評估語言模型能否理解完整的輸入,并進(jìn)行信息抽取。錯別字構(gòu)造來自于日常打字常見錯誤類型:同音錯字。錯字的數(shù)量和輸入的長度成正比:small set 為 10 個錯字,medium set 為 20 個錯字,large set 為 30 個錯字。該任務(wù)包含約 1K 個測試樣例。
  • 段落檢索該任務(wù)是為了考察模型在長上下文中抽取所需信息的能力,尤其是準(zhǔn)確返回復(fù)雜搜索結(jié)果的能力。數(shù)據(jù)集中每個樣例都是一個被序列化為字符串的 JSON 對象,其中包含多個鍵-段落(key-passage)對。這個任務(wù)和常見的鍵-值檢索任務(wù)類似,區(qū)別在于這里檢索對象是具有實(shí)際語義的自然語言文本,而不是隨機(jī)生成的 128 位 UUID 字符串,因此更具有挑戰(zhàn)性。該任務(wù)包含約 1K 個測試樣例。
  • 表格查詢該任務(wù)是為了考察模型在長上下文中抽取所需信息的能力,尤其是在長上下文中執(zhí)行復(fù)雜查詢的能力。數(shù)據(jù)集中每個樣例由多個使用 Markdown 格式排列的表格組成;期待模型可以在長上下文中定位到目標(biāo)表格,并根據(jù)查詢條件從該表格中得到輸出。該任務(wù)包含約 1K 個測試樣例。

03 實(shí)驗(yàn)結(jié)果

下表為主實(shí)驗(yàn)結(jié)果,展示了 6 個開源模型和 2 個閉源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表現(xiàn)。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

作者分析了參考答案在上下文中的對應(yīng)位置對模型性能的影響,結(jié)果如下圖所示。作者在需要部分上下文的四個任務(wù)上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)在長篇故事問答和長對話記憶這兩個任務(wù)中,“Lost in the middle” 這一現(xiàn)象較為明顯。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

下面的兩張圖展示了 GPT-4-Turbo 與 Moonshot-v1 在新聞標(biāo)注這個任務(wù)中不同位置與不同深度的分類準(zhǔn)確率的可視化分析。可以發(fā)現(xiàn),Moonshot-v1 的表現(xiàn)更加穩(wěn)定。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

更多實(shí)驗(yàn)結(jié)果以及分析請參考原文。


 本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/EPOSvdieaXfFdOjyWQaMhA??

標(biāo)簽
已于2024-4-2 12:08:34修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
亚洲 小说区 图片区 都市| 日本一区二区视频在线播放| 天使と恶魔の榨精在线播放| 国产精品99久久久久| 久久久久久69| 日本少妇高潮喷水xxxxxxx| 精品视频在线一区二区在线| 一区二区三区四区亚洲| 久久久一本精品99久久精品66| www.亚洲激情| 黄色在线一区| 在线观看国产精品日韩av| 丰满人妻一区二区三区53视频| 国产传媒在线观看| 中文字幕国产精品一区二区| 国产日韩精品久久| 一本色道久久综合精品婷婷| 国产一区二区精品| 久久精品在线视频| 日韩一级av毛片| 超碰成人免费| 91精品国产综合久久国产大片| 国产肥臀一区二区福利视频| 日本高清在线观看视频| 国产欧美一区在线| 狠狠色噜噜狠狠色综合久| 97超碰资源站| 亚洲一区图片| 九色精品免费永久在线| 久久久视频6r| 亚洲国产合集| 亚洲精品成人av| 师生出轨h灌满了1v1| 国产亚洲欧美日韩精品一区二区三区| 午夜视频久久久久久| 糖心vlog在线免费观看| 在线播放毛片| 中文乱码免费一区二区| 欧美精品欧美精品系列c| 黑人精品一区二区三区| 国产精品一区二区免费不卡| 成人福利在线视频| av首页在线观看| 日韩影院免费视频| 欧美一级大片在线免费观看| 伊人国产在线观看| 国模大胆一区二区三区| 免费91麻豆精品国产自产在线观看| 亚洲国产日韩一区无码精品久久久| 日本一区福利在线| 亚洲国产欧美久久| chinese麻豆新拍video| 51亚洲精品| 日韩欧美在线影院| 女教师高潮黄又色视频| 国产精区一区二区| 欧美一区二区国产| 亚洲一区二区三区三州| 欧美经典影片视频网站| 欧美一级二级三级蜜桃| 伦伦影院午夜理论片| 麻豆国产一区| 精品少妇一区二区三区视频免付费| 无套白嫩进入乌克兰美女| 日韩激情精品| 亚洲第一综合天堂另类专| 亚洲香蕉中文网| 欧美顶级毛片在线播放| 亚洲欧美综合精品久久成人| 国产一二三四五区| 日韩免费av| 欧美成人精品三级在线观看 | 欧美综合精品| 亚洲欧美日本精品| 欧美日韩国产黄色| 国产精品国产三级国产在线观看| 久久亚洲精品成人| 国产精品第二十页| 久久青草久久| 91精品国产自产在线观看永久| 国产色片在线观看| www.亚洲色图| 亚洲7777| 毛片在线网址| 色狠狠综合天天综合综合| 91日韩视频在线观看| 91成人app| 亚洲国产三级网| 娇妻被老王脔到高潮失禁视频| 欧美大片aaaa| 97久久伊人激情网| 中文字幕乱码中文字幕| 国产高清久久久| 久久久久久国产精品免费免费| 精品美女视频在线观看免费软件| 中文字幕视频一区| 欧美视频免费看欧美视频| 色8久久影院午夜场| 日韩一区二区三区电影在线观看| 日本一区二区在线免费观看| 久久国产综合| 91精品国产精品| 在线视频你懂得| 成人免费高清视频在线观看| 日韩av一区二区三区美女毛片| 国产黄a三级三级三级av在线看| 精品久久久久久电影| 午夜国产一区二区三区| 国产精品毛片av| 日韩在线视频网| 国产做受高潮漫动| 国产综合色视频| 日本亚洲导航| av福利导福航大全在线| 欧美日韩久久不卡| 久久久精品人妻无码专区| 在线成人激情| 国产精品h片在线播放| 人妻无码中文字幕| 中文字幕色av一区二区三区| 亚洲熟妇无码一区二区三区导航| 欧美网站免费| 亚洲区在线播放| 国产成人亚洲欧洲在线| 国产麻豆日韩欧美久久| 亚洲欧美日韩不卡一区二区三区| 亚洲精华液一区二区三区| 日韩视频在线永久播放| 99热这里只有精品4| 久久久久.com| 久久综合中文色婷婷| 青春草视频在线观看| 欧美一区二区性放荡片| 国产视频123区| 久久午夜影视| 欧美精品亚洲精品| 理论不卡电影大全神| 精品日韩99亚洲| 毛片a片免费观看| 国产一区二区伦理| 五月天av影院| 国产精品国产亚洲精品| 日韩在线视频中文字幕| 成人午夜精品视频| 久久久99免费| 少妇性l交大片| 精品国产乱码久久久久久果冻传媒 | 久草网在线观看| 国产在线精品国自产拍免费| 一区二区在线观| 精品176极品一区| 色悠悠久久久久| 一级片在线免费观看视频| 国产精品三级av在线播放| 欧美性猛交xxx乱久交| av在线不卡顿| 成人在线视频网| 18在线观看的| 精品日产卡一卡二卡麻豆| 久久精品视频久久| av在线播放不卡| 北条麻妃在线观看| 欧美日韩激情| 成人黄色av网站| 性欧美1819sex性高清大胸| 欧美成人乱码一区二区三区| 久久精品视频8| 久久夜色精品一区| 一区二区三区视频网| 91精品高清| 粉嫩av免费一区二区三区| 国产美女情趣调教h一区二区| 亚洲激情久久久| 手机看片久久久| 国产精品成人午夜| 五月天六月丁香| 一区二区日本视频| 日韩三级电影免费观看| 日日狠狠久久| 亚州成人av在线| 懂色一区二区三区| 制服丝袜亚洲色图| 日韩精品一卡二卡| 亚洲国产高清不卡| 国偷自产av一区二区三区麻豆| 国产日韩亚洲| 一本一道久久久a久久久精品91| 精品国产三级| 日本一区二区三区四区视频| 免费av网站在线观看| 亚洲成成品网站| 看黄色一级大片| 一区二区在线电影| 蜜桃久久精品成人无码av| 国产另类ts人妖一区二区| 日本中文字幕网址| 日韩久久电影| 精品欧美日韩| 国产电影一区| 国产97在线|亚洲| 人人超在线公开视频| 在线电影欧美日韩一区二区私密| 亚洲美女综合网| 欧美日韩免费一区二区三区视频| 国产一卡二卡在线| 综合av第一页| 中文字幕欧美激情极品| eeuss影院一区二区三区| 加勒比av中文字幕| 美女黄色成人网| 成年人网站国产| 91精品国产自产在线观看永久∴| 欧美二区在线看| 99这里只有精品视频| 国产欧美日韩精品丝袜高跟鞋| 黄色软件视频在线观看| 欧美成人免费大片| 丝袜美腿美女被狂躁在线观看| 精品小视频在线| 国产18精品乱码免费看| 欧美精品久久一区二区三区| 欧美一区免费看| 午夜国产不卡在线观看视频| 欧美黄色aaa| 国产精品久久午夜夜伦鲁鲁| 无码h肉动漫在线观看| 成人免费福利片| 韩国三级在线看| 国产精品亚洲第一| 小早川怜子一区二区三区| 日韩av一二三| 成年人小视频网站| 中日韩视频在线观看| 福利视频免费在线观看| 欧美激情五月| 欧美一二三不卡| 欧美一区久久| 佐佐木明希av| 中文av一区| www.-级毛片线天内射视视| 欧美oldwomenvideos| 亚洲国产精品日韩| 日韩精品二区| 伊人情人网综合| 国产高清久久| av不卡在线免费观看| 午夜精品一区二区三区国产| 一本一本久久a久久精品综合妖精| 欧美日韩中文字幕一区二区三区| 欧美精品一区二区三区在线看午夜 | av成人亚洲| 国产精品视频久| 亚州欧美在线| 69堂成人精品视频免费| 久久综合偷偷噜噜噜色| 福利精品视频| 久久久久97| 青青草国产精品| 日韩欧美午夜| 激情视频小说图片| 亚洲第一伊人| 91看片就是不一样| 免费在线观看不卡| 伊人色在线视频| 国产v日产∨综合v精品视频| 日韩少妇一区二区| 久久综合久久久久88| 亚洲无人区码一码二码三码的含义| 欧美国产日韩亚洲一区| 精品无码一区二区三区蜜臀| 夜夜嗨av一区二区三区| 你懂的国产视频| 在线精品亚洲一区二区不卡| 国产精品久久婷婷| 亚洲国产福利在线| 高h视频在线| 欧美日韩999| 欧美电影免费观看| 91在线精品视频| 欧美交a欧美精品喷水| 色噜噜一区二区| 欧美日韩一区自拍| 国产精品无码专区av在线播放| 蜜桃视频一区二区三区在线观看| 少妇愉情理伦片bd| 久久精品视频网| 四虎影院中文字幕| 欧美日韩激情视频| 国产又粗又猛又爽| 精品视频一区在线视频| 色哟哟免费在线观看 | 在线观看亚洲天堂| 欧美久久久久免费| 亚洲aaa在线观看| 久久精品成人欧美大片| av在线视屏| 91精品久久久久久久久久另类 | 日韩人妻一区二区三区蜜桃视频| 日韩午夜免费视频| 性欧美在线视频| 久久久精品欧美丰满| 久久久久免费看| 欧美日韩国产中文| 青草久久伊人| 欧美极品少妇与黑人| 免费视频成人| 欧美不卡福利| 伊人久久大香线蕉综合热线| 91亚洲精品久久久蜜桃借种| 久久亚洲精精品中文字幕早川悠里 | 亚洲成人www| 国产av一区二区三区精品| 在线国产精品播放| а√天堂资源官网在线资源| 91九色国产在线| 久久激情电影| 激情五月亚洲色图| 99re热视频精品| 久久久久久久国产视频| 欧美高清视频一二三区| 成人在线观看一区| 青青草精品毛片| 久久悠悠精品综合网| 日韩成人手机在线| 国产乱色国产精品免费视频| 在线观看天堂av| 欧美日韩中文字幕一区| 国产专区在线播放| 欧美自拍视频在线观看| 欧美日韩导航| 欧美 日韩 国产 高清| 成人性生交大片免费看视频在线| 欧美性生交大片| 欧美日韩一区精品| wwwww在线观看免费视频| 国产成人精品av| 精品一区在线| 不卡影院一区二区| 91蝌蚪porny九色| 日韩精品久久久久久免费| 日韩国产欧美区| 偷拍自拍在线看| 欧美系列一区| 日韩不卡在线观看日韩不卡视频| 丰满圆润老女人hd| 91国产丝袜在线播放| 国产午夜视频在线观看| 国产精品久久久久久久久免费看 | 99久久综合色| 国产亚洲欧美在线精品| 亚洲欧美中文日韩在线| 电影亚洲一区| 久久免费看毛片| 国产精品主播直播| 久操视频免费在线观看| 精品国产乱码久久久久久闺蜜 | 三级男人添奶爽爽爽视频| 午夜精品视频在线观看| 香蕉视频免费在线看| 欧美综合第一页| 青青草国产免费一区二区下载| 天天干天天草天天| 亚洲欧美另类久久久精品2019| www.久久色| 91超碰caoporn97人人| 一本久久青青| 亚洲黄色小视频在线观看| 日韩美女视频一区| 亚洲国产剧情在线观看| 欧洲亚洲女同hd| 日韩电影二区| 野花视频免费在线观看| 精品日韩美女的视频高清| 国产日本在线观看| 92国产精品久久久久首页| 亚洲视频免费| 精品人妻中文无码av在线| 欧美一区二区不卡视频| 涩涩视频在线播放| 亚洲精品国产精品国自产观看| 国产精品一区二区黑丝| 老熟妇仑乱一区二区av| 久久躁狠狠躁夜夜爽| 日本午夜精品久久久| 免费精品99久久国产综合精品应用| 亚洲午夜在线观看视频在线| 国产在线三区| 成人18视频| 免费人成在线不卡| 日本最新中文字幕| 日韩在线视频二区| 性欧美lx╳lx╳| theporn国产精品| 日韩欧美亚洲综合| 污污片在线免费视频| 日韩电影免费观看在| 成人动漫精品一区二区| 国产有码在线观看| 欧美资源在线观看| 国一区二区在线观看|