精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長文本有了專屬困惑度!北大、MIT、阿里推出LongPPL新指標

人工智能 新聞
近期研究發現,困惑度在長文本任務中的適用性存在顯著局限性:某些在困惑度指標上表現優異的模型,在實際長文本應用中卻未能達到預期效果。

隨著大模型在長文本處理任務中的應用日益廣泛,如何客觀且精準地評估其長文本能力已成為一個亟待解決的問題。

傳統上,困惑度(Perplexity, PPL)被視為衡量模型語言理解與生成質量的標準指標——困惑度越低,通常意味著模型對下一個詞的預測能力越強。由于長文本可被視為一般文本的擴展,許多研究自然地通過展示模型在長文本上的低困惑度來證明其長文本泛化能力的有效性。但你知道,這個評估方式可能完全錯了嗎

近期研究發現,困惑度在長文本任務中的適用性存在顯著局限性:某些在困惑度指標上表現優異的模型,在實際長文本應用中卻未能達到預期效果。如圖 1(上)所示,在 9 種主流長文本大模型上,困惑度(y 軸)與模型在長文本任務中的真實表現(x 軸)之間的相關性極低。這一反常現象引出了一個關鍵問題:為何困惑度(PPL)在長文本場景下失效

圖片圖 1 大模型的困惑度 (PPL) 和長文本困惑度 (LongPPL) 與長文本任務集 LongBench 分數的相關性。

針對這一問題,北京大學王奕森團隊與 MIT、阿里一道開展了深入研究,探討困惑度在長文本任務中失效的原因,并提出全新指標 LongPPL,更精準反映長文本能力。

通過實驗,他們發現長文本中不同 token 對長距離上下文信息的依賴程度存在顯著差異。其中,對長上下文信息依賴較強的 token 在評估模型的長文本處理性能時起到關鍵作用,但這類 token 在自然文本中只占少數。這表明,困惑度失效的原因在于其對所有 token 進行平均計算,無法充分關注這些與長文本能力關系密切的關鍵 token

為此,他們將困惑度的計算限制在長文本的關鍵 token 上,從而定義出能夠反映模型長文本處理能力的長文本困惑度(LongPPL),該指標表現出與長文本任務性能極高的相關性 (如圖 1(下))。此外,他們還基于這一設計思想提出長文本交叉熵損失(LongCE),顯著提升了模型通過微調增強長文本處理能力的效果。

圖片

  • 論文題目: What is Wrong with Perplexity for Long-context Language Modeling?
  • 論文地址: https://arxiv.org/abs/2410.23771
  • 代碼地址: https://github.com/PKU-ML/LongPPL

并非所有 token 都反映模型長文本能力

為探討困惑度在長文本任務中失效的原因,作者首先分析了長文本與短文本在本質上的差異。直觀來看,一段文本中不同詞語對長距離上下文的依賴程度存在顯著差異。例如,在小說中,某個情節的發展可能需要與數章之前埋下的伏筆相呼應,而某些語法上的固定搭配則通常無需依賴較遠的上下文。在長文本場景下,這種依賴程度的差異較短文本更為顯著。

為了量化并驗證這一直觀認識,本文首先考慮了一個簡單的任務場景——LongEval 長文本鍵值對檢索任務(圖 2(a))。在此任務中,模型根據問題在長上下文中檢索出與給定鍵相匹配的值。本文將問題的標準回答劃分為非答案部分(藍色)和答案部分(橙色)。顯然,非答案部分的生成僅依賴短上下文,即最后的問句內容;而答案部分則需要模型聚焦于完整的長上下文信息。

圖 2 (b)(c) 表明,答案部分的困惑度與模型在此任務中的實際表現高度相關,而非答案部分的困惑度幾乎與任務表現無關。由此可見,依賴長上下文信息的關鍵 token 在評估模型的長文本能力時更加重要。

圖片圖 2(a)LongEval 任務示意圖 (b)(c) LongEval 的答案 / 非答案部分的困惑度與任務表現的相關性。

通過長-短上下文對比在自然文本中定位關鍵 token

在上述結果的啟發下,一個自然而然的想法是:若將困惑度指標限定于依賴長上下文信息的關鍵 token 上,便可更有效地評估模型處理長文本的能力。

然而,實際應用中存在一個挑戰:在自然文本中,無法像 LongEval 基準中那樣明確標注哪些 token 依賴于長距離上下文,因此迫切需要一種指標來自動識別這些關鍵 token。

為了解決這一問題,本文提出了一種長-短上下文對比的方法。具體而言,本文將每個 token x_i 的長上下文 l_i=(x_1,…,x_(i-1)) 截斷成短上下文 s_i=(x_(i-K),…,x_(i-1)),然后計算模型 θ 在長 / 短上下文下生成同一 token 的(對數)概率差距 (Long-short difference, LSD):

圖片

這一指標用于量化長上下文對模型預測準確度的提升。圖 3 表明,在 LongEval 任務中,LSD 幾乎能夠完美區分答案部分和非答案部分。與長上下文信息相關的答案部分 LSD 值普遍大于 2,而與長上下文信息幾乎無關的非答案部分 LSD 值普遍在 - 0.5 到 0.5 之間。這一結果初步驗證了該指標在定位關鍵 token 方面的有效性。

圖片圖 3 LongEval 標準回答中不同類型的 token 按 LSD 分類的分布。

此外,本文發現模型基于長文本的(對數)生成概率 (Long-context likelihood, LCL) 也有助于定位關鍵 token(在此不做展開):

圖片

困惑度無法反映模型長文本能力的原因

進一步,本文在 GovReport 政府報告數據集上計算了按 LSD 分類的 token 分布。如圖 4 所示,大部分 token 的 LSD 集中在 [-0.5, 0.5) 范圍內,而 LSD 大于 2 的 token 占比不到 10%。這意味著在自然文本中,只有非常少數的 token 與長上下文中的信息有強相關性,而絕大部分的 token 只需要依賴短上下文的信息即可生成。

這一結果表明,困惑度在長文本上失效的原因在于其對所有 token 進行平均計算,未能充分關注長文本中這些少數的關鍵token

圖片圖 4 GovReport 數據集中 token 按 LSD 分類的分布。

長文本困惑度——長文本能力評估指標的改進

基于上述分析,為了克服傳統困惑度指標在長文本場景下的局限性,本文提出了一個新的評估指標——長文本困惑度(LongPPL)。具體設計為:

圖片

其核心思想在于通過 LSD 和 LCL 指標,將困惑度的計算限制在長文本的關鍵 token 上,從而聚焦于關鍵 token 的預測質量,以更準確地反映模型的長文本能力。

實驗結果表明,模型在自然文本上的 LongPPL 和長文本任務的實際表現高度相關。如圖 1(下)所示,在 GovReport 數據集上,9 個主流長文本大模型的 LongPPL 與在 LongBench 任務集上表現的皮爾遜相關系數達到了 - 0.96。

長文本交叉熵——長文本訓練方法的優化

除了用于評估長文本能力外,本文還基于 LongPPL 的思想提出了一種改進的訓練損失 —— 長文本交叉熵(LongCE):

圖片

在提升模型長文本能力的微調過程中,LongCE 會賦予關鍵 token 更高的權重,使得模型在訓練中更加聚焦提升這些關鍵 token 的預測準確性,從而增強模型在長文本任務中的表現。

為了驗證 LongCE 的有效性,研究團隊在 Llama-2-7b 模型的基礎上進行了多組對比實驗。

實驗設計涵蓋了不同的訓練數據集(包括 PG-19 書籍數據集和 Pile-arxiv 論文數據集)以及不同的訓練方法(包括熵感知基調整 EABF 和位置插值 PI,其中 EABF 與 Deepseek-v3 采用的 YaRN 插值方法相似)。實驗評估采用了 LongBench、LongEval 和 RULER 這三個廣泛使用的長文本測試任務集。

實驗結果表明,在各種實驗設定下,采用 LongCE 進行微調的大模型在長文本處理能力上均顯著優于使用傳統交叉熵損失函數進行微調的模型。這表明,不僅是評估,長文本的訓練也應根據其特點來設計損失函數,而非簡單地沿用短文本場景的損失函數

值得注意的是,由于當前主流的長文本泛化方法主要集中于模型架構和參數的優化,而未涉及訓練損失函數的改進,因此 LongCE 可以與這些方法實現無縫結合,展現出廣闊的應用前景和強大的性能提升潛力。

圖片表 2 使用不同的損失函數在長文本數據上微調的大模型的長文本性能。

更多文章細節,請參考原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-27 14:34:42

算法MIT機器翻譯

2025-05-28 09:09:00

2013-04-10 16:04:22

SDNOpenFlowOpenDayligh

2020-01-08 15:19:58

代碼開發工具

2020-11-09 11:29:20

區塊鏈

2012-03-09 13:56:27

MITAndroid開發工具

2023-11-16 12:38:14

2025-06-30 13:10:37

AISEALMIT

2012-03-08 21:38:26

Android

2018-06-13 15:47:10

阿里文學

2018-06-15 14:43:46

2025-10-30 08:53:34

2021-01-15 09:30:36

算法技術數據

2025-05-27 15:28:47

模型推理AI

2011-06-17 09:20:35

MariaDB

2022-07-07 11:25:50

JavaScriptLicenseMozilla

2019-03-21 19:19:35

新零售阿里云零售云

2024-08-07 14:40:00

AI數據

2023-10-14 15:22:22

2023-10-09 14:17:00

AI模型
點贊
收藏

51CTO技術棧公眾號

亚洲人成网站77777在线观看| 亚洲一级在线播放| 欧洲午夜精品| 国产精品国产三级国产aⅴ入口| 成人av在线亚洲| 国产精品国产三级国产专业不| 欧洲午夜精品| 午夜精品影院在线观看| 久久av一区二区| 人人妻人人爽人人澡人人精品| 日韩免费一区| 亚洲成人久久久久| 亚洲五月天综合| 伊人在我在线看导航| 东方欧美亚洲色图在线| 91精品国产91久久久久久最新| 在线观看福利片| 国产精品美女久久久久| 欧美日韩视频免费播放| 在线观看亚洲视频啊啊啊啊| 国内精品国产成人国产三级| 美女国产一区| 精品少妇v888av| 国产白嫩美女无套久久| 国产亚洲高清一区| 在线观看日产精品| 成年人视频大全| 国产福利在线看| 成人综合在线网站| 成人精品在线观看| 国产一级片免费视频| 欧美日韩亚洲三区| 日韩中文在线中文网在线观看| 日批视频免费看| 欧美日韩亚洲国产| 黄网站色欧美视频| 国产爆乳无码一区二区麻豆| 在线观看免费黄视频| 99久久精品费精品国产一区二区| 国产在线视频2019最新视频| 日日摸天天添天天添破| 国内视频精品| 中文字幕国产精品久久| 88av在线播放| 日韩精品成人在线观看| 欧美日韩精品福利| 乱子伦视频在线看| 午夜影院在线观看国产主播| 亚洲一级二级在线| 亚洲国产一二三精品无码| eeuss影院www在线观看| 久久久久国产成人精品亚洲午夜| 国产亚洲欧美一区二区| а√天堂资源在线| 国产真实乱对白精彩久久| 国产精品私拍pans大尺度在线| 久久青青草视频| 亚洲美女色禁图| 久久久之久亚州精品露出| www青青草原| 欧美在线1区| 理论片在线不卡免费观看| 天堂网中文在线观看| 日韩成人a**站| 在线电影av不卡网址| 亚洲精品一区二区三区影院忠贞| 久久99蜜桃| 亚洲日本欧美日韩高观看| av在线网站观看| 外国成人在线视频| 亚洲视频国产视频| 国产jjizz一区二区三区视频| 久久99国内| 在线观看欧美日韩国产| 国产3级在线观看| 91精品天堂福利在线观看| 久久综合色88| 青青草在线观看视频| 欧美日一区二区在线观看| 欧美激情亚洲一区| www.av麻豆| 久久尤物视频| 国产一区二区色| 国产手机av在线| 成人性生交大片免费| 久久爱av电影| 1769在线观看| 一区二区成人在线| 成人在线视频国产| 日韩在线一区二区| 国产精品美乳一区二区免费| 一级淫片免费看| 国产伦精品一区二区三区免费 | 日本在线观看免费| 自拍偷拍欧美激情| 国产a级片网站| av在线日韩| 欧美一区二区三区性视频| 97人妻精品一区二区三区免费| 色婷婷久久久| 日韩视频一区在线| 日韩xxxxxxxxx| 欧美bbbbb| 91一区二区三区| 黄色片视频在线观看| 亚洲人吸女人奶水| 2022亚洲天堂| 激情不卡一区二区三区视频在线| 日韩电影大片中文字幕| 国内毛片毛片毛片毛片毛片| 亚洲欧洲视频| 91精品中文在线| 亚洲av成人无码久久精品老人 | 日韩午夜在线观看视频| 成都免费高清电影| 国产精品vip| 国产精品久久久久免费a∨大胸| www.五月天激情| 日本一区二区不卡视频| 麻豆tv在线播放| 久久亚洲人体| 亚洲欧美日韩久久久久久| 欧美成人一区二区三区高清| 日本欧美一区二区| 久久精品99久久| av超碰免费在线| 欧美色倩网站大全免费| 精品无码在线视频| 欧美三级网页| 成人激情av在线| 国产天堂素人系列在线视频| 五月开心婷婷久久| 三级黄色片免费看| 日韩毛片视频| 国产精品免费一区豆花| 日本私人网站在线观看| 亚洲国产日韩一区二区| 国模大尺度视频| 偷拍欧美精品| 国产精品久久婷婷六月丁香| 午夜影院在线视频| 亚洲不卡在线观看| 91人人澡人人爽| 91精品天堂福利在线观看| 国产日韩欧美综合| 91精品国产综合久久久久久豆腐| 色综合一个色综合| 中文字幕无码人妻少妇免费| 国内自拍视频一区二区三区| 99精品99久久久久久宅男| yellow91字幕网在线| 在线播放91灌醉迷j高跟美女 | 不卡av在线网站| 国产又黄又大又爽| 国产精品理伦片| 色婷婷成人在线| 日韩电影免费网址| 国产欧美在线看| 免费大片黄在线观看视频网站| 欧美伊人久久久久久午夜久久久久| 久久只有这里有精品| 三级久久三级久久| 色一情一乱一伦一区二区三区| 欧美色999| 夜夜嗨av色综合久久久综合网| 国产无遮挡又黄又爽又色视频| 国产亚洲综合色| 天堂中文视频在线| 日韩一区二区在线| 亚洲aaa激情| 欧美草逼视频| 日韩av网站导航| chinese国产精品| 国产人成一区二区三区影院| 日韩精品你懂的| 99久久影视| 国产传媒一区| 超碰一区二区| 中文字幕日韩欧美精品在线观看| 一级片免费网站| 亚洲乱码精品一二三四区日韩在线| 在线观看免费看片| 亚洲精品韩国| 日韩精品久久久免费观看| 亚洲一区二区小说| 高清一区二区三区日本久| 日本一级在线观看| 制服丝袜亚洲网站| 九九热国产视频| 国产欧美一区二区精品秋霞影院| 一区二区久久精品| 一区二区三区国产盗摄| 天堂一区二区三区| 成人看片黄a免费看视频| 国产99久久精品一区二区 夜夜躁日日躁 | 国产一区二区三区四区三区四| 国产呦系列欧美呦日韩呦| 午夜激情成人网| 欧美wwwxxxx| 欧美少妇另类| 日韩一区二区三区精品视频| 午夜婷婷在线观看| 亚洲欧美日韩久久精品| 激情综合丁香五月| 国产一区二区在线免费观看| 91国视频在线| 这里只有精品在线| 欧美一区二区三区成人久久片| 国产精品亚洲一区二区在线观看| 欧美一级淫片丝袜脚交| wwwav在线| 在线观看日韩www视频免费| 亚洲毛片在线播放| 欧美色爱综合网| 西西44rtwww国产精品| 亚洲男人的天堂av| 欧美偷拍一区二区三区| 粉嫩绯色av一区二区在线观看| 国产高潮免费视频| 国产一级久久| 欧美日韩激情四射| 四虎国产精品免费观看| 欧美凹凸一区二区三区视频| 一区二区网站| 成人国产精品一区二区| 波多野结衣亚洲| 91国在线精品国内播放 | 国产精品久久久久精k8| 中文字幕丰满乱子伦无码专区| 国产成人午夜精品5599| 天天操狠狠操夜夜操| 久久精品女人| 国精产品一区一区三区视频| 国产精品mv在线观看| 国产卡一卡二在线| 欧美激情国产在线| 亚州欧美一区三区三区在线 | 黄色片子在线观看| 国产精品卡一卡二卡三| 人妻体内射精一区二区| av中文字幕亚洲| 性活交片大全免费看| 国产乱国产乱300精品| 爱豆国产剧免费观看大全剧苏畅| 蜜臀av性久久久久蜜臀av麻豆| 国产成人久久777777| 久久久国产精品一区二区中文| 俄罗斯av网站| 亚洲专区免费| 免费在线a视频| 亚洲免费中文| 国产最新免费视频| 欧美亚洲在线| 人妻熟女一二三区夜夜爱| 性欧美暴力猛交另类hd| 粗暴91大变态调教| 久久午夜激情| 黄色片在线免费| 美女视频黄免费的久久| 最新天堂在线视频| 激情五月播播久久久精品| √天堂资源在线| 国产高清不卡二三区| 亚洲妇女无套内射精| 成人中文字幕电影| 波多野结衣福利| 久久九九久精品国产免费直播| 成人黄色免费网址| 中文字幕在线不卡| 国产av无码专区亚洲av毛网站| 亚洲精选一二三| 欧美成人aaaaⅴ片在线看| 懂色av一区二区三区| 日日摸天天添天天添破| 欧美日韩在线直播| 国产chinasex对白videos麻豆| 日韩精品一区二区在线观看| 熟妇人妻中文av无码| 亚洲人成电影网站色xx| 91在线网址| 久久91超碰青草是什么| 96av在线| 国产精品免费视频久久久| 麻豆国产一区二区三区四区| 国产精选在线观看91| 九九久久精品| 天天综合中文字幕| 99在线精品视频在线观看| 国产熟人av一二三区| 国产一区二区三区日韩| aaaa黄色片| 国产精品毛片无遮挡高清| 青娱乐av在线| 在线免费亚洲电影| 精品国产亚洲AV| 亚洲欧美激情精品一区二区| 黄色一级片在线观看| 88xx成人精品| 免费一区二区三区四区| 国产女主播一区二区| 久久国产成人精品| 可以在线看的av网站| 蜜桃视频在线观看一区二区| 久草免费资源站| 中文字幕不卡的av| 91精品国产乱码久久久张津瑜| 欧美视频在线一区二区三区| 日本xxxxwww| 日韩在线www| 忘忧草在线日韩www影院| 亚洲mm色国产网站| 久久夜色精品亚洲| 99精品国产热久久91蜜凸| 国产又粗又长免费视频| 天天综合网天天综合色| 国产精品久久无码一三区| 亚洲国产成人精品久久| 国产婷婷视频在线| 国产精品久久久久久搜索| 欧美亚洲大陆| 日本男女交配视频| 久久成人久久鬼色| 国产精品天天干| 天天综合网 天天综合色| 国产女同91疯狂高潮互磨| 国产一区二区三区在线| 夜鲁夜鲁夜鲁视频在线播放| 99九九视频| 91精品秘密在线观看| 人人干人人干人人| 久久精品视频一区| 久久精品视频1| 亚洲激情视频在线观看| 先锋成人av| 成人国产精品免费视频| 日本欧美国产| 日日摸天天爽天天爽视频| 99久久精品费精品国产一区二区| 精品在线视频观看| 欧美tk丨vk视频| 在线午夜影院| 亚洲自拍在线观看| 亚洲乱码精品| 日韩成人av免费| 亚洲欧洲精品天堂一级| 亚洲香蕉在线视频| www.欧美三级电影.com| 午夜av成人| 亚洲欧美日韩不卡一区二区三区| 日韩国产欧美在线播放| 中文字幕免费在线看线人动作大片| 欧美性猛交xxxx免费看| 男同在线观看| 国产v综合ⅴ日韩v欧美大片 | 日韩啊v在线| 视频一区二区三区入口| 欧洲美熟女乱又伦| 欧美色手机在线观看| 黄网页在线观看| 999精品视频一区二区三区| 欧美视频四区| aaaa黄色片| 91久久精品网| 素人av在线| 亚洲综合自拍一区| 亚洲高清在线| 无遮挡aaaaa大片免费看| 色噜噜狠狠一区二区三区果冻| 国产一区精品| 成人字幕网zmw| 欧美日韩第一区| 中文字幕免费在线播放| 色哟哟一区二区在线观看| 69久久夜色| 国产高清自拍99| 久久久久久网| 亚洲色图日韩精品| 日韩免费性生活视频播放| 国产少妇在线观看| 不卡区在线中文字幕| 免费毛片在线播放免费| 亚洲精品白浆高清久久久久久| 日韩精品专区| 青青在线免费视频| 99国产精品久久久久久久久久 | 一区二区三区四区五区在线 | 国产婷婷在线视频| 性亚洲最疯狂xxxx高清| 精品国产一区二区三区| 中文字幕一区二区在线观看视频| 亚洲一区二区三区视频在线| 欧美日本韩国一区二区| 91九色视频导航| 日韩午夜激情| 成人黄色短视频| 亚洲成av人片在线观看香蕉| 国产成人亚洲一区二区三区| 国产精品三级一区二区| 国产欧美精品一区二区色综合朱莉| 国产超碰人人模人人爽人人添|