精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

IdentifyMe:一個具有挑戰性的長文本指代消解基準測試

發布于 2024-11-20 14:48
瀏覽
0收藏

1 引言

共指消解(CR)是文本理解的一個基本任務。盡管LLMs在廣泛的NLP任務上取得了巨大進展,但它們在CR上的表現相對不盡人意,甚至在指稱檢測上也面臨困難。通過廣泛分析,Gan等人(2024)的工作已經確定,在典型的CR設置中,由于基于跨度的輸出格式不適合LLMs,因此低估了LLMs出色的指稱理解能力。他們建議調整CR數據集和任務指標,以支持LLMs的評估。

沿著這些思路,我們創建了IdentifyMe基準測試,用于MCQ格式的指稱消解,這種格式通常用于LLMs的評估。為了構建基準測試,我們使用了來自兩個長文本共指基準測試LitBank和FantasyCoref的注釋。為了使基準測試具有挑戰性,我們限制了它只包括代詞和名詞指稱,并為每種指稱類型應用了一些啟發式方法,以過濾掉容易解決的案例。每個MCQ實例都包含了標記有感興趣指稱的文本,選項包括文本中經常出現的實體和“以上都不是”(NoA)選項。圖1展示了從LitBank派生的IdentifyMe中的一個示例。

我們對閉源和開源模型進行了評估。平均而言,LLMs在代詞指稱上的表現比名詞指稱要差,代詞指稱由于其有限的表面信息而更難識別。對于所有模型來說,“以上都不是”作為正確答案的實例尤其具有挑戰性,開源模型的準確率下降了超過50%。在嵌套指稱的情況下,LLMs往往會在具有重疊指稱的實體之間產生混淆。得分最高的模型GPT-4o在IdentifyMe上獲得了81.9%的準確率,突顯了前沿LLMs在指稱能力方面的強大實力,同時也表明在這一領域仍有很大的改進空間。

2 IdentifyMe基準測試

IdentifyMe是一個基于MCQ的基準測試,給定一個帶有標記指稱的文檔,任務是識別它所指的實體。我們從專注于文學文本的兩個共指數據集LitBank和FantasyCoref中派生了這些指稱。這些數據集提供了長篇上下文(FantasyCoref平均為1700個詞,LitBank為2000個詞),并具有多個實體及其豐富的相互依賴性(例如,Mr. 和 Mrs. Pett),這使得解決指稱變得更加具有挑戰性。雖然LitBank提供了多樣的寫作風格和語言結構,但FantasyCoref包括的實體通常會采取不同的形式(例如,偽裝和變形),或者在其頭銜上發生變化(例如,Prince Rudolph在加冕后被稱為The Emperor),這進一步增加了實體映射的復雜性。

共指注釋將指向同一實體的指稱分組為未標記的簇。然而,為了創建一個以實體為選項的MCQ,我們需要為每個簇分配一個代表性短語。我們使用GPT-4o-mini(見表8)根據它們的提及和頻率為每個實體生成短語。這些注釋經過手動審查,以確保每個實體都有一個獨特的短語。

為了防止混淆,我們丟棄并避免標記那些:(i)包含注釋錯誤的簇(例如,由于簇合并或分裂);(ii)太小(<3個提及)或難以/模糊標記的簇(例如,像some這樣的實體);(iii)復數實體,因為它們通常缺乏可以從提及中派生的明確表面形式。

使用標記簇中的提及,從文檔中創建一個MCQ,所有標記的實體都作為選項提供。為了創建一個高質量的基準測試,我們排除了短上下文文檔(<1000個詞)或那些被丟棄的實體占超過50%提及的文檔。

2.1 選擇IdentifyMe的指稱

基于之前利用基于規則的語言模式來執行(Zhou and Su, 2004; Lee et al., 2013)或分析(Haghighi and Klein, 2009; Otmazgin et al., 2023)共指消解的工作,我們提出了一種兩步啟發式方法來識別具有挑戰性的指稱。

步驟1:丟棄簡單指稱。我們應用兩個標準來過濾掉由于句法相似性而可以輕松解決的指稱:

A. 名詞模糊分數計算名詞指稱與相應實體的代表性短語之間的模糊相似度(靈活對待順序和子集擾動)。得分為75%或更高的指稱被丟棄,因為我們期望它們更容易被正確識別。

B. 網絡干擾分數。我們根據性別、數量和活性等屬性對代詞指稱進行分類(LingMess)。附近具有相同類別的代詞指稱(代詞),并且指向同一實體的,可能有助于輕松識別標記指稱。另一方面,那些來自不同類別但同一實體或同一類別但不同實體的指稱可能使其更難識別。我們將標記指稱的網絡干擾分數定義為阻礙識別的相鄰代詞數量減去有助于識別的數量。我們丟棄得分為≤0的指稱。

步驟2:按難度對指稱進行排名。過濾后的指稱從最難到最易進行排名:對于名詞,較低的名詞模糊分數是首選;對于代詞,較高的網絡干擾分數是首選。此外,標記指稱與同一實體的其他指稱之間的距離也表明了難度。我們考慮距離最近的指稱、最近的名詞指稱和最近的類似于代表性短語的指稱作為進一步排名的標準。所有這些單獨的標準結合使用Copeland的方法(Copeland, 1951),通過評估成對勝負來確定最終排名。

2.2 數據集統計

IdentifyMe包括基于上述排名方法選出的1800個最難的問題。這些問題來自159篇文檔(LitBank 64篇,FantasyCoref 95篇)。其中,隨機選取的600個問題用作提示調整和消融實驗的驗證集。所有問題都包含一個“以上都不是”(NoA)選項,以鼓勵模型以更大的確定性做出回應。為了評估模型是否可以選擇NoA作為正確答案,我們從10%的問題中移除了原始的正確實體。數據集在驗證和測試分割中都是跨源數據集和指稱類型(代詞和名詞)平衡的。

2.3 IdentifyMe是否包含難指稱?

我們進行了一項實驗,以評估我們的指稱選擇過程的有效性。我們沒有采用上述方法,而是隨機挑選指稱并評估模型識別它們的能力。Mistral-7B的性能差距為9.5%,而更為穩健的GPT-4o-mini的性能差距為7.2%,這表明IdentifyMe包含了更具挑戰性的指稱。

3 實驗

3.1 模型

在閉源模型中,我們評估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于計算限制,我們將開源模型的評估限制在10B以下的變體:Llama-3.1-8B和Mistral-7B。

3.2 MCQ設置

選定的指稱在原文中用特殊標記括起來。零樣本提示指導模型從給定的實體集合和NoA中檢索并重新解決指稱,并識別它所指的人或事物。

3.3 推理細節

對于開源模型,我們使用regex-based受限解碼來限制答案僅為特定的實體代表性短語。我們還嘗試了鏈式思維(CoT)方法,指導模型在回答問題之前解釋其推理過程。結果表明,使用CoT可以提高模型性能。

3.4 結果

表3展示了LLMs在IdentifyMe測試集上的整體表現,以及按名詞和代詞指稱類型的細分。隨機基線在基準測試中的準確率為8%。盡管所有LLMs都優于隨機基線,但開源模型仍有很大的改進空間,Llama-3.1-8B的準確率僅為53.3%。GPT-4o是表現最好的模型,準確率為81.9%。同時,GPT-4o-mini作為一個經濟實惠的閉源選項,超越了較小的開源模型,但仍落后于GPT-4o和Gemini-1.5-Flash等頂級表現者。

3.5 錯誤分析

比較實體與NoA。表5提供了當正確選項為實體(Ent)與NoA時的準確率分布。此外,我們將錯誤分為三類:(a)真實值是實體而模型選擇了另一個實體(Ent-Ent),(b)真實值是實體但模型預測了NoA(Ent-NoA),以及(c)真實值是NoA但模型選擇了實體(NoA-Ent)。開源模型在NoA子集上的表現極差,導致高NoA-Ent錯誤。在閉源模型中,Gemini-1.5-Flash在NoA MCQs上的表現較差(下降48.3%),并傾向于在選擇NoA時選擇實體(83/120)。有趣的是,GPT-4o和GPT-4o-mini在NoA問題上更具彈性,分別僅下降了9.6%和0.9%。

嵌套指稱。數據集中包含352個嵌套指稱實例,其中一個指稱的范圍與另一個重疊。表6顯示,嵌套指稱的準確率與整體準確率相當。然而,當模型在解決這些指稱時出錯時,約40%的錯誤是因為預測的實體對應于重疊的指稱。

優點與創新

  1. 新的評估基準:引入了IdentifyMe,一個以多項選擇題(MCQ)格式呈現的提及解析新基準,適用于評估大型語言模型(LLMs)。
  2. 長文本和多樣化提及類型:IdentifyMe包含長文本(平均1700詞)和多種提及類型及其對應的實體,允許對模型性能進行細粒度分析。
  3. 排除易識別的提及:使用啟發式方法排除容易識別的提及,創建更具挑戰性的任務。
  4. 顯著的性能差距:在IdentifyMe上評估了閉源和開源LLMs,發現最先進的亞10B開放模型與閉源模型之間存在20-30%的性能差距。
  5. 高得分模型:最高得分的模型GPT-4o達到了81.9%的準確率,突顯了前沿LLMs的強大指代能力,同時也表明仍有改進空間。
  6. 鏈式思維提示:實驗中使用鏈式思維(CoT)方法提高了模型性能,特別是在處理“無答案”選項時。

不足與反思

  1. 領域限制:IdentifyMe僅限于文學領域,提及類型覆蓋有限(僅有名詞性和代詞性提及),且實體類型不包括復數實體。
  2. 數據集來源:使用的數據集可在線獲取,初步調查顯示LLMs無法重現整個故事的CoNLL注釋,盡管進行了大量處理,但仍有可能存在污染。

關鍵問題及回答

問題1:IdentifyMe基準測試是如何構建的?其獨特之處是什么?

IdentifyMe基準測試是基于多個選擇問題(MCQ)格式構建的,旨在評估大型語言模型(LLMs)在共指消解任務中的表現。其獨特之處包括:

  1. 長文本上下文:IdentifyMe使用了LitBank和FantasyCoref兩個長文本共指消解數據集中的注釋,這些數據集提供了平均1700到2000詞的上下文,使得任務更具挑戰性。
  2. 多樣化的提及類型:基準測試僅限于代詞性和名詞性提及,并對每種提及類型應用了一些啟發式規則以過濾掉容易解決的案例。
  3. 精心設計的MCQ:每個MCQ實例由一段帶有標記提及的文本組成,選擇項包括文本中頻繁出現的實體和“以上都不是”選項。
  4. 手動審核:為了確保每個實體的代表短語是獨特的,使用了GPT-4o-mini生成短語,并由人工審核。
  5. 排除易解決的案例:通過名詞模糊得分和凈干擾得分篩選出難以解決的提及,并按難度進行排序。

問題2:IdentifyMe基準測試的結果顯示LLMs在哪些方面存在困難?

  1. 代詞性提及的消解:LLMs在處理沒有明確表面形式線索的代詞性提及時表現較差,尤其是那些缺乏足夠上下文信息的代詞。
  2. 選擇“以上都不是”:當問題要求模型拒絕所有錯誤選項并選擇“以上都不是”時,LLMs的表現尤其糟糕,開源模型在這一子集上的準確率下降超過50%。
  3. 嵌套提及:在處理嵌套提及時,LLMs容易混淆重疊的提及。盡管嵌套提及的準確性與整體準確性相當,但模型在解決這些提及時的錯誤中有約40%是因為預測的實體對應于重疊的提及。

問題3:IdentifyMe基準測試對未來的研究和模型改進有何啟示?

  1. 改進評估方法:IdentifyMe展示了傳統共指消解評估方法和輸出格式無法充分捕捉LLMs的指代理解能力,提示需要開發更適合LLMs的評估方法。
  2. 增強模型訓練:LLMs在處理代詞性提及和嵌套提及時的困難表明,需要在模型訓練中加強對這些復雜指代關系的理解和生成能力。
  3. 更多樣化和復雜的基準測試:IdentifyMe的成功表明,設計多樣化和復雜的基準測試可以更好地評估和改進LLMs的性能,特別是在處理長文本和多種提及類型時。

本文轉載自 ??AI論文解讀??,作者:柏企

已于2024-11-20 16:53:46修改
收藏
回復
舉報
回復
相關推薦
aa级大片欧美| 久操国产精品| 香蕉av福利精品导航 | 久久免费影院| 一区二区高清视频在线观看| 国产亚洲欧美一区二区三区| 中文字幕天堂在线| 欧美二区不卡| 亚洲天堂2020| 秘密基地免费观看完整版中文 | 成人免费看片载| 欧美天堂视频| 亚洲自拍偷拍综合| 日韩欧美视频第二区| 成人av无码一区二区三区| 久久成人精品| 久久久免费在线观看| 成人激情五月天| 一本色道69色精品综合久久| 欧美在线视频你懂得| 日韩国产一级片| 免费高清完整在线观看| 91视频你懂的| 超碰97在线资源| 亚洲网站免费观看| 午夜亚洲性色福利视频| 日韩视频免费在线| 一区二区黄色片| 国产精品极品在线观看| 9191国产精品| 69久久久久久| 欧美大片1688| 狠狠色噜噜狠狠狠狠97| 男人的天堂avav| 超碰人人在线| 国产精品美女视频| 欧洲亚洲一区二区三区四区五区| 人妻va精品va欧美va| 久久精品99久久久| 国产精品久久久久久久久男| 国产www在线| 在线国产一区二区| 日韩亚洲国产中文字幕| 五月婷六月丁香| 国产一区99| 精品中文字幕久久久久久| 91精品啪在线观看国产| 国产麻豆一区二区三区| 91精品欧美综合在线观看最新| 日本美女高潮视频| av成人在线看| 精品视频在线免费观看| 天天干天天干天天干天天干天天干| 日韩脚交footjobhd| 午夜精品久久久久久久久久久| youjizz.com在线观看| 综合图区亚洲| 一区二区三区四区视频精品免费| 91视频成人免费| www.欧美日本韩国| 一区二区三区四区五区视频在线观看| 精品久久久无码人妻字幂| 菠萝菠萝蜜在线视频免费观看| 亚洲视频在线一区二区| 欧洲金发美女大战黑人| 四虎av在线| 亚洲成人资源在线| 草草久久久无码国产专区| 亚洲欧洲日本韩国| 欧洲精品一区二区三区在线观看| 妓院一钑片免看黄大片| 欧美视频在线视频精品| 欧美乱妇23p| 丰满人妻一区二区三区53视频| 一区二区三区在线资源| 亚洲福利精品在线| 一级黄色片大全| 色婷婷热久久| 欧美精品一二区| 香蕉视频一区二区| 久久久青草婷婷精品综合日韩| 国产精品电影一区| 国产又黄又粗又长| 高清av一区二区| 欧美久久综合性欧美| 18视频免费网址在线观看| 亚洲日本护士毛茸茸| 免费看毛片的网址| 欧美极品影院| 欧美一区二区性放荡片| 视频免费在线观看| 成人91在线| 色与欲影视天天看综合网| 成人免费视频毛片| 极品尤物av久久免费看| 国产福利不卡| www.在线视频.com| 一区二区国产视频| 欧美黄色一级片视频| vam成人资源在线观看| 亚洲国产毛片完整版| 中文字幕欧美激情极品| 欧美粗暴jizz性欧美20| 国产国语videosex另类| 99久久精品免费看国产交换| 91看片淫黄大片一级在线观看| 中日韩在线视频| 国产乱码午夜在线视频| 欧美日韩国产另类不卡| 国产人成视频在线观看| 国产精品成人一区二区不卡| 欧美一级片一区| 99热这里只有精品在线观看| 久久久久久日产精品| www.亚洲成人网| а√天堂资源国产精品| 亚洲黄在线观看| 97成人资源站| 日韩成人午夜电影| 国产亚洲欧美一区二区| 五月花成人网| 欧美精品丝袜中出| b站大片免费直播| 亚洲高清二区| 99re在线观看视频| 1pondo在线播放免费| 色综合久久99| 绯色av蜜臀vs少妇| 一区二区三区四区在线观看国产日韩| 日韩女优在线播放| 天天干天天操av| 一区二区成人在线视频| 久国产精品视频| 日本精品黄色| 国产精品毛片a∨一区二区三区|国| 无码国产精品96久久久久| 玉米视频成人免费看| 亚洲图色中文字幕| 成人影视亚洲图片在线| 国产99久久久欧美黑人| 五月婷婷久久久| 亚洲成人动漫精品| 久久久国产精品久久久| 亚洲精品va| 成人在线中文字幕| 日本综合在线| 欧美人体做爰大胆视频| 懂色av粉嫩av浪潮av| 日韩成人精品在线| 日本不卡一区| 日韩国产网站| 一色桃子一区二区| 亚洲一卡二卡在线观看| 国产精品美女一区二区在线观看| 在线观看国产一级片| 日韩欧美一区二区三区免费看| 青草热久免费精品视频| 经典三级在线| 欧美三日本三级三级在线播放| 色欲AV无码精品一区二区久久 | 亚洲一区二区三区四区的| 国产chinesehd精品露脸| 欧美日韩 国产精品| 国产v亚洲v天堂无码| ririsao久久精品一区| 亚洲精品久久久久久久久久久久久 | 99久久www免费| 亚洲精品欧美极品| 精品精品导航| 日韩精品在线看| 最新黄色网址在线观看| 亚洲视频资源在线| 国产高潮视频在线观看| 日韩一区二区久久| 日本一区二区视频| 婷婷丁香久久| 久久久久久久久久久网站| 天天干,夜夜操| 在线看不卡av| 国产av无码专区亚洲av毛网站| 成人午夜在线免费| 免费国产成人av| 91九色精品国产一区二区| 99视频日韩| 黄在线观看免费网站ktv| 揄拍成人国产精品视频| 国产丝袜视频在线观看| 偷拍日韩校园综合在线| 免费看黄色的视频| 秋霞影院一区二区| 女人床在线观看| 亚洲区小说区图片区qvod按摩| 国产日韩换脸av一区在线观看| 免费男女羞羞的视频网站在线观看| 精品无码久久久久久国产| 91精品在线视频观看| 婷婷中文字幕综合| 亚洲精品国产精品乱码在线观看| 国产成人免费在线观看| 精品www久久久久奶水| 亚洲精品99| 日韩伦理一区二区三区av在线| 日韩高清在线观看一区二区| 国产成人+综合亚洲+天堂| 青春草视频在线观看| 亚洲午夜精品久久久久久性色| 精品国产乱码一区二区三 | 性色av蜜臀av| 日本精品视频一区二区三区| 日韩欧美中文字幕视频| 国产欧美精品国产国产专区| 午夜福利三级理论电影| 久久精品国产999大香线蕉| 亚洲国产精品久久久久婷蜜芽| 911精品美国片911久久久| 欧美日韩在线高清| 精品国产影院| 亚洲一区二区免费| 搜成人激情视频| 97视频在线看| 日本在线视频www鲁啊鲁| 在线视频亚洲欧美| 日本一区高清| 亚洲第一天堂无码专区| jizz国产视频| 欧美日本免费一区二区三区| 特级西西444www大精品视频免费看| 一区二区三区欧美视频| 亚洲精品卡一卡二| 国产精品嫩草影院com| 泷泽萝拉在线播放| av一区二区三区四区| 成人一区二区三区仙踪林| 久久激情综合网| 91日韩视频在线观看| 亚洲国产日本| 久久久亚洲国产精品| 午夜日韩激情| 热久久最新网址| 91久久电影| 不卡中文字幕在线| 国产电影一区二区在线观看| 亚洲五月六月| 欧美国产小视频| 亚洲视频在线二区| 97精品国产| 一本二本三本亚洲码| 97人人精品| 综合视频免费看| 99久久夜色精品国产亚洲1000部| 视频一区国产精品| 日韩精品第一区| 在线视频不卡国产| 婷婷精品进入| 国产精品一区在线免费观看| 亚洲一区 二区 三区| 成人午夜免费剧场| 欧美精品一卡| 免费观看美女裸体网站| 性欧美videos另类喷潮| 久久人妻精品白浆国产| 日本vs亚洲vs韩国一区三区二区| 国产福利影院在线观看| 美腿丝袜在线亚洲一区| 99中文字幕在线| 粉嫩绯色av一区二区在线观看| 无码任你躁久久久久久老妇| 91在线视频在线| 在线观看日本中文字幕| 国产精品区一区二区三| 国产日韩欧美在线观看视频| 亚洲成年人影院| 在线永久看片免费的视频| 欧美在线免费播放| 国产三级视频在线播放| 精品国产污污免费网站入口 | 欧美美女18p| 99爱在线视频| 国产精品久久久久久久一区探花| 小说区图片区亚洲| 高清视频在线观看一区| 日韩影视高清在线观看| 亚洲乱码一区二区三区| 欧美一区激情| 成年人视频网站免费观看| 日本欧美加勒比视频| 欧美高清精品一区二区| 99精品久久只有精品| 一级二级黄色片| 一区二区三区在线观看欧美| 天天插天天操天天干| 精品视频在线免费看| 乱精品一区字幕二区| 国产一区二区三区在线观看网站| dy888亚洲精品一区二区三区| 97在线视频国产| www.成人| 欧美日韩精品免费看| 在线精品国产| 男人插女人下面免费视频| 国产成人无遮挡在线视频| 99久久久无码国产精品衣服| 亚洲资源中文字幕| 波多野结衣黄色网址| 精品第一国产综合精品aⅴ| 不卡在线视频| 97香蕉超级碰碰久久免费软件| 丰满少妇一区| 久久99精品久久久久久三级| 亚洲影视一区| 奇米影音第四色| 久久亚洲一级片| 国产亚洲精品久久777777| 欧美日韩一区二区三区在线看 | y111111国产精品久久久| 四虎永久国产精品| 亚洲理伦在线| 在线观看免费视频污| 久久理论电影网| 久久久精品99| 制服丝袜亚洲精品中文字幕| 高清国产福利在线观看| 69av成年福利视频| 99国产精品免费网站| 日韩中文在线字幕| 麻豆视频一区二区| 欧美激情亚洲色图| 欧美日韩国产色| 欧美亚洲精品在线观看| 欧美成aaa人片免费看| 午夜不卡一区| 日韩国产精品一区二区| 久久av一区| 国产免费看av| 欧美色视频日本版| 天堂在线视频免费观看| 欧美激情一区二区三区高清视频 | 日韩精品极品视频在线观看免费| 一区二区日韩免费看| 激情av中文字幕| 亚洲国产一区二区在线播放| xxxx国产精品| 久久99久久久久久久噜噜| 精品国产欧美| 免费极品av一视觉盛宴| 国产精选一区二区三区| 翔田千里88av中文字幕| 69堂成人精品免费视频| 久草免费在线观看| 国产日韩欧美视频在线| 91亚洲国产高清| 男女污污视频网站| 亚洲另类在线一区| 国产av无码专区亚洲av麻豆| 欧美大片在线免费观看| 国产精品极品国产中出| 欧美网站免费观看| 久久免费的精品国产v∧| 日韩在线视频不卡| 国产亚洲美女精品久久久| 欧美黄色网络| 亚洲一区 在线播放| 国产激情一区二区三区四区 | 欧美另类videoxo高潮| 91麻豆精品国产91久久久久久| 91麻豆免费在线视频| 成人av中文| 欧美亚洲一区| 妖精视频在线观看免费| 7777精品久久久大香线蕉| 影音先锋在线播放| 黄色99视频| 久久综合网络一区二区| 日韩免费av一区| 日韩视频在线永久播放| 成年人在线网站| 欧美在线日韩精品| 久久99蜜桃精品| 69精品久久久| 伊人青青综合网站| 欧美片网站免费| 国产最新免费视频| 综合久久国产九一剧情麻豆| 韩国av免费在线观看| 日韩av电影院| 一区二区三区在线| 亚洲AV无码国产精品| 欧美视频完全免费看| 婷婷av在线| 午夜一区二区三区| 国产91富婆露脸刺激对白| 中文在线第一页| 久久中文精品视频| 天堂成人娱乐在线视频免费播放网站 | 亚洲精品久久久久中文字幕欢迎你| 国产私拍福利精品视频二区| 久久99久久久久久| 欧美国产精品专区| 日日躁夜夜躁白天躁晚上躁91| 国产精品一区二区三区免费视频|