精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

人工智能 自然語言處理
如同本文中所指出的那樣,自然語言的歧義性將是模型優化中的一個關鍵挑戰。我們期待未來的技術發展中,自然語言理解模型能夠更加準確地識別文本中的上下文和重點,并在處理歧義性文本時表現出更高的敏感度。

自然語言推理(Natural Language Inference,NLI)是自然語言處理中一項重要任務,其目標是根據給定的前提和假設,來判斷假設是否可以從前提中推斷出來。然而,由于歧義是自然語言內在的特征,處理歧義也是人類語言理解的重要組成部分。由于人類語言表達的多樣性,歧義處理成為解決自然語言推理問題的難點之一。當前,各種自然語言處理算法被應用到問答系統、語音識別、智能翻譯和自然語言生成等場景中,但即使有這些技術,完全解決歧義仍然是一個極具挑戰性的任務。

對于 NLI 任務,大型自然語言處理模型如 GPT-4 等確實面臨著挑戰。其中一個問題是語言歧義導致模型難以準確理解句子的真正含義。此外,由于自然語言的靈活性和多樣性,不同文本之間可能存在各種各樣的關系,這使得 NLI 任務中的數據集變得極其復雜,同時也對自然語言處理模型的普適性和泛化能力提出了巨大挑戰。因此,在處理歧義語言方面,如果今后大模型成功將顯得至關重要,并且大模型已被廣泛應用于對話界面和寫作輔助工具等領域。處理歧義將有助于適應不同的背景,提高溝通的清晰性,以及識別誤導性或欺騙性言語的能力。

這篇討論大模型歧義的論文標題使用了一語雙關的表達,“We’re Afraid…”,既表達了當前對語言模型難以準確建模歧義的擔憂,又暗示了論文所描述的語言結構。本文也表明,人們正在努力制定新的基準,以真正挑戰強大的新的大模型,以便更準確地理解和生成自然語言,并實現模型上的新突破。

論文題目: We're Afraid Language Models Aren't Modeling Ambiguity

論文鏈接: https://arxiv.org/abs/2304.14399

代碼和數據地址: https://github.com/alisawuffles/ambient

本文作者計劃研究預訓練大模型是否有能力識別和區分含有多個可能解釋的句子,評估模型如何區分不同的讀法和解釋。然而,現有的基準測試數據通常不包含歧義的例子,因此需要自己構建實驗來探究這個問題。

傳統的 NLI 三路標注方案指的是一種用于自然語言推理(NLI)任務的標注方式,它需要標注者在三個標簽中選擇一個標簽來表示原始文本和假設之間的關系。這三個標簽通常是“蘊含(entailment)”、“中立(neutral)”和“矛盾(contradiction)”。

作者使用了 NLI 任務的格式來進行實驗,采用了函數式方法,通過對前提或假設中的歧義對蘊含關系的影響來表征歧義。作者提出了一個名為 AMBIENT(Ambiguity in Entailment)的基準測試,涵蓋了各種詞匯、句法和語用歧義,并更廣泛地涵蓋了可能傳達多個不同信息的句子。

如圖 1 所示,歧義可能是無意識的誤解(圖 1 頂部),也可能是故意用來誤導聽眾的(圖 1 底部)。例如,如果貓離開家后迷失方向,那么從無法找到回家的路線的意義上看,它是迷路了(蘊涵邊);如果它已經好幾天沒有回家,那么從其他人無法找到它的意義上看,它也是迷路了(中立邊)。

圖片

▲圖1 用貓迷路解釋的歧義示例

AMBIENT 數據集介紹

精選示例

作者提供了 1645 個涵蓋多種類型歧義的句子樣例,其中包括手寫樣本和來自現有NLI數據集和語言學教材。AMBIENT 中的每個示例都包含一組標簽,對應于各種可能的理解,以及每種理解的消歧重寫,如表 1 所示。

圖片

▲表1 精選示例中的前提和假設對

生成的示例

研究人員還采用了過度生成和過濾的方法來構建一個大型的未帶標簽的 NLI 示例語料庫,以更全面地涵蓋不同的歧義情況。他們受到前人工作的啟發,自動識別共享推理模式的前提假設對組,并通過鼓勵創建具有相同模式的新示例來加強語料庫的質量。

注釋和驗證

針對先前步驟獲得的例子,需要進行注釋和標注。這一過程涉及到了兩位專家的注釋、一位專家的驗證和匯總,以及部分作者的驗證。同時,37 名語言學專業的學生為每個例子選擇了一組標簽,并提供了消歧重寫。所有這些被注釋后的例子經過篩選和驗證,最終得到了 1503 個最終的例子。

具體過程如圖 2 所示:首先,使用 InstructGPT 創建未帶標簽的示例,再由兩位語言學家獨立進行注釋。最后,通過一位作者的整合,得到最終的注釋和標注。

圖片

▲圖2 AMBIENT 中生成示例的注釋流程

此外,這里還探討了不同標注者之間標注結果的一致性問題,以及 AMBIENT 數據集中存在的歧義類型。作者在該數據集中隨機選擇了 100 個樣本作為開發集,其余樣本用作測試集,圖 3 是其中集合標簽的分布情況,每個樣本都具有對應的推理關系標簽。研究表明,在歧義情況下,多個標注者的標注結果具有一致性,使用多個標注者的聯合結果可以提高標注準確性。

圖片

▲圖3 AMBIENT 中集合標簽的分布

歧義是否說明了“不同意”?

該研究分析了在傳統的 NLI 三路標注方案下,標注者在對含歧義輸入進行標注時的行為。研究發現,標注者可以意識到歧義,并且歧義是導致標簽差異的主要原因,因此挑戰了“不同意”是模擬例子不確定性的流行假設。

在研究中,采用 AMBIENT 數據集,雇傭了 9 名眾包工作者對每個含歧義的例子進行標注。

任務分為三步:

  1. 標注含歧義的例子
  2. 識別可能的不同解釋
  3. 標注已消除歧義的例子

其中,步驟 2 中,三個可能的解釋包括兩個可能的意思和一個類似但不完全相同的句子。最后,對每個可能的解釋,都將其代入原始例子得到三個新的 NLI 例子,讓標注者分別選擇一個標簽。

此實驗的結果支持了假設:在單標注體系下,原始的模糊例子會產生高度不一致的結果,即在給句子打標簽的過程中,人們對于模糊不清的句子容易產生不同的判斷,導致結果不一致。但是,當在任務中加入消除歧義的步驟后,注釋員們普遍能夠識別并驗證句子的多種可能性,結果的不一致性得到了大幅度解決。因此,消除歧義是減少注釋員主觀性對結果影響的有效方法。

評估大模型上的表現

Q1. 能否直接生成與消歧有關的內容

該部分重點在于測試語言模型在上下文中直接生成消歧和對應標簽的學習能力。為此,作者構建了一個自然提示并使用自動評估和人工評估來驗證模型的表現,如表 2 所示。

圖片

▲表2 當前提不明確時,用于生成歧義消除任務的 few-shot 模板

在測試中,每個示例都有 4 個其他測試示例作為上下文,并使用 EDIT-F1 指標和人工評估來計算得分和正確性。實驗結果如表 3 顯示,GPT-4 在測試中表現最佳,實現了18.0%的 EDIT-F1 得分和 32.0% 的人工評估正確性。此外,還觀察到大模型在消歧時常常采用加入額外上下文的策略來直接確認或否定假設。不過需要注意的是,人工評估可能會高估模型準確報告歧義來源的能力。

圖片

▲表3 大模型在 AMBIENT 上的性能

Q2. 能否識別出合理解釋的有效性

該部分主要研究了大模型在識別含有歧義的句子時的表現。通過創建一系列真假陳述模板,并對模型進行 zero-shot 測試,研究人員評估了大模型在選擇正誤之間的預測中的表現。實驗結果表明,最佳模型是 GPT-4,然而,在考慮歧義性的情況下,GPT-4 在回答所有四個模板的歧義解釋中的表現比隨機猜測的準確率還低。此外,大模型在問題上存在一致性問題,對于同一個歧義句子的不同解釋對,模型可能會出現內部矛盾的情況。

這些發現提示我們,需要進一步研究如何提高大模型對含有歧義的句子的理解能力,并更好地評估大模型的性能。

Q3. 通過不同解釋模擬開放式連續生成

這一部分主要研究基于語言模型的歧義理解能力。通過給定上下文,對語言模型進行測試,比較模型對于不同可能解釋下的文本延續的預測。為了衡量模型對于歧義的處理能力,研究人員通過在相應語境下比較模型在給定歧義和給定正確語境下所產生的概率和期望差異,用 KL 散度來衡量模型的“驚奇度”,并且引入隨機替換名詞的“干擾句”來進一步測試模型的能力。

實驗結果表明,FLAN-T5 的正確率最高,但不同測試套件(LS 涉及同義詞替換,PC 涉及拼寫錯誤的修正,SSD 涉及語法結構修正)和不同模型的表現結果不一致,說明歧義仍然是模型的一個嚴重挑戰。

多標簽 NLI 模型實驗

如表 4 所示,在已有帶有標簽變化的數據上微調 NLI 模型仍有較大提升空間,特別是多標簽 NLI 任務中。

圖片

▲表4 多標簽 NLI 模型在 AMBIENT 上的性能

檢測誤導性的政治言論

這項實驗研究了對政治言論的不同理解方式,證明了對不同理解方式敏感的模型可被有效利用。研究結果如表 5 所示,針對有歧義的句子,一些解釋性的釋義可以自然而然地消除歧義,因為這些釋義只能保留歧義或者明確表達一個特定的意義。

圖片

▲表5 本文檢測方法標記為有歧義的政治言論

此外,針對這種預測的釋義,可以揭示歧義的根源。通過進一步分析誤報的結果,作者還發現了很多事實核查中沒有提到的歧義,說明這些工具在預防誤解方面具有很大的潛力。

小結

如同本文中所指出的那樣,自然語言的歧義性將是模型優化中的一個關鍵挑戰。我們期待未來的技術發展中,自然語言理解模型能夠更加準確地識別文本中的上下文和重點,并在處理歧義性文本時表現出更高的敏感度。盡管我們已經建立了評估自然語言處理模型識別歧義的基準,并能夠更好地了解模型在這個領域中的局限性,但這仍然是一個非常具有挑戰性的任務。

夕小瑤科技說 原創

作者 |智商掉了一地、Python

責任編輯:武曉燕 來源: 夕小瑤科技說
相關推薦

2024-08-05 08:46:00

模型測評

2024-01-23 14:39:30

2023-06-19 08:19:50

2023-07-20 12:16:31

GPT-4AI

2025-04-16 09:35:03

2025-01-21 08:00:00

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2024-05-20 08:40:00

2023-03-13 00:17:15

GPT-4模型API

2025-05-30 07:40:56

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-12-27 13:56:00

2023-08-17 08:00:00

2024-05-21 12:23:17

2023-08-02 15:20:45

2024-05-28 14:40:00

2023-03-28 13:01:20

GPT-4開發OpenAI

2023-05-03 20:53:48

2023-08-15 10:33:06

微軟必應人工智能

2023-03-16 19:17:57

點贊
收藏

51CTO技術棧公眾號

日韩视频国产视频| 国产91精品一区二区麻豆网站| 亚洲黄色在线看| 免费看日本毛片| 免费人成在线观看网站| 日韩高清欧美激情| www.亚洲免费视频| 久久久男人的天堂| 亚洲永久av| 国产精品护士白丝一区av| 97国产超碰| 国产一级片毛片| 欧美三级三级| 日韩亚洲电影在线| 日韩精品 欧美| 搞黄视频在线观看| 国产一区二区三区免费在线观看| 91国产美女视频| 日本黄色小视频在线观看| 国产区一区二| 色呦呦国产精品| 一区二区在线中文字幕电影视频| 精品国产99久久久久久宅男i| 最新亚洲激情| 最好看的2019的中文字幕视频| www.欧美com| 欧美福利在线播放| 亚洲成人在线网站| 亚洲日本欧美在线| 日中文字幕在线| 国内精品自线一区二区三区视频| 538国产精品视频一区二区| 亚洲激情图片网| 日韩中出av| 欧美一区二区三区视频免费 | 欧美一级黄色影院| 欧美黑人xx片| 国产精品美女视频| 麻豆亚洲一区| 狠狠人妻久久久久久综合麻豆| 日本亚洲一区二区| 欧美亚洲激情视频| 久久久久久国产精品免费播放| 精品国产aⅴ| 亚洲精品成人免费| 青娱乐国产精品视频| www.久久| 色悠悠久久综合| 欧美变态另类刺激| 波多野结衣中文字幕久久| 成人免费在线播放视频| 视频一区国产精品| 国模吧精品人体gogo| 99久久伊人精品| 国产91视觉| www.国产黄色| 国内成人免费视频| 成人国产精品久久久| 日本视频www色| 六月婷婷一区| 欧美整片在线观看| 亚洲日本韩国在线| 亚洲人www| 性欧美在线看片a免费观看| 欧美成人三级视频| 欧美在线三区| 久久中文字幕一区| 日韩激情小视频| 国产精品久久天天影视| 色偷偷噜噜噜亚洲男人| 国产精品理论在线| 日韩久久视频| 精品国产一区二区三区久久久| 久久久精品成人| 成人三级视频| 日韩亚洲欧美中文在线| 亚洲女人久久久| 99九九热只有国产精品| 日韩色av导航| 在线免费日韩av| 韩国精品一区二区三区| 高清在线视频日韩欧美| 日韩精品手机在线| 男女av一区三区二区色多| 欧美孕妇性xx| 日韩精选在线观看| 久久精品99国产精品| 亚洲一区二区三区sesese| 亚洲国产精彩视频| 99精品久久只有精品| 免费亚洲精品视频| 亚洲欧洲日产国产综合网| 99国产精品一区二区三区| 欧美a一区二区| 成人国产在线视频| 亚洲av无码乱码国产麻豆| 成人三级伦理片| 久久国产精品久久精品国产| 久久电影视频| 国产精品国产自产拍高清av| 日韩欧美一级在线| 国产免费拔擦拔擦8x高清在线人| 色拍拍在线精品视频8848| 美女在线视频一区二区| silk一区二区三区精品视频| 国产婷婷97碰碰久久人人蜜臀| 亚洲午夜精品久久久久久高潮| 久久久久蜜桃| 91精品国产色综合久久不卡98口 | 91精品国产91久久久久| 亚洲av无码不卡| 国产毛片一区二区| 另类视频在线观看+1080p| 午夜视频在线免费观看| 亚洲va韩国va欧美va| 天天爽人人爽夜夜爽| 中文字幕一区二区三区四区久久| 亚洲欧美中文字幕| 午夜爱爱毛片xxxx视频免费看| 99亚洲精品| 成人黄色在线观看| 水莓100国产免费av在线播放| 中文字幕精品一区| 99在线精品免费视频| 欧美aaaaaa| 亚洲精品国产精品国自产观看浪潮| 99热99这里只有精品| 日韩视频免费| 亚洲一区亚洲二区| 成年人免费在线视频| 亚洲狠狠爱一区二区三区| 一女二男3p波多野结衣| 亚洲婷婷丁香| 国内精品美女av在线播放| 一级全黄裸体免费视频| 久久你懂得1024| 国产美女在线一区| 久久伊人久久| 色伦专区97中文字幕| 国产中文字幕视频| 福利一区二区在线| 裸体裸乳免费看| 视频精品导航| 亚洲精品午夜精品| 亚洲国产精品午夜在线观看| 国产一区啦啦啦在线观看| 午夜精品亚洲一区二区三区嫩草| 免费成人在线电影| 亚洲国产精品一区二区三区| 免费又黄又爽又色的视频| 精品伊人久久久久7777人| 日韩精品欧美一区二区三区| cao在线视频| 精品久久久久久亚洲综合网| 国产高潮流白浆| 久久精品国产999大香线蕉| 视频在线精品一区| 浪潮色综合久久天堂| 亚洲精品日韩丝袜精品| 国产手机在线视频| 不卡一区二区三区四区| youjizz.com在线观看| 日韩精品中文字幕吗一区二区| 久久精品视频导航| 国产伦理一区二区| 亚洲另类在线制服丝袜| 97人人模人人爽人人澡| 女人色偷偷aa久久天堂| 99热国产免费| 超清av在线| 亚洲国产日韩欧美综合久久| 日本在线免费观看| 成人av在线资源网站| 分分操这里只有精品| 欧美亚洲色图校园春色| 国产成人精品网站| 91涩漫在线观看| 欧美日本韩国一区| 91香蕉一区二区三区在线观看| 国产一区999| 日本精品福利视频| 国产成人高清精品免费5388| 91国内在线视频| 国产在线日本| 欧美精品乱码久久久久久按摩| 亚洲波多野结衣| 成人午夜碰碰视频| aaa毛片在线观看| 精品国产午夜| 91网在线免费观看| caoporn视频在线| 中文字幕久久亚洲| 丰满少妇一级片| 色悠悠亚洲一区二区| 少妇人妻丰满做爰xxx| 99riav久久精品riav| 好男人www社区| 午夜精品久久99蜜桃的功能介绍| 精品中文字幕人| 日韩久久99| 久久精品99| 最新中文字幕免费| 日韩一区中文字幕| 无码国产精品一区二区免费式直播 | 亚洲高清在线观看一区| 国产亚洲久久| 777午夜精品福利在线观看| 国产色在线 com| 这里只有精品99re| 日本网站在线免费观看| 久久精品免费在线观看| 亚洲午夜精品在线观看| 国产欧美另类| 亚洲制服欧美久久| 国产伦理片在线观看| 韩国精品主播一区二区在线观看| 色悠悠久久久久| 亚洲精品18p| 色欧美片视频在线观看在线视频| 欧美黑人一级片| 久久综合999| 午夜一区二区视频| 中日韩男男gay无套| 免费看啪啪网站| 久久夜色电影| 国产在线观看精品| 男女羞羞在线观看| 欧美黑人狂野猛交老妇| 电影av一区| 精品99久久久久久| 久久久黄色大片| 亚洲一区二区三区四区在线免费观看| 免费a级黄色片| 国产一区二区精品久久| 无码人妻丰满熟妇区96| 国产精品国码视频| 亚洲aⅴ天堂av在线电影软件| avtt综合网| 91亚洲人电影| 欧洲成人一区| 91国语精品自产拍在线观看性色 | 欧美精品性视频| 在线视频1区2区| 日韩电影大片中文字幕| 国产色综合视频| 欧美性猛交xxxx免费看久久久| 亚洲精品在线观看av| 中文字幕一区av| 乐播av一区二区三区| wwwwxxxxx欧美| yjizz视频| 国产一区二区三区日韩| 999精彩视频| 免费久久精品视频| 日韩亚洲在线视频| 亚洲精品九九| 久久综合亚洲精品| 欧美精品色网| 强开小嫩苞一区二区三区网站| 青青一区二区三区| 精品一区二区三区视频日产| 国产精品美女在线观看直播| 3d动漫精品啪啪一区二区三区免费| 欧美xxxx做受欧美护士| 欧美国产日韩精品| 91探花在线观看| 欧美极品少妇xxxxⅹ喷水| 182tv在线播放| 欧美激情中文字幕在线| 一区二区三区伦理| 欧美国产日本高清在线| 日本电影在线观看| 97超碰蝌蚪网人人做人人爽| 日韩av一卡| 欧美最猛性xxxx| 中文在线а√在线8| 国产精品久久久久免费a∨大胸| 欧美极品免费| 国产精品久久一| 午夜无码国产理论在线| 国产精品一久久香蕉国产线看观看| 成人看片在线观看| 国产精品视频最多的网站| 95精品视频| 91嫩草在线| 第四色中文综合网| www.成人av| 亚洲肉体裸体xxxx137| 日韩一区二区电影在线观看| 精品一区av| 久久av高潮av| 在线观看视频免费一区二区三区| 国产男女免费视频| 亚洲国产一区二区三区高清| 日韩中文字幕组| 久久机这里只有精品| 久久成年人网站| proumb性欧美在线观看| 国产精品815.cc红桃| 中文子幕无线码一区tr| 亚洲综合图片一区| 午夜激情一区二区三区| 久久久久久不卡| 欧美日韩不卡在线| 少妇又色又爽又黄的视频| 亚洲日韩第一页| 视频免费一区| 97国产在线观看| 91精品国产66| 5566av亚洲| 亚洲69av| 亚洲欧美一二三| 视频在线观看一区| 亚洲理论中文字幕| 波多野结衣中文一区| 免费看一级黄色| 五月激情综合婷婷| 中文字幕视频一区二区| 欧美理论片在线| 日本私人网站在线观看| xxxxx成人.com| 啊啊啊久久久| 3d动漫精品啪啪一区二区三区免费| 小嫩嫩12欧美| 亚洲精品偷拍视频| 老牛国产精品一区的观看方式| 亚洲av毛片在线观看| wwwwww.欧美系列| 日韩欧美不卡视频| 欧美一区二区福利在线| 精品电影在线| 欧美精品videosex性欧美| 成人涩涩视频| 国产一区二区三区av在线| 一级欧洲+日本+国产| 激情综合网俺也去| av高清久久久| 最新日韩免费视频| 欧美性精品220| 精品人妻久久久久一区二区三区 | 亚洲国产精品影视| 国产精品呻吟| 好吊操视频这里只有精品| 亚洲国产激情av| 亚洲天堂一区在线观看| 日韩精品一区二区三区三区免费| 久久精品a一级国产免视看成人 | 国内激情视频在线观看| 亚洲a在线观看| 亚洲v在线看| 亚洲无吗一区二区三区| 91美女片黄在线观看91美女| 日韩少妇裸体做爰视频| 欧美一级片免费看| 日本暖暖在线视频| 91九色单男在线观看| 欧美一二区在线观看| 男女av免费观看| 久久久另类综合| 在线观看 中文字幕| 日韩精品一区二区三区视频播放| 欧美野外wwwxxx| 亚洲一区二区三区四区在线播放| 日韩精品一卡| 性生活免费在线观看| 国产精品美女一区二区| 国产精品51麻豆cm传媒| 中文字幕视频一区二区在线有码| 国产在线|日韩| 日韩免费三级| 久久成人免费网| 99自拍偷拍视频| 欧美日韩亚洲高清一区二区| 日本免费视频在线观看| 成人网欧美在线视频| 91一区二区三区四区| 黄色a级三级三级三级| 亚洲女同ⅹxx女同tv| 国模人体一区二区| 久久乐国产精品| 牛牛精品成人免费视频| 国产黄色特级片| 国产日韩亚洲欧美综合| 天天干天天操天天操| 美女精品视频一区| 日韩欧美中文字幕在线视频 | 国模无码视频一区| 偷拍与自拍一区| 岛国在线视频| 国产有码一区二区| 中文精品久久| 亚洲精品女人久久久| 91久久香蕉国产日韩欧美9色| 成人高清免费观看mv| 亚洲自拍偷拍福利| 亚洲国产精品第一区二区| 三上悠亚ssⅰn939无码播放| 欧美精选在线播放| 白白色在线观看| 午夜久久资源|