精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

【深度解析】自然語(yǔ)言生成中的“幻覺(jué)”現(xiàn)象 精華

發(fā)布于 2024-4-23 10:38
瀏覽
0收藏

?NLG技術(shù)在文本摘要、對(duì)話系統(tǒng)、問(wèn)答以及機(jī)器翻譯等多個(gè)領(lǐng)域扮演著至關(guān)重要的角色。伴隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,尤其是以Transformer為基礎(chǔ)的模型如BERT、BART、GPT-2和GPT-3的問(wèn)世,NLG領(lǐng)域迎來(lái)了前所未有的繁榮。然而,在NLG模型訓(xùn)練與解碼過(guò)程中,我們不得不面對(duì)一個(gè)挑戰(zhàn)——幻覺(jué)現(xiàn)象。這種現(xiàn)象指的是模型生成的文本可能缺乏趣味性、連貫性,甚至出現(xiàn)重復(fù)且毫無(wú)意義的輸出,有時(shí)這些輸出還會(huì)與原始輸入相矛盾。這些“幻覺(jué)”問(wèn)題不僅對(duì)模型性能產(chǎn)生負(fù)面影響,還可能帶來(lái)安全和隱私方面的隱患。例如,在醫(yī)療領(lǐng)域,若生成的摘要出現(xiàn)錯(cuò)誤,可能會(huì)對(duì)患者的健康造成風(fēng)險(xiǎn);而在涉及個(gè)人信息的應(yīng)用中,若模型恢復(fù)并泄露了敏感數(shù)據(jù),則會(huì)侵犯?jìng)€(gè)人隱私。

一、定義

在心理學(xué)中,幻覺(jué)是指在沒(méi)有外部刺激的情況下,清醒的個(gè)體所經(jīng)歷的一種真實(shí)感知。類似地,NLG模型產(chǎn)生的這些不忠實(shí)或無(wú)意義的文本,也給人們帶來(lái)了類似心理幻覺(jué)的體驗(yàn)。這些文本看似流暢自然,實(shí)則內(nèi)容可能并不真實(shí),甚至荒謬至極。這種難以與真實(shí)感知區(qū)分的現(xiàn)象,往往讓人難以一眼識(shí)別。

1分類

幻覺(jué)主要分為內(nèi)在幻覺(jué)和外在幻覺(jué)。內(nèi)在幻覺(jué)指的是與源內(nèi)容相矛盾的輸出,例如在抽象摘要任務(wù)中,生成的摘要“the first Ebola vaccine was approval in 2021”與源內(nèi)容“the first vaccine For Ebola was approval by FDA in 2019”相矛盾。外在幻覺(jué)則是無(wú)法從源內(nèi)容驗(yàn)證的輸出,雖然這種事實(shí)幻覺(jué)有助于回憶起額外的背景知識(shí),提高生成文本的信息量,但由于額外信息的不可驗(yàn)證性增加了風(fēng)險(xiǎn),因此在大多數(shù)文獻(xiàn)中,外在性幻覺(jué)仍然被謹(jǐn)慎對(duì)待。

2術(shù)語(yǔ)說(shuō)明

自然語(yǔ)言生成(NLG)領(lǐng)域中有兩個(gè)極易混淆的概念——“忠實(shí)性”與“事實(shí)性”,以及它們與“幻覺(jué)”現(xiàn)象的關(guān)系。

在NLG的研究與應(yīng)用中,我們經(jīng)常遇到這兩個(gè)術(shù)語(yǔ)。簡(jiǎn)而言之,“忠實(shí)性”指的是生成文本與源材料在內(nèi)容和意圖上的一致性,它是“幻覺(jué)”的對(duì)立面。而“事實(shí)性”則涉及到生成內(nèi)容的真實(shí)性,即它是否基于真實(shí)發(fā)生的事件或事實(shí)。

這兩個(gè)概念在定義上的細(xì)微差別,有時(shí)會(huì)導(dǎo)致“真實(shí)性”與“忠實(shí)性”之間的界限變得模糊。例如,Maynez等研究者[1]通過(guò)將“事實(shí)”定義為世界知識(shí),來(lái)明確區(qū)分“真實(shí)性”與“忠實(shí)性”。而Dong等研究者[2]則將來(lái)源輸入視為“事實(shí)”的基礎(chǔ),以此來(lái)判斷事實(shí)的正確性,這使得“真實(shí)性”與“忠實(shí)性”之間的區(qū)別變得不那么清晰。

在我們的討論中,我們傾向于采納Maynez等人的定義,我們認(rèn)為區(qū)分源知識(shí)和世界知識(shí)有助于我們更深入地理解這兩個(gè)概念。然而,需要注意的是,判斷文本是否忠實(shí)或存在幻覺(jué)的標(biāo)準(zhǔn)并非一成不變,它可能會(huì)根據(jù)不同的任務(wù)和應(yīng)用場(chǎng)景而有所變化。

二、NLG中導(dǎo)致幻覺(jué)的因素

視覺(jué)編碼器的輸入分辨率將會(huì)大幅提升。目前2階段多模態(tài)主流方案由CLIP視覺(jué)編碼器和大語(yǔ)言模型組成,主流開(kāi)源CLIP為的openai、open_clip、智源提供的,這些視覺(jué)編碼器的輸入一般為224*224、336*336,無(wú)法將圖像細(xì)節(jié)特征傳遞給大語(yǔ)言模型,限制了多模態(tài)大模型的發(fā)展。為了解決這個(gè)問(wèn)題,視覺(jué)編碼器輸入分辨率需要提升到2K甚至4K。

1.數(shù)據(jù)幻覺(jué)

數(shù)據(jù)產(chǎn)生幻覺(jué)的主要原因是源參考偏差,這可能源于啟發(fā)式數(shù)據(jù)收集或某些NLG任務(wù)的性質(zhì)。例如,在構(gòu)建WIKIBIO[3]數(shù)據(jù)集時(shí),目標(biāo)引用可能包含源不支持的信息,導(dǎo)致62%的首句有未在信息框中說(shuō)明的附加信息。此外,重復(fù)項(xiàng)沒(méi)有正確過(guò)濾也會(huì)導(dǎo)致模型傾向于生成記憶短語(yǔ)的重復(fù)。一些NLG任務(wù)并不總是在源輸入文本和目標(biāo)參考之間具有事實(shí)知識(shí)對(duì)齊,如開(kāi)放域?qū)υ捪到y(tǒng),這種特征會(huì)導(dǎo)致不可避免的外在幻覺(jué)。

2.訓(xùn)練與推理的幻覺(jué)

編碼器的主要功能是理解并轉(zhuǎn)化輸入文本為有意義的表示。然而,如果編碼器的理解能力存在缺陷,可能會(huì)影響其生成結(jié)果的準(zhǔn)確性。特別是當(dāng)編碼器在學(xué)習(xí)訓(xùn)練數(shù)據(jù)時(shí),錯(cuò)誤地關(guān)聯(lián)了不同部分的數(shù)據(jù),就可能導(dǎo)致與實(shí)際輸入有偏差的錯(cuò)誤輸出。

Imperfect representation learning 編碼器的主要功能是理解并轉(zhuǎn)化輸入文本為有意義的表示。然而,如果編碼器的理解能力存在缺陷,可能會(huì)影響其生成結(jié)果的準(zhǔn)確性。特別是當(dāng)編碼器在學(xué)習(xí)訓(xùn)練數(shù)據(jù)時(shí),錯(cuò)誤地關(guān)聯(lián)了不同部分的數(shù)據(jù),就可能導(dǎo)致與實(shí)際輸入有偏差的錯(cuò)誤輸出。

Erroneous decoding 解碼器在獲取編碼后的輸入并生成目標(biāo)序列時(shí),可能出現(xiàn)兩種幻覺(jué)。首先,解碼器可能關(guān)注編碼輸入源的錯(cuò)誤部分,導(dǎo)致錯(cuò)誤生成和事實(shí)混淆。其次,解碼策略的設(shè)計(jì)也可能導(dǎo)致幻覺(jué)。例如,提高生成多樣性的解碼策略如top-k采樣,與幻覺(jué)的增加呈正相關(guān)。這種策略通過(guò)從前k個(gè)樣本中抽樣,增加了生成的意外性質(zhì),從而提高了包含幻覺(jué)內(nèi)容的可能性。

Exposure Bias 訓(xùn)練和推理時(shí)間之間的解碼差異,即暴露偏差問(wèn)題,也可能成為產(chǎn)生幻覺(jué)的因素。通常,解碼器通過(guò)教師強(qiáng)制最大似然估計(jì)(MLE)訓(xùn)練進(jìn)行訓(xùn)練,鼓勵(lì)其預(yù)測(cè)基于基本事實(shí)前綴序列生成下一個(gè)token。然而,在推理生成過(guò)程中,模型以自身先前生成的歷史序列為條件生成下一個(gè)token。這種差異可能導(dǎo)致錯(cuò)誤生成的增加,尤其是在目標(biāo)序列變得更長(zhǎng)時(shí)。

Parametric knowledge bias 大型語(yǔ)料庫(kù)預(yù)訓(xùn)練模型在提高下游任務(wù)性能的同時(shí),也可能導(dǎo)致模型過(guò)度依賴參數(shù)化知識(shí),產(chǎn)生幻覺(jué)。研究發(fā)現(xiàn),這些模型更傾向于使用自身的參數(shù)知識(shí)生成輸出,而非輸入源的信息,這可能導(dǎo)致輸出中存在多余

三、衡量幻覺(jué)的指標(biāo)

近期研究指出,傳統(tǒng)的寫(xiě)作質(zhì)量評(píng)估指標(biāo)無(wú)法準(zhǔn)確量化文本中的幻覺(jué)程度。先進(jìn)的摘要系統(tǒng)如ROUGE、BLEU和METEOR在生成的摘要中,有25%的內(nèi)容存在幻覺(jué)現(xiàn)象。此外,其他NLG任務(wù)也顯示出類似問(wèn)題,傳統(tǒng)指標(biāo)與人類對(duì)幻覺(jué)的判斷相關(guān)性差。因此,研究者正在積極尋找有效的幻覺(jué)量化指標(biāo)。

1.統(tǒng)計(jì)指標(biāo)

通過(guò)利用詞匯特征(n-grams),我們可以快速評(píng)估生成文本與參考文本之間的信息重疊和矛盾。不匹配計(jì)數(shù)越高,文本的可信度越低,因此會(huì)導(dǎo)致幻覺(jué)分?jǐn)?shù)上升。傳統(tǒng)指標(biāo)如ROUGE、BLEU主要依賴目標(biāo)文本作為真實(shí)參考,而Dhingra等[4]提出的PARENT指標(biāo)則可以結(jié)合源文本和目標(biāo)文本進(jìn)行評(píng)估,使評(píng)估更為全面。此方法通過(guò)n-gram詞法蘊(yùn)涵將生成文本與源表和目標(biāo)文本進(jìn)行匹配,并結(jié)合f1分?jǐn)?shù)反映table-to-text任務(wù)的準(zhǔn)確性。為了更有效地評(píng)估,我們不能僅依賴目標(biāo)文本,因?yàn)闊o(wú)法保證輸出目標(biāo)文本包含輸入源文本中可用的完整信息集。對(duì)于NLG任務(wù),從相同輸入獲取多個(gè)可信輸出的情況很常見(jiàn),這被稱為一對(duì)多映射。但全面評(píng)估所有可能的輸出是不現(xiàn)實(shí)的。因此,許多工作選擇依賴源文本作為唯一參考來(lái)簡(jiǎn)化評(píng)估過(guò)程。這些工作的指標(biāo)主要關(guān)注輸入源引用的信息,以測(cè)量幻覺(jué),尤其是內(nèi)在幻覺(jué)。例如,Wang[5]等提出的PARENT-T,只使用表格內(nèi)容作為參考來(lái)簡(jiǎn)化PARENT。雖然詞法匹配是一種簡(jiǎn)單而有效的評(píng)估方法,但它只能處理詞法信息,無(wú)法處理語(yǔ)法或語(yǔ)義的變化。因此,我們需要結(jié)合其他方法進(jìn)行更全面的評(píng)估。

2.基于模型指標(biāo)

基于模型的度量利用神經(jīng)模型來(lái)測(cè)量生成文本中的幻覺(jué)程度。它們被用來(lái)處理更復(fù)雜的句法甚至語(yǔ)義變化。基于模型的度量理解源和生成的文本,并檢測(cè)知識(shí)/內(nèi)容的不匹配。然而,神經(jīng)模型可能會(huì)受到誤差的影響,這些誤差可能會(huì)傳播并對(duì)幻覺(jué)的準(zhǔn)確量化產(chǎn)生不利影響。

Information Extraction (IE)-based 基于IE的度量使用IE模型以更簡(jiǎn)單的關(guān)系元組格式(例如,主題、關(guān)系、對(duì)象)表示知識(shí),然后根據(jù)從源/引用中提取的關(guān)系元組進(jìn)行驗(yàn)證。在這里,IE模型識(shí)別并提取需要驗(yàn)證的“事實(shí)”。通過(guò)這種方式,無(wú)信息的單詞(例如,停止語(yǔ)、連詞等)不包括在驗(yàn)證步驟中。

QA-based 這種方法測(cè)量生成和源引用之間的知識(shí)重疊。它基于直覺(jué),即如果生成的結(jié)果與源參考事實(shí)一致,將從同一個(gè)問(wèn)題生成類似的答案。它已經(jīng)被用于評(píng)估許多任務(wù)中的幻覺(jué),比如總結(jié)、對(duì)話和數(shù)據(jù)文本生成。

基于QA的衡量生成文本忠實(shí)度的指標(biāo)由三部分組成:首先,給定生成的文本,問(wèn)題生成(QG)模型生成一組問(wèn)答對(duì)。其次,問(wèn)答 (QA) 模型在給定真實(shí)源文本作為參考(包含知識(shí))的情況下回答生成的問(wèn)題。最后,基于相應(yīng)答案的相似性來(lái)計(jì)算幻覺(jué)得分。與基于IE的度量類似,這種方法的局限性在于可能從QG模型或QA模型產(chǎn)生和傳播的潛在錯(cuò)誤。

Natural Language Inference (NLI) Metrics 在早期的幻覺(jué)檢測(cè)任務(wù)中,標(biāo)記數(shù)據(jù)集較少。作為替代方案,許多工作使用NLI數(shù)據(jù)集處理幻覺(jué)問(wèn)題。NLI任務(wù)給定前提下,確定“假設(shè)”是否為真(蘊(yùn)含)、假(矛盾)或未確定(中性)。基于NLI的指標(biāo)將幻覺(jué)/忠實(shí)度得分定義為源與生成文本之間的隱含概率。與token匹配等方法相比,基于NLI的方法對(duì)詞匯變異性更具魯棒性。然而,現(xiàn)成的NLI模型往往不能很好地轉(zhuǎn)移到抽象摘要任務(wù)中。因此,有一系列研究來(lái)改進(jìn)和擴(kuò)展 NLI 范式,專門(mén)用于幻覺(jué)評(píng)估。此外,Goyal和Durrett[6]指出句子級(jí)隱含模型的局限性,提出依賴級(jí)蘊(yùn)涵以更細(xì)粒度地識(shí)別事實(shí)不一致性。

Faithfulness Classification Metrics 為了改進(jìn)基于NLI的指標(biāo),研究者構(gòu)建了特定于任務(wù)的數(shù)據(jù)集。Liu等人和Zhou等人在訓(xùn)練實(shí)例中自動(dòng)插入幻覺(jué)構(gòu)建句法數(shù)據(jù)。Santhanam等人和Honovich等人為對(duì)話響應(yīng)中的忠實(shí)度分類構(gòu)建新語(yǔ)料庫(kù),手動(dòng)注釋W(xué)izard-of-Wikipedia數(shù)據(jù)集。這些特定于忠實(shí)度的數(shù)據(jù)集可能比NLI數(shù)據(jù)集更好,因?yàn)镹LI數(shù)據(jù)集的蘊(yùn)涵或中性標(biāo)簽與忠實(shí)度并不等同。例如,“普京是美國(guó)總統(tǒng)”這個(gè)假設(shè)可以被認(rèn)為是中立于“普京是總統(tǒng)”這個(gè)前提的,也可以被認(rèn)為是由“普京是總統(tǒng)”這個(gè)前提衍生出來(lái)的。然而,從忠實(shí)度的角度來(lái)看,假設(shè)包含了不支持的信息“美國(guó)”,這被認(rèn)為是幻覺(jué)。

LM-based Metrics 這些指標(biāo)利用兩種語(yǔ)言模型(LM)來(lái)確定是否支持每個(gè)token:無(wú)條件LM僅在數(shù)據(jù)集中的目標(biāo)(真實(shí)引用)上進(jìn)行訓(xùn)練,而條件語(yǔ)言模型LM同時(shí)在源數(shù)據(jù)和目標(biāo)數(shù)據(jù)上進(jìn)行訓(xùn)練。如果在強(qiáng)制路徑解碼過(guò)程中,無(wú)條件LM的損失小于條件LM,我們將生成的token分類為幻覺(jué)。產(chǎn)生幻覺(jué)的token與目標(biāo)token總數(shù)的比值可以反映幻覺(jué)的程度。

3.人工評(píng)估

當(dāng)前,幻覺(jué)自動(dòng)評(píng)估在NLG中仍存在挑戰(zhàn)和不完善,因此人工評(píng)估仍是主要方法。人類評(píng)估主要包括評(píng)分和比較兩種形式。評(píng)估術(shù)語(yǔ)包括忠實(shí)、事實(shí)一致性、保真度等,用于判斷生成文本與源輸入是否一致。Chen等和Nie等[7]分別使用更細(xì)粒度的指標(biāo)進(jìn)行內(nèi)在和外在幻覺(jué)評(píng)估。此外,還有廣泛使用的指標(biāo)如正確性、準(zhǔn)確性和信息性。

四、幻覺(jué)緩解方法

根據(jù)幻覺(jué)的兩個(gè)主要因素,常見(jiàn)的緩解方法可分為兩類:數(shù)據(jù)相關(guān)方法和建模與推理方法。

1.數(shù)據(jù)相關(guān)

Building a Faithful Dataset 為避免數(shù)據(jù)噪音引發(fā)的錯(cuò)覺(jué),手動(dòng)構(gòu)建忠實(shí)的數(shù)據(jù)集是一種有效方式。方法包括從頭開(kāi)始編寫(xiě)干凈目標(biāo)或重寫(xiě)網(wǎng)絡(luò)真實(shí)句子。修訂策略分為三步:刪除不支持源的短語(yǔ)、解決共同引用和刪除依賴語(yǔ)境的短語(yǔ)以及句法修飾使句子流暢。此外,有研究利用模型生成數(shù)據(jù)并標(biāo)記幻覺(jué),雖然主要用于診斷評(píng)估,但也可構(gòu)建忠實(shí)數(shù)據(jù)集。

Cleaning Data Automatically 為了緩解語(yǔ)義噪聲問(wèn)題,一種方法是從平行語(yǔ)料庫(kù)中找到與輸入無(wú)關(guān)或矛盾的信息,然后對(duì)數(shù)據(jù)進(jìn)行過(guò)濾或校正。這種方法適用于低或中等噪聲水平的情況。另外,一些工作已經(jīng)在實(shí)例級(jí)別處理了幻覺(jué)問(wèn)題,方法是使用每個(gè)源引用對(duì)的分?jǐn)?shù)并過(guò)濾掉產(chǎn)生幻覺(jué)的引用對(duì)。實(shí)例級(jí)分?jǐn)?shù)可能導(dǎo)致信號(hào)丟失,因?yàn)閱卧~級(jí)別存在分歧。其他工作根據(jù)參考文獻(xiàn)校正配對(duì)訓(xùn)練樣本,特別是輸入數(shù)據(jù),增強(qiáng)輸入和輸出之間的語(yǔ)義一致性。這種方法適用于數(shù)據(jù)到文本的任務(wù),因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)比話語(yǔ)更容易校正。

Information Augmentation 通過(guò)使用外部信息擴(kuò)充輸入,可以獲得對(duì)源的更好表示。外部知識(shí)、顯式對(duì)齊、額外的訓(xùn)練數(shù)據(jù)等可以增加源和目標(biāo)之間的相關(guān)性,并幫助模型學(xué)習(xí)更好的任務(wù)相關(guān)特征。因此,更好的語(yǔ)義理解有助于緩解與源問(wèn)題的分歧。增強(qiáng)信息的示例包括實(shí)體信息、關(guān)系三元組、預(yù)執(zhí)行運(yùn)算結(jié)果、合成數(shù)據(jù)、檢索到的外部知識(shí)和類似訓(xùn)練樣本。這些方法加強(qiáng)了輸入和輸出之間的一致性,但帶來(lái)了挑戰(zhàn),如原始來(lái)源和增強(qiáng)信息之間的差距、歧義話語(yǔ)和結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義差距以及結(jié)構(gòu)化知識(shí)圖和自然語(yǔ)言之間的格式差異。

2.建模和推理方法

架構(gòu)

Encoder編碼器學(xué)習(xí)將輸入文本轉(zhuǎn)化為固定長(zhǎng)度的向量表示,但當(dāng)模型對(duì)輸入缺乏語(yǔ)義解釋時(shí),可能會(huì)出現(xiàn)幻覺(jué)。為解決這個(gè)問(wèn)題,一些研究者修改了編碼器架構(gòu),使其與輸入更兼容,并學(xué)習(xí)更好的表示。例如,Huang等人和Cao[8]等人提出了一種雙編碼器,由順序文檔編碼器和結(jié)構(gòu)化圖編碼器組成,以處理額外的知識(shí)。

Attention 神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制被用于選擇性關(guān)注序列的部分內(nèi)容,忽略其他依賴關(guān)系。Aralikate等[9]通過(guò)源條件偏置引入短路來(lái)鼓勵(lì)生成器關(guān)注來(lái)源。Krishna等[10]采用稀疏注意力以改善模型的長(zhǎng)期依賴性,減輕答案中的幻覺(jué)。Wu等[11]則通過(guò)誘導(dǎo)注意力注入預(yù)先建立的結(jié)構(gòu)信息來(lái)避免幻覺(jué),消除無(wú)信息的注意力聯(lián)系。

Decoder 解碼器是自然語(yǔ)言處理中的關(guān)鍵組件,負(fù)責(zé)將輸入轉(zhuǎn)化為輸出。為減輕幻覺(jué)問(wèn)題,研究者提出了多種解碼器結(jié)構(gòu),如多分支解碼器、不確定性感知解碼器和雙解碼器等。這些解碼器通過(guò)識(shí)別token間的隱含差異和依賴性或受顯式約束的限制,提高了生成忠實(shí)token的可能性,降低了產(chǎn)生幻覺(jué)的風(fēng)險(xiǎn)。然而,過(guò)度的約束可能會(huì)影響文本的流暢性和多樣性,因此需要在保持效果和提高流暢性之間找到平衡。

訓(xùn)練

【深度解析】自然語(yǔ)言生成中的“幻覺(jué)”現(xiàn)象-AI.x社區(qū)

Planning/Sketching 規(guī)劃是控制和限制模型生成內(nèi)容的有效方法,可作為兩步生成器的一部分或注入到端到端模型中。與規(guī)劃類似的草圖也可用于處理幻覺(jué)問(wèn)題,但框架被視為最終文本的一部分。這種方法在提供更多可控性的同時(shí),需要在忠實(shí)性和多樣性之間找到平衡。

Reinforcement Learning (RL) Ranzato等人發(fā)現(xiàn),詞級(jí)最大似然訓(xùn)練可能導(dǎo)致暴露偏差問(wèn)題。為解決此問(wèn)題,一些研究采用強(qiáng)化學(xué)習(xí)(RL)并設(shè)計(jì)不同的獎(jiǎng)勵(lì)機(jī)制來(lái)優(yōu)化模型。Li等人提出槽一致性獎(jiǎng)勵(lì),通過(guò)減少模板中丟失或放錯(cuò)槽值的幻覺(jué)現(xiàn)象來(lái)提高生成質(zhì)量。Mesgar等人則使用NLI模型獲得人格一致性子獎(jiǎng)勵(lì)以減少對(duì)個(gè)人事實(shí)的幻覺(jué)。Huang等使用ROUGE和多項(xiàng)選擇填空分?jǐn)?shù)的組合作為獎(jiǎng)勵(lì)函數(shù),以提高總結(jié)輸出的可信度。

Multi-task Learning 多任務(wù)學(xué)習(xí)是一種訓(xùn)練模型同時(shí)處理多個(gè)NLG任務(wù)的方法,旨在學(xué)習(xí)任務(wù)的共性以減少幻覺(jué)問(wèn)題。這種問(wèn)題源于模型對(duì)單一數(shù)據(jù)集的依賴,導(dǎo)致無(wú)法準(zhǔn)確學(xué)習(xí)實(shí)際任務(wù)特征。通過(guò)添加適當(dāng)?shù)母郊尤蝿?wù),如單詞對(duì)齊或蘊(yùn)涵任務(wù),可以提高模型的性能。多任務(wù)學(xué)習(xí)具有提高數(shù)據(jù)效率、減少過(guò)擬合和快速學(xué)習(xí)等優(yōu)點(diǎn),但選擇合適的任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)是關(guān)鍵,同時(shí)也帶來(lái)了設(shè)計(jì)和優(yōu)化的挑戰(zhàn)。

Controllable Generation 當(dāng)前工作將幻覺(jué)級(jí)別視為可控屬性,通過(guò)控制生成技術(shù)如重新采樣、手動(dòng)或自動(dòng)提供控制代碼來(lái)提高可信度。這種方法可能需要帶注釋的數(shù)據(jù)集進(jìn)行訓(xùn)練。考慮到幻覺(jué)可能帶來(lái)好處,可以調(diào)整可控方法以滿足不同應(yīng)用需求。此外,正則化和損失重建等通用訓(xùn)練方法也被提出以解決幻覺(jué)問(wèn)題。

后處理

后處理方法能有效糾正輸出中的幻覺(jué),尤其在有噪聲的數(shù)據(jù)集上表現(xiàn)出優(yōu)勢(shì)。這種方法通過(guò)先利用表現(xiàn)優(yōu)秀的模型生成結(jié)果,再進(jìn)行提煉和校正,盡管可能產(chǎn)生不符合語(yǔ)法的文本,但允許研究人員用少量訓(xùn)練數(shù)據(jù)專門(mén)提高準(zhǔn)確性。

五、未來(lái)方向

 在自然語(yǔ)言生成(NLG)及其下游任務(wù)的研究中,幻覺(jué)問(wèn)題一直是學(xué)術(shù)界關(guān)注的焦點(diǎn)。我們已經(jīng)探討了許多衡量標(biāo)準(zhǔn)和緩解方法,旨在推動(dòng)這些領(lǐng)域的發(fā)展。從更廣泛的角度來(lái)看,我們覺(jué)得下述指標(biāo)設(shè)計(jì)和緩解方法方面的仍然存在著一些潛在的技術(shù)方向。

1.指標(biāo)設(shè)計(jì)

細(xì)粒度度量(Fine-grained Metrics):為了精確識(shí)別幻覺(jué)子串,我們需要開(kāi)發(fā)更細(xì)粒度的度量標(biāo)準(zhǔn)。現(xiàn)有的一些指標(biāo),如基于問(wèn)答的指標(biāo),無(wú)法精確定位單個(gè)幻覺(jué)子串,因此亟需改進(jìn)。細(xì)粒度度量能夠提供更深入的見(jiàn)解,幫助研究人員區(qū)分內(nèi)在和外在幻覺(jué)。未來(lái)的研究可以探索自動(dòng)分類方法,以進(jìn)一步提高度量的準(zhǔn)確性。

事實(shí)核查(Fact-Checking):對(duì)外在幻覺(jué)進(jìn)行事實(shí)驗(yàn)證是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。利用自動(dòng)事實(shí)核查系統(tǒng)來(lái)驗(yàn)證外在幻覺(jué),是未來(lái)的一個(gè)重要研究方向。在選擇證據(jù)的子任務(wù)中,如何從世界知識(shí)中檢索有效證據(jù)是一個(gè)關(guān)鍵問(wèn)題。盡管有些研究嘗試將整個(gè)網(wǎng)絡(luò)作為知識(shí)來(lái)源,但確保網(wǎng)絡(luò)信息的可信度仍然是一個(gè)挑戰(zhàn)。未來(lái)研究應(yīng)著重解決這些問(wèn)題,以便更好地根據(jù)世界知識(shí)進(jìn)行證據(jù)選擇。

泛化能力(Generalization):研究不同任務(wù)的源文本和輸出文本之間的關(guān)系,探索評(píng)估幻覺(jué)的通用指標(biāo),是一個(gè)值得深入的方向。開(kāi)發(fā)具有跨領(lǐng)域魯棒性的任務(wù)無(wú)關(guān)度量標(biāo)準(zhǔn),有助于建立統(tǒng)一的評(píng)估基準(zhǔn)。構(gòu)建開(kāi)源平臺(tái),以便協(xié)作和標(biāo)準(zhǔn)化NLG任務(wù)的評(píng)估指標(biāo),也具有極其重要的意義。

融入人類認(rèn)知視角(Incorporation of Human Cognitive Perspective):優(yōu)秀的自動(dòng)度量標(biāo)準(zhǔn)應(yīng)當(dāng)與人類評(píng)估緊密相關(guān)。從人類認(rèn)知的角度設(shè)計(jì)新指標(biāo),例如模擬人類識(shí)別重要信息并過(guò)濾其余信息的能力,將有助于提高自動(dòng)檢測(cè)與人類判斷的相關(guān)性,從而進(jìn)一步減輕幻覺(jué)并改進(jìn)NLG系統(tǒng)。

2.緩解方法

數(shù)據(jù)預(yù)處理(Data Preprocessing):數(shù)據(jù)預(yù)處理是NLG中的關(guān)鍵環(huán)節(jié),但目前尚無(wú)適用于所有任務(wù)的通用方法。由于不同任務(wù)之間存在數(shù)據(jù)格式的差異,數(shù)據(jù)處理方法的選擇和應(yīng)用仍面臨挑戰(zhàn)。開(kāi)發(fā)通用且穩(wěn)健的數(shù)據(jù)預(yù)處理方法,將有助于減輕NLG中的幻覺(jué)問(wèn)題。

數(shù)字建模(Digital Modeling):對(duì)于數(shù)字幻覺(jué)問(wèn)題,數(shù)字的正確性對(duì)讀者至關(guān)重要。探索明確地對(duì)數(shù)字建模的方法,以減輕幻覺(jué),是一個(gè)值得研究的方向。

區(qū)分內(nèi)在和外在幻覺(jué)(Differentiating Intrinsic and Extrinsic Hallucinations):研究?jī)?nèi)在和外在幻覺(jué)的區(qū)別,并探索針對(duì)這兩種幻覺(jué)的不同緩解方法,是一個(gè)重要的研究領(lǐng)域。

長(zhǎng)文本生成(Long Text Generation):在長(zhǎng)文本生成任務(wù)中,減少自我矛盾是一個(gè)關(guān)鍵方向。引入推理能力,以提高生成文本的一致性和連貫性,是一個(gè)有趣的未來(lái)研究方向。

可控性(Controllability):模型應(yīng)具備控制幻覺(jué)程度的能力,并在忠實(shí)性和多樣性之間找到平衡。可控性是未來(lái)研究中的一個(gè)重要方面。

感謝您的閱讀,我們期待在未來(lái)的文章中繼續(xù)與您分享NLG領(lǐng)域的最新進(jìn)展。

參考文獻(xiàn)


[1] MAYNEZ J, NARAYAN S, BOHNET B, et al. On Faithfulness and Factuality in Abstractive Summarization[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online. 2020. http://dx.doi.org/10.18653/v1/2020.acl-main.173. DOI:10.18653/v1/2020.acl-main.173


[2] DONG Y, WANG S, GAN Z, et al. Multi-Fact Correction in Abstractive Text Summarization[C/OL]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online. 2020. http://dx.doi.org/10.18653/v1/2020.emnlp-main.749. DOI:10.18653/v1/2020.emnlp-main.749.


[3] LEBRET R, GRANGIER D, AULI M. Neural Text Generation from Structured Data with Application to the Biography Domain[C/OL]//Proceedings of the 2016 Conference on Empirical Methods in Natural          Language Processing, Austin, Texas. 2016. http://dx.doi.org/10.18653/v1/d16-1128. DOI:10.18653/v1/d16-1128.


[4] DHINGRA B, FARUQUI M, PARIKH AnkurP, et al. Handling Divergent Reference Texts when Evaluating Table-to-Text Generation[J]. Cornell University - arXiv,Cornell University - arXiv, 2019.


[5] WANG Z, WANG X, AN B, et al. Towards Faithful Neural Table-to-Text Generation with Content-Matching Constraints[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online. 2020. http://dx.doi.org/10.18653/v1/2020.acl-main.101. DOI:10.18653/v1/2020.acl-main.101.


[6] GOYAL T, DURRETT G. Evaluating Factuality in Generation with Dependency-level Entailment.[J]. Cornell University - arXiv,Cornell University - arXiv, 2020.


[7] NIE F, YAO J G, WANG J, et al. A Simple Recipe towards Reducing Hallucination in Neural Surface Realisation[C/OL]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. 2019. http://dx.doi.org/10.18653/v1/p19-1256. DOI:10.18653/v1/p19-1256.


[8] CAO Z, WEI F, LI W, et al. Faithful to the Original: Fact Aware Neural Abstractive Summarization[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022. http://dx.doi.org/10.1609/aaai.v32i1.11912. DOI:10.1609/aaai.v32i1.11912.


[9] ARALIKATTE R, NARAYAN S, MAYNEZ J, et al. Focus Attention: Promoting Faithfulness and Diversity in Summarization[C/OL]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online. 2021. http://dx.doi.org/10.18653/v1/2021.acl-long.474. DOI:10.18653/v1/2021.acl-long.474.


[10] KRISHNA K, ROY A, IYYER M. Hurdles to Progress in Long-form Question Answering[C/OL]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Online. 2021. http://dx.doi.org/10.18653/v1/2021.naacl-main.393. DOI:10.18653/v1/2021.naacl-main.393.


[11] WU Z, GALLEY M, BROCKETT C, et al. A Controllable Model of Grounded Response Generation[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022: 14085-14093. http://dx.doi.org/10.1609/aaai.v35i16.17658. DOI:10.1609/aaai.v35i16.17658.

本文轉(zhuǎn)載自 ??AI遇見(jiàn)云??,作者: 錢(qián)博文

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
黄色一级一级片| 久久久久久欧美精品色一二三四| 男人操女人的视频网站| www.爱久久| 色中色一区二区| www亚洲国产| 韩国av在线免费观看| 久久亚洲综合| 欧美理论电影在线播放| 无码人妻精品一区二区三应用大全| 韩国精品视频在线观看| 亚洲国产美国国产综合一区二区| 黑人另类av| 91无套直看片红桃| 中文亚洲免费| 欧美成人精品xxx| 亚洲av成人无码久久精品| 136福利精品导航| 欧美色图12p| 日本精品久久久久久久久久| 成a人v在线播放| 成熟亚洲日本毛茸茸凸凹| 国产精品青草久久久久福利99| 九九热只有精品| 97精品在线| 亚洲欧美激情精品一区二区| 蜜桃视频无码区在线观看| 超碰这里只有精品| 欧美日韩国产专区| 国产精品一二三在线观看| 成人欧美亚洲| 久久综合九色综合欧美98| 成人免费视频网站| 91精品中文字幕| 日韩午夜高潮| 久久久久久久久国产精品| 欧美特黄一级片| 久久中文视频| 日韩在线www| 久久久久久久毛片| 在线看成人短视频| 亚洲精品日韩欧美| 国产一级黄色录像| 成人直播在线观看| 日韩午夜在线播放| 久久精品一二三四| 国产电影一区二区| 欧美精品一级二级| 五月婷婷丁香色| 97精品国产99久久久久久免费| 欧美性猛交xxxx富婆弯腰| 伊人成色综合网| 91白丝在线| 五月天国产精品| 99在线免费视频观看| 手机电影在线观看| 亚洲精品一卡二卡| 日韩一级片一区二区| a免费在线观看| 一区二区三区在线视频免费观看| 成人午夜免费剧场| 黄页在线观看免费| 亚洲国产成人精品视频| 久久久久久免费看| 日本午夜大片a在线观看| 欧美性猛交xxxx黑人猛交| 欧美一级黄色片视频| 日韩精品影片| 欧美精品在线观看播放| 日本特黄在线观看| h视频久久久| 亚洲国产小视频| 爱爱的免费视频| 国内亚洲精品| 精品国产一区二区三区久久久狼 | 91精品国产色综合久久不卡粉嫩| 7777精品伊人久久久大香线蕉 | 成人av在线资源网站| 精品国产乱码久久久久软件| 精品美女视频在线观看免费软件| 国产精品―色哟哟| 色一情一乱一乱一区91| av老司机在线观看| 在线影视一区二区三区| 色天使在线观看| www.亚洲一二| 国产一区二区激情| 成年人一级黄色片| 在线亚洲观看| 91精品久久久久久久久青青 | 中文网丁香综合网| 好看的中文字幕在线播放| 色婷婷av一区| 91丨porny丨九色| 香蕉久久精品日日躁夜夜躁| 中文字幕亚洲欧美日韩2019| 免费在线一级片| 久久只有精品| 91文字幕巨乱亚洲香蕉| 精品视频三区| 亚洲韩国精品一区| 亚洲第一狼人区| 国产成人av毛片| 日韩在线视频国产| 亚洲另类欧美日韩| 精久久久久久久久久久| 久久青青草综合| 特级毛片在线| 欧美亚洲国产一区二区三区va| 中文字幕一区二区三区人妻在线视频| 亚洲丝袜啪啪| 欧美激情免费视频| 亚洲天堂中文字幕在线| 91亚洲精品一区二区乱码| 日本三级福利片| 午夜欧美巨大性欧美巨大| 精品国产免费人成电影在线观看四季 | 亚洲伦理中文字幕| 欧美日韩免费做爰视频| 人人超碰91尤物精品国产| 精品九九九九| 欧美xxxxhdvideosex| 欧美美女一区二区在线观看| 中文字幕网站在线观看| 99在线观看免费视频精品观看| 5566av亚洲| 欧美日韩xx| 欧洲一区在线观看| 能免费看av的网站| 99国内精品| 国产免费一区| 欧洲精品二区| 日韩三级在线观看| 国产精品免费人成网站酒店 | 婷婷夜色潮精品综合在线| 日本黄色www| 亚洲破处大片| 91亚洲va在线va天堂va国| lutube成人福利在线观看| 色噜噜狠狠色综合中国| 中国美女乱淫免费看视频| 亚洲国产高清一区| 国产精品久久精品视| 蜜桃视频在线观看www社区| 欧美日韩精品免费观看视频| 国产精品酒店视频| 麻豆精品在线看| 亚洲人一区二区| 日韩黄色三级在线观看| 中文字幕自拍vr一区二区三区| 羞羞色院91蜜桃| 国产精品日日摸夜夜摸av| 91看片在线免费观看| 欧美理论在线播放| 国产精品一区二区电影| 美女隐私在线观看| 日韩区在线观看| 国产亚洲精品女人久久久久久| 高清不卡一区二区在线| 69sex久久精品国产麻豆| 国产精品久av福利在线观看| 亚洲 日韩 国产第一| 三级av在线播放| 91国在线观看| 国产麻豆a毛片| 韩国毛片一区二区三区| 欧美激情亚洲天堂| av综合网址| 欧美在线一级视频| av大片在线观看| 91精品欧美久久久久久动漫| 欧美又粗又大又长| 91片在线免费观看| 中文字幕有码av| 欧美精品国产一区| 国产一区二区三区无遮挡| av资源亚洲| 色多多国产成人永久免费网站 | 亚洲图片制服诱惑| 国产精品高潮呻吟av| 亚洲一区二区视频在线观看| 国产精品无码网站| 日本麻豆一区二区三区视频| 亚洲美女自拍偷拍| 狠狠久久伊人| 国产成人精品视频在线观看| 九七久久人人| 亚洲韩国日本中文字幕| 中文字幕一区二区三区四区视频 | 日韩在线视频免费观看高清中文| 草逼视频免费看| 色又黄又爽网站www久久| 91精品少妇一区二区三区蜜桃臀| 成人av在线看| 国产精品视频中文字幕| 亚洲成色精品| 一本久久a久久精品vr综合| 精品国产乱子伦一区二区| 国产精品狠色婷| segui88久久综合| 自拍视频国产精品| 四虎在线免费观看| 91麻豆精品国产综合久久久久久| youjizz在线视频| 亚洲激情中文1区| 亚洲女优在线观看| 9色porny自拍视频一区二区| 嫩草视频免费在线观看| 国产午夜精品一区二区三区欧美| 在线观看日本一区| 精品中文字幕一区二区三区av| 亚洲在线免费观看| 国产精品99| 日韩免费av在线| 超级碰碰不卡在线视频| 日韩中文字幕av| 五月婷婷免费视频| 日韩欧美国产电影| 一本色道久久综合精品婷婷| 欧美性xxxx极品hd满灌| 国产精品99精品| 亚洲日本成人在线观看| 九九九视频在线观看| 92国产精品观看| 熟女人妻一区二区三区免费看| 狠狠v欧美v日韩v亚洲ⅴ| 蜜臀av午夜一区二区三区| 136国产福利精品导航网址| 潘金莲一级淫片aaaaa免费看| 日本不卡电影| 日韩福利影院| 中文字幕精品影院| 久久久久久一区| 亚州精品视频| 久久香蕉综合色| 欧美三级午夜理伦三级小说| 国产视频在线观看一区| 成人搞黄视频| 国产经品一区二区| 91精品啪在线观看国产爱臀 | 欧美日韩导航| 国产欧美日韩综合精品二区| 成人性生交大片免费看96| http;//www.99re视频| 欧美久久一区二区三区| 97久久天天综合色天天综合色hd| 国产精品亚洲一区二区在线观看| 成人在线观看视频网站| 久久伊人精品| 99精品99久久久久久宅男| 婷婷视频一区二区三区| 成人自拍网站| 极品尤物一区| 欧美亚洲另类久久综合| 国产最新精品| 亚洲精品人成| 99视频精品全部免费在线视频| 在线免费一区| 欧美a级片一区| 国产精品国产对白熟妇| 亚洲少妇一区| 成年人视频在线免费| 青青国产91久久久久久| 欧美特级aaa| 国产一区二区福利| 中文字幕第九页| 26uuu色噜噜精品一区二区| 亚洲国产日韩一区无码精品久久久| 国产欧美日韩亚州综合| 日韩在线一卡二卡| 亚洲综合色噜噜狠狠| 久久久久久久久久久久久久av| 色欧美乱欧美15图片| 亚洲视频一区二区三区四区| 日韩一区二区三区av| 亚洲av无码一区二区三区性色| 亚洲精品国产电影| 第一福利在线| 欧美高清不卡在线| 少妇视频在线观看| 成人h视频在线| 国产精品99久久免费观看| 欧美专区一二三| 伊人久久大香线蕉精品组织观看| 亚洲 自拍 另类小说综合图区| 视频一区视频二区在线观看| 色婷婷综合在线观看| 久久婷婷成人综合色| 一级免费黄色录像| 亚洲高清免费一级二级三级| 中文av免费观看| 亚洲第一偷拍网| 视频免费一区| 91高清免费视频| 亚洲我射av| 欧美不卡三区| 欧美午夜影院| 小泽玛利亚视频在线观看| 国产·精品毛片| 欧美性猛交xxxx乱大交少妇| 亚洲福利国产精品| 亚洲一区精品在线观看| 精品无人区太爽高潮在线播放| 免费网站成人| 日本一区二区三区四区视频| 亚洲不卡视频| 亚洲欧美日韩另类精品一区二区三区| 在线国产精品一区| 久久婷婷中文字幕| 国产日韩视频一区二区三区| 国产五月天婷婷| 日韩欧美一区在线观看| av电影在线网| 日韩美女中文字幕| 欧美成人一区在线观看| 日本成人在线不卡| 麻豆精品久久精品色综合| 亚洲熟妇无码av| 黄网动漫久久久| 韩国av永久免费| 欧美精品情趣视频| 亚洲精品三区| 亚洲精品国产精品国自产| 性感少妇一区| 97香蕉碰碰人妻国产欧美| 亚洲国产视频在线| av一区二区三| 久久在线视频在线| 欧美a视频在线| 先锋影音亚洲资源| 日日夜夜一区二区| 亚洲av无码一区二区二三区| 午夜精品视频一区| 国产成人三级在线观看视频| 欧美成人一区二区三区电影| 国产精品国产亚洲精品| 不卡中文字幕在线| 老鸭窝一区二区久久精品| 亚洲图片另类小说| 一本大道久久a久久精二百| 欧美xxx.com| 热久久美女精品天天吊色| 天堂99x99es久久精品免费| 妞干网在线视频观看| 成人免费毛片aaaaa**| 久久网中文字幕| 亚洲第一精品福利| 擼擼色在线看观看免费| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 久久成人综合网| 后入内射无码人妻一区| 欧美剧情电影在线观看完整版免费励志电影| 国产区视频在线| 国产精品一久久香蕉国产线看观看| 久久神马影院| 精品亚洲视频在线| 亚洲精品视频观看| 丁香六月色婷婷| 午夜精品免费视频| 午夜精品福利影院| 亚洲色图38p| 综合激情成人伊人| 精品黑人一区二区三区国语馆| 欧美国产精品人人做人人爱| 老司机aⅴ在线精品导航| 少妇性饥渴无码a区免费| 国产欧美日韩在线观看| 国产精品久久777777换脸| 欧美激情视频免费观看| 亚洲va久久| 色片在线免费观看| 亚洲午夜在线电影| 九色在线播放| 成人性生交大片免费看视频直播 | 91在线视频观看免费| 国产精品久久久久国产精品日日 | 精品一区二区三区三区| 日韩大尺度黄色| 麻豆中文字幕在线观看| 成人动漫一区二区| 丰满熟女人妻一区二区三| 久久亚洲精品一区二区| 日韩精品欧美大片| 九九精品久久久| 亚洲国产精品自拍| 91九色在线porn| 国产精品久久久久久久久久久久午夜片| 鲁大师成人一区二区三区| 成人自拍小视频| 亚洲精品动漫100p| 亚洲热av色在线播放| 99色这里只有精品| 亚洲国产成人一区二区三区| 免费观看黄一级视频| 国产精品视频久久| 91久久久久| 国产又粗又硬又长又爽| 日韩精品视频在线观看免费| 久久av偷拍| 一级黄色香蕉视频|