精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM幻覺問題全梳理!哈工大團隊50頁綜述重磅發布

人工智能 新聞
重磅!哈爾濱工程大學研究團隊發布50頁綜述,細致盤點有關LLM幻覺問題你該知道的所有事。

幻覺,老朋友了。

自打LLM進入我們的視野,幻覺問題就一直是一道坎,困擾著無數開發人員。

當然,有關大語言模型幻覺的問題已經有了無數研究。

最近,來自哈工大和華為的團隊發表了一篇50頁的大綜述,對有關LLM幻覺問題的最新進展來了一個全面而深入的概述。

這篇綜述從LLM幻覺的創新分類方法出發,深入探究了可能導致幻覺的因素,并對檢測幻覺的方法和基準進行了概述。

這其中肯定也少不了業內比較有代表性的減輕幻覺的方法。

論文地址:https://arxiv.org/abs/2311.05232

下面,我們就來看一看本篇綜述中主要講了些什么內容。

想深入學習的朋友,可以移步文章底部的參考鏈接,閱讀論文原文。

幻覺大分類

首先,先來看看有哪些種類的幻覺。

上圖中,左邊是事實性的幻覺。當LLM被問到誰是第一個在月球上漫步的人時,LLM編了個人物出來,甚至還說得有模有樣。

右邊則是文本摘要模型中的忠實度問題,可以看到LLM在看到這段新聞后,直接把年份概括錯了。

在本篇綜述中,研究人員深入分析了LLM中幻覺的起源,涵蓋了從數據、訓練到推理階段的一系列促成因素。

在這一框架內,研究人員指出了與數據相關的潛在原因。例如,有缺陷的數據源和未優化的數據利用,或是在預訓練和對齊過程中可能會誘發幻覺的訓練策略,以及源于解碼策略的隨機性和推理過程中不完善的表征等等。

此外,研究人員還全面概述了專為檢測LLM中的幻覺而設計的各種有效方法,以及與LLM幻覺相關的基準的詳盡概述,和作為評估LLM產生幻覺的程度和檢測方法有效性的試驗平臺。

下圖即為本篇綜述所涉及到的內容、前人研究,以及論文。

下圖是一張更為詳細的LLM幻覺種類圖。

在事實型幻覺和忠實度幻覺下,還包括更為細致的分類。

事實型幻覺:

a)事實不一致

當問LLM,誰是第一位登月的人時,LLM回答說是加加林,而非阿姆斯特朗。這種屬于答案與事實不一致,因為確有加加林其人,所以不屬于捏造。

b)事實捏造

當讓LLM介紹一下獨角獸的起源時,LLM并沒有指出世界上沒有獨角獸這種生物,反倒是編了一大段。這種現實世界中沒有的,稱之為捏造。

忠實度幻覺又包括:指令-答案的不一致、文本不一致,以及邏輯不一致。

a)指令-答案不一致

當LLM被要求翻譯一個問句時,LLM輸出的答案實際上回答了問題,沒有進行翻譯。因此是一種指令和答案的不一致。

b)文本不一致

這類不一致更多出現在概括類任務中。LLM可能會罔顧給出的文本,總結一個錯的出來。

c)邏輯不一致

在被要求給出2x+3=11的方程解法時,第一步LLM指出,兩邊同時減去3,得到2x=8.接下來在兩邊除以2的操作中,LLM輸出的答案是3.

8除以2怎么會等于3呢?

幻覺產生原理

數據

接下來,綜述開始梳理有關幻覺產生原理的內容。

第一類,數據問題。

·錯誤信息和偏見。鑒于對大規模語料庫的需求日益增長,啟發式數據收集方法被用來有效收集大量數據。

這種方法在提供大量數據的同時,可能會無意中引入錯誤信息,增加出現模仿性錯誤的風險。此外,社會偏見也會在無意中被引入LLMs的學習過程。

這些偏差主要包括重復偏差和各種社會偏差(Social Biases)。

要知道,LLM預訓練的主要目的是模仿訓練分布。所以當LLM在事實不正確的數據上接受訓練時,它們可能會無意中放大這些不準確的數據,從而可能導致事實不正確的幻覺。

神經網絡,尤其是大型語言模型,具有記憶訓練數據的內在傾向。研究表明,這種記憶趨勢會隨著模型規模的擴大而增強。

然而,在預訓練數據中存在重復信息的情況下,固有的記憶能力就會出現問題。這種重復會使 LLM 從泛化轉向記憶,最終產生重復偏差,即LLM會過度優先回憶重復的數據,導致幻覺,最終偏離所需的內容。

除了這些偏見,數據分布的差異也是產生幻覺的潛在原因。

下一種情況是,LLM通常會存在知識邊界。

雖然大量的預培訓語料庫為法律碩士提供了廣泛的事實知識,但它們本身也有局限性。這種局限性主要體現在兩個方面:缺乏最新的事實知識和專業領域知識。

雖說LLM在通用領域的各種下游任務中表現出了卓越的性能,但由于這些通用型LLMs主要是在廣泛的公開數據集上進行訓練,它們在專業領域的專業知識受到缺乏相關訓練數據的內在限制。

因此,當遇到需要特定領域知識的問題時,如醫學和法律問題,這些模型可能會表現出明顯的幻覺,通常表現為捏造事實。

此外,還有過時的事實知識。除了特定領域知識的不足,LLMs知識邊界的另一個內在限制是其獲取最新知識的能力有限。

蘊含在LLM中的事實知識具有明確的時間界限,隨著時間的推移可能會過時。

這些模型一旦經過訓練,其內部知識就永遠不會更新。

而鑒于我們這個世界的動態性和不斷變化的本質,這就構成了一個挑戰。當面對超越其時間范圍的領域知識時,LLMs往往會采用捏造事實或提供過去可能正確,但現在已經過時的答案的方法來試圖「蒙混過關」。

下圖中,上半部分即為LLM缺失特定領域內的專業知識——phenylketonuria(苯丙酮尿)。

下半部分即為最簡單的一個知識過時的案例。2018年韓國平昌舉辦冬奧會,2022年北京舉辦冬奧會。LLM并沒有有關后者的知識儲備。

由此可見,LLM中與數據有關的幻覺主要源于錯誤的數據源和不佳的數據利用情況。數據源中的錯誤信息和固有偏差不僅會傳播模仿性虛假信息,還會引入有偏差的輸出,從而導致各種形式的幻覺。

在處理特定領域的知識或遇到快速更新的事實知識時,LLM所擁有知識的局限性就會變得很明顯。

在數據利用方面,LLMs 往往會捕捉到虛假的相關性,在回憶知識(尤其是長尾信息)和復雜推理場景中表現出困難,從而進一步加劇幻覺。

這些挑戰突出表明,亟需提高數據質量,增強模型更有效地學習和回憶事實知識的能力。

訓練

現在,綜述把目光轉向LLM的訓練階段。

LLM的訓練過程主要包括兩個主要階段:

預訓練階段,LLMs在這一階段學習通用表征并捕捉廣泛的知識。

對齊階段,LLMs在這一階段進行調整,以更好地使用戶指令和人類的基本價值觀保持一致。雖然這一過程使LLM 具備了還算不錯的性能,但這些階段中的任何不足都可能無意中導致幻覺的發生。

預訓練是LLM的基礎階段,通常采用基于transformer的架構,在龐大的語料庫中進行因果語言建模。

然而,固有的架構設計和研究人員所采用的特定訓練策略,可能會產生與幻覺相關的問題。如上所說,LLM通常采用基于transformer的架構,遵循GPT建立的范式,它們通過因果語言建模目標獲取表征,OPT和Llama-2等模型都是這一框架的典范。

除了結構缺陷,訓練策略也起著至關重要的作用。值得注意的是,自回歸生成模型的訓練和推理之間的差異導致了暴露偏差(Exposure Bias)現象。

而在對齊階段,一般涉及兩個主要過程,即監督微調和從人類反饋中強化學習(RLHF),是釋放LLM能力并使其符合人類偏好的關鍵一步。

雖然對齊能顯著提高 LLM 響應的質量,但也會帶來產生幻覺的風險。

主要分為兩方面:能力不對齊和信念不對齊(Capability Misalignment、Belief Misalignment)。

如何檢測幻覺?

檢測LLM中的幻覺對于確保生成內容的可靠性和可信度來說至關重要。

傳統的衡量標準主要依賴于詞語重疊,無法區分可信內容和幻覺內容之間的細微差別。

這一挑戰凸顯了針對LLM幻覺采用更先進的檢測方法的必要性。研究人員指出,鑒于這些幻覺的多樣性,檢測方法也相應地有所不同。

這里僅詳細介紹一例——

·檢索外部事實

如下圖所示,為了有效地指出LLM輸出中不準確的事實,一種比較直觀的策略是,直接將模型生成的內容與可靠的知識來源進行比較。

這種方法與事實檢查任務的工作流程非常吻合。然而,傳統的事實核查方法往往出于實用性考慮而采用了簡化假設,導致在應用于復雜的現實世界場景時有可能會出現偏差。

在認識到這些限制因素以后,一些研究者提出,要更加重視真實世界的場景,即從時間受限、未經整理的網絡資源中獲取證據。

他們首創了一種全自動的工作流,集成多個組成部分,包括原始文檔檢索、細粒度檢索、真實性分類等等。

當然,還有不少其他研究者提出了另外一些辦法,比如FACTSCORE,專門用于長文本生成的細粒度事實度量。

圖片

其它方法還包括不確定性估計,如下圖所示。

有關忠實度幻覺的檢測,也有不少相關研究,如下圖所示。

其中包括基于事實度量:通過檢測生成內容與源內容之間的事實重疊度來評估忠實度。

基于分類器的度量:利用經過訓練的分類器來區分生成內容與源內容之間的關聯程度。

基于QA的度量方法:利用問題解答系統來驗證源內容與生成內容之間的信息一致性。

不確定性估計:通過測量模型對其生成輸出的置信度來評估忠實度。

基于prompt的度量方法:讓LLM充當評估者,通過特定的prompt策略來評估生成內容的忠實度。

之后,哈工大團隊還將較為前沿的減輕幻覺的方法進行了整理,針對上述提到的各類問題,分別提供可行的解決辦法。

總結

總而言之,在論文的最后,哈工大的研究人員表示,在這份全面的綜述中,他們對大型語言模型中的幻覺現象進行了深入研究,深入探討了其潛在原因的復雜性、開創性的檢測方法和相關基準,以及有效的緩解策略。

雖然開發者們在這個問題上已經有了不少進步,但大型語言模型中的幻覺問題仍然是一個令人關注的持續性問題,需要繼續研究。

此外,本篇論文還可以作為推進安全可信的AI的指路明燈。

哈工大團隊表示,希望通過對幻覺這一復雜問題的探索,為這些有志之士提供寶貴的見解,推動AI技術向更可靠、更安全的方向發展。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-29 22:38:59

2025-06-16 14:39:56

模型開源框架

2023-10-07 13:17:44

2025-05-27 15:21:06

LLM模型AI

2025-06-25 09:32:11

2021-12-17 10:00:38

2021 Ventur

2025-08-06 09:10:10

2025-04-27 09:07:00

模型安全AI

2013-11-04 14:46:18

2015-10-27 09:25:01

2023-02-28 13:09:53

訓練模型

2023-12-01 14:36:33

模型數據

2025-01-09 12:32:57

2010-06-11 17:35:08

路由協議

2025-08-19 08:58:17

2022-09-04 19:22:46

開發科技

2025-04-08 02:22:00

2025-10-11 18:05:23

智能論文AI

2025-08-06 13:45:28

機器學習AI模型

2025-01-10 00:00:00

點贊
收藏

51CTO技術棧公眾號

国产一区美女| av成人男女| 亚洲欧洲三级电影| 国产精品高清一区二区三区| 中文字字幕在线中文| 精品久久不卡| 欧美成人性福生活免费看| www.四虎成人| 在线看福利影| 国产日本亚洲高清| 国产精品区一区二区三含羞草| 五月天激情四射| 欧美搞黄网站| 中文字幕欧美国内| 五月天丁香社区| 亚洲国产91视频| 欧美日韩一区二区免费在线观看| 一区二区三区免费看| 欧美熟女一区二区| 国产一区二区视频在线| 2019中文字幕在线免费观看| www.色小姐com| 国内亚洲精品| 日韩电影中文 亚洲精品乱码| 17c国产在线| 成人啊v在线| 天天爽夜夜爽夜夜爽精品视频| 天天综合中文字幕| 精品一二三区视频| 91香蕉视频黄| 国产精品美女黄网| 午夜精品久久久久久久99| 欧美aaaaaa午夜精品| 欧美孕妇性xx| 日韩av一区二区在线播放| 国产精品成久久久久| 国产午夜精品全部视频播放| 亚洲制服丝袜在线播放| 第四色在线一区二区| 欧美一激情一区二区三区| 2025韩国理伦片在线观看| 成人直播视频| 欧美日韩中文字幕日韩欧美| 国产精品裸体瑜伽视频| 精灵使的剑舞无删减版在线观看| 亚洲欧洲99久久| 亚洲日本精品一区| 91社区在线观看| 国产无一区二区| 日本一区高清不卡| yw在线观看| 欧美韩日一区二区三区四区| 日本一区二区在线视频观看| 福利视频在线导航| 久久精品无码一区二区三区| 蜜桃免费一区二区三区| 欧美偷拍视频| 国产午夜精品久久久久久久| 日韩精品电影网站| 在线免费av网站| 国产精品久久三| 亚洲精品一品区二品区三品区| 黄色影院在线播放| 国产精品全国免费观看高清| 日本特级黄色大片| 最新av在线播放| 亚洲综合免费观看高清在线观看| 日本男女交配视频| 97超碰免费在线| 欧美性极品xxxx娇小| 国产成人久久777777| 欧美日韩亚洲国产| 欧美一区二区三区在线观看| 性色av浪潮av| 久久夜色精品国产噜噜av小说| 精品视频在线观看日韩| japanese中文字幕| 99成人在线视频| 欧美激情视频给我| 亚洲 欧美 成人| 老司机午夜精品| 国产成人精品日本亚洲11| 欧美在线 | 亚洲| 久久久美女艺术照精彩视频福利播放| 日韩一区二区电影在线观看| 久久五月精品| 精品久久久久久久久久久| 国产又大又黄又猛| 欧洲大片精品免费永久看nba| 亚洲精品videossex少妇| 高潮毛片无遮挡| 亚洲精品91| 日本免费在线精品| 国产欧美一级片| 久久先锋影音av| 热久久最新地址| 桃子视频成人app| 日韩欧美一区中文| 亚洲av成人无码久久精品| 综合一区二区三区| 国产成人a亚洲精品| 国产a级免费视频| 国产日韩av一区| 丁香六月激情婷婷| 久久国内精品| 亚洲美女喷白浆| 欧美日韩偷拍视频| 蜜臀av性久久久久蜜臀aⅴ四虎| 成人激情直播| 免费在线午夜视频| 色拍拍在线精品视频8848| 在线播放国产视频| 久久国产成人精品| 91av在线视频观看| 99国产精品一区二区三区| 久久综合九色综合97_久久久| 亚洲欧美一二三| 成人国产一区| 亚洲男人天堂九九视频| 久久久久久免费观看| 国模一区二区三区白浆| 日韩av一区二区三区在线 | 国产精品国产三级国产a| 国产精品网站免费| 亚洲国产高清在线观看| 在线电影av不卡网址| 亚洲 欧美 日韩 综合| 国产成人午夜精品5599| 在线视频91| 国产精品成人国产| 在线视频免费一区二区| 老熟妇仑乱一区二区av| 91偷拍与自偷拍精品| 日韩av在线播放不卡| 欧美专区视频| 九九热精品在线| 国产黄色片网站| 亚洲欧美偷拍另类a∨色屁股| 久久国产精品国产精品| 欧美一区电影| 国产精品一区二区三区久久| 国产免费视频在线| 在线精品国精品国产尤物884a| 特大黑人巨人吊xxxx| 亚洲欧洲日本mm| 国产欧美韩日| 在线免费三级电影网站| 亚洲女人天堂色在线7777| 免费的毛片视频| 久久久亚洲高清| 中文字幕欧美人妻精品一区| 精品国产123区| 国产精品美女免费| 无遮挡动作视频在线观看免费入口| 色狠狠桃花综合| 久久视频精品在线观看| 日本一不卡视频| 亚洲人成网站在线观看播放| 亚洲精品tv| 久久99视频免费| 欧美 日韩 中文字幕| 精品久久久久久电影| 性高潮久久久久久久| 日韩成人免费电影| 欧美日韩一区二区三区电影| 天堂va在线高清一区| 久久全球大尺度高清视频| 五月色婷婷综合| 一本在线高清不卡dvd| 免费黄在线观看| 极品少妇xxxx精品少妇偷拍 | 老司机在线视频二区| 欧美一区二区三区四区高清| 久久久久无码国产精品| 91视频你懂的| 五月天婷婷亚洲| 亚洲视屏一区| 日韩精品极品视频在线观看免费| 国产精品伦一区二区| 欧美大片免费看| 欧美一区二区少妇| 欧美另类z0zxhd电影| 久久精品免费在线| 国产午夜三级一区二区三| 在线免费黄色网| 国产欧美日韩综合一区在线播放| 日韩色妇久久av| 日韩精品一区二区三区中文字幕| 1769国内精品视频在线播放| 在线观看麻豆| 亚洲国产成人精品女人久久久| 免费看污视频的网站| 一区二区三区欧美日韩| 国产jjizz一区二区三区视频| 狠狠色丁香久久婷婷综| 18禁男女爽爽爽午夜网站免费| 久久精品国产亚洲夜色av网站| 国产精品久久久久久久免费大片 | av毛片午夜不卡高**水| 少妇高潮 亚洲精品| 人妻一区二区三区免费| 欧美日本免费一区二区三区| 久草视频在线观| 亚洲美女精品一区| 美国黄色特级片| 99在线精品免费| 日韩欧美中文视频| 日韩精品久久理论片| 国产精品久久中文字幕| 一本一道久久综合狠狠老| 日本高清久久一区二区三区| av成人综合| 亚洲a区在线视频| 成人看片毛片免费播放器| 午夜精品福利视频| 国产剧情在线| 少妇高潮 亚洲精品| 精品乱码一区二区三四区视频| 亚洲成人a级网| 精品人妻久久久久一区二区三区| 欧美在线一二三四区| 国产网友自拍视频| 亚洲乱码国产乱码精品精98午夜| wwwww黄色| 久久久久高清精品| aa一级黄色片| 99re在线视频这里只有精品| 一级黄色大片免费看| 韩国av一区二区三区四区| 热久久精品免费视频| 久久免费高清| 免费无码av片在线观看| 亚洲欧洲另类| 每日在线观看av| 国产一区亚洲| 欧美国产综合在线| 激情综合网址| 国产一级不卡视频| 欧美激情1区2区| avav在线播放| 欧美日韩四区| 岛国大片在线播放| 亚洲电影成人| www.玖玖玖| 欧美一级久久| 国产真人无码作爱视频免费| 日韩精品一二三区| 免费看涩涩视频| 国内久久婷婷综合| 在线播放黄色av| 高清不卡一区二区| 最新版天堂资源在线| 成人精品免费视频| 手机av免费看| 国产三级三级三级精品8ⅰ区| 日本少妇高潮喷水xxxxxxx| 国产日韩欧美不卡在线| 性色国产成人久久久精品| 亚洲欧美视频在线观看视频| 久久久久亚洲av无码专区体验| 亚洲一二三四久久| 国产精品999在线观看| 色久优优欧美色久优优| 亚洲天堂网视频| 日韩一区二区在线观看视频| 性生活三级视频| 日韩精品中文字幕久久臀| 国产精品秘入口| 久久久999精品免费| 欧洲成人综合网| 青青久久aⅴ北条麻妃| 国产精品久久久久久久久免费高清| 91日本视频在线| 欧美电影完整版在线观看| 欧美高清性xxxxhd| 午夜精品毛片| 免费av手机在线观看| 全国精品久久少妇| 日韩av成人网| 久久精品亚洲麻豆av一区二区| 黄色精品视频在线观看| 亚洲高清不卡在线| 最新中文字幕在线观看视频| 911精品国产一区二区在线| 天天干天天摸天天操| 色爱精品视频一区| 成人高潮aa毛片免费| 国产精品黄色av| youjizz欧美| 色综合久久av| 亚洲视频综合| 最新免费av网址| 99re这里只有精品首页| 91制片厂在线| 一本久道久久综合中文字幕| 99产精品成人啪免费网站| 国产丝袜高跟一区| 国内外激情在线| 日本一区二区在线免费播放| 看亚洲a级一级毛片| 欧美成人一区二区在线| 欧美fxxxxxx另类| www日韩视频| 91在线云播放| 欧美激情精品久久| 欧美在线观看视频一区二区三区| 风流少妇一区二区三区91| 日韩一级黄色av| 色尼玛亚洲综合影院| 国产精品v欧美精品v日韩精品| 欧美丰满老妇| 精品www久久久久奶水| 成人午夜激情视频| 国产精品三区在线观看| 欧美调教femdomvk| 日本电影一区二区在线观看| 欧美激情乱人伦一区| 亚洲人成网站在线在线观看| 日本一区二区三区视频在线观看| 亚洲免费成人| 国产精品入口麻豆| 亚洲精品日产精品乱码不卡| 亚洲天堂自拍偷拍| 国产小视频国产精品| 蜜桃av.网站在线观看| 国产精品国产精品| 韩国av一区| 精品无码av一区二区三区不卡| |精品福利一区二区三区| 免费在线观看av的网站| 亚洲欧洲在线免费| 蜜臀国产一区| 欧美日韩综合网| 久久久久欧美精品| 欧美性xxxx图片| 欧美性猛交xxxx黑人| 神马久久高清| 久久久久国产精品免费网站| 亚洲精品18| 国产精品va在线观看无码| 懂色av一区二区三区免费看| 欧美色图亚洲视频| 日韩美女视频一区二区在线观看| 麻豆传媒在线免费看| 国产日韩精品在线播放| 999久久久精品国产| 亚洲一区二区三区观看| ...av二区三区久久精品| 国产一区二区麻豆| 欧美成人免费在线视频| 77成人影视| 韩日视频在线观看| 99re成人在线| aaaaaa毛片| 欲色天天网综合久久| 国产日本久久| 真人做人试看60分钟免费| 国产成人亚洲综合a∨猫咪| 国产无遮无挡120秒| 亚洲精品二三区| 免费观看亚洲| 亚洲成人第一| 国产精品一卡二卡在线观看| 精品处破女学生| 日韩国产中文字幕| 成人全视频免费观看在线看| 手机福利在线视频| 国产成人午夜片在线观看高清观看| 日韩美女视频网站| 亚洲欧美第一页| 999色成人| 日本手机在线视频| 国产夜色精品一区二区av| 一级片免费网站| 午夜欧美不卡精品aaaaa| 亚洲人成精品久久久| 天天干天天操天天做| 亚洲综合色区另类av| 久久精品蜜桃| 91亚色免费| 久久人人超碰| 精品一区二区6| 精品久久人人做人人爱| 456成人影院在线观看| 久久久无码中文字幕久...| 91免费国产在线| 国产乱码久久久| 538国产精品一区二区免费视频| 欧美中文字幕一区二区| 欧美一级片在线免费观看| 欧洲色大大久久| 国产在线xxx| 色之综合天天综合色天天棕色| 国产乱人伦精品一区二区在线观看 | 国产精品高潮呻吟久久| 人妻无码中文字幕| 成人在线免费观看视视频| 老鸭窝91久久精品色噜噜导演| 欧美风情第一页| 亚洲性线免费观看视频成熟|