精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI最新研究揭秘大模型為什么會有幻覺!

人工智能
幻覺問題是限制語言模型在高風險領域(如醫療、法律)應用的關鍵障礙。這項研究為構建更可信的AI系統鋪平了道路。

引言:語言模型的“幻覺”難題

在人工智能飛速發展的今天,大語言模型(LLMs)如ChatGPT、DeepSeek等已經成為我們日常生活與工作的得力助手。然而,這些模型有時會“信口開河”,生成看似合理卻完全錯誤的回答,這種現象被學界稱為“幻覺”(hallucination)。例如,當被問及“亞當·卡萊的生日是哪天?”時,某開源模型接連給出了“03-07”、“15-06”和“01-01”三個錯誤答案,而正確答案應為秋季某天。這種“言之鑿鑿”的錯誤輸出不僅讓人啼笑皆非,還嚴重影響了模型的可信度。

近日,來自OpenAI與佐治亞理工學院的頂尖研究團隊發表了一篇題為《Why Language Models Hallucinate》的論文,深入剖析了語言模型產生幻覺的根本原因。論文由Adam Tauman Kalai、Ofir Nachum、Santosh S. Vempala和Edwin Zhang聯合撰寫,提出了一種全新的理論框架,揭示了幻覺在模型預訓練與后訓練階段的統計學根源,并呼吁調整當前評估體系以打造更可信的AI系統。這篇研究不僅為理解語言模型的行為提供了新視角,還為未來AI的發展指明了方向。

論文鏈接:https://huggingface.co/papers/2509.04664

幻覺的本質:從錯誤到“言之成理”的謊言

什么是幻覺?

語言模型的幻覺指的是模型生成看似合理但實際上錯誤的輸出。與人類感知中的“幻覺”不同,AI的幻覺并非感官錯覺,而是一種統計學上的錯誤行為。例如,當被要求回答“DEEPSEEK中有幾個D?”時,某模型在多次試驗中給出了“2”或“3”的錯誤答案,甚至有模型回答“6”或“7”,完全偏離了正確答案“1”。這些錯誤并非簡單的拼寫或語法問題,而是模型在面對不確定性時,傾向于生成“言之成理”卻錯誤的回答,而不是坦誠表示“我不知道”(IDK)。

論文指出,幻覺可以分為兩類:內在幻覺(intrinsic hallucination),即模型輸出與用戶輸入的提示相矛盾;外在幻覺(extrinsic hallucination),即輸出與訓練數據或外部事實不符。例如,下表1展示了三款主流模型在回答“亞當·卡萊的博士論文標題是什么?”時,均給出了錯誤的標題和年份,凸顯了幻覺問題的普遍性。

圖片

幻覺為何產生?

研究團隊通過計算學習理論的視角,將幻覺問題簡化為一個二分類問題:模型需要在“有效輸出”(valid outputs)與“錯誤輸出”(error outputs)之間做出區分。他們提出了“Is-It-Valid”(IIV,是否有效)分類任務,假設訓練數據中包含一半有效樣本(標記為“+”)和一半隨機錯誤樣本(標記為“-”)。通過分析,研究發現,語言模型的生成錯誤率與IIV分類的錯誤率之間存在數學關系:

生成錯誤率 ≥ 2 × IIV誤分類率

這意味著,幻覺的產生源于模型在預訓練階段試圖擬合語言分布時,受到統計壓力的影響。即使訓練數據完全無誤,模型仍會因優化目標的特性而生成錯誤。這種統計學上的“必然性”解釋了為何即使是最先進的模型也無法完全避免幻覺。

圖片

圖1:Is-It-Valid分類任務示例。圖示展示了如何通過標記為“+”的正確樣本和“-”的錯誤樣本訓練模型區分有效輸出。分類器(虛線)在拼寫等簡單任務上表現良好,但在復雜或無模式的事實上易出錯,導致幻覺。

預訓練中的幻覺根源:統計學與模型局限

預訓練如何引發幻覺?

在語言模型的預訓練階段,模型通過學習大規模文本語料庫來估計語言分布。

然而,研究指出,即使訓練數據完美無瑕,模型在優化交叉熵損失時,也會因統計復雜性而產生錯誤。論文通過一個簡化的例子說明了這一點:假設模型需要回答某人的生日,但訓練數據中某些事實(如某人的生日)只出現了一次(稱為“單例”),模型很難準確學習這些事實。研究團隊引入了“單例率”(singleton rate),即訓練數據中只出現一次的提示比例,并證明幻覺率至少與單例率相當。例如,如果20%的生日事實在訓練數據中只出現一次,那么模型在這些事實上的幻覺率至少為20%。

此外,研究還分析了其他導致幻覺的因素:

  • 統計復雜性:對于沒有明確模式的事實(如隨機生日),模型因缺乏足夠數據而產生“認知不確定性”(epistemic uncertainty)。
  • 模型局限性:如三元模型(trigram models,即 AI 發展早期上下文窗口僅有三個詞元的模型)無法捕捉長距離依賴,導致生成不合語法的內容。
  • 計算難度:某些問題(如解密任務)在計算上不可行,模型只能隨機猜測。
  • 數據質量問題(GIGO):訓練數據中的錯誤或半真半假內容會被模型復現。

理論突破:從分類到生成

論文的一個重要貢獻是將生成任務與二分類任務聯系起來。通過IIV分類問題,研究團隊證明了生成有效輸出的難度高于分類任務的難度。這種“降維”分析不僅適用于傳統的下一詞預測模型,還適用于基于搜索和檢索的模型,展現了其普適性。

后訓練中的幻覺頑疾:評估體系的“誤導”

后訓練為何未能根除幻覺?

預訓練后的后訓練階段(如通過人類反饋強化學習RLHF或直接偏好優化DPO)旨在優化模型,使其更準確并減少幻覺。然而,研究發現,當前的評估體系卻在無意中“鼓勵”模型生成幻覺。論文以一個生動的類比解釋了這一現象:就像學生在考試中因不確定而胡亂猜測,語言模型在面對二元評分(0-1評分)時,也傾向于生成“看似正確”的答案,而不是表示不確定性。

在二元評分體系下,正確答案得1分,錯誤答案或“我不知道”得0分。這種評分機制使得模型在不確定時選擇“冒險猜測”,因為猜測至少有一定概率得分,而表示不確定性則完全不得分。研究團隊通過數學分析證明,對于任何提示,模型的最佳策略永遠不是棄權(IDK),而是選擇一個可能的答案。這種“考試心態”使得模型在后訓練中傾向于生成過自信的幻覺,而不是誠實表達不確定性。

當前評估體系的問題

論文進一步分析了多個主流評估基準(如表2所示),發現絕大多數評估采用二元評分,忽視了對不確定性表達的獎勵。例如:

  • MMLU-ProGPQA:以多選題準確率為主要指標,IDK無得分。
  • IFEval:基于指令遵循的準確性評分,棄權無明確獎勵。
  • WildBench:雖采用1-10分評分,但IDK可能被評為“無意義”,得分低于包含幻覺的“一般”回答。

這些評估體系的共同問題是,它們更看重答案的“正確率”而非“誠實度”,從而導致模型在優化過程中更傾向于生成幻覺。

圖片

圖2:GPT-4在預訓練與后訓練后的校準對比。左圖顯示預訓練模型的校準較好,右圖顯示后訓練后校準下降,表明后訓練可能加劇幻覺問題。

解決之道:重新設計評估體系

引入明確置信度目標

為了應對幻覺問題,研究團隊提出了一個簡單而有效的解決方案:調整評估體系,明確鼓勵模型表達不確定性。他們建議在評估提示中加入明確的置信度要求,例如:

僅在置信度高于t時回答,錯誤答案將被扣除t/(1-t)分,正確答案得1分,“我不知道”得0分。

這種評分機制通過對錯誤答案施加懲罰,激勵模型在不確定時選擇棄權。例如,當置信度閾值t=0.75時,錯誤答案將扣除3分,這使得模型只有在置信度高于75%時才會選擇回答。研究指出,這種方法已在一些人類標準化考試(如印度JEE、美國SAT早期版本)中得到應用,證明了其可行性

前段時間 Meta 等團隊提出的“DeepConf”也用置信度的概念,在不微調的情況下大幅提升了模型在AIME 2025上的準確率,有異曲同工之妙。但 OpenAI 所提出的方法似乎更徹底、更根本,歡迎大家在評論區留言討論。

社會技術挑戰

論文強調,僅僅引入新的幻覺評估基準是不夠的,因為當前的主流評估體系在行業內占據主導地位。研究團隊呼吁對現有基準(如MMLU-Pro、GPQA等)進行改造,納入對不確定性的獎勵機制,并推動這些改進在影響廣泛的排行榜(如HELM、Open LLM Leaderboard)中被采納。這種“社會技術”方法需要學術界與工業界的共同努力,以確保評估體系與可信AI的目標對齊。

研究的意義與未來展望

理論與實踐的橋梁

這項由OpenAI與佐治亞理工學院聯合完成的研究,不僅從理論上揭示了語言模型幻覺的統計學根源,還通過分析當前評估體系的局限性,為解決幻覺問題提供了切實可行的方案。其核心貢獻包括:

  • 理論創新:通過將生成任務降維為二分類問題,揭示了幻覺的統計本質。
  • 實踐指導:指出評估體系的缺陷,并提出明確的改進建議。
  • 廣泛適用性:分析適用于多種模型架構和訓練范式,具有普適性。

通向可信AI的下一步

幻覺問題是限制語言模型在高風險領域(如醫療、法律)應用的關鍵障礙。這項研究為構建更可信的AI系統鋪平了道路。未來,研究人員需要進一步探索如何在模型訓練中融入不確定性表達的獎勵機制,并推動行業采用更科學的評估標準。此外,隨著模型規模的增長和訓練數據的復雜化,如何平衡模型的廣度與準確性,仍是值得深入研究的課題。

結語

《Why Language Models Hallucinate》這篇論文為我們理解語言模型的“胡說八道”提供了一把鑰匙。從預訓練中的統計壓力到后訓練中的評估誤導,研究團隊揭示了幻覺問題的深層原因,并提出了切實可行的解決方案。這不僅是一項學術突破,更是對AI社區的一次深刻反思:我們是否在用錯誤的“考試”方式培養AI?通過調整評估體系,鼓勵模型誠實表達不確定性,我們或許能迎來一個更可信、更可靠的AI時代。

責任編輯:武曉燕 來源: 機智流
相關推薦

2025-09-08 08:56:00

OpenAI論文模型

2025-09-08 09:43:02

OpenAI大模型幻覺

2025-07-11 09:50:52

2024-05-28 14:40:00

2024-02-27 13:38:16

微軟OpenAI模型

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-08-02 07:35:03

微信用戶隱私內容安全

2025-08-29 09:05:00

AI模型報告

2025-02-24 09:55:47

2024-01-29 12:49:00

AI模型

2025-03-21 09:35:29

2024-01-03 13:37:00

模型數據

2023-11-26 00:24:33

2024-07-15 08:39:42

2023-11-14 17:53:39

模型訓練

2024-09-02 09:12:00

場景管理

2024-01-02 13:19:00

AI模型

2025-04-25 10:03:12

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-11-18 09:30:42

模型AI
點贊
收藏

51CTO技術棧公眾號

久久久综合免费视频| www欧美成人18+| 超碰精品一区二区三区乱码| 中国男女全黄大片| 亚洲欧美se| 国产精品电影一区二区| 国产精品日韩欧美一区二区三区| 国产无人区码熟妇毛片多| 欧美少妇性xxxx| 精品日韩一区二区| 老司机午夜av| 国产第一页在线| 欧美激情中文字幕| 国产精品久久久对白| 中文字幕免费在线看| 韩国久久久久| 精品久久国产精品| 尤物视频最新网址| 丁香5月婷婷久久| 欧美日韩国产综合一区二区三区| 成年人看的毛片| 欧美激情视频在线播放| 久久综合久久综合亚洲| 91香蕉视频在线下载| 中国精品一区二区| 亚洲一区二区毛片| 欧美大片大片在线播放| 欧美精品二区三区四区免费看视频| 中文字幕无线码一区| 99伊人成综合| 欧美大片大片在线播放| 亚洲色图27p| 欧美激情在线精品一区二区三区| 日韩午夜激情视频| 亚洲国产日韩欧美在线观看| 亚洲欧美小说色综合小说一区| 亚洲永久精品大片| 色撸撸在线观看| 成人亚洲综合天堂| 国产亚洲欧美色| 久久精品99| 欧美在线精品一区二区三区| 国产99久久久国产精品免费看 | 在线黄色网页| ...中文天堂在线一区| 亚洲v国产v在线观看| 九色视频在线播放| 久久久.com| 欧美精品国产精品久久久| 五月婷婷开心中文字幕| 成人午夜大片免费观看| 国产一区二区三区四区五区加勒比| 国产人妖一区二区| 韩国三级电影一区二区| 91免费看片网站| 国产精品欧美久久久久天天影视| 免费人成网站在线观看欧美高清| 国产精品福利片| 亚洲中文无码av在线| 丝袜亚洲另类丝袜在线| 国产精品日韩在线观看| 欧美性猛交xxxx乱大交hd| 老司机久久99久久精品播放免费| 国产成人免费av| 337p粉嫩色噜噜噜大肥臀| 青青草伊人久久| 国产精品一区=区| 91麻豆成人精品国产| 狠狠色伊人亚洲综合成人| 亚洲自拍在线观看| 高清毛片aaaaaaaaa片| 成人一级黄色片| 国产伦精品一区二区三区高清版| 天天躁日日躁狠狠躁喷水| 99视频超级精品| 久久久福利视频| 国产乱理伦片a级在线观看| 欧美国产成人在线| 日本一二三区视频在线| av中文在线资源库| 欧洲激情一区二区| 91视频免费入口| 日韩影视在线观看| 日韩亚洲欧美成人| 国产精选第一页| 热久久国产精品| www.久久草| 日本福利在线观看| 亚洲欧美综合另类在线卡通| 亚洲熟妇无码av在线播放| 亚洲免费福利| 日韩欧美一二三| 粉嫩av蜜桃av蜜臀av| 我不卡手机影院| 66m—66摸成人免费视频| 中文字幕有码视频| 成人免费看黄yyy456| 日韩欧美在线电影| 福利网站在线观看| 欧美日韩一区二区在线观看| 国产人成视频在线观看| 清纯唯美综合亚洲| 97精品国产97久久久久久免费| 久久人人爽人人爽人人片av免费| 国产麻豆一精品一av一免费| 欧美另类高清视频在线| 中文字幕在线观看网站| 欧美写真视频网站| 亚洲啪av永久无码精品放毛片| 欧美天天综合| 91精品国产高清| 国产精品久久久久久无人区| 91蜜桃在线观看| 国产91在线亚洲| a成人v在线| 国产丝袜一区二区三区| 久久精品波多野结衣| 日韩激情av在线| 国产一区二区三区免费不卡| 久久77777| 91福利在线播放| 美国黄色一级毛片| 尤物精品在线| 4444kk亚洲人成电影在线| www在线免费观看| 欧美性xxxxxxxxx| 黄色性视频网站| 亚洲综合专区| 成人做爰www免费看视频网站| 国产美女视频一区二区三区| 欧美性生交xxxxx久久久| 黄色av电影网站| 欧美一区二区三区久久精品| 成人信息集中地欧美| 色网站在线看| 欧美午夜宅男影院| 日本污视频网站| 青娱乐精品视频| 亚洲国产欧洲综合997久久| 日韩电影免费观看高清完整版| 亚洲国产成人av在线| 日本a在线观看| 大白屁股一区二区视频| 激情五月婷婷六月| 97久久亚洲| 久久免费国产视频| 免费观看毛片网站| 精品女厕一区二区三区| 国产又黄又粗又猛又爽的视频 | 国模私拍视频一区| 久久综合免费视频| 国产精品无码一区二区桃花视频| 中文子幕无线码一区tr| 少妇黄色一级片| 欧美日韩在线网站| 国产精品视频区| 日韩免费啪啪| 91精品国产高清一区二区三区蜜臀| 岛国片在线免费观看| 久久av资源网| 九一免费在线观看| 第一区第二区在线| 日韩美女av在线免费观看| 高清性色生活片在线观看| 欧美日韩一区二区三区四区| 好吊日在线视频| 国产白丝精品91爽爽久久| 久久久亚洲国产精品| 亚洲理论电影| 国产精品一二三在线| 午夜dj在线观看高清视频完整版| 欧美精品一区二区三区在线播放| 国产成年人免费视频| 久久久久久久久久久久久久久99| www.久久91| 欧美日韩专区| 欧美亚洲爱爱另类综合| 日韩深夜福利网站| 久久久久久这里只有精品| 色视频在线观看| 欧美精品少妇一区二区三区| 国产在线观看免费视频今夜| 久久女同精品一区二区| 日韩va在线观看| 一区二区高清| 日韩在线导航| 国产厕拍一区| 国产福利成人在线| 中文在线观看免费| 亚洲欧洲日产国码av系列天堂| 国产精品美女一区| 欧美日韩国产综合新一区| 国产精品18在线| 成人激情小说网站| 欧美特级aaa| 亚洲激情精品| 国产系列第一页| 啪啪激情综合网| 91精品国产综合久久香蕉922| 91av久久| 久久精品久久久久久| 香蕉久久一区二区三区| 91精品国产一区二区三区 | 国产欧美综合一区二区三区| 亚洲欧美国产不卡| 国产欧美三级电影| 91视频免费网站| 国产亚洲一区二区手机在线观看| 欧美另类xxx| 欧美日韩在线看片| 日本韩国精品在线| 日本超碰在线观看| 日韩一级欧洲| 欧美一级免费在线观看| 81精品国产乱码久久久久久| 91狠狠综合久久久久久| 国产呦精品一区二区三区网站| 成人免费观看cn| 99欧美视频| 欧美日韩一区在线观看视频| 一区二区亚洲视频| 国产日韩精品在线| 91精品国产高清自在线看超| 亚洲一级片免费看| 精品久久香蕉国产线看观看gif| 成年人视频软件| 91免费看`日韩一区二区| 无码人妻少妇色欲av一区二区| 日本亚洲视频在线| 超碰97人人射妻| 亚洲第一精品影视| a级黄色片免费| 国产精品毛片一区二区在线看| 欧美精品一区二区三区四区五区| 盗摄系列偷拍视频精品tp| 成人亚洲激情网| 国产香蕉久久| 国产精品福利小视频| 免费观看亚洲| 91精品国产91| 国产精品蜜芽在线观看| 欧美激情第1页| av网站网址在线观看| www国产亚洲精品久久网站| 成人精品一区| 在线激情影院一区| av在线之家电影网站| 亚洲最新av在线| 国产福利电影在线| 中文字幕欧美精品在线 | 亚洲精品wwwww| 亚洲黄色a级片| 精品日韩一区二区三区免费视频| 亚洲黄色片视频| 亚洲国产精品久久久久秋霞蜜臀| 亚洲精品国产精品乱码不卡| 欧美v日韩v国产v| 免费试看一区| 亚洲精品小区久久久久久| 欧美影视一区二区| 国产亚洲一区二区三区不卡| 日韩高清国产精品| 日韩欧美网址| 欧美 亚洲 视频| 亚洲激情专区| 99色精品视频| 蜜臀av性久久久久蜜臀aⅴ四虎| 高清av免费看| 国风产精品一区二区| 91精品电影| 日本道在线视频| 黑丝一区二区三区| 国产毛片视频网站| 久热精品在线| 久久久精品高清| 国产高清精品网站| 国产人妻黑人一区二区三区| www久久久久| 少妇高潮一区二区三区喷水| 亚洲精品国产高清久久伦理二区| 国产精品二区一区二区aⅴ| 欧美日韩国产色| 最新国产中文字幕| 欧美大片在线观看| 黄色片在线免费看| 欧美另类极品videosbest最新版本| 极品在线视频| 国产精品久久久久久久久久ktv| 国产精品va视频| 久久99精品久久久久子伦| 日韩欧美精品综合| 国内精品在线观看视频| 日韩国产在线观看一区| 欧美日韩一区二区区| 久久久国产午夜精品| 三级影片在线看| 日韩欧美精品在线观看| 99久久久久成人国产免费| 日韩精品在线视频美女| www在线视频| 日韩av123| 少妇精品在线| 视频一区视频二区视频| 伊人久久大香线蕉综合热线| 超碰在线播放91| 91一区一区三区| 在线观看亚洲网站| 91久久精品一区二区三| 国模私拍视频在线| 日韩一级裸体免费视频| 久久精品女人天堂av免费观看 | 国产精品人人人人| 欧美一区二区精美| 国产高清视频在线播放| 97视频色精品| 日本免费一区二区三区视频| 丝袜足脚交91精品| 午夜一区不卡| 波多野结衣一二三区| 亚洲欧洲三级电影| 最近国语视频在线观看免费播放| 日韩av影视综合网| 调教一区二区| 成人福利免费观看| 凹凸成人精品亚洲精品密奴| 日韩av一二三四区| 不卡视频在线观看| 青青操视频在线播放| 在线播放/欧美激情| av网站在线播放| 国产91在线播放| 天天躁日日躁成人字幕aⅴ| 欧美一级视频在线播放| 国产精品一二三四区| 三级黄色在线观看| 欧美日本一区二区三区| av电影在线观看| 国产成人拍精品视频午夜网站| 久久精品凹凸全集| 天堂…中文在线最新版在线| 高清日韩电视剧大全免费| 欧美成人综合色| 日韩视频一区二区三区| 91精选在线| 99国产超薄肉色丝袜交足的后果| 中文在线日韩| 色欲无码人妻久久精品| 亚洲精品国产一区二区精华液| 国产三级午夜理伦三级| 久久视频国产精品免费视频在线| 日韩福利影视| 做爰高潮hd色即是空| 国产一区亚洲一区| 波多野结衣家庭教师| 91精品国产丝袜白色高跟鞋| 18+激情视频在线| 成人动漫视频在线观看免费| 亚洲国内欧美| 黄色国产在线观看| 色域天天综合网| aaa在线观看| 91在线观看免费高清| 国产一区日韩一区| 超碰97在线资源站| 欧美亚洲免费在线一区| 美女羞羞视频在线观看| 91丨九色丨国产| 国产精品久久久免费| 香蕉视频久久久| 911精品产国品一二三产区| 秋霞在线视频| 六十路精品视频| 美国欧美日韩国产在线播放| 视频这里只有精品| 亚洲电影成人av99爱色| 成人性生活视频| 亚洲精品高清视频| 国产精品一区二区在线看| www日韩精品| 丝袜美腿精品国产二区| 精品视频一二| 国产精品无码一区二区在线| 国产欧美日韩久久| 国产成人毛毛毛片| 1769国产精品| 999精品视频| 国产精品九九视频| 欧美人妇做爰xxxⅹ性高电影| 色呦呦在线视频| 欧美亚洲精品日韩| 国产suv精品一区二区三区| 无码人妻熟妇av又粗又大| 久久久精品一区| 欧美日韩一区二区三区不卡视频| 国产xxxxx视频| 亚洲一区欧美一区| av在线日韩国产精品| 国产在线精品一区二区三区》| 美国十次了思思久久精品导航| 日韩欧美大片在线观看|