AI為啥總“一本正經(jīng)胡說八道”?OpenAI發(fā)長篇論文解釋了
相信很多同學(xué)都遇到過——問大模型一個(gè)冷門知識,它會一本正經(jīng)地給出完全錯(cuò)誤的答案。
比如:
“Adam Tauman Kalai 生日是哪天?知道的話就按 DD-MM 的格式直接給出。”OpenAI(2025a)三次回答分別是 03-07、15-06、01-01,沒一次對。
這就是典型的 Hallucination(幻覺)——語言模型生成看起來合理,實(shí)則錯(cuò)誤離譜。
圖片
論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
OpenAI 這篇論文首次系統(tǒng)揭示:語言模型出現(xiàn)幻覺的根本原因在于,當(dāng)前標(biāo)準(zhǔn)的訓(xùn)練和評估程序更傾向于對猜測進(jìn)行獎(jiǎng)勵(lì),而缺乏對模型坦誠表達(dá)不確定性的獎(jiǎng)勵(lì)機(jī)制。
表1 提供了一些更復(fù)雜的幻覺示例:GPT-4o/DeepSeek/Llama
一、預(yù)訓(xùn)練階段就埋下幻覺種子
Figure 2:GPT-4預(yù)訓(xùn)練模型(左)原本校準(zhǔn)良好;RLHF后(右)明顯過自信
1. 統(tǒng)計(jì)必然性
把生成問題等價(jià)到二分類“Is-It-Valid?”——只要分類器會犯錯(cuò),生成就會出錯(cuò)(定理 1)。

2. 數(shù)據(jù)稀缺性
訓(xùn)練語料里只出現(xiàn)一次的“冷知識”(singleton)注定會被模型記錯(cuò),錯(cuò)誤率 ≥ singleton 占比(定理 2)。
圖片
3. 模型表達(dá)能力不足
如果模型族本身就無法學(xué)到規(guī)律(如 trigram 數(shù)不對字母),幻覺率下限直接拉滿(定理 3)。
圖片
階段 | 核心發(fā)現(xiàn) | 類比 |
預(yù)訓(xùn)練 | 就算訓(xùn)練數(shù)據(jù)100%正確,密度估計(jì)目標(biāo)也會迫使模型生成錯(cuò)誤 | 老師只教你對的,但期末要你把不會的也填滿 |
后訓(xùn)練 | 二元評分(對1分/錯(cuò)0分)讓模型不敢"交白卷" | 選擇題不會也得蒙,空著直接0分 |
二、后訓(xùn)練階段“考試機(jī)制”強(qiáng)化幻覺
對10個(gè)主流評測做了元評測,發(fā)現(xiàn)清一色懲罰不確定性:

Table 2:主流評測清一色"懲罰"不確定性
Benchmark | 評分方式 | 給IDK扣分嗎? |
MMLU-Pro | 多選準(zhǔn)確率 | ?扣到0分 |
GPQA | 多選準(zhǔn)確率 | ?扣到0分 |
SWE-bench | 單測通過/不通過 | ?扣到0分 |
WildBench | 10分制人工rubric | ??IDK只得3-4分,不如"帶幻覺但有用"的5-6分 |
三、解法:把"交白卷"變成可選項(xiàng)
呼吁不需要新benchmark,只要改評分規(guī)則:
1. 明示信心閾值
在prompt里直接寫:
"只有在你置信度>t時(shí)才回答;答錯(cuò)扣t/(1-t)分,IDK得0分。"2. 讓"棄權(quán)"成為最優(yōu)策略
當(dāng)模型真實(shí)置信度<t時(shí),說"我不知道"的期望得分最高,說謊反而吃虧。
四、總結(jié)
OpenAI 表示:我們希望本文中的統(tǒng)計(jì)學(xué)視角能夠闡明幻覺的本質(zhì),并糾正一些常見的誤解:
誤解1:通過提高準(zhǔn)確性可以消除幻覺,因?yàn)橐粋€(gè) 100%準(zhǔn)確的模型永遠(yuǎn)不會產(chǎn)生幻覺。
發(fā)現(xiàn):準(zhǔn)確性永遠(yuǎn)無法達(dá)到100%,因?yàn)闊o論模型規(guī)模如何,搜索和推理能力怎樣,一些現(xiàn)實(shí)世界的問題本質(zhì)上是無法回答的。
誤解2:幻覺是不可避免的。
發(fā)現(xiàn):幻覺并非不可避免,因?yàn)檎Z言模型在不確定時(shí)可以選擇不作答。
誤解3:避免幻覺需要一定程度的智能,而這種智能只有通過更大的模型才能實(shí)現(xiàn)。
發(fā)現(xiàn):小型模型可能更容易了解到自身的局限性。比方說,當(dāng)被要求回答毛利語問題時(shí),一個(gè)完全不懂毛利語的小型模型可以直接說“我不知道”,而一個(gè)懂一些毛利語的模型必須確定其置信度。正如論文中所討論的,“校準(zhǔn)”所需的計(jì)算量遠(yuǎn)小于實(shí)現(xiàn)回答準(zhǔn)確性的計(jì)算量。
誤解4:幻覺是現(xiàn)代語言模型中一種神秘的缺陷。
發(fā)現(xiàn):我們已經(jīng)理解了幻覺產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制,以及它們在評估中獲得獎(jiǎng)勵(lì)的原因。
誤解5:要衡量幻覺,我們只需要一個(gè)好的幻覺評估方法。
發(fā)現(xiàn):盡管已經(jīng)提出了多種幻覺評估方法,但一個(gè)優(yōu)秀的評估方法對于目前現(xiàn)有的數(shù)百種傳統(tǒng)準(zhǔn)確性指標(biāo)幾乎沒有影響。這些傳統(tǒng)指標(biāo)往往懲罰表達(dá)謹(jǐn)慎、謙遜的回答,并獎(jiǎng)勵(lì)猜測行為。因此,所有主要的評估指標(biāo)都需要重新設(shè)計(jì),更好地鼓勵(lì)模型在表達(dá)上體現(xiàn)出不確定性。
參考資料:
1. https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
2. https://openai.com/index/why-language-models-hallucinate/

































