OpenAI新幻覺論文惹爭議！GPT-5拉胯是測試基準(zhǔn)有問題？？

2025-09-09 09:01:00

人工智能新聞

最近，《語言模型為何會產(chǎn)生幻覺？》這篇論文火了。它提出模型有幻覺是因為：標(biāo)準(zhǔn)的訓(xùn)練和評估流程，更傾向于獎勵“猜對”，而非承認不確定。

OpenAI好不容易發(fā)了篇新論文，還是給GPT-5挽尊？

最近，《語言模型為何會產(chǎn)生幻覺？》這篇論文火了。

它提出模型有幻覺是因為：標(biāo)準(zhǔn)的訓(xùn)練和評估流程，更傾向于獎勵“猜對”，而非承認不確定。

正因如此，模型在面對不確定的問題時，往往會選擇冒險猜測以獲得更高評分。

所以，為了讓模型“老實說不”，就應(yīng)該重新設(shè)計評估指標(biāo)，從而鼓勵模型承認自己不會，懲罰隨意猜測。

而好巧不巧的是，OpenAI自家的GPT-5就最不愛猜測。

于是，眼尖的網(wǎng)友開始“蝦仁豬心”地盤OpenAI的核心邏輯：

GPT-5表現(xiàn)不好?不是模型拉垮?是現(xiàn)有測試基準(zhǔn)出了問題?GPT-5幻覺少刷不上分?所以應(yīng)該重新設(shè)定指標(biāo)。（完美閉環(huán)）

您不會是為了給GPT-5挽尊，所以想找個新基準(zhǔn)吧？

所以，這究竟是OpenAI為了GPT-5這口醋才包的餃子，還是說真的揭開了大模型幻覺背后的更深層問題？

要回答這個問題，得先看這篇論文到底說了什么。

OpenAI重新定義“幻覺”

在論文中，OpenAI將幻覺定義成：語言模型生成的看似合理卻錯誤的答案。

例如，當(dāng)你問一個聊天機器人：“Adam Tauman Kalai的博士論文題目是什么？”它可能自信滿滿地給出三個完全不同的答案——但沒有一個是正確的。

再比如，你問它某人的生日，它也可能報出三個不同日期，全都錯得離譜。

通俗點說，就是模型看起來很有底氣，但實際上在“瞎蒙”。

這種一本正經(jīng)的胡說八道不光體現(xiàn)在復(fù)雜問題上，也發(fā)生在簡單的問題上。

而就像開頭提到的，GPT-5雖然在推理上幻覺更少，但仍無法徹底消除。

而無法消除的原因就是當(dāng)前的評估方法設(shè)置了錯誤的激勵機制。

具體來說，當(dāng)前評估方法普遍以“準(zhǔn)確率”為唯一指標(biāo)，鼓勵模型“大膽猜測”而不是誠實地說“我不知道”。

這就像選擇題考試里，瞎蒙可能得分，留空必然為零。

長久以來，這種類似選擇題考試的排行榜就驅(qū)動模型學(xué)會了“自信地錯”。

而老實的GPT-5就由于不夠“自信”，在各大榜單上表現(xiàn)不佳。所以，我們要（換個榜單！）

此外，當(dāng)我們回顧語言模型的訓(xùn)練時，就可以發(fā)現(xiàn)，語言模型的預(yù)訓(xùn)練目標(biāo)是預(yù)測下一個詞，但沒有“真/假”標(biāo)簽來區(qū)分正確與錯誤事實。

因此，模型只能看到流暢語言的正例，并近似這些語言數(shù)據(jù)的整體分布。

所以，對于語言模型來說，拼寫等規(guī)律性強的模式可以學(xué)會，但低頻、隨機的事實（如生日）卻無法僅靠預(yù)測獲得，因而幻覺在所難免。

最后，OpenAI 提出要更新評估機制：錯誤應(yīng)比“放棄作答”受到更大懲罰，恰當(dāng)?shù)摹安淮_定表達”應(yīng)獲得部分分數(shù)。

而這一更新的范圍不光是小范圍的測試，而應(yīng)該是一切被廣泛使用、基于準(zhǔn)確率的評估方式。

論文一經(jīng)發(fā)布，就立刻引起了網(wǎng)友們的廣泛討論。

當(dāng)我們談?wù)摶糜X時，我們在談?wù)撌裁矗?/span>

除了我們最開頭的“動機論”，網(wǎng)友們主要關(guān)注以下三個方向：

幻覺是否普遍——大語言模型生成的內(nèi)容是否全都是幻覺；
幻覺產(chǎn)生的原因——包括模型的“做題策略”、語言知識的局限性，以及統(tǒng)計學(xué)習(xí)方法的內(nèi)在缺陷；
幻覺的應(yīng)用與應(yīng)對——例如在創(chuàng)意寫作中如何利用幻覺，以及當(dāng)模型總是回答“不知道”時該怎么辦。

接下來，讓我們具體來看。

大模型生成的內(nèi)容是否都是幻覺？

對于模型的幻覺問題，有網(wǎng)友提出了相當(dāng)激進的觀點：

大語言模型的所有輸出都是幻覺，只不過其中一些幻覺是真實的。

這一觀點涉及到了大語言模型的核心：大語言模型能知道、理解、明白它所輸出的東西嗎？

對此，有網(wǎng)友表示，如果過于形而上，我們無法討論具體工程意義上的問題。

這就是說，雖然模型只是在預(yù)測下一個token——但這并不意味著所有輸出都是幻覺。

如果真是這樣，那么這個術(shù)語就毫無意義了，而且它忽略了一個事實：由于規(guī)模、訓(xùn)練和微調(diào)，有些模型產(chǎn)生的幻覺比其他模型少得多。

模型的做題策略

針對大模型的“投機蒙題技巧”，有網(wǎng)友做了分析。

大模型本質(zhì)上是基于概率分布做“詞語接龍”，所以我們往往用答題的準(zhǔn)確率來近似衡量模型的表現(xiàn)。

在選擇下一個概率token時，如果模型不知道答案，但隨便猜一下，就可能碰巧答對；

而如果選擇不答，就一定得零分。于是，模型就被“鼓勵”去猜，而不是說“我不知道”。

語言知識的局限性

此外，還有網(wǎng)友把討論延伸到了語言本身的局限性上，討論相當(dāng)哲學(xué)。

首先，語言并不等于真理。所以，想完全消除LLM “不真實”的輸出，本身就有點奇怪。

其次，是關(guān)于“真值”的問題。在計算機科學(xué)里，“一致性”常被用作判斷真假的指標(biāo)——只要輸出符合系統(tǒng)已有的真值，就算是真，即便它可能違背“常識”。

而確定一個陳述究竟是真是假，或者它是否超出了系統(tǒng)的知識范圍，是機器智能中的老大難問題，涉及知識圖譜等整個子領(lǐng)域，這根本不是 LLM 最初要解決的目標(biāo)。

大語言模型本質(zhì)上是文本生成器，它非常擅長根據(jù)提示和從訓(xùn)練語料中學(xué)到的模式撰寫“讀書報告”，但要逐條分析報告中的每一句話，判斷其真假或未知性，則完全是另一回事。

這個問題在人工智能領(lǐng)域已經(jīng)研究了60年，因此指望在下個季度就把它徹底解決并整合到GPT-5中，未免有些自不量力。

最后，則涉及到知識的流動性。

由于知識并非是一個線性增長的累積過程，而是一個不斷質(zhì)疑，挑戰(zhàn)，更新的過程。就像哥白尼挑戰(zhàn)地心說，而后來的天文學(xué)又更新日心說一樣，知識自身就在不停地流動。

所以，既然大語言模型的數(shù)據(jù)輸入就是固定的，你怎么能指望它一直對呢？

不過，有網(wǎng)友指出這樣說很蠢，因為在人工智能領(lǐng)域沒有人企圖從哲學(xué)層面消除幻覺，人們只是在努力降低錯誤率，因為這會讓模型更有用。

統(tǒng)計模型的局限性

還有網(wǎng)友指出，我們用“幻覺”一詞描述模型的錯誤，本身就帶有擬人的傾向。

如果停止擬人化，讓它回到它本來的本質(zhì)——一個預(yù)測模型——那么預(yù)測出錯也就不是什么意外結(jié)果了。

因為，大語言模型預(yù)測的是在給定上下文下最可能出現(xiàn)的詞，它們可能預(yù)測錯誤，而當(dāng)預(yù)測錯誤時，人們就說它“產(chǎn)生了幻覺”。

沒有人會質(zhì)疑天氣預(yù)測模型為什么不能百分百準(zhǔn)確，因為預(yù)測本身就可能出錯，這是可以理解的。

營銷和宣傳試圖把LLM包裝成“邏輯理性的思考者”，等同于人類的思維。但人類在真正思考時知道自己什么時候在“編造”。如果一個人真心相信明顯錯誤的事情，那通常是因為他們在產(chǎn)生幻覺。他們的思維本身并沒有錯，只是失去了現(xiàn)實的支撐。

不過，也有網(wǎng)友提出了相反意見：語言和預(yù)測天氣的物理模型就不是一回事，由于文本本身就已經(jīng)編碼了數(shù)學(xué)、代碼和推理，所以將其輸出視為“僅僅預(yù)測單詞”忽略了一個事實，即單詞分布編碼了信息豐富的知識表示。

這又引出了一個新的問題——我們應(yīng)該如何看待預(yù)測單詞呢？

幻覺的應(yīng)用與應(yīng)對

拋開上面哲學(xué)的討論，不少網(wǎng)友也提出了不少實際的問題。

例如，當(dāng)我需要模型有“幻覺”幫我寫作的時候，他不發(fā)散了怎么辦？

對此，有網(wǎng)友表示，即使是虛構(gòu)，也需要一定程度的一致性和連貫性。

比如，如果我要求大語言模型生成一個以中世紀法國為背景的虛構(gòu)故事，它回應(yīng)的是一個以中世紀法國為背景的虛構(gòu)故事，那么這就是對我賦予它的任務(wù)的恰當(dāng)（“正確”）的回應(yīng)。

但如果它回應(yīng)的是一個以中世紀英格蘭為背景的故事，那就不正確了。

因此，這里的幻覺是不符合虛構(gòu)設(shè)定的輸出，而非相對于現(xiàn)實的“幻覺”。

最后，有網(wǎng)友直接發(fā)出靈魂拷問：要這么一來，假如模型為了保底，一直拿不回答的獎勵，一直說不知道怎么辦？

而且對于大多數(shù)人來說，相比聽到一句不知道，可能更想聽到一個看似合理的答案。

所以，你會更希望AI自信地亂答，還是老老實實地說我不知道？

責(zé)任編輯：張燕妮來源：量子位

AI 模型訓(xùn)練