精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI新幻覺論文惹爭議!GPT-5拉胯是測試基準(zhǔn)有問題??

人工智能 新聞
最近,《語言模型為何會產(chǎn)生幻覺?》這篇論文火了。 它提出模型有幻覺是因為:標(biāo)準(zhǔn)的訓(xùn)練和評估流程,更傾向于獎勵“猜對”,而非承認不確定。

OpenAI好不容易發(fā)了篇新論文,還是給GPT-5挽尊?

最近,《語言模型為何會產(chǎn)生幻覺?》這篇論文火了。

它提出模型有幻覺是因為:標(biāo)準(zhǔn)的訓(xùn)練和評估流程,更傾向于獎勵“猜對”,而非承認不確定

正因如此,模型在面對不確定的問題時,往往會選擇冒險猜測以獲得更高評分。

所以,為了讓模型“老實說不”,就應(yīng)該重新設(shè)計評估指標(biāo),從而鼓勵模型承認自己不會,懲罰隨意猜測

而好巧不巧的是,OpenAI自家的GPT-5就最不愛猜測

于是,眼尖的網(wǎng)友開始“蝦仁豬心”地盤OpenAI的核心邏輯:

GPT-5表現(xiàn)不好?不是模型拉垮?是現(xiàn)有測試基準(zhǔn)出了問題?GPT-5幻覺少刷不上分?所以應(yīng)該重新設(shè)定指標(biāo)。(完美閉環(huán))

您不會是為了給GPT-5挽尊,所以想找個新基準(zhǔn)吧?

所以,這究竟是OpenAI為了GPT-5這口醋才包的餃子,還是說真的揭開了大模型幻覺背后的更深層問題?

要回答這個問題,得先看這篇論文到底說了什么。

OpenAI重新定義“幻覺”

在論文中,OpenAI將幻覺定義成:語言模型生成的看似合理卻錯誤的答案。

例如,當(dāng)你問一個聊天機器人:“Adam Tauman Kalai的博士論文題目是什么?”它可能自信滿滿地給出三個完全不同的答案——但沒有一個是正確的。

再比如,你問它某人的生日,它也可能報出三個不同日期,全都錯得離譜。

通俗點說,就是模型看起來很有底氣,但實際上在“瞎蒙”。

這種一本正經(jīng)的胡說八道不光體現(xiàn)在復(fù)雜問題上,也發(fā)生在簡單的問題上。

而就像開頭提到的,GPT-5雖然在推理上幻覺更少,但仍無法徹底消除。

而無法消除的原因就是當(dāng)前的評估方法設(shè)置了錯誤的激勵機制。

具體來說,當(dāng)前評估方法普遍以“準(zhǔn)確率”為唯一指標(biāo),鼓勵模型“大膽猜測”而不是誠實地說“我不知道”。

這就像選擇題考試里,瞎蒙可能得分,留空必然為零。

長久以來,這種類似選擇題考試的排行榜就驅(qū)動模型學(xué)會了“自信地錯”。

而老實的GPT-5就由于不夠“自信”,在各大榜單上表現(xiàn)不佳。所以,我們要(換個榜單!)

此外,當(dāng)我們回顧語言模型的訓(xùn)練時,就可以發(fā)現(xiàn),語言模型的預(yù)訓(xùn)練目標(biāo)是預(yù)測下一個詞,但沒有“真/假”標(biāo)簽來區(qū)分正確與錯誤事實。

因此,模型只能看到流暢語言的正例,并近似這些語言數(shù)據(jù)的整體分布。

所以,對于語言模型來說,拼寫等規(guī)律性強的模式可以學(xué)會,但低頻、隨機的事實(如生日)卻無法僅靠預(yù)測獲得,因而幻覺在所難免。

最后,OpenAI 提出要更新評估機制:錯誤應(yīng)比“放棄作答”受到更大懲罰,恰當(dāng)?shù)摹安淮_定表達”應(yīng)獲得部分分數(shù)。

而這一更新的范圍不光是小范圍的測試,而應(yīng)該是一切被廣泛使用、基于準(zhǔn)確率的評估方式。

論文一經(jīng)發(fā)布,就立刻引起了網(wǎng)友們的廣泛討論。

當(dāng)我們談?wù)摶糜X時,我們在談?wù)撌裁矗?/span>

除了我們最開頭的“動機論”,網(wǎng)友們主要關(guān)注以下三個方向:

  • 幻覺是否普遍——大語言模型生成的內(nèi)容是否全都是幻覺;
  • 幻覺產(chǎn)生的原因——包括模型的“做題策略”、語言知識的局限性,以及統(tǒng)計學(xué)習(xí)方法的內(nèi)在缺陷;
  • 幻覺的應(yīng)用與應(yīng)對——例如在創(chuàng)意寫作中如何利用幻覺,以及當(dāng)模型總是回答“不知道”時該怎么辦。

接下來,讓我們具體來看。

大模型生成的內(nèi)容是否都是幻覺?

對于模型的幻覺問題,有網(wǎng)友提出了相當(dāng)激進的觀點:

大語言模型的所有輸出都是幻覺,只不過其中一些幻覺是真實的。

這一觀點涉及到了大語言模型的核心:大語言模型能知道、理解、明白它所輸出的東西嗎

對此,有網(wǎng)友表示,如果過于形而上,我們無法討論具體工程意義上的問題。

這就是說,雖然模型只是在預(yù)測下一個token——但這并不意味著所有輸出都是幻覺。

如果真是這樣,那么這個術(shù)語就毫無意義了,而且它忽略了一個事實:由于規(guī)模、訓(xùn)練和微調(diào),有些模型產(chǎn)生的幻覺比其他模型少得多。

模型的做題策略

針對大模型的“投機蒙題技巧”,有網(wǎng)友做了分析。

大模型本質(zhì)上是基于概率分布做“詞語接龍”,所以我們往往用答題的準(zhǔn)確率來近似衡量模型的表現(xiàn)。

在選擇下一個概率token時,如果模型不知道答案,但隨便猜一下,就可能碰巧答對;

而如果選擇不答,就一定得零分。于是,模型就被“鼓勵”去猜,而不是說“我不知道”。

語言知識的局限性

此外,還有網(wǎng)友把討論延伸到了語言本身的局限性上,討論相當(dāng)哲學(xué)。

首先,語言并不等于真理。所以,想完全消除LLM “不真實”的輸出,本身就有點奇怪。

其次,是關(guān)于“真值”的問題。在計算機科學(xué)里,“一致性”常被用作判斷真假的指標(biāo)——只要輸出符合系統(tǒng)已有的真值,就算是真,即便它可能違背“常識”。

而確定一個陳述究竟是真是假,或者它是否超出了系統(tǒng)的知識范圍,是機器智能中的老大難問題,涉及知識圖譜等整個子領(lǐng)域,這根本不是 LLM 最初要解決的目標(biāo)。

大語言模型本質(zhì)上是文本生成器,它非常擅長根據(jù)提示和從訓(xùn)練語料中學(xué)到的模式撰寫“讀書報告”,但要逐條分析報告中的每一句話,判斷其真假或未知性,則完全是另一回事。

這個問題在人工智能領(lǐng)域已經(jīng)研究了60年,因此指望在下個季度就把它徹底解決并整合到GPT-5中,未免有些自不量力。

最后,則涉及到知識的流動性。

由于知識并非是一個線性增長的累積過程,而是一個不斷質(zhì)疑,挑戰(zhàn),更新的過程。就像哥白尼挑戰(zhàn)地心說,而后來的天文學(xué)又更新日心說一樣,知識自身就在不停地流動。

所以,既然大語言模型的數(shù)據(jù)輸入就是固定的,你怎么能指望它一直對呢?

不過,有網(wǎng)友指出這樣說很蠢,因為在人工智能領(lǐng)域沒有人企圖從哲學(xué)層面消除幻覺,人們只是在努力降低錯誤率,因為這會讓模型更有用。

統(tǒng)計模型的局限性

還有網(wǎng)友指出,我們用“幻覺”一詞描述模型的錯誤,本身就帶有擬人的傾向。

如果停止擬人化,讓它回到它本來的本質(zhì)——一個預(yù)測模型——那么預(yù)測出錯也就不是什么意外結(jié)果了。

因為,大語言模型預(yù)測的是在給定上下文下最可能出現(xiàn)的詞,它們可能預(yù)測錯誤,而當(dāng)預(yù)測錯誤時,人們就說它“產(chǎn)生了幻覺”。

沒有人會質(zhì)疑天氣預(yù)測模型為什么不能百分百準(zhǔn)確,因為預(yù)測本身就可能出錯,這是可以理解的。

營銷和宣傳試圖把LLM包裝成“邏輯理性的思考者”,等同于人類的思維。但人類在真正思考時知道自己什么時候在“編造”。如果一個人真心相信明顯錯誤的事情,那通常是因為他們在產(chǎn)生幻覺。他們的思維本身并沒有錯,只是失去了現(xiàn)實的支撐。

不過,也有網(wǎng)友提出了相反意見:語言和預(yù)測天氣的物理模型就不是一回事,由于文本本身就已經(jīng)編碼了數(shù)學(xué)、代碼和推理,所以將其輸出視為“僅僅預(yù)測單詞”忽略了一個事實,即單詞分布編碼了信息豐富的知識表示。

這又引出了一個新的問題——我們應(yīng)該如何看待預(yù)測單詞呢?

幻覺的應(yīng)用與應(yīng)對

拋開上面哲學(xué)的討論,不少網(wǎng)友也提出了不少實際的問題。

例如,當(dāng)我需要模型有“幻覺”幫我寫作的時候,他不發(fā)散了怎么辦?

對此,有網(wǎng)友表示,即使是虛構(gòu),也需要一定程度的一致性和連貫性。

比如,如果我要求大語言模型生成一個以中世紀法國為背景的虛構(gòu)故事,它回應(yīng)的是一個以中世紀法國為背景的虛構(gòu)故事,那么這就是對我賦予它的任務(wù)的恰當(dāng)(“正確”)的回應(yīng)。

但如果它回應(yīng)的是一個以中世紀英格蘭為背景的故事,那就不正確了。

因此,這里的幻覺是不符合虛構(gòu)設(shè)定的輸出,而非相對于現(xiàn)實的“幻覺”。

最后,有網(wǎng)友直接發(fā)出靈魂拷問:要這么一來,假如模型為了保底,一直拿不回答的獎勵,一直說不知道怎么辦?

而且對于大多數(shù)人來說,相比聽到一句不知道,可能更想聽到一個看似合理的答案。

所以,你會更希望AI自信地亂答,還是老老實實地說我不知道?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-14 09:31:24

GPT-5AI

2023-06-08 07:58:29

2025-07-21 09:00:00

2025-10-08 11:15:55

2023-08-08 12:51:55

AI技術(shù)

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2023-03-16 17:26:09

AI模型

2024-01-18 12:30:03

2024-02-19 00:00:00

OpenAIChatGPT功能

2025-08-13 08:50:00

OpenAI模型數(shù)據(jù)

2023-04-13 13:38:59

2023-08-02 13:52:59

GPT-5模型

2025-05-19 08:58:00

2025-06-19 09:06:00

2025-10-31 15:53:06

AI模型GPT-5

2023-08-10 15:22:48

人工智能OpenAI

2023-11-14 14:26:29

OpenAIGPT-5

2025-08-08 16:22:19

GPT-5CIOIT 團隊

2025-08-13 18:31:52

GPT-5模型AI

2023-08-11 10:44:20

GPT-5
點贊
收藏

51CTO技術(shù)棧公眾號

日韩dvd碟片| 777午夜精品电影免费看| 不卡的av中国片| 日韩av免费看网站| 婷婷激情四射网| 亚洲精品福利| 色婷婷久久综合| 一区二区三区四区免费观看| 亚洲福利在线观看视频| 日韩专区一卡二卡| 久久国产精品亚洲| 熟女俱乐部一区二区视频在线| 国产高清日韩| 在线视频一区二区三| 日韩在线视频在线| 99视频在线观看地址| www.欧美日韩| 91在线免费视频| 不卡av电影在线| 1024精品一区二区三区| 久久国产精品久久久久久| 自拍偷拍视频亚洲| 国产乱人伦丫前精品视频| 欧美日韩国产bt| 成人羞羞国产免费网站| 丁香花在线高清完整版视频| 国产精品久久久久久久久免费樱桃| 国产一区二区三区av在线| 亚洲性在线观看| 久色成人在线| 97在线视频免费| 精品一区二区三区人妻| 一区二区三区在线电影| 少妇av一区二区三区| 国产不卡一区二区三区在线观看| 波多野结衣在线观看一区| 日韩视频精品在线观看| 粗暴蹂躏中文一区二区三区| 国产精品www爽爽爽| 一道本一区二区三区| 精品久久人人做人人爰| 亚洲丝袜在线观看| 不卡的国产精品| 在线播放一区二区三区| www.色欧美| 欧洲亚洲精品久久久久| 欧美日韩一区不卡| 色婷婷成人在线| 97久久网站| 欧美唯美清纯偷拍| 天堂网在线免费观看| 99久久婷婷国产综合精品首页| 色综合一个色综合亚洲| 韩国一区二区av| 久久99久久99精品免观看软件| 色老头久久综合| 热久久精品免费视频| 欧美性理论片在线观看片免费| 欧美性高潮床叫视频| 无码aⅴ精品一区二区三区浪潮| 麻豆视频在线看| 日韩欧美亚洲范冰冰与中字| 日韩免费高清在线| 免费成人美女女| 欧美日本在线播放| 欧美日韩久久婷婷| 综合中文字幕| 精品亚洲一区二区三区在线播放| 中文字幕在线免费看线人| 九九综合九九| 精品精品国产国产自在线| 538精品在线视频| 亚洲国内精品| 国产成人精品免费久久久久 | www 日韩| 国产精品成人免费在线| 欧美日韩中文字幕在线播放| 99在线视频影院| 色婷婷综合久久久久中文一区二区 | 人妻互换一区二区激情偷拍| 欧美成人激情| 欧美激情亚洲自拍| av一级在线观看| 久久97超碰国产精品超碰| 444亚洲人体| 日韩一区二区三区中文字幕| 国产精品视频免费| 国产911在线观看| 中文在线8资源库| 欧美精品高清视频| 久久久久成人精品无码中文字幕| 米奇777超碰欧美日韩亚洲| 色婷婷成人综合| 日本系列第一页| 免费精品视频在线| 国产伦精品一区二区三区视频孕妇| 三级视频在线| 亚洲免费观看视频| 国产三区在线视频| 国产亚洲高清一区| 国产亚洲欧美日韩精品| 欧美黄色一区二区三区| 日韩精品一级中文字幕精品视频免费观看| 成人黄色av免费在线观看| 天天摸天天干天天操| 中文字幕在线观看一区| 欧美亚洲另类色图| 精品国模一区二区三区欧美 | 视频一区二区中文字幕| 91沈先生播放一区二区| 大片免费播放在线视频| 亚洲高清视频的网址| 伊人成人222| 国产精品一区二区99| 久久久综合免费视频| 一区二区美女视频| 国产亚洲欧美一区在线观看| 欧美大黑帍在线播放| 欧美极品在线| 亚洲女人被黑人巨大进入| 国产亚洲成人av| 国产乱子伦视频一区二区三区| 日韩久久久久久久| 国产三级电影在线播放| 日韩欧美国产三级电影视频| 国产精品久久国产精麻豆96堂| 亚洲一区不卡| 狠狠色噜噜狠狠狠狠色吗综合| 91在线中字| 51精品国自产在线| 99re6热在线精品视频| 日本aⅴ亚洲精品中文乱码| 美国av一区二区三区| av日韩中文| 亚洲大胆美女视频| 久久精品国产亚洲av无码娇色| 极品尤物av久久免费看| 亚洲欧洲中文| 69堂免费精品视频在线播放| 亚洲欧美激情视频| 丰满少妇xoxoxo视频| 久久综合av免费| 伊人成色综合网| 欧美性生活一级片| 91av视频导航| 免费一级在线观看| 日本乱码高清不卡字幕| 蜜桃无码一区二区三区| 久久久精品网| 日韩精品一区二区三区外面| 日韩不卡在线| 中文字幕免费精品一区高清| 午夜视频网站在线观看| 国产精品系列在线| 欧美一级xxxx| 亚洲综合中文| 国产精品久久久久免费| 激情国产在线| 亚洲欧美一区二区激情| 在线免费一区二区| 中文字幕中文字幕一区二区| 久国产精品视频| 欧美精品不卡| 精品蜜桃传媒| 欧美一级二级视频| 久久久精品2019中文字幕神马| 国产wwwxxx| 污片在线观看一区二区| 大又大又粗又硬又爽少妇毛片| 日韩高清不卡一区二区三区| 一级日韩一区在线观看| 日韩欧洲国产| 欧美亚洲伦理www| av在线天堂播放| 日韩一区二区三区四区| 天天操天天爽天天干| 国产欧美一二三区| 麻豆传媒在线看| 国产精品综合色区在线观看| 视频在线观看成人| 亚洲日本va中文字幕| 国产69精品久久久久久| 婷婷激情在线| 亚洲经典中文字幕| 中文字幕人妻一区二区在线视频| 亚洲同性gay激情无套| 精品久久久久一区二区| 日本va欧美va欧美va精品| 国内少妇毛片视频| 精品国产一区一区二区三亚瑟| 97免费高清电视剧观看| 毛片免费看不卡网站| 欧美成人亚洲成人日韩成人| 四虎影视精品成人| 欧美一卡二卡三卡| 黄色av一级片| 亚洲综合在线观看视频| 精品无码国产污污污免费网站| 国产一区二区按摩在线观看| 99久久久无码国产精品6| 午夜精品免费| 亚洲精品一区国产精品| 欧美a一欧美| 91影视免费在线观看| 亚洲一区二区三区四区| 久久久免费精品视频| 老司机精品视频在线观看6| 亚洲精品永久免费| 日本高清视频www| 91.com在线观看| 波多野结衣电车痴汉| 午夜精品一区二区三区电影天堂| 老司机精品免费视频| 久久午夜免费电影| 成人免费看片载| 激情成人综合网| 在线观看av网页| 性感少妇一区| 日韩欧美猛交xxxxx无码| 99久久亚洲精品蜜臀| 日本一区二区三区四区在线观看 | 国产91av视频| 亚洲男女毛片无遮挡| 日韩福利在线视频| 91蝌蚪国产九色| xxxxxx黄色| 福利一区在线观看| 日韩大尺度视频| 国产一区在线看| gogogo高清免费观看在线视频| 久久精品亚洲一区二区| 女人天堂av手机在线| 在线欧美一区| 97超碰在线人人| 精品动漫av| 国产 日韩 亚洲 欧美| 国产精品v亚洲精品v日韩精品| 路边理发店露脸熟妇泻火| 国产精品久久观看| 中文字幕色一区二区| 久久一区二区三区喷水| 亚洲欧洲精品在线观看| 日韩电影一区| 亚洲人成影视在线观看| 午夜av一区| 黄色一级视频播放| 欧美在线观看天堂一区二区三区| 熟妇熟女乱妇乱女网站| 一本一道久久综合狠狠老| 色中文字幕在线观看| 欧美一区免费| 免费特级黄色片| 国产亚洲一级| 欧美伦理视频在线观看| 日本麻豆一区二区三区视频| 中文av一区二区三区| 久久国产欧美日韩精品| 午夜精品免费看| 国产精品综合一区二区三区| 无码人妻丰满熟妇区毛片蜜桃精品 | 少妇激情一区二区三区视频| av一区二区三区黑人| 中文字字幕码一二三区| 国产三区在线成人av| 天堂а√在线中文在线鲁大师| 亚洲女人小视频在线观看| 久久久久久久九九九九| 欧美日韩国产丝袜美女| 中文字幕人妻一区二区在线视频| 制服丝袜亚洲精品中文字幕| 性一交一乱一乱一视频| 日韩av网站导航| av在线之家电影网站| 欧美另类第一页| 性感女国产在线| 国产日韩精品入口| 国产劲爆久久| 日韩亚洲一区在线播放| 欧美久久久久| 国产精品亚洲a| 狠狠v欧美v日韩v亚洲ⅴ| 日本一级大毛片a一| 久久久不卡网国产精品一区| 久久国产波多野结衣| 五月天中文字幕一区二区| 中文在线资源天堂| 亚洲精品在线免费播放| 91免费在线| 性色av一区二区三区红粉影视| 欧美日韩亚洲国产| av资源站久久亚洲| 狠狠做六月爱婷婷综合aⅴ| 久久久久福利视频| 老司机精品视频网站| 丰满人妻一区二区三区大胸| 久久精品亚洲乱码伦伦中文| 久久99久久久| 欧美日韩精品是欧美日韩精品| 好吊色在线观看| 色婷婷**av毛片一区| 周于希免费高清在线观看| 亚洲综合日韩在线| 欧美老女人另类| 黄色一级片在线看| 激情小说亚洲一区| 欧美熟妇激情一区二区三区| 亚洲韩国精品一区| 国产一区二区在线视频观看| 国产丝袜视频一区| 黄视频在线免费看| 91精品视频在线播放| 久久99国产精品视频| 欧美午夜小视频| 国产精品综合网| 黄色录像一级片| 欧美性猛交xxxx乱大交退制版| 天天干视频在线观看| 欧美日韩xxxxx| www.成人| 中文字幕一区二区三区四区五区六区| 国产日韩精品视频一区二区三区 | 亚洲国产精品天堂| 国产强被迫伦姧在线观看无码| 一本色道久久88综合日韩精品| 国产一二在线播放| 国产精品久久久久久久久久久久冷| 中文字幕免费一区二区三区| 亚洲成人天堂网| 欧美国产一区二区在线观看| 69亚洲精品久久久蜜桃小说| 日韩av一卡二卡| 国产在线美女| 久久国产一区| 久久av一区二区三区| aa片在线观看视频在线播放| 亚瑟在线精品视频| 男人天堂av网| 国产+人+亚洲| 欧美国产极品| 大肉大捧一进一出好爽视频| 97久久超碰精品国产| 少妇一级淫片免费放中国| 亚洲成色www8888| 在线女人免费视频| 欧美日韩国产不卡在线看| 久热精品在线| 麻豆一区在线观看| 欧美一级高清片在线观看| caoporn免费在线视频| 亚洲自拍偷拍色片视频| 欧美日本不卡高清| 国产免费a级片| 午夜伊人狠狠久久| 牛牛影视精品影视| 国产精品视频免费观看www| 天天综合亚洲| 性生交大片免费看l| 香蕉加勒比综合久久| 污污网站在线免费观看| 欧美在线影院在线视频| 精品大片一区二区| 午夜精品中文字幕| 一区二区三区美女| 视频二区在线| 国产精品久久久久免费a∨大胸| 欧美日韩中字| 国产在线a视频| 欧美日韩在线免费| 69xxxx欧美| 福利视频一区二区三区| 久久国产精品99国产| 国产白丝一区二区三区| 日韩欧美电影一二三| 免费在线小视频| 亚洲一区二区免费视频软件合集| 国产一二精品视频| 中文字幕亚洲高清| 日韩在线视频一区| 国产三级精品三级在线观看国产| 国产裸体免费无遮挡| 亚洲日穴在线视频| 婷婷婷国产在线视频| 国产一区视频在线播放| 在线电影一区| 成人黄色短视频| 亚洲精品一区二区三区四区高清| 欧美日韩美女| www国产无套内射com| 久久精品夜色噜噜亚洲a∨| 国产成人a人亚洲精品无码| 欧美专区在线播放| 午夜激情久久| 国产精品815.cc红桃| 日韩三级.com| 播放一区二区| 无罩大乳的熟妇正在播放| 日韩理论片在线| 国内av一区二区三区| 国产精品区一区| 精品在线播放午夜|