精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI罕見發論文:我們找到了AI幻覺的罪魁禍首

人工智能 新聞
大模型究竟為什么會出現幻覺呢?OpenAI 罕見發表論文,系統性地揭示了幻覺的根源。

AI 最臭名昭著的 Bug 是什么?不是代碼崩潰,而是「幻覺」—— 模型自信地編造事實,讓你真假難辨。這個根本性挑戰,是阻礙我們完全信任 AI 的關鍵障礙。

大模型會有幻覺,這幾乎已經成為一個常識,讓每一個嚴肅使用大模型的人都不得不謹慎小心。OpenAI 也指出:「ChatGPT 也會產生幻覺。GPT-5 的幻覺明顯更少,尤其是在執行推理時,但幻覺仍然會發生。幻覺仍然是所有大型語言模型面臨的一大根本挑戰。」

盡管現在學術界已經提出了各種各樣用來降低模型幻覺的方法,但目前尚未出現能徹底「根治」模型幻覺的良方。

那么,大模型究竟為什么會出現幻覺呢?今天,OpenAI 罕見發表論文,系統性地揭示了幻覺的根源。

首先,定義幻覺。OpenAI 給出的簡單定義是:「模型自信地生成不真實答案的情況。」

至于原因,簡單來說就是:標準的訓練和評估程序更傾向于對猜測進行獎勵,而不是在模型勇于承認不確定時給予獎勵。

  • 論文標題:Why Language Models Hallucinate
  • 論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面我們就來具體看看 OpenAI 究竟發現了什么。

什么是幻覺?

幻覺是語言模型生成的看似合理但卻錯誤的陳述。

即使看似簡單的問題,它們也可能以出人意料的方式出現。OpenAI 舉了個例子,當向不同的廣泛使用的聊天機器人詢問 Adam Tauman Kalai(論文一作)的博士論文標題時,它們自信地給出了三個不同的答案,但沒有一個是正確的。

當詢問他的生日時,它給出了三個不同的日期,同樣都是錯誤的。

為了測試而學習

OpenAI 表示,幻覺持續存在,部分原因是當前的評估方法設置了錯誤的激勵機制。雖然評估本身不會直接導致幻覺,但大多數評估模型性能的方式會鼓勵模型進行猜測,而不是誠實地面對不確定性。

可以把它想象成一個多項選擇題測試。如果你不知道答案,但隨意猜測,你可能會很幸運地猜對。留空則必定得零分。同樣,當模型僅根據準確度(即完全答對問題的百分比)進行評分時,它們會被鼓勵進行猜測,而不是承認「我不知道」。

再舉一個例子,假設一個語言模型被問及某人的生日,但它不知道。如果它猜測「9 月 10 日」,那么它有 1/365 的概率猜對。說「我不知道」則必定得零分。在數千道測試題中,猜測型模型最終在記分牌上的表現要優于謹慎且承認不確定的模型。

對于只有一個「正確答案」的問題,可以考慮三類答案:準確答案、錯誤答案以及模型不愿冒險猜測的棄權答案。

OpenAI 表示,棄權答案是謙遜(humility)指標的一部分,而謙遜是 OpenAI 的核心價值觀之一。

大多數分數指標會根據準確度對模型進行優先排序,但錯誤答案比棄權答案更糟糕。OpenAI 的模型規范指出,指出不確定性或要求澄清會更好,而不是自信地提供可能不正確的信息。

以 GPT5 系統卡中的 SimpleQA 評估為例。

在準確度方面,更早期的 OpenAI o4-mini 模型表現略好。然而,其錯誤率(即幻覺率)明顯較高。在不確定的情況下進行策略性猜測可以提高準確度,但也會增加錯誤和幻覺。

在對數十次評估的結果進行平均時,大多數基準測試都會剔除準確度指標,但這會導致對錯之間的錯誤二分法。

在像 SimpleQA 這樣的簡單評估中,一些模型的準確度接近 100%,從而消除了幻覺。然而,在更具挑戰性的評估和實際使用中,準確度會固定在 100% 以下,因為有些問題的答案由于各種原因(例如信息不可用、小型模型的思維能力有限或需要澄清的歧義)而無法確定。

盡管如此,僅以準確度為衡量標準的評估指標仍然占據著排行榜和模型卡的主導地位,這就會鼓勵開發者構建能夠猜測而不是退縮的模型。

正因為此,即使模型變得更加先進,它們仍然會產生幻覺。原因之一便是它們傾向于自信地給出錯誤答案,而不是承認不確定。

更好的評估方法

對此,OpenAI 指出了一個簡單的解決辦法:對自信錯誤(confidential error)的懲罰力度大于對不確定性的懲罰力度,并對恰當表達不確定性的行為給予部分加分。

這個想法并不新鮮。一些標準化測試長期以來一直使用對錯誤答案進行負面評分或對留空問題給予部分加分的方法來阻止盲猜。一些研究團隊也探索了考慮不確定性和校準的評估方法。

但 OpenAI 表示,僅僅增加一些新的不確定性感知測試是不夠的。廣泛使用的、基于準確度的評估方法需要更新,使其評分能夠阻止猜測。

如果主要評估指標依然繼續為模型幸運的猜測給予獎勵,模型就會繼續學習猜測。修改評估指標可以擴大降低幻覺技術的采用范圍,包括新開發的和先前研究的技術。

幻覺是如何從下一個詞預測中產生的

前面已經討論過為什么幻覺如此難以擺脫,但這些高度具體的事實性錯誤究竟從何而來?

畢竟,大型預訓練模型很少出現其他類型的錯誤,例如拼寫錯誤和括號不匹配。

OpenAI 表示,區別必定在于數據中存在哪些模式。

語言模型首先通過預訓練進行學習,這是一個預測海量文本中下一個詞的過程。

與傳統的機器學習問題不同,每個語句沒有「真 / 假」標簽。該模型只看到流暢語言的正面示例,并且必須去近似整體分布。

當沒有任何被標注為無效的示例時,區分有效語句和無效語句會更加困難。但即使有標簽,一些錯誤也是不可避免的。

為了理解原因,可以考慮一個更簡單的類比。在圖像識別中,如果數百萬張貓狗照片被標記為「貓」或「狗」,算法可以學會可靠地對它們進行分類。但想象一下,如果用寵物的生日來標記每張寵物照片。由于生日本質上是隨機的,無論算法多么先進,這項任務總是會產生錯誤。

同樣的原則也適用于預訓練。拼寫和括號遵循一致的模式,因此這些錯誤會隨著規模的擴大而消失。但像寵物的生日這樣任意的低頻事實,無法僅憑模式預測,因此會導致幻覺。

OpenAI 的分析解釋了哪些類型的幻覺會由下一個詞預測產生。理想情況下,預訓練后的后續階段應該能夠消除這些幻覺,但由于上一節中描述的原因,這并未完全實現。

總結

OpenAI 表示:「我們希望本文中的統計學視角能夠闡明幻覺的本質,并駁斥一些常見的誤解」:

有人宣稱:幻覺可以通過提高準確度來消除,因為 100% 準確的模型永遠不會產生幻覺。

發現:準確度永遠不會達到 100%,因為無論模型規模、搜索和推理能力如何,有些現實世界的問題本質上是無法回答的。

有人宣稱:幻覺是不可避免的。

發現:幻覺并非不可避免,因為語言模型在不確定時可以放棄回答。

有人宣稱:避免幻覺需要一定程度的智能,而這只有大型模型才能實現。

發現:小型模型更容易了解自身的局限性。例如,當被要求回答毛利語問題時,一個不懂毛利語的小型模型可以直接回答「我不知道」,而一個認識一些毛利語的模型則必須確定其置信度。正如論文中所討論的,「校準」所需的計算量遠小于保持準確。

有人宣稱:幻覺是現代語言模型的一個神秘缺陷。

發現:我們可以理解幻覺產生以及在評估中獲得獎勵的統計學機制。

有人宣稱:要測量幻覺,我們只需要一個好的幻覺評估。

發現:已有研究者發表了一些幻覺評估。然而,一個好的幻覺評估與數百種傳統的基于準確度的評估相比幾乎沒有效果,這些評估會懲罰謙遜并獎勵猜測。相反,所有主要的評估指標都需要重新設計,以獎勵不確定性的表達。

OpenAI 表示:「我們最新的模型幻覺率更低,并且我們將繼續努力,進一步降低語言模型輸出的置信錯誤率。」

順帶一提,據 TechCrunch 報道,OpenAI 正在重組其模型行為(Model Behavior)團隊,這是一支規模雖小但頗具影響力的研究人員團隊,他們決定著該公司的 AI 模型與人互動的方式。現在,該團隊將向 OpenAI 的后期訓練主管 Max Schwarzer 匯報。

而該團隊的創始負責人 Joanne Jang 則將在公司啟動一個新項目,名為 oai Labs。據她的推文介紹:「這是一個以研究為導向的團隊,專注于發明和設計人們與 AI 協作的新界面原型。」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-12-01 06:58:29

富領域模型服務

2020-10-26 16:35:53

內存JavaThreadLocal

2019-05-27 10:22:26

Oracle日志數據庫

2019-06-04 14:19:53

AWS谷歌巖機

2015-11-23 10:29:48

app隱藏通信安卓耗電

2011-04-21 16:34:56

打印亂碼接口

2021-12-12 21:51:54

人工智能銀行內卷

2015-10-14 11:32:55

機房空調制冷

2021-09-06 11:39:39

筆記本噪音風扇

2009-02-25 08:58:30

裁員上網本微軟

2011-08-12 10:04:52

數據中心宕機EPO

2018-09-10 09:43:26

2018-01-29 23:13:47

大數據戰略數據分析

2022-11-16 16:14:46

單踏板模式特斯拉

2010-07-12 16:24:20

2009-07-27 13:56:10

2010-09-12 23:07:53

2009-10-12 19:44:40

Windows 7閃屏解決辦法

2011-06-28 10:21:47

2010-09-01 09:33:15

網絡故障
點贊
收藏

51CTO技術棧公眾號

欧美日韩和欧美的一区二区| 高清不卡一区二区在线| 一本色道久久88亚洲综合88| 中文字幕第88页| h片在线免费| 不卡一区二区三区四区| 国产成人免费91av在线| 999精品在线视频| 视频一区日韩精品| 欧美性猛交xxxxx水多| 一区二区三区电影| 手机av在线免费观看| 日韩精品电影在线观看| 美女av一区二区三区| 日本丰满少妇裸体自慰| 涩涩涩久久久成人精品| 婷婷国产v国产偷v亚洲高清| 亚洲精品国产精品国自产| 亚洲成人黄色片| 日韩不卡手机在线v区| 欧美交受高潮1| 久久久久无码精品国产sm果冻| 日韩有吗在线观看| 欧美在线一区二区三区| 野外做受又硬又粗又大视频√| 国产精品影院在线| 97超碰欧美中文字幕| 91夜夜未满十八勿入爽爽影院| 亚洲国产成人无码av在线| 亚洲网色网站| 在线视频中文亚洲| www.自拍偷拍| 99亚洲乱人伦aⅴ精品| 欧美日韩国产成人在线免费| 北条麻妃在线观看| 草莓视频丝瓜在线观看丝瓜18| 国产精品婷婷午夜在线观看| 久久久久网址| 国产18精品乱码免费看| 精品一区二区影视| 国产精品成人观看视频国产奇米| 伊人久久综合视频| 中文精品久久| 正在播放欧美视频| b站大片免费直播| 另类尿喷潮videofree| 欧美成人精品1314www| 一区二区久久精品| 亚洲国产精选| 欧美精品第一页| 色噜噜狠狠一区二区| 成人黄色免费短视频| 色噜噜狠狠成人中文综合| 天堂…中文在线最新版在线| 999福利在线视频| 亚洲一区二区偷拍精品| 乱熟女高潮一区二区在线| 中文字幕在线播放网址| 亚洲免费在线观看视频| 成年丰满熟妇午夜免费视频| 特级毛片在线| 亚洲综合久久av| 人人妻人人澡人人爽欧美一区| 国产一区久久精品| 亚洲精品国久久99热| 无颜之月在线看| 在线观看操人| 亚洲成人免费看| 欧美日韩成人免费视频| 亚洲精品福利电影| 色婷婷综合久久久中文一区二区| 免费裸体美女网站| 精品123区| 538在线一区二区精品国产| 日本高清免费在线视频| 日日夜夜精品视频| 亚洲国产精品成人av| 欧美 变态 另类 人妖| 国产区精品区| 久久久精品影院| 久久久久久久久久综合| 国产精品久久久久9999高清| 热草久综合在线| 最近中文字幕在线观看视频| 精品一区二区三区久久| 成人黄色片视频网站| 五月婷婷综合久久| 国产精品污污网站在线观看| 欧美在线观看黄| 麻豆免费在线| 欧美色图天堂网| 四虎国产精品免费| 日韩美女毛片| 日韩中文字幕免费| 日韩精品人妻中文字幕| 日本大胆欧美人术艺术动态 | av3级在线| 黑人巨大精品欧美一区免费视频 | 精品免费99久久| 国产精品第七页| 日韩精品影视| 国内精品一区二区三区| 中文字幕+乱码+中文乱码91| 成人小视频免费在线观看| 欧美亚州在线观看| 影院在线观看全集免费观看| 色婷婷久久久亚洲一区二区三区| 久久精品国产99久久99久久久| 琪琪久久久久日韩精品| 久久精品欧美视频| 久久人妻免费视频| 国产一区二区三区国产| 欧美日韩在线高清| 电影k8一区二区三区久久| 欧美色男人天堂| 亚洲高清无码久久| 天天综合精品| 国产成人aa精品一区在线播放| 国产高清视频免费| 中文字幕国产精品一区二区| 免费观看美女裸体网站| 精品国产一区二区三区2021| 亚洲热线99精品视频| 精品亚洲永久免费| 国产原创一区二区| 午夜精品区一区二区三| 亚洲免费福利| 亚洲成人黄色在线观看| 强行糟蹋人妻hd中文| 青青草视频一区| 欧美大香线蕉线伊人久久| 在线免费观看a视频| 精品视频一区 二区 三区| 瑟瑟视频在线观看| 一本色道久久综合亚洲精品不卡| 91日韩在线播放| 日韩伦理在线观看| 欧美亚洲综合一区| 人妻aⅴ无码一区二区三区| 一区二区黄色| 国产一区二区高清不卡 | 国产91|九色| 东京干手机福利视频| 亚洲欧美区自拍先锋| 国产探花在线看| 成人免费在线播放| 国产欧美日韩高清| 日本中文字幕在线2020| 欧美日韩在线播| 性少妇xx生活| 久久成人免费网站| 亚洲欧美日韩在线综合| 国产亚洲人成a在线v网站| 国产亚洲激情在线| 精人妻无码一区二区三区| 久久精品一区二区三区不卡| 成年人视频网站免费观看| 林ゆな中文字幕一区二区| **欧美日韩vr在线| 外国精品视频在线观看 | 欧美激情中文字幕一区二区| 国产情侣av自拍| 欧美性感美女一区二区| 国产精品流白浆视频| 欧美三级理伦电影| 欧美一区二区在线免费播放 | 福利在线视频导航| 欧美色精品在线视频| 91视频青青草| 国产成a人亚洲精品| 男人插女人视频在线观看| 麻豆一区二区| 国产精品精品久久久| 黄页视频在线播放| 精品久久一区二区三区| 青青草成人av| 国产欧美一区二区精品性色超碰| 中文字幕av不卡在线| 午夜久久美女| 欧美成人蜜桃| 宅男噜噜噜66国产精品免费| 欧美激情免费视频| 亚洲av成人精品毛片| 欧美午夜在线观看| 成人在线观看小视频| 99久久精品一区| 欧美伦理片在线观看| 欧美国产免费| 欧美日韩精品一区| 91精品视频一区二区| 97超级碰在线看视频免费在线看| www.国产精品.com| 精品美女一区二区三区| 亚洲男人天堂网址| 亚洲最大成人综合| 天天躁夜夜躁狠狠是什么心态| 国产伦精一区二区三区| 成人在线免费在线观看| 亚洲精品国产偷自在线观看| 久久久久久久久久久一区| 国产精品第一国产精品| 午夜精品视频网站| 理论片午午伦夜理片在线播放| 亚洲大胆人体在线| 国产精品九九九九| 欧美午夜电影在线| 欧美日韩国产精品一区二区三区| 久久久五月婷婷| 18深夜在线观看免费视频| 久久婷婷激情| 久久久久99精品成人片| 四虎成人精品永久免费av九九| 国内一区二区三区在线视频| a一区二区三区亚洲| 日本视频久久久| 久草在线视频福利| xxx一区二区| 国产在线视频资源| 亚洲韩国日本中文字幕| 国产免费久久久| 欧美色网一区二区| 国产精品久久久久久久久久精爆| 亚洲自拍与偷拍| 日韩欧美国产成人精品免费| 久久精品在线观看| 久久福利小视频| 国产成人综合在线观看| 中文字幕av专区| 久色成人在线| 成人综合视频在线| 日韩视频不卡| 农民人伦一区二区三区| 中文字幕一区二区三区乱码图片| 亚洲精品一区二区三区av| 午夜欧洲一区| 久久这里精品国产99丫e6| 超碰精品在线观看| www 成人av com| 亚洲超碰在线观看| www.成人av.com| 一区二区三区免费在线看| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 盗摄牛牛av影视一区二区| 亚洲japanese制服美女| 成人免费观看49www在线观看| 国产精品专区第二| 欧美风情在线视频| 成人h猎奇视频网站| 亚洲福利影视| 亚洲xxx视频| 日韩精品成人在线观看| 99中文字幕| 精品三级av在线导航| 精品日本一区二区三区| 全球av集中精品导航福利| 精品日本一区二区三区在线观看| 网友自拍一区| 免费av一区二区三区| 狠狠做深爱婷婷综合一区| 亚洲毛片aa| 99精品视频在线观看播放| www.黄色网址.com| 欧美女人交a| 欧美,日韩,国产在线| 乱人伦精品视频在线观看| 男女激情无遮挡| 久久性天堂网| 激情五月俺来也| 激情欧美日韩一区二区| 男人操女人下面视频| 国产a级毛片一区| 久久无码人妻精品一区二区三区| 久久先锋影音av鲁色资源| 亚洲精品国产熟女久久久| 国产精品欧美久久久久一区二区 | 99久久夜色精品国产亚洲狼 | 9色国产精品| av网址在线观看免费| 麻豆精品在线播放| 国内精品免费视频| 久久久亚洲高清| 开心激情五月网| 亚洲制服丝袜av| av网站中文字幕| 欧美二区在线观看| 人妻少妇精品无码专区久久| 亚洲欧美中文日韩在线| 国产在线观看a| 97在线观看免费高清| av在线播放一区| 国产66精品久久久久999小说| 校园春色另类视频| 一级黄色片播放| 午夜综合激情| 少妇愉情理伦片bd| 久久一区二区三区国产精品| 久久99久久99精品免费看小说| 亚洲国产美女搞黄色| 正在播放木下凛凛xv99| 欧美大黄免费观看| 成年人免费在线视频| 久久久久久国产精品三级玉女聊斋 | 中文字幕亚洲一区二区av在线| 久久久国产精华液| 欧美午夜精品久久久久久孕妇| 成人乱码一区二区三区| 一区二区三区国产视频| 黄色在线看片| 成人av资源在线播放| 自拍欧美一区| 国产免费一区二区视频| 老司机精品视频一区二区三区| 黄色免费视频网站| 亚洲日本在线观看| 亚洲黄网在线观看| 亚洲福利视频网站| 成人直播在线| 国产精品久久久久久久久免费看| 开心激情综合| 四虎精品欧美一区二区免费| 欧美aaa在线| 亚洲av无码成人精品国产| 夜夜嗨av一区二区三区| 国产精品福利电影| 夜夜嗨av一区二区三区免费区| 久草免费在线视频| 成人综合av网| 亚洲网色网站| 色18美女社区| 中文字幕制服丝袜一区二区三区 | 国产丝袜精品丝袜| 成人在线视频网| 日韩在线观看| 亚洲激情在线观看视频| 久久综合久久综合久久综合| 日本少妇激情视频| 精品1区2区在线观看| 日韩av毛片| 91九色极品视频| 欧美色123| 91亚洲一线产区二线产区| 亚洲麻豆国产自偷在线| 国产毛片毛片毛片毛片毛片| 久久久91精品国产| 亚洲在线资源| 99re6这里有精品热视频| 国产一区二区精品久久| 国产午夜精品理论片| 69堂成人精品免费视频| 免费黄色网页在线观看| 成人欧美一区二区三区黑人孕妇 | 亚洲精品观看| 日本a级片在线观看| 国产成人av一区二区三区在线| 欧美国产日韩综合| 精品成人佐山爱一区二区| 不卡av免费观看| 久久久久久久有限公司| 日韩国产成人精品| 永久免费看片视频教学| 91麻豆精品国产91久久久久久 | 4k岛国日韩精品**专区| 亚洲精品视频中文字幕| 欧美日韩精品一区| 伊人成人在线| 日本五十肥熟交尾| 日韩欧美在线视频日韩欧美在线视频| 神马电影在线观看| 国产精品第七影院| 99久久久国产精品美女| 精品人妻无码中文字幕18禁| 亚洲aⅴ怡春院| 九色在线视频| 成人黄色免费在线观看| 黑丝一区二区| 国产精品毛片一区二区| 欧美三级一区二区| 日本一级理论片在线大全| 国内精品久久久久久久果冻传媒| 母乳一区在线观看| 三级黄色在线观看| 精品久久久久久久人人人人传媒 | 天堂中文在线看| 日韩av免费在线| 91亚洲一区| 你懂的在线观看网站| 欧美专区日韩专区| 中文字幕伦理免费在线视频| 久久伦理网站| 久久国产精品99精品国产| 久久精品无码人妻| 在线免费观看羞羞视频一区二区| 精品视频在线播放一区二区三区 | 青娱乐精品视频| 精品无码久久久久久久久| 最新69国产成人精品视频免费| 超碰成人在线免费| 国产精品一区二区小说| 午夜电影网一区| 成人无遮挡免费网站视频在线观看|