精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI爆出硬傷,強化學習是禍首!o3越強越「瘋」,幻覺率狂飆

人工智能 新聞
o3編碼直逼全球TOP 200人類選手,卻存在一個致命問題:幻覺率高達33%,是o1的兩倍。Ai2科學家直指,RL過度優化成硬傷。

滿血o3更強了,卻也更愛「胡言亂語」了。

OpenAI技術報告稱,o3和o4-mini「幻覺率」遠高于此前的推理模型,甚至超過了傳統模型GPT-4o。

根據PersonQA基準測試,o3在33%的問題回答中產生了幻覺,幾乎是o1(16%)的2倍。

而o4-mini的表現更加糟糕,幻覺率高達48%。

圖片

技術報告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

甚至,有網友一針見血地指出,「o3對編寫和開發超1000行代碼的項目極其不利,幻覺率極高,且執行指令能力非常差」。

圖片

不管是在Cursor,還是Windsurf中,o3編碼幻覺問題顯著。

圖片

要知道,o3和o4-mini在Codeforces中成績均超2700分,在全球人類選手中位列TOP 200,被稱為OpenAI有史以來最好的編碼模型。

它們驗證了,Scaling強化學習依舊有效。

圖片

圖片

o3訓練算力是o1的十倍

但為何隨著模型參數規模Scaling,幻覺問題反而加劇?

o3幻覺率至高,是o1兩倍

過去,每一代新模型的迭代,通常會在減少幻覺方面有所進步,但o3和o4-mini卻打破了這一規律。

更令人擔憂的是,OpenAI目前也無法完全解釋這一現象的原因。

技術報告中,研究團隊坦言,「還有需要進一步研究來弄清,模型生成更多斷言的問題」。

圖片

提前拿到o3內測資格后,非營利AI研究機構Transluce的測試,進一步印證了這一問題。

他們發現,o3在回答問題時,更傾向于「虛構」其推理過程中的某些行為。

圖片

比如,o3聲稱它在一臺2021年款的MacBook Pro上運行代碼,甚至聲稱是在ChatGPT之外復制的代碼。

圖片

而且,這種情況出了71次。然而,事實是o3根本無法執行這樣的操作。

前OpenAI研究員Neil Chowdhury表示,o系列模型使用的強化學習算法,可能是問題的根源。

RL可能會放大傳統后訓練流程中通常能緩解,但無法完全消除的問題。

強化學習「背鍋」,編造根源找到了

首先,必須承認的是,幻覺問題并非是o系列模型獨有,而是語言模型的普遍挑戰。

而對于多數語言模型產生幻覺的原因,不外乎有這么幾點:

1 預訓練模型的幻覺傾向

預訓練模型通過最大化訓練數據中語句的概率進行學習。然而訓練數據可能包含誤解、罕見事實或不確定性,這導致模型在生成內容時容易「編造」信息。盡管后訓練可以緩解這一問題,但無法完全消除。

2 討好用戶

RLHF訓練可能激勵模型會迎合用戶,避免反駁用戶的假設。

3 數據分布偏移

測試場景可能與訓練數據分布不一致。

盡管這些問題是語言模型常見的失敗模式,相較于GPT-4o,o系列模型的幻覺問題更為突出。

圖片

這背后,還有一些獨特的因素。

RL推理訓練副作用

作為推理模型,o系列采用了基于強化學習(Outcome-based RL)訓練,專為解決復雜數學問題、編寫測試代碼而設計。

雖然這種方法提升了模型在特定任務上的表現,但也造成模型幻覺率飆升。

如果訓練的獎勵函數只關注正確答案,模型在面對無法解決問題時,沒有「動力」去承認自己的局限。

圖片

相反,它可能選擇輸出「最佳猜測」,以期碰巧正確。而且,這種策略在訓練中未受到懲罰,從而加劇了幻覺。

另外,工具使用的泛化問題,也不可忽視。

o系列模型在訓練中,可能因成功使用「代碼工具」而獲得了獎勵。即使在禁用工具的場景中,模型可能會「假想」使用工具來組織推理過程。

這種行為可能在某些推理任務中提高準確性,并在訓練中被強化,但也導致模型虛構工具使用的場景。

圖片

真幫兇:CoT被丟棄

o系模型的另一個獨特設計是「思維鏈」(Chain-of-Thought)機制。

在生成答案前,模型會通過CoT進行思考,但這一過程對用戶不可見,且在后續對話中被丟棄。

圖片

事實上,它們可能在CoT中生成了看似合理但不準確的回答。比如,因為沒有真實鏈接,o1曾生成一個了虛構的URL。

由于CoT在后續對話中被丟棄,模型無法訪問生成前一輪答案的推理過程。

當你追問前一輪回答的細節時,模型只能基于當前上下文「猜測」一個合理的解釋。

這種信息缺失,很難避免o3等不去編造信息。

o3很好,但過度優化是硬傷

在Ai2科學家Nathan Lambert最新一篇分析長文中,同樣印證了這一問題:

強化學習給o3帶回來了「過度優化」,而且比以往更詭異。

圖片

在任何相關查詢中,o3能夠使用多步驟工具。

這讓ChatGPT的產品管理面臨更大挑戰:即便用戶未觸發搜索開關,模型也會自主聯網搜索。

但這同時標志著語言模型應用開啟了新紀元。

比如,Nathan Lambert直接問o3:「你能幫我找到那個長期以來被RL研究人員使用的,關于摩托艇過度優化游戲的gif嗎?可能像是波浪破碎器之類的?」

過去,他至少需要15分鐘,才能手動找到這個。

現在o3直接提供了準確的下載鏈接,而Gemini等AI則遜色很多。

圖片

與o3精彩互動:幾乎立刻找到需要的GIF

多個基準的測試成績,證明o3非常出色。OpenAI認為o3在許多方面比o1更強大。

o3是持續擴展RL訓練計算資源時的產物,這也提升了推理時的計算能力。

但這些新的推理模型在智能上「孤峰凸起」,在有些方面并沒有奏效。

這意味著有些交互令人驚嘆,感覺像是與AI互動的全新方式,但對于一些GPT-4或Claude 3.5早已熟練掌握的普通任務,o3等新推理模型卻徹底失敗了。

這涉及到強化學習中的「過度優化」(over-optimization)問題。

RL過度優化,o3更嚴重

OpenAI o3模型展現了全新的推理行為模式,但過度優化是硬傷。

過度優化(Over-optimization)是強化學習(RL)領域的經典問題。

無論是傳統強化學習、催生出ChatGPT的人類反饋強化學習(RLHF),還是當前新型推理模型中出現的情況,都呈現出獨特的表現形式和不同影響。

當優化器的能力超過它所依賴的環境或獎勵函數時,就會發生過度優化。

在訓練過程中,優化器會鉆漏洞,產生異常或負面的結果。

Ai2的科學家舉了一個例子。

在Mujoco仿真環境中,評估深度強化學習算法時,發生了過度優化:

「半獵豹」(half-cheetah)模型本該學習奔跑,卻用連續側手翻最大化了前進速度。

圖片

o3表現出新型過度優化行為。

這與它創新訓練方式密切相關。

最初的推理模型主要訓練目標是確保數學和代碼的正確性,而o3在此基礎上新增了工具調用與信息處理能力。

正如OpenAI官方博客所述:

利用強化學習,我們還訓練了這兩款模型去使用工具——不僅教會它們如何使用工具,還讓它們學會判斷何時該使用工具。

它們根據預期結果來部署工具的能力,讓它們在開放式任務中更加高效——特別是在涉及視覺推理和多步驟工作流的情況中。

這些訓練中的絕大多數子任務都是可驗證的。

這種新的訓練方法確實提升了模型的實用性,但只對過去用戶習慣使用的任務。

但目前還無法規模化地「修復」模型在訓練過程中產生的怪異語言表達。

這種新的過度優化并不會使模型的結果變差,它只是讓模型在語言表達和自我解釋方面變得更差。

o3的一些奇怪表現讓人感覺模型還沒完全成熟,比如在編程環境中使用了無效的非ASCII連字符的這個例子。

圖片

越來越多的用戶好奇:o3到底發生了什么?

圖片圖片圖片

Karpathy當年評價初代推理模型時的名言:

當模型在思維鏈中開始不說人話時,你就知道強化學習訓練到位了。

如今模型輸出的這些怪異幻覺,本質上就是行為版的「不說人話」。

o3的行為組件使其比Claude 3.7漏洞百出的代碼更有研究價值,或許也相對不易造成實際損害。

獎勵黑客,AI學會鉆空子

METR發現,o3是在自主任務中能獨立操作最久的模型,但也注意到它有傾向于「篡改」它們的評分。

圖片

圖片

聽起來是不是很熟悉?

事實上,獎勵機制被鉆空子(reward hacking)的例子比比皆是!

來自OpenAI最近論文的獎勵黑客攻擊例子:

圖片

圖片

圖片

圖片

圖片

論文鏈接:https://openai.com/index/chain-of-thought-monitoring/

從科學角度來看,這確實是非常有趣且引人深思的——

模型到底在學習什么?

與此同時,考慮到安全問題,大家對AI模型的廣泛部署保持警惕,就很有道理。

但目前看來,大家還沒有看到過于令人擔憂的情況,更多的是效率低下和一些混亂的例子。

總結一下強化學習(RL)不同階段中,看到的三種過度優化類型:

  1. 控制時代的RL:過度優化發生是因為環境脆弱,任務不現實。
  2. RLHF時代:過度優化發生是因為獎勵函數設計糟糕。
  3. 可驗證獎勵強化學習(RLVR2)時代:過度優化發生,使模型變得超級有效,但也變得更加奇怪。(還有更多尚未發現的副作用)

這種過度優化確實是一個需要解決的問題,因為語言模型的可讀性是其一個重要優勢。

Nathan Lambert相信通過更復雜的訓練過程,這個問題是可以緩解的。

但OpenAI急于盡快推出模型,解決這個問題需要更多時間。

圖片

據報道,OpenAI的部分測試人員,只有不到一周的時間對即將推出的重要產品進行安全檢查。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-14 08:30:00

模型AI訓練

2025-04-21 16:25:58

OpenAI測試模型

2024-12-24 16:15:04

2025-04-22 09:18:57

2025-05-14 10:09:12

2024-09-13 06:32:25

2017-08-22 15:56:49

神經網絡強化學習DQN

2017-08-17 09:15:23

強化學習KerasOpenAI

2025-04-23 08:30:05

2025-05-28 00:00:00

2025-02-07 09:05:36

2024-09-14 14:00:00

AI模型

2025-04-17 14:09:52

OpenAI模型編程

2017-03-28 10:15:07

2025-05-07 13:46:34

AI模型數據

2025-09-08 08:56:00

OpenAI論文模型

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-04-18 11:18:51

2018-11-14 10:28:38

AI數據科技

2025-10-08 11:15:55

點贊
收藏

51CTO技術棧公眾號

久久这里只有精品首页| 亚洲手机在线| 69堂成人精品免费视频| 成人免费在线视频播放| 天堂在线中文字幕| 美女网站在线免费欧美精品| 欧美大尺度在线观看| 内射中出日韩无国产剧情| 91p九色成人| 亚洲一区视频在线| 日本在线高清视频一区| xxxx国产精品| 日本成人在线一区| 欧美精品成人91久久久久久久| 成人免费无码大片a毛片| 看片一区二区| 欧美日韩激情视频8区| 亚洲一区二区三区在线观看视频| 欧美一区二区三区激情| 日本不卡的三区四区五区| 久久久久久久激情视频| 少妇的滋味中文字幕bd| 免费萌白酱国产一区二区三区| 欧美日韩另类一区| 丰满少妇被猛烈进入高清播放| 麻豆传媒视频在线| 久久久亚洲精品一区二区三区| 亚洲精品女av网站| 最好看的日本字幕mv视频大全| 亚洲黄色三级| 久久综合色88| 青青青视频在线播放| 日韩免费电影在线观看| 日韩视频免费观看高清完整版在线观看 | 亚洲 小说区 图片区| 一本色道久久| 久久久中文字幕| 黄色一级免费视频| 一区二区三区毛片免费| 日韩在线视频中文字幕| 97人妻人人揉人人躁人人| 天美av一区二区三区久久| 精品av综合导航| 中文字幕人妻无码系列第三区| 久久69成人| 欧美日韩另类一区| 亚欧美在线观看| 成人全视频在线观看在线播放高清 | 亚洲美女又黄又爽在线观看| 国产xxxx视频| 荡女精品导航| 亚洲成人久久久久| 乱码一区二区三区| jizz性欧美23| 精品国产乱码久久久久久图片| japan高清日本乱xxxxx| 另类视频一区二区三区| 日韩三级视频在线观看| 麻豆av免费看| 精品网站aaa| 日韩精品免费看| 亚洲国产欧美视频| 九九在线高清精品视频| 亚洲日本欧美中文幕| 蜜桃无码一区二区三区| jizzjizz欧美69巨大| 中文字幕九色91在线| 日本不卡一二区| 欧美fxxxxxx另类| 久久久免费电影| 男人天堂中文字幕| 久久精品午夜| 国产精品美女午夜av| 一级黄色片在线观看| 国内精品久久久久影院一蜜桃| 亚洲va码欧洲m码| 免费av网站观看| 久久噜噜亚洲综合| 伊人久久大香线蕉成人综合网 | 国产伦精品一区二区三区视频 | www.成人av| 午夜小视频在线播放| 久久精品一区八戒影视| 亚洲一卡二卡三卡| 欧美xxxx黑人又粗又长| 欧美性高潮床叫视频| 日本中文字幕精品—区二区| 欧洲精品99毛片免费高清观看| 亚洲国产欧美久久| 国产黄色录像视频| 激情国产一区| 国产精品久久久久久久久久免费| 99热这里只有精品1| 94色蜜桃网一区二区三区| 亚洲视频精品一区| 国产在线精彩视频| 欧美日韩美女一区二区| 伊人网综合视频| 日韩欧美在线中字| 91sa在线看| 99久久久国产精品无码网爆 | 这里只有精品视频在线观看| 国产十八熟妇av成人一区| 欧美自拍偷拍| 国内精品久久久| 一区二区三区日| 91香蕉国产在线观看软件| 在线国产99| 天堂√中文最新版在线| 日韩一区二区三区视频在线| 国产小视频自拍| 亚洲国产91| 91色琪琪电影亚洲精品久久| 国产小视频免费在线观看| 亚洲综合清纯丝袜自拍| www.涩涩涩| 你懂的视频欧美| 欧美激情视频在线免费观看 欧美视频免费一 | 性xxxfreexxxx性欧美| 欧美综合在线视频| www.免费av| 黄色av日韩| 亚洲iv一区二区三区| 成人亚洲性情网站www在线观看| 亚洲国产精品一区二区尤物区| 国产三级精品三级在线| 精品久久国产| 青草热久免费精品视频| 日韩中文字幕影院| 亚洲欧美日韩在线播放| 性生活免费在线观看| 精品国产精品久久一区免费式| 97色伦亚洲国产| 欧美老女人xx| www.xxx亚洲| 亚洲精品国产九九九| 免费日韩av| 成人啪啪免费看| 成人免费高清在线播放| 婷婷成人激情在线网| 乱码一区二区三区| 黄色av成人| 国产精品av一区| 色女人在线视频| 日韩一级黄色大片| 欧美国产中文字幕| 免费在线黄色片| 精品亚洲国内自在自线福利| 视频一区二区综合| av在线电影免费观看| 亚洲日本视频| 97久草视频| 18+视频在线观看| 91精品免费在线| 欧美黑人猛猛猛| 国产精品一二三区| 国产精品国三级国产av| 我要色综合中文字幕| 欧美人成在线| 国产精品视频久久| 国产1区2区3区在线| 一本色道久久综合精品竹菊| 97人妻精品一区二区三区免 | 精品在线观看国产| 国产无码精品在线播放| av毛片久久久久**hd| 日韩中文字幕三区| 国产精品密蕾丝视频下载| 国产精品高潮呻吟久久av黑人| eeuss影院www在线播放| 8v天堂国产在线一区二区| 日本天堂中文字幕| 99精品在线免费| 亚洲 中文字幕 日韩 无码| 欧美日韩第一| 96国产粉嫩美女| 色偷偷偷在线视频播放| 在线观看免费高清视频97| 一级片免费网站| 亚洲一区二区免费视频| 欧美精品黑人猛交高潮| 蜜桃av噜噜一区| 青青草原网站在线观看| 精品综合久久88少妇激情| 热99精品只有里视频精品| yw在线观看| 91精品国产色综合久久| 日本熟妇色xxxxx日本免费看| 久久青草国产手机看片福利盒子| 岛国毛片在线播放| 亚洲成人原创| 亚洲电影免费| 1204国产成人精品视频| 欧美在线性视频| 动漫一区在线| 亚洲精品自在久久| 91成品人影院| 午夜视频一区二区| av片在线免费看| www.成人网.com| 亚洲天堂2018av| 国产精品久久777777毛茸茸| 一区二区日本伦理| 香蕉一区二区| 91久久伊人青青碰碰婷婷| 在线日韩影院| 欧美大片大片在线播放| 在线播放麻豆| 亚洲精品国精品久久99热| 亚洲天堂777| 欧美日韩国产精品一区二区三区四区| 免费黄色在线网址| 91一区在线观看| 97超碰人人看| 日本不卡一区二区| 青青青免费在线| 欧美aa国产视频| 亚洲午夜精品一区二区三区| 琪琪久久久久日韩精品| 亚洲一区美女视频在线观看免费| 欧美xxx性| 97色在线视频观看| 老司机午夜在线| 国产亚洲在线播放| 四虎精品一区二区三区| 日韩一区二区在线播放| 在线观看不卡的av| 一本久久a久久免费精品不卡| 精品一区二区三区人妻| 亚洲日本韩国一区| 成人欧美一区二区三区黑人一| 久久久噜噜噜久久人人看| 精品一区二区三区四区五区六区| 激情欧美一区二区| wwwwwxxxx日本| 麻豆精品一区二区| 日本老熟妇毛茸茸| 午夜综合激情| 免费无码不卡视频在线观看| 韩日欧美一区| 真实国产乱子伦对白视频| 91av精品| 男女h黄动漫啪啪无遮挡软件| 日韩夫妻性生活xx| 亚洲制服中文| 欧美成免费一区二区视频| 色中色综合成人| 欧美美乳视频| 日日噜噜噜噜夜夜爽亚洲精品| 色婷婷久久久| 美日韩免费视频| 亚洲精品国产动漫| 欧美成人综合一区| 国产亚洲一区| 亚州欧美一区三区三区在线| 欧美一区电影| 一区二区三区av在线| 91精品久久久久久久蜜月| 亚洲一区二区在线看| 香蕉av一区二区| 黄色网址在线免费看| 欧美激情第二页| 18禁免费观看网站| 亚洲精品一区二区在线观看| 人妻精品久久久久中文| 久久精品综合网| 一级片视频免费看| 欧美韩日一区二区三区四区| www.4hu95.com四虎| 国产精品久久久久永久免费观看 | 国产香蕉精品| 久久久久资源| 日本久久黄色| 超碰10000| 国产欧美一区二区色老头| 黑森林福利视频导航| 美日韩一区二区| 国产sm在线观看| 91一区一区三区| 大胸美女被爆操| 亚洲精品成a人| 黄色在线视频网址| 欧美日本在线播放| 亚洲免费成人在线| 亚洲精品一区中文| 毛片av在线| 欧美精品久久久久久久久| 亚洲精品中文字幕| 国产精品男人的天堂| 国产精品一区二区精品视频观看 | 手机看片1024日韩| 国产一区二区日韩精品欧美精品| 天堂地址在线www| 久久久在线视频| 青青国产精品| 狠狠色综合网站久久久久久久| 久久综合欧美| 少妇一晚三次一区二区三区| 久久资源在线| 中文写幕一区二区三区免费观成熟| 2014亚洲片线观看视频免费| 91精品少妇一区二区三区蜜桃臀| 亚洲国产一区二区三区青草影视| 久久久久久久久久一级| 精品欧美乱码久久久久久| 成人免费在线电影| 欧美亚洲激情在线| 日韩在线观看一区二区三区| 色噜噜一区二区| 国产日韩欧美三级| 亚洲成人激情小说| 中文av字幕一区| 国偷自拍第113页| 日韩精品一区二区三区四区视频| 成人在线观看黄色| 国产91精品青草社区| 老司机精品视频网| 日韩福利视频| 国产精品日本| 亚洲精品久久一区二区三区777| 国产精品三级av| 成人a v视频| 亚洲精品久久7777777| 99在线播放| 国产一区二区在线免费| 国内精品久久久久久99蜜桃| 少妇人妻大乳在线视频| 国产福利精品导航| 日本精品在线免费观看| 欧美性受xxxx黑人xyx性爽| 四虎精品在永久在线观看| 欧美激情伊人电影| 亚洲精品观看| 国产乱人伦精品一区二区三区| 久久成人免费网| 成人在线观看免费高清| 欧美天堂亚洲电影院在线播放| 能在线看的av| 青青草精品毛片| 综合国产视频| 黄色免费观看视频网站| 9久草视频在线视频精品| 免看一级a毛片一片成人不卡| 欧美一区二区精品久久911| 韩国av网站在线| 国产自摸综合网| 999国产精品视频| 福利视频999| 亚洲免费观看高清在线观看| 97caocao| 免费91在线视频| 视频一区国产| 成年人网站国产| 99热精品一区二区| 久久久久亚洲av成人毛片韩| 亚洲激情在线观看| 华人av在线| 欧美午夜欧美| 免费成人性网站| 久久国产高清视频| 精品成a人在线观看| sm性调教片在线观看| 久久精品ww人人做人人爽| 久久综合五月| 黄色精品视频在线观看| 欧美一卡2卡3卡4卡| 免费看电影在线| 久久久久久久久久久久久久一区| 麻豆久久精品| 在线观看日本黄色| 日韩免费性生活视频播放| heyzo一区| 欧洲精品亚洲精品| 久久成人免费电影| 精品深夜av无码一区二区老年| 日韩国产激情在线| 国产一区精品福利| 欧美大片免费播放| 91丨国产丨九色丨pron| 最新国产中文字幕| 色中色综合影院手机版在线观看| 狠狠久久伊人| www.激情小说.com| 亚洲一区二区精品视频| 日韩资源在线| 91久久久久久久久| 亚洲欧美日韩精品一区二区 | 婷婷六月综合网| 成人在线视频成人| wwwxx欧美| 日韩精品欧美成人高清一区二区| 国产美女福利视频| 日韩av在线免费观看| 欧美大片网站| 欧美 日韩 国产 高清| 国产精品久久久久久亚洲毛片| 高清乱码毛片入口| 国产精品一区二区三区免费视频 | jizz18女人| 五月天一区二区三区|