OpenAI爆出硬傷，強化學習是禍首！o3越強越「瘋」，幻覺率狂飆

作者：新智元 2025-04-21 09:27:00

人工智能新聞

o3編碼直逼全球TOP 200人類選手，卻存在一個致命問題：幻覺率高達33%，是o1的兩倍。Ai2科學家直指，RL過度優化成硬傷。

滿血o3更強了，卻也更愛「胡言亂語」了。

OpenAI技術報告稱，o3和o4-mini「幻覺率」遠高于此前的推理模型，甚至超過了傳統模型GPT-4o。

根據PersonQA基準測試，o3在33%的問題回答中產生了幻覺，幾乎是o1（16%）的2倍。

而o4-mini的表現更加糟糕，幻覺率高達48%。

技術報告：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

甚至，有網友一針見血地指出，「o3對編寫和開發超1000行代碼的項目極其不利，幻覺率極高，且執行指令能力非常差」。

不管是在Cursor，還是Windsurf中，o3編碼幻覺問題顯著。

要知道，o3和o4-mini在Codeforces中成績均超2700分，在全球人類選手中位列TOP 200，被稱為OpenAI有史以來最好的編碼模型。

它們驗證了，Scaling強化學習依舊有效。

o3訓練算力是o1的十倍

但為何隨著模型參數規模Scaling，幻覺問題反而加劇？

o3幻覺率至高，是o1兩倍

過去，每一代新模型的迭代，通常會在減少幻覺方面有所進步，但o3和o4-mini卻打破了這一規律。

更令人擔憂的是，OpenAI目前也無法完全解釋這一現象的原因。

技術報告中，研究團隊坦言，「還有需要進一步研究來弄清，模型生成更多斷言的問題」。

提前拿到o3內測資格后，非營利AI研究機構Transluce的測試，進一步印證了這一問題。

他們發現，o3在回答問題時，更傾向于「虛構」其推理過程中的某些行為。

比如，o3聲稱它在一臺2021年款的MacBook Pro上運行代碼，甚至聲稱是在ChatGPT之外復制的代碼。

而且，這種情況出了71次。然而，事實是o3根本無法執行這樣的操作。

前OpenAI研究員Neil Chowdhury表示，o系列模型使用的強化學習算法，可能是問題的根源。

RL可能會放大傳統后訓練流程中通常能緩解，但無法完全消除的問題。

強化學習「背鍋」，編造根源找到了

首先，必須承認的是，幻覺問題并非是o系列模型獨有，而是語言模型的普遍挑戰。

而對于多數語言模型產生幻覺的原因，不外乎有這么幾點：

1 預訓練模型的幻覺傾向

預訓練模型通過最大化訓練數據中語句的概率進行學習。然而訓練數據可能包含誤解、罕見事實或不確定性，這導致模型在生成內容時容易「編造」信息。盡管后訓練可以緩解這一問題，但無法完全消除。

2 討好用戶

RLHF訓練可能激勵模型會迎合用戶，避免反駁用戶的假設。

3 數據分布偏移

測試場景可能與訓練數據分布不一致。

盡管這些問題是語言模型常見的失敗模式，相較于GPT-4o，o系列模型的幻覺問題更為突出。

這背后，還有一些獨特的因素。

RL推理訓練副作用

作為推理模型，o系列采用了基于強化學習（Outcome-based RL）訓練，專為解決復雜數學問題、編寫測試代碼而設計。

雖然這種方法提升了模型在特定任務上的表現，但也造成模型幻覺率飆升。

如果訓練的獎勵函數只關注正確答案，模型在面對無法解決問題時，沒有「動力」去承認自己的局限。

相反，它可能選擇輸出「最佳猜測」，以期碰巧正確。而且，這種策略在訓練中未受到懲罰，從而加劇了幻覺。

另外，工具使用的泛化問題，也不可忽視。

o系列模型在訓練中，可能因成功使用「代碼工具」而獲得了獎勵。即使在禁用工具的場景中，模型可能會「假想」使用工具來組織推理過程。

這種行為可能在某些推理任務中提高準確性，并在訓練中被強化，但也導致模型虛構工具使用的場景。

真幫兇：CoT被丟棄

o系模型的另一個獨特設計是「思維鏈」（Chain-of-Thought）機制。

在生成答案前，模型會通過CoT進行思考，但這一過程對用戶不可見，且在后續對話中被丟棄。

事實上，它們可能在CoT中生成了看似合理但不準確的回答。比如，因為沒有真實鏈接，o1曾生成一個了虛構的URL。

由于CoT在后續對話中被丟棄，模型無法訪問生成前一輪答案的推理過程。

當你追問前一輪回答的細節時，模型只能基于當前上下文「猜測」一個合理的解釋。

這種信息缺失，很難避免o3等不去編造信息。

o3很好，但過度優化是硬傷

在Ai2科學家Nathan Lambert最新一篇分析長文中，同樣印證了這一問題：

強化學習給o3帶回來了「過度優化」，而且比以往更詭異。

在任何相關查詢中，o3能夠使用多步驟工具。

這讓ChatGPT的產品管理面臨更大挑戰：即便用戶未觸發搜索開關，模型也會自主聯網搜索。

但這同時標志著語言模型應用開啟了新紀元。

比如，Nathan Lambert直接問o3：「你能幫我找到那個長期以來被RL研究人員使用的，關于摩托艇過度優化游戲的gif嗎？可能像是波浪破碎器之類的？」

過去，他至少需要15分鐘，才能手動找到這個。

現在o3直接提供了準確的下載鏈接，而Gemini等AI則遜色很多。

與o3精彩互動：幾乎立刻找到需要的GIF

多個基準的測試成績，證明o3非常出色。OpenAI認為o3在許多方面比o1更強大。

o3是持續擴展RL訓練計算資源時的產物，這也提升了推理時的計算能力。

但這些新的推理模型在智能上「孤峰凸起」，在有些方面并沒有奏效。

這意味著有些交互令人驚嘆，感覺像是與AI互動的全新方式，但對于一些GPT-4或Claude 3.5早已熟練掌握的普通任務，o3等新推理模型卻徹底失敗了。

這涉及到強化學習中的「過度優化」（over-optimization）問題。

RL過度優化，o3更嚴重

OpenAI o3模型展現了全新的推理行為模式，但過度優化是硬傷。

過度優化（Over-optimization）是強化學習（RL）領域的經典問題。

無論是傳統強化學習、催生出ChatGPT的人類反饋強化學習（RLHF），還是當前新型推理模型中出現的情況，都呈現出獨特的表現形式和不同影響。

當優化器的能力超過它所依賴的環境或獎勵函數時，就會發生過度優化。

在訓練過程中，優化器會鉆漏洞，產生異常或負面的結果。

Ai2的科學家舉了一個例子。

在Mujoco仿真環境中，評估深度強化學習算法時，發生了過度優化：

「半獵豹」（half-cheetah）模型本該學習奔跑，卻用連續側手翻最大化了前進速度。

o3表現出新型過度優化行為。

這與它創新訓練方式密切相關。

最初的推理模型主要訓練目標是確保數學和代碼的正確性，而o3在此基礎上新增了工具調用與信息處理能力。

正如OpenAI官方博客所述：

利用強化學習，我們還訓練了這兩款模型去使用工具——不僅教會它們如何使用工具，還讓它們學會判斷何時該使用工具。

它們根據預期結果來部署工具的能力，讓它們在開放式任務中更加高效——特別是在涉及視覺推理和多步驟工作流的情況中。

這些訓練中的絕大多數子任務都是可驗證的。

這種新的訓練方法確實提升了模型的實用性，但只對過去用戶習慣使用的任務。

但目前還無法規模化地「修復」模型在訓練過程中產生的怪異語言表達。

這種新的過度優化并不會使模型的結果變差，它只是讓模型在語言表達和自我解釋方面變得更差。

o3的一些奇怪表現讓人感覺模型還沒完全成熟，比如在編程環境中使用了無效的非ASCII連字符的這個例子。

越來越多的用戶好奇：o3到底發生了什么？

Karpathy當年評價初代推理模型時的名言：

當模型在思維鏈中開始不說人話時，你就知道強化學習訓練到位了。

如今模型輸出的這些怪異幻覺，本質上就是行為版的「不說人話」。

o3的行為組件使其比Claude 3.7漏洞百出的代碼更有研究價值，或許也相對不易造成實際損害。

獎勵黑客，AI學會鉆空子

METR發現，o3是在自主任務中能獨立操作最久的模型，但也注意到它有傾向于「篡改」它們的評分。

聽起來是不是很熟悉？

事實上，獎勵機制被鉆空子（reward hacking）的例子比比皆是！

來自OpenAI最近論文的獎勵黑客攻擊例子：

論文鏈接：https://openai.com/index/chain-of-thought-monitoring/

從科學角度來看，這確實是非常有趣且引人深思的——

模型到底在學習什么？

與此同時，考慮到安全問題，大家對AI模型的廣泛部署保持警惕，就很有道理。

但目前看來，大家還沒有看到過于令人擔憂的情況，更多的是效率低下和一些混亂的例子。

總結一下強化學習（RL）不同階段中，看到的三種過度優化類型：

控制時代的RL：過度優化發生是因為環境脆弱，任務不現實。
RLHF時代：過度優化發生是因為獎勵函數設計糟糕。
可驗證獎勵強化學習（RLVR2）時代：過度優化發生，使模型變得超級有效，但也變得更加奇怪。（還有更多尚未發現的副作用）

這種過度優化確實是一個需要解決的問題，因為語言模型的可讀性是其一個重要優勢。

Nathan Lambert相信通過更復雜的訓練過程，這個問題是可以緩解的。

但OpenAI急于盡快推出模型，解決這個問題需要更多時間。

據報道，OpenAI的部分測試人員，只有不到一周的時間對即將推出的重要產品進行安全檢查。

責任編輯：張燕妮來源：新智元

編碼 AI 模型