GPT-5難產，外媒爆料：性能提升不大，OpenAI高管Slack上當眾破防

2025-08-04 09:04:00

人工智能新聞

8 月 1 日，The Information 更是洋洋灑灑寫了一篇名為《Inside OpenAI’s Rocky Path to GPT-5》的長文，扒出了 GPT-5 的更多內幕。

GPT-5 遲遲未現身，網友們開始制作各種梗圖「吐槽」：

其實，這幾天關于 GPT-5 的傳言就沒消停。

先是有網友在 macOS ChatGPT 應用中發現了 GPT-5-Auto 和 GPT-5-Reasoning 模型的蹤跡：

再是網友爆料微軟 Copilot 和 Cursor 也已經悄咪咪接入測試GPT-5。

8 月 1 日，The Information 更是洋洋灑灑寫了一篇名為《Inside OpenAI’s Rocky Path to GPT-5》的長文，扒出了 GPT-5 的更多內幕。

以下是省流版：

GPT-5 將比其前代產品有真正的改進，但無法與早期 GPT 品牌型號之間的性能飛躍相提并論。
OpenAI 在今年面臨了一系列技術問題，這些問題威脅到了 o3 和其他模型的進展。
Meta 挖人把 OpenAI 高管搞「破防」，在 Slack 中向上司公開抱怨團隊變動。

接下來，我們就詳細來吃個瓜。

GPT-5 有改進，但性能飛躍大不如前

去年 12 月，OpenAI 展示了 Test-Time Scaling 的測試結果，成為后預訓練時代大模型能力的關鍵突破口。該測試表明，當 AI 擁有更多時間和計算能力來處理任務時，其性能會持續增加，這一技術路徑在 OpenAI-o1 和 DeepSeek-R1 的實踐中已經初顯威力。看起來，廣大 ChatGPT 用戶會被新 AI 的強大功能所震撼。

然而，興奮勁并沒有持續太久。

據兩位參與開發的人透露，當 OpenAI 的研究人員將這款新 AI 改造成基于聊天的版本 o3，使其能夠響應 ChatGPT 用戶的指令時，之前測試基準上的性能提升基本消失了。

這只是 OpenAI 今年面臨的大量技術挑戰的一個例子，越來越多的困難正在減緩 AI 發展的步伐，甚至可能影響到 AI 爆款應用 ChatGPT 業務。

在即將發布的 GPT-5 上，OpenAI 研究人員據說已經找到了方法。

據消息人士和 OpenAI 內部工程師稱，OpenAI 即將發布的一代旗艦 AI 模型 GPT-5，在編程、數學等方面的能力有很大提升。

一個消息人士表示，新模型在編寫應用程序代碼時，能夠更好地添加功能，使其更易于使用且更美觀。他表示，GPT-5 在驅動 AI 智能體以極少的人工監督處理復雜任務方面也比其前代產品做得更好。例如它可以遵循復雜的指令，確定自動客服何時應該退款的規則列表，此前的模型需要先測試幾個棘手的客戶案例（即邊緣案例），才能處理此類退款。

另一位知情人士表示，這些改進無法與早期 GPT 模型的性能飛躍相提并論，例如 2020 年的 GPT-3 和 2023 年的 GPT-4 之間的改進。OpenAI 在過去 12 個月中經歷的性能提升放緩表明，它可能很難超出其最大的競爭對手，至少在 AI 能力方面是這樣。

OpenAI 目前的模型通過 ChatGPT 和各類應用已經創造了巨大的商業價值，即使是漸進式的改進，都會增加客戶需求。這些改進還能讓投資者有信心為 OpenAI 未來三年半內斥資 450 億美元購買 GPU，開發和運行產品的計劃提供資金。

提升自動化編碼能力成 OpenAI 首要任務

最近的進展也幫助解釋了為什么 OpenAI 高管最近幾周告訴一些投資者，他們認為公司可以實現「GPT-8」這一目標。這一表態與 CEO 山姆?奧特曼公開的言論一致，他表示，憑借現有的技術知識，OpenAI 有望創造出與最聰明人類能力相媲美的人工智能技術，即 AGI。

雖然距離實現 AGI 仍有很長的路要走，但即將發布的 GPT-5 模型可能具有一些除了更好的編碼和推理之外的其他吸引力。

據一位知情的微軟員工透露，微軟擁有 OpenAI 知識產權的獨家使用權，該公司的一些領導層告訴員工，他們測試該模型的結果顯示，GPT-5 能夠在不消耗更多計算資源的情況下，生成更高質量的編碼和其他基于文本的答案。

該人士表示，部分原因是它能夠比之前的模型更好地判斷哪些任務需要相對更多或更少的計算資源。

OpenAI 的內部評估顯示，在去年競爭對手 Anthropic 率先開發并向軟件開發人員和 Cursor 等編碼助手銷售此類模型后，提升人工智能自動執行編碼任務的能力已成為 OpenAI 的首要任務。

OpenAI 員工認為，自動編碼不僅對公司業務至關重要，對于實現人工智能研究人員自身工作的自動化也至關重要。

組織重組的壓力

OpenAI 的進展并非一帆風順，因為其研究人員和管理層今年都面臨著新的壓力。

首先是和微軟之間微妙的關系。

盡管微軟是 OpenAI 最大的外部股東，并且根據雙方的合同協議，微軟有權在 2030 年之前使用 OpenAI 的一些技術，但一些 OpenAI 的高級研究人員并不贊同將他們的創新和發明交給微軟。

在財務方面，微軟和 OpenAI 也有著非常緊密的合作關系，但在合作的具體條款上存在爭議，雙方都在要求對方做出一些讓步。

OpenAI 希望通過重組其營利性部門，來為將來上市做準備。雖然雙方在一些細節上仍然存在不確定性，但已經有一些重要的方面達成了初步的共識，比如微軟可能會在 OpenAI 重組后獲得約 33% 的股權。

其次就是 Meta 不斷「撬墻角」。

最近，Meta 狠砸真金白銀，從 OpenAI 挖去了十多位研究人員，其中一些還曾參與了 OpenAI 近期改進技術的工作。

這些人才流失和隨之而來的人員調整，給 OpenAI 的管理層帶來了壓力。

上周，OpenAI 的研究副總裁 Jerry Tworek 在公司內部的 Slack 中，向他的上司 Mark Chen 抱怨了團隊的變動，而許多同事都看到了他的抱怨。Tworek 表示，他必須休息一周來重新評估情況，但后來他并沒有休假。

Orion 模型的「失利」

雖然 OpenAI 在商業上取得了一些進展，但公司內部對能否持續改進 AI 并保持領先地位仍然存在一些擔憂，特別是面對像 Google、xAI 和 Anthropic 這樣的資金雄厚的競爭對手。

2024 年下半年，OpenAI 開發了一個名為 Orion 的模型，原計劃將其作為 GPT-5 發布，并預計其性能會比現有的 GPT-4o 模型更強。然而，Orion 并未達到預期的提升效果，因此 OpenAI 將其發布為 GPT-4.5 模型，結果這個模型的影響力似乎也沒多大。

Orion 未能成功的部分原因在于其預訓練階段的局限性。預訓練是模型開發的第一步，模型需要處理大量數據以便理解不同概念之間的聯系。OpenAI 在面臨高質量數據匱乏的同時，還發現對 Orion 模型做的優化在模型較小的時候有效，但當模型規模增大時，這些優化就不再有效了。

o3 實力強勁得益于更多的英偉達芯片

此外，OpenAI 的研究人員還面臨其他問題。

去年，OpenAI 開發了推理模型，這些模型在獲得更多計算資源以處理答案時表現得更好。這些模型源自 2023 年末的一項名為 Q * 的突破，這一突破震驚了公司的研究人員，因為它能夠解決之前從未見過的數學問題。到 2024 年，推理模型似乎幫助公司克服了預訓練階段性能增長放緩的問題。

去年秋天，OpenAI 將第一個主要推理模型變成了 o1。此次發布為 OpenAI 在 AI 領域贏得了新的影響力，并為依賴推理模型的 AI Agent 開發奠定了基礎.

據參與開發的人士透露，OpenAI 在 2024 年底之前創建了下一個推理模型 o3，其基礎大語言模型與 o1 相同，都是 GPT-4o。盡管 o3 和 o1 擁有相同的模型血統，但 o3 的母模型（也稱為教師模型）在理解各種科學領域及其他領域方面，相比 o1 的母模型取得了顯著的進步。

進步的一個原因是 OpenAI 決定使用更多的英偉達芯片服務器來開發 o3 的母模型，這本質上為模型提供了更強的處理能力，以理解復雜的概念。

另一個原因是，研究人員賦予了 o3 母模型搜索網絡或從代碼庫中獲取信息的能力，這也幫助其性能超越了 o1 的母模型。

兩個月前開發的模型都稱不上 GPT-5

OpenAI 公開分享了針對該模型優勢的特殊測試結果，不僅登上了全球頭條，還在社交媒體上引發了瘋狂的炒作，但隨后現實擺在了面前。

參與開發的人員表示，當 OpenAI 將 o3 母模型轉換為能讓人們提問的 ChatGPT 版本（也稱為學生模型）時，其收益顯著下降，甚至比 o1 表現好不了多少。他們表示，當 OpenAI 創建商用 API 的模型版本時，也出現了同樣的問題。

有知情人士表示，造成這種情況的原因之一與該模型理解概念的獨特方式有關，這可能與人類的溝通方式不同。他表示，創建基于聊天的版本實際上會降低原始模型的水平，因為它需要被迫使用人類語言而不是自己的語言。

我們知道，推理模型在 ChatGPT 中「思考」如何解決問題時有時會出現的胡言亂語，就反映了一些溝通差異。

據另一位知情人士透露，該公司也沒有花費太多精力以能與人類更好溝通的目標進行訓練。

盡管有所退步，OpenAI 今年公開發布的 o3 推理模型仍然幫助核聚變和病原體檢測等領域的科學家提出了新的假設和實驗進行測試。

然而，大語言模型和 ChatGPT 中的模型并沒有像 OpenAI 高管和研究人員預期的那樣順利。奧特曼告訴員工，o 系列模型似乎也讓 ChatGPT 的客戶感到困惑，因此該公司恢復了原來 GPT 模型的命名規律。

據一位參與 GPT-5 開發的人士透露，就在 6 月份由于技術問題，OpenAI 正在開發的模型似乎都不足以被貼上 GPT-5 的標簽。

GPT-5 的技術，還有最后的王牌

盡管如此，OpenAI 仍有一招：據一位知情人士透露，他們一直在開發一種研究人員稱之為「通用驗證器」（universal verifier）的東西，可以自動執行確保模型在強化學習過程中生成高質量答案的過程。這個過程本質上是讓一個大語言模型使用各種來源的研究來檢查和評分另一個模型的答案。

今年夏初，OpenAI 的未公開模型實現 IMO 金牌成績后，高級研究員 Alexander Wei 在 X 上表示，其一直在使用的強化學習方法是「通用的」，這意味著它也可以驗證更主觀類別中答案的質量。

alexander wei.png

這些進步似乎也在幫助 OpenAI 開發 GPT-5，GPT-5 在軟件編程等更易驗證的領域和創意寫作等更主觀的領域都表現出了進步。

包括 xAI 和谷歌在內的其他公司也極為重視強化學習，將其視為改進 AI 模型的有前景的技術。OpenAI 強化學習部門負責人 Tworek 最近公開表示，他贊同 OpenAI 模型背后的強化學習系統才是通用人工智能（AGI）的真正構成要素。

OpenAI 即將發布的 GPT-5 被人們寄予厚望。山姆?奧特曼上周在與喜劇演員 Theo Von 的播客中大肆宣傳 GPT-5 的功能，并介紹了該模型如何輕松回答他不理解的問題。奧特曼表示，「GPT-5 幾乎在所有方面都比我們更聰明。」

也正是因為前景不錯，OpenAI 在最新一輪的融資上進展非常順利。

新一輪融資，風投搶著買單

據《紐約時報》本周五報道，OpenAI 剛剛又融資了 83 億美元，估值達到 3000 億美元。這筆交易是 OpenAI 今年籌集 400 億美元資金的更廣泛戰略的一部分。

據報道，這輪融資超額完成，比原計劃提前了幾個月。OpenAI 最初在 3 月份從風投公司籌集了 25 億美元，當時該公司宣布計劃在由軟銀領投的一輪融資中籌集 400 億美元。OpenAI 原計劃在年底前再融資 75 億美元，但由于投資者在強勁增長的背景下爭相加入其股權結構，OpenAI 最終拿到了便宜。

ChatGPT 的每周活躍用戶超過 7 億，推動了 OpenAI 的年收入已經接近 130 億美元，預計到年底將達到 200 億美元。此外加上美國政府的《AI Action Plan》以及與微軟的談判，這些都可能幫助這家大號初創公司實現年度凈盈利的目標。

本輪融資是由 Dragoneer Investment Group 領投的，其投入金額高達 28 億美元。許多新投資者也參與了融資，包括私募股權巨頭黑石集團和 TPG，共同基金管理公司普信（T. Rowe Price），其他參與者包括 Altimeter Capital、Andreessen Horowitz、Coatue Management、D1 Capital Partners、Fidelity Management、Founders Fund、紅杉資本、老虎環球基金和 Thrive Capital。

據稱，OpenAI 的一些早期投資者還對他們在本輪融資中獲得的資金分配較少感到沮喪。

責任編輯：張燕妮來源：機器之心

GPT-5 AI模型