奧特曼首曬GPT-5實測！被曝使用超級對齊團隊“遺產”

2025-08-04 14:22:33

奧特曼持續的官方放料之外，關于GPT-5，零零星星的各路消息也正在被歸納總結出更多關鍵脈絡。比如，在主要競爭對手Claude一騎當先的編程領域，GPT-5被曝重寫了編碼規則。

GPT-5，終于亮出真容！

最新實測，由奧特曼本人帶來，迅速引發大量圍觀。

瘋狂暗示了一周之后，雖說對話只是圍繞電視劇推薦，但好歹是有官方實例了。

當然奧特曼其人，放料的同時還是少不了新的謎語┓( ′?` )┏：

即將進入SaaS快時尚時代。

比起這種奧式基操，更令人興奮的是，這次有眼疾手快的網友，截到了發布時間（秒刪版）？？？

行吧，這一周的夜，熬起來吧伙計們。

使用超級對齊團隊技術

八卦少敘，還是來看看“通用驗證器”的具體作用。

消息稱，OpenAI在開發GPT-5的過程中引入了通用驗證器進行強化學習，能讓模型在保持較高準確率的同時，輸出更清晰的推理過程。

從超級對齊團隊發表的論文來看，他們提出了一種“證明者-驗證者游戲”的訓練方法，簡單來說就是先在模型內部劃分證明者和驗證者兩種角色，再讓彼此之間持續對抗：

證明者和驗證者模型都來自GPT-4系列，且需保證驗證者規模小于證明者，以確保小型驗證者在一定程度上可以對齊人類驗證結果。

為了量化不同角色的作用，分別設置證明者和驗證者的效用函數。

證明者效用基于獎勵函數，為“靠譜的證明者”施加與方案正確性和驗證者打分正相關的獎勵，而為“狡猾的證明者”提供與方案錯誤性和驗證者打分正相關的獎勵。

其中獎勵函數需要滿足兩點要求，角色對齊的方案（如“靠譜的證明者”生成正確答案）獲得的獎勵將高于非對齊方案，且對齊方案中，驗證者打分越高，獎勵也隨即增加。

驗證者效用則采用交叉熵損失最小化判斷誤差。

然后進行多輪迭代訓練，讓證明者通過強化學習（PPO）優化，分別根據角色最大化獎勵，驗證者則學習如何更好地區分正確與錯誤解決方案。

實驗結果證明，在每輪訓練中，“靠譜”和“狡猾”證明者都能讓驗證者打分單調提升，而“靠譜的證明者”的準確性整體處于上升趨勢，“狡猾的證明者”生成錯誤答案的比例呈現先下降后上升的表現，最終能生成與正確答案說服力相當的錯誤方案。

在多輪對抗訓練后，“靠譜的證明者”的正確率和“驗證者”的抗干擾能力都將不斷提高，且讓模型生成更準確且易讀的輸出，但與此同時，模型也能生成出更具欺騙性的錯誤答案。

基于該技術，GPT-5可以對每個答案進行評分，并只保留正確的答案循環訓練，以推出可驗證的易讀性答案，后續即使人類無法完全理解模型的高級推理，也能通過可擴展的小型驗證器構建起可檢驗性約束。

奧特曼瘋狂拋媚眼，宣（chao）傳（zuo）小連招一套接一套。

搞得網上也是真假料滿天飛。

有搶跑實測視頻的：

有“預測”基準的：

還有唱衰的。

The Information就爆料說，GPT-5研發遇到了比較大的困難，一方面，高質量訓練數據供應不足；另一方面，大規模預訓練收益下降，使得GPT-5的提升不會像GPT-3到GPT-4那樣有明顯的飛越。

另外，還存在模型性能轉化的落差問題。比如o3，在內部測試時表現出非常強大的性能，但在實際面向用戶部署之后，性能卻出現了大幅下降。

就如網友所質疑的：像此前的所有模型一樣，GPT-5可能發布1周之后就會變笨。

不管怎么說，GPT-5箭在弦上，OpenAI應該不能不發……了吧？

責任編輯：武曉燕來源：量子位