奧特曼首曬GPT-5實測!被曝使用超級對齊團隊“遺產”
GPT-5,終于亮出真容!
最新實測,由奧特曼本人帶來,迅速引發大量圍觀。

瘋狂暗示了一周之后,雖說對話只是圍繞電視劇推薦,但好歹是有官方實例了。

當然奧特曼其人,放料的同時還是少不了新的謎語┓( ′?` )┏:
即將進入SaaS快時尚時代。

比起這種奧式基操,更令人興奮的是,這次有眼疾手快的網友,截到了發布時間(秒刪版)???

行吧,這一周的夜,熬起來吧伙計們。
更多細節“泄露”ing
奧特曼持續的官方放料之外,關于GPT-5,零零星星的各路消息也正在被歸納總結出更多關鍵脈絡。
比如,在主要競爭對手Claude一騎當先的編程領域,GPT-5被曝重寫了編碼規則。
首先,是將文本能力與推理層相結合,模型學會更合理地選擇何時“努力”思考。
其次,GPT-5具備處理真實工程問題的能力,比如,重構“屎山”代碼……
更值得關注的是,有知情人士透露,GPT-5還用上了Ilya領銜的超級對齊團隊的“遺產”——
通用驗證器(Universal Verifier)。

這篇論文最早發表于2024年7月,也就是Ilya官宣離開OpenAI的2個月之后。
眾所周知,作為Ilya為“控制超級智能”一手拉起來的團隊,超級對齊團隊在他和負責人Jan Leike離開后迅速被解散。
就在幾天前,現任OpenAI首席研究官Mark Chen還解釋了一嘴這件事。他認為,對齊研究已經融入OpenAI的核心業務,模型必須按照預期工作才能發揮作用,且當前應當更關注現有模型的對齊,而非假設性的超級智能。
更直白一點翻譯就是,Ilya這伙人跟現在的OpenAI,話不投機半句多。
現在,這篇論文的6位作者中,只有Yining Chen和Nat McAleese還留在OpenAI。
使用超級對齊團隊技術
八卦少敘,還是來看看“通用驗證器”的具體作用。
消息稱,OpenAI在開發GPT-5的過程中引入了通用驗證器進行強化學習,能讓模型在保持較高準確率的同時,輸出更清晰的推理過程。

從超級對齊團隊發表的論文來看,他們提出了一種“證明者-驗證者游戲”的訓練方法,簡單來說就是先在模型內部劃分證明者和驗證者兩種角色,再讓彼此之間持續對抗:
- “靠譜的證明者”負責給出正確的解題步驟,并讓驗證者認可。
- “狡猾的證明者”故意給出錯誤步驟,并試圖欺騙驗證者。
- 小型“驗證者”負責準確區分正確與錯誤方案。
證明者和驗證者模型都來自GPT-4系列,且需保證驗證者規模小于證明者,以確保小型驗證者在一定程度上可以對齊人類驗證結果。

為了量化不同角色的作用,分別設置證明者和驗證者的效用函數。
證明者效用基于獎勵函數,為“靠譜的證明者”施加與方案正確性和驗證者打分正相關的獎勵,而為“狡猾的證明者”提供與方案錯誤性和驗證者打分正相關的獎勵。
其中獎勵函數需要滿足兩點要求,角色對齊的方案(如“靠譜的證明者”生成正確答案)獲得的獎勵將高于非對齊方案,且對齊方案中,驗證者打分越高,獎勵也隨即增加。
驗證者效用則采用交叉熵損失最小化判斷誤差。
然后進行多輪迭代訓練,讓證明者通過強化學習(PPO)優化,分別根據角色最大化獎勵,驗證者則學習如何更好地區分正確與錯誤解決方案。

實驗結果證明,在每輪訓練中,“靠譜”和“狡猾”證明者都能讓驗證者打分單調提升,而“靠譜的證明者”的準確性整體處于上升趨勢,“狡猾的證明者”生成錯誤答案的比例呈現先下降后上升的表現,最終能生成與正確答案說服力相當的錯誤方案。
在多輪對抗訓練后,“靠譜的證明者”的正確率和“驗證者”的抗干擾能力都將不斷提高,且讓模型生成更準確且易讀的輸出,但與此同時,模型也能生成出更具欺騙性的錯誤答案。

基于該技術,GPT-5可以對每個答案進行評分,并只保留正確的答案循環訓練,以推出可驗證的易讀性答案,后續即使人類無法完全理解模型的高級推理,也能通過可擴展的小型驗證器構建起可檢驗性約束。
One More Thing
奧特曼瘋狂拋媚眼,宣(chao)傳(zuo)小連招一套接一套。
搞得網上也是真假料滿天飛。
有搶跑實測視頻的:


有“預測”基準的:



還有唱衰的。
The Information就爆料說,GPT-5研發遇到了比較大的困難,一方面,高質量訓練數據供應不足;另一方面,大規模預訓練收益下降,使得GPT-5的提升不會像GPT-3到GPT-4那樣有明顯的飛越。
另外,還存在模型性能轉化的落差問題。比如o3,在內部測試時表現出非常強大的性能,但在實際面向用戶部署之后,性能卻出現了大幅下降。
就如網友所質疑的:像此前的所有模型一樣,GPT-5可能發布1周之后就會變笨。

不管怎么說,GPT-5箭在弦上,OpenAI應該不能不發……了吧?
參考鏈接:
[1]https://x.com/sama/status/1952071832972186018
[2]https://arxiv.org/abs/2407.13692





































