GPT-5:沒有AGI,失望和天花板,最具競爭力的可能是定價
GPT-5 發布速記:
剛看完GPT-5發布會,我對GPT-5整體感覺都已經在標題里了。
整個發布會一上來就出現多個錯誤圖片,瞬間刷爆整個網絡。

而Sam Altman 一直在發推說GPT-5有多好,比如代碼能力遠超vibecoding的范圍。

市場對GPT-5比較失望,OpenAI在polymarket慘敗。

專家認為:GPT-5開發過于倉促,模型已經撞墻。

就像大家知道的那樣GPT-5有三個型號,是一個包含快速回答、深度思考和智能路由器的統一系統,能自主判斷問題難度,決定是秒回還是深度思考,也可以通過提示詞引導它think hard about this。

所有人都可以免費訪問,plus用量多一些,pro用戶可以訪問最多計算量。
GPT-5基礎性能
可以這么說:
GPT-5 是沒有推理能力的 o4.5,GPT-5-mini 是沒有推理能力的 o4.5-mini。GPT-5-nano 本質上是 GPT-4.2。GPT-5-thinking 是帶有少量推理能力的 o4.5。GPT-5-pro 是帶有并行推理能力的 o4.5,而 o4.5 是帶有推理能力的 GPT-4.5+。

GPT-5在ARC-AGI 1和ARC-AGI 2表現不佳,還不如Grok 4。


GPT-5在大模型競技場排第一,這個看看就好了。

在人類最后的考試中就比ChatGPT Agent表現好一點,問題是ChatGPT Agent也比較雞肋啊!

訓練截止時間:2024年知識截止,這個真的很糟,看起來確實是人類產生的的數據不夠了?不過OpenAI的研發人員說GPT-5證明了合成數據的有效。

400k 上下文窗口,符合預期。
非多模態輸入。
GPT-5的幻覺癥狀明顯改善,幻覺暴降80%。

GPT-5 定價
GPT-5最大的亮點可能是極具競爭力的價格,定價與谷歌的Gemini 2.5 pro持平了,這個要表揚一下了,畢竟谷歌推理用的自己的芯片。

GPT-5代碼能力
OpenAI專門給開發者寫了一個blog ,比較詳細的說明了GPT-5代碼能力,拉來了一大堆伙伴站臺,比如cursor,windsurf,初步評價很猛,但是究竟與Claude 相比怎么樣還是未知數。
cursor ceo評價:
GPT-5 是我們使用過的最智能的編碼模型。我們的團隊發現 GPT-5 非常智能,易于操控,甚至擁有我們在其他任何模型中都未曾見過的個性。它不僅能捕捉棘手、隱藏深層的 bug,還能運行長時間、多輪的后臺代理,將復雜的任務進行到底——這類問題過去常常讓其他模型陷入困境。它已經成為我們日常工作的驅動力,從范圍界定和規劃 PR,到完成端到端構建,無所不包。

Windsurf 工程主管評價:
GPT-5 在我們的內部評估中處于 SOTA 階段,該評估衡量了模型在現實世界軟件工程任務中的表現。我們還發現,該模型的工具調用錯誤率僅為其他前沿模型的一半。它始終能夠以連貫、易懂的方式解決復雜任務。

具體的評估參數我就不放了,大家感興趣可以去這里看:
https://openai.com/index/introducing-gpt-5-for-developers/
大家看后續測試吧,總結來說,感覺GPT-5是一個努力了很久的拼湊的模型,沒有GPT-3到GPT-4的驚艷和震撼,更談不上AGI。


























