實測OpenAI最新模型!亮點真的爽,坑點兩行淚!解決GPT5頑疾!犀利吐槽:半發布的實驗品,拼一塊兒就散架 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
今天凌晨 1 點,OpenAI 又搞了一件讓開發者大呼過癮的產品!
圖片
嚴格地說,這次的發布是一款新模型,而且是“半發布”:GPT-5-Codex。這是一個在 GPT-5 基礎上專門微調的版本,明確面向 OpenAI 的各種 AI 編程輔助工具。
之所以說是“半發布”,是因為它目前還不能通過 API 使用,但 OpenAI 表示“計劃很快在 API 中開放 GPT-5-Codex”。
這款變體新模型的最大特點,就是可以動態分配“思考時間” —— 從幾秒鐘到七個小時不等,根據任務復雜度靈活調整。這讓它在 agentic 編程基準測試 和 代碼重構評測中表現大幅提升。
圖片
雖然沒有提供API,但最酷的是:
這個模型和我們平時用的工具綁定得非常深,比如 Codex CLI、Codex Web 界面,還有 Codex 擴展。OpenAI 這一點真的幫開發者省了不少事。
據官網介紹,GPT-5-Codex 已經集成到多個 OpenAI 的編程工具中:
- VS Code 插件
- Codex CLI
- Codex Cloud(異步編程代理,可通過 iPhone App 使用)
- GitHub 集成
- ChatGPT 產品(Plus、Pro、Business、Edu、Enterprise 用戶可用)
此外,Codex Cloud 還增加了一個新功能:你可以把它配置成自動對特定 GitHub 倉庫運行代碼審查(可以在??chatgpt.com/codex/settings/code-review?? 中找到這個選項),系統會為這些審查創建一個臨時容器。官方文檔里有詳細說明。
ps:官方文檔的鏈接,小編也為大家扒下來了:
??https://developers.openai.com/codex/cloud/code-review??
圖片
1.先來看,OpenAI都做了哪些工作?
那么,這次,GPT-5-Codex 具體哪些方面提升了呢?小編概括了以下6點OpenAI 做出的改進方向。
首先,OpenAI 團隊專門針對代碼審查進行了訓練,這正好支撐了他們的新功能。
其次,“GPT-5-Codex 會根據任務復雜度,更動態地調整思考時間。” 簡單任務(如“列出當前目錄文件”)運行更快,而大型復雜任務可能會運行很久 —— OpenAI 表示在某些情況下 Codex 會持續工作 七個小時。
第三,在其專有的“代碼重構評測”中,分數從 GPT-5 的 33.9% 提升到 GPT-5-Codex 的 51.3%。雖然沒有完整評測細節很難完全理解,但至少能說明他們特別關注重構能力。
其四,“GPT-5-Codex 在創建移動網站時,在人類偏好評測中有顯著提升。” 比如,之前大家一般總習慣在提示中強調:“一定要移動端友好”,現在可能不用再額外強調了。
其五,“我們發現 GPT-5-Codex 的評論更少出現錯誤或無關緊要的情況。” (減少代碼中無用的評論,這確實是進步。)
第六,還有一個非常 Nice 的地方值得各位細讀,即,Codex CLI 中 GPT-5-Codex 的系統提示詞,它比其他模型的提示詞明顯更短。
圖片
有手快的網友已經做了 diff 對比。
圖片
省流版地總結一下重點:
- 動態思考:不再像路由器那樣一開始就固定算力和時間,而是能在運行過程中動態決定是否需要更多時間。
- 代碼重構:在專有評測中,GPT-5 從 33.9% 提升到 GPT-5-Codex 的 51.3%。
- 移動網站優化:在人類偏好評測中有顯著提升,移動端開發體驗更好。
- 評論質量:評論更少出錯或無關緊要,減少無效信息干擾。
2.實測亮點和坑點
那么,實測效果如何呢?一位開發者已經放出了自己的測評視頻,香是真的香。
網友 Theo Browne 在評測視頻中表示,整體印象不錯。尤其是解決了GPT-5自發布以來飽受用戶詬病的“Token很快耗完”的問題。
“你們知道我對 GPT-5 最大的抱怨之一,就是它在開發任務上又慢又費 Token。而 Codex 的優化方向之一,正是這個痛點。”
圖片
舉個例子:任務復雜度不同,消耗的 Token 數差別巨大。
簡單的比如“數到 10”,可能只需要 10 個 Token;
但要是你讓它寫 15 種語言的代碼,或者數單詞里有多少個字母 R,那就是另一回事了。
對于代碼任務,這個跨度更夸張,從 100 個 Token 到上百萬都有可能。我自己隨便玩都跑到 62.8 萬 Token,用著用著還多次突破 100 萬。
所以, Codex 的思路是:小任務用小 Token,大任務才用大 Token。這點特別重要。
OpenAI 內部員工數據也證明了這一點:在最簡單的 10% 任務里,Codex 比 GPT-5 少用了 93.7% 的 Token,幾乎縮小了 20 倍。但在最復雜的 10% 任務里,Codex 反而用得更多,推理、編輯、測試都花更多時間。這就是它的靈活性。
第二個亮點,它是專門訓練來做代碼審查和發現關鍵漏洞的。
圖片
審查時,它會在你的代碼庫里導航,推理依賴關系,還會實際運行代碼和測試,來驗證正確性。
這位嘗鮮測試的網友還透露,他在和 OpenAI 員工聊天時,對方反復強調這一點:
GPT5-Codex 可不是簡單的對比代碼差異,而是會在云端的容器里跑你的代碼、測試它、找 bug。
據爆料,OpenAI 內部還用了實際的開源項目做了測試。每個提交都由有經驗的軟件工程師來評估 Codex 的審查意見是否正確和有用。結果發現,GPT-5 Codex 的評論更少出錯或沒意義,能讓用戶把注意力集中在關鍵問題上。
Browne 表示,“大部分 AI 代碼審查工具我用下來,喜歡瞎扯一堆沒價值的東西。CodeRabbit 和 Codex 在這點都改進了,這點讓人很暖心。甚至其他不夠靠譜的工具,也可以調用 Codex 來提高審查質量。”
還有一個體驗非常好的亮點。
Codex 在代碼審查上表現得很強。它不只是看 diff,而是會跑代碼、執行測試、找關鍵 bug。實際效果比大部分 AI Code Review 工具靠譜,錯判少了三分之二,輸出的評論也更聚焦關鍵問題。
不過,Codex 也有很多問題:搜索功能非常拉胯,UI 體驗還不成熟,各種小 bug 讓人抓狂。
例如,在使用 Codex CLI 的代碼搜索工具時,表現 surprisingly 糟糕。比如環境變量管理、擴展里的交互邏輯、甚至默認用 npm 而不是你真正用的工具,都挺煩的。不過,這可以能通過優化系統提示詞更新來修復。(測評者并沒有要求的一些內容,Codex很莽很激進的去思考執行了!)
圖片
尤其在UI方面,Codex 經常會出現 GPT-5很少會出現的元素重疊、分層異常的問題。
圖片
圖片
此外,Codex 的云端測試效果也有些讓人失望。
它基本沒跑出什么結果。這就是我對它的感受——半殘廢狀態。雖然偶爾會顯示一些改動,但經常胡亂幻覺,比如把模型名字編造錯了——其實是 Fal/ Gemini 2.5 Flash Image / Edit,結果它給了完全假的名字。它根本沒去查網頁,就胡編。
說實話,云端這部分讓我很失望。我用過的那些后臺 agent 也都差不多,都沒啥好體驗。Codex 在一些基本操作上總是出問題,比如 rip grep 文件、找模型名字。我明明告訴它模型不存在,按理說它應該上網查,而不是去 node_modules 里瞎翻。
更糟的是通知系統。我拍完視頻后發現 Codex 在我手機上掛了一個半小時,說任務完成了,可以開 PR,但實際上啥也沒跑出來。
所以,Browne給出了這樣的結論:“整體上看,新模型它還不算一個成熟的產品,更像是和我們一起成長的實驗品。”
3.吐槽:Codex 名字的產品都有十個了!
吐槽 OpenAI 有一堆名字都叫 Codex 的產品(得有十來個吧),讓人一頭霧水。這次的新模型又往里面加了一層。
不過至少“GPT-5-Codex”這個名字(用了兩個連字符)足夠明確,不至于讓混亂更嚴重。
一位知開發者大牛Simon Willson認為,可以把 Codex 理解為 OpenAI 針對編程相關模型和工具的品牌名稱。
圖片
4.如何使用?
要嘗試這款新模型,需要確保先將 codex cli 更新至 v0.36.0:
`npm install -g @openai/codex@latest`然后使用以下命令運行 codex:
`codex -m gpt-5-codex -c model_reasoning_effort="high"`
npm install -g @openai/codex@latest
codex -m gpt-5-codex -c model_reasoning_effort="high"5.OpenAI的編程稱霸路并不平坦,零件有了,但拼在一起容易散架
從 GPT-5-Codex 的推出,可以看出,OpenAI 正在為編程智能體構建一個更成熟的產品矩陣:
- 工具鏈覆蓋 IDE、CLI、云端、移動端、GitHub
- 性能重點放在代碼審查、重構、移動端開發優化
- 核心創新在于動態思考能力,為長時任務打開了可能性
而這三點,也是今年夏天以來,奧特曼尋求重金收購 Cursor、Windsurf 未果后,給自家編程產品的三個改進信號。
在競爭白熱化的 AI 編程市場,OpenAI 悟了:市場不僅是需要更棒的模型性能,同樣更需要生態整合。GPT-5-Codex 可能就是他們的關鍵一子。
但問題就在于,這一次的整合遠沒有達到理想。
上述測評的開發者表示,Codex 生態的整體感覺就是:
零件都有了,但拼成完整拼圖時總是散架。缺乏整體的連貫性,這是個大問題。
GPT-5 本身還是我用過的最強的 Agentic 代碼模型,但 Codex 工具套件,尤其是 Web 界面和 VS Code 插件,顯得很笨拙。
相比之下,我寧愿在 GPT-5 上用其他第三方工具,比如 OpenCode、KiloCode 之類。Codex CLI 在進步,但這些進步沒傳遞到 Web 版本和編輯器擴展里。
參考鏈接:
??https://simonwillison.net/2025/Sep/15/gpt-5-codex/??
??https://www.youtube.com/watch?v=j9wvCrON3XA&t=253s??
本文轉載自??51CTO技術棧??,作者:云昭

















