實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架原創

51CTO技術棧

發布于 2025-9-16 13:42

瀏覽

0收藏

編輯 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

今天凌晨 1 點，OpenAI 又搞了一件讓開發者大呼過癮的產品！

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

嚴格地說，這次的發布是一款新模型，而且是“半發布”：GPT-5-Codex。這是一個在 GPT-5 基礎上專門微調的版本，明確面向 OpenAI 的各種 AI 編程輔助工具。

之所以說是“半發布”，是因為它目前還不能通過 API 使用，但 OpenAI 表示“計劃很快在 API 中開放 GPT-5-Codex”。

這款變體新模型的最大特點，就是可以動態分配“思考時間” —— 從幾秒鐘到七個小時不等，根據任務復雜度靈活調整。這讓它在 agentic 編程基準測試 和 代碼重構評測中表現大幅提升。

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

雖然沒有提供API，但最酷的是：

這個模型和我們平時用的工具綁定得非常深，比如 Codex CLI、Codex Web 界面，還有 Codex 擴展。OpenAI 這一點真的幫開發者省了不少事。

據官網介紹，GPT-5-Codex 已經集成到多個 OpenAI 的編程工具中：

VS Code 插件
Codex CLI
Codex Cloud（異步編程代理，可通過 iPhone App 使用）
GitHub 集成
ChatGPT 產品（Plus、Pro、Business、Edu、Enterprise 用戶可用）

此外，Codex Cloud 還增加了一個新功能：你可以把它配置成自動對特定 GitHub 倉庫運行代碼審查（可以在??chatgpt.com/codex/settings/code-review?? 中找到這個選項），系統會為這些審查創建一個臨時容器。官方文檔里有詳細說明。

ps：官方文檔的鏈接，小編也為大家扒下來了：

??https://developers.openai.com/codex/cloud/code-review??

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

1.先來看，OpenAI都做了哪些工作？

那么，這次，GPT-5-Codex 具體哪些方面提升了呢？小編概括了以下6點OpenAI 做出的改進方向。

首先，OpenAI 團隊專門針對代碼審查進行了訓練，這正好支撐了他們的新功能。

其次，“GPT-5-Codex 會根據任務復雜度，更動態地調整思考時間。” 簡單任務（如“列出當前目錄文件”）運行更快，而大型復雜任務可能會運行很久 —— OpenAI 表示在某些情況下 Codex 會持續工作 七個小時。

第三，在其專有的“代碼重構評測”中，分數從 GPT-5 的 33.9% 提升到 GPT-5-Codex 的 51.3%。雖然沒有完整評測細節很難完全理解，但至少能說明他們特別關注重構能力。

其四，“GPT-5-Codex 在創建移動網站時，在人類偏好評測中有顯著提升。” 比如，之前大家一般總習慣在提示中強調：“一定要移動端友好”，現在可能不用再額外強調了。

其五，“我們發現 GPT-5-Codex 的評論更少出現錯誤或無關緊要的情況。” （減少代碼中無用的評論，這確實是進步。）

第六，還有一個非常 Nice 的地方值得各位細讀，即，Codex CLI 中 GPT-5-Codex 的系統提示詞，它比其他模型的提示詞明顯更短。

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

有手快的網友已經做了 diff 對比。

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

省流版地總結一下重點：

動態思考：不再像路由器那樣一開始就固定算力和時間，而是能在運行過程中動態決定是否需要更多時間。
代碼重構：在專有評測中，GPT-5 從 33.9% 提升到 GPT-5-Codex 的 51.3%。
移動網站優化：在人類偏好評測中有顯著提升，移動端開發體驗更好。
評論質量：評論更少出錯或無關緊要，減少無效信息干擾。

2.實測亮點和坑點

那么，實測效果如何呢？一位開發者已經放出了自己的測評視頻，香是真的香。

網友 Theo Browne 在評測視頻中表示，整體印象不錯。尤其是解決了GPT-5自發布以來飽受用戶詬病的“Token很快耗完”的問題。

“你們知道我對 GPT-5 最大的抱怨之一，就是它在開發任務上又慢又費 Token。而 Codex 的優化方向之一，正是這個痛點。”

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

舉個例子：任務復雜度不同，消耗的 Token 數差別巨大。

簡單的比如“數到 10”，可能只需要 10 個 Token；
但要是你讓它寫 15 種語言的代碼，或者數單詞里有多少個字母 R，那就是另一回事了。
對于代碼任務，這個跨度更夸張，從 100 個 Token 到上百萬都有可能。我自己隨便玩都跑到 62.8 萬 Token，用著用著還多次突破 100 萬。

所以， Codex 的思路是：小任務用小 Token，大任務才用大 Token。這點特別重要。

OpenAI 內部員工數據也證明了這一點：在最簡單的 10% 任務里，Codex 比 GPT-5 少用了 93.7% 的 Token，幾乎縮小了 20 倍。但在最復雜的 10% 任務里，Codex 反而用得更多，推理、編輯、測試都花更多時間。這就是它的靈活性。

第二個亮點，它是專門訓練來做代碼審查和發現關鍵漏洞的。

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

審查時，它會在你的代碼庫里導航，推理依賴關系，還會實際運行代碼和測試，來驗證正確性。

這位嘗鮮測試的網友還透露，他在和 OpenAI 員工聊天時，對方反復強調這一點：

GPT5-Codex 可不是簡單的對比代碼差異，而是會在云端的容器里跑你的代碼、測試它、找 bug。

據爆料，OpenAI 內部還用了實際的開源項目做了測試。每個提交都由有經驗的軟件工程師來評估 Codex 的審查意見是否正確和有用。結果發現，GPT-5 Codex 的評論更少出錯或沒意義，能讓用戶把注意力集中在關鍵問題上。

Browne 表示，“大部分 AI 代碼審查工具我用下來，喜歡瞎扯一堆沒價值的東西。CodeRabbit 和 Codex 在這點都改進了，這點讓人很暖心。甚至其他不夠靠譜的工具，也可以調用 Codex 來提高審查質量。”

還有一個體驗非常好的亮點。

Codex 在代碼審查上表現得很強。它不只是看 diff，而是會跑代碼、執行測試、找關鍵 bug。實際效果比大部分 AI Code Review 工具靠譜，錯判少了三分之二，輸出的評論也更聚焦關鍵問題。

不過，Codex 也有很多問題：搜索功能非常拉胯，UI 體驗還不成熟，各種小 bug 讓人抓狂。

例如，在使用 Codex CLI 的代碼搜索工具時，表現 surprisingly 糟糕。比如環境變量管理、擴展里的交互邏輯、甚至默認用 npm 而不是你真正用的工具，都挺煩的。不過，這可以能通過優化系統提示詞更新來修復。（測評者并沒有要求的一些內容，Codex很莽很激進的去思考執行了！）

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

尤其在UI方面，Codex 經常會出現 GPT-5很少會出現的元素重疊、分層異常的問題。

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

此外，Codex 的云端測試效果也有些讓人失望。

它基本沒跑出什么結果。這就是我對它的感受——半殘廢狀態。雖然偶爾會顯示一些改動，但經常胡亂幻覺，比如把模型名字編造錯了——其實是 Fal/ Gemini 2.5 Flash Image / Edit，結果它給了完全假的名字。它根本沒去查網頁，就胡編。
說實話，云端這部分讓我很失望。我用過的那些后臺 agent 也都差不多，都沒啥好體驗。Codex 在一些基本操作上總是出問題，比如 rip grep 文件、找模型名字。我明明告訴它模型不存在，按理說它應該上網查，而不是去 node_modules 里瞎翻。

更糟的是通知系統。我拍完視頻后發現 Codex 在我手機上掛了一個半小時，說任務完成了，可以開 PR，但實際上啥也沒跑出來。

所以，Browne給出了這樣的結論：“整體上看，新模型它還不算一個成熟的產品，更像是和我們一起成長的實驗品。”

3.吐槽：Codex 名字的產品都有十個了！

吐槽 OpenAI 有一堆名字都叫 Codex 的產品（得有十來個吧），讓人一頭霧水。這次的新模型又往里面加了一層。

不過至少“GPT-5-Codex”這個名字（用了兩個連字符）足夠明確，不至于讓混亂更嚴重。

一位知開發者大牛Simon Willson認為，可以把 Codex 理解為 OpenAI 針對編程相關模型和工具的品牌名稱。

實測OpenAI最新模型！亮點真的爽，坑點兩行淚！解決GPT5頑疾！犀利吐槽：半發布的實驗品，拼一塊兒就散架-AI.x社區圖片

4.如何使用？

要嘗試這款新模型，需要確保先將 codex cli 更新至 v0.36.0：

`npm install -g @openai/codex@latest`

然后使用以下命令運行 codex：

`codex -m gpt-5-codex -c model_reasoning_effort="high"`

npm install -g @openai/codex@latest
  codex -m gpt-5-codex -c model_reasoning_effort="high"

5.OpenAI的編程稱霸路并不平坦，零件有了，但拼在一起容易散架

從 GPT-5-Codex 的推出，可以看出，OpenAI 正在為編程智能體構建一個更成熟的產品矩陣：

工具鏈覆蓋 IDE、CLI、云端、移動端、GitHub
性能重點放在代碼審查、重構、移動端開發優化
核心創新在于動態思考能力，為長時任務打開了可能性

而這三點，也是今年夏天以來，奧特曼尋求重金收購 Cursor、Windsurf 未果后，給自家編程產品的三個改進信號。

在競爭白熱化的 AI 編程市場，OpenAI 悟了：市場不僅是需要更棒的模型性能，同樣更需要生態整合。GPT-5-Codex 可能就是他們的關鍵一子。

但問題就在于，這一次的整合遠沒有達到理想。

上述測評的開發者表示，Codex 生態的整體感覺就是：

零件都有了，但拼成完整拼圖時總是散架。缺乏整體的連貫性，這是個大問題。

GPT-5 本身還是我用過的最強的 Agentic 代碼模型，但 Codex 工具套件，尤其是 Web 界面和 VS Code 插件，顯得很笨拙。
相比之下，我寧愿在 GPT-5 上用其他第三方工具，比如 OpenCode、KiloCode 之類。Codex CLI 在進步，但這些進步沒傳遞到 Web 版本和編輯器擴展里。