「開發(fā)者私下更喜歡用GPT-5寫代碼」,Claude還坐得穩(wěn)編程王座嗎?
一直以來,Anthropic 的 Claude 被認為是處理編程任務(wù)的最佳模型,尤其是本月初發(fā)布的 Claude Opus 4.1,在真實世界編程、智能體以及推理任務(wù)上表現(xiàn)出色。其中在軟件編程權(quán)威基準 SWE-bench Verified 測試中,Claude Opus 4.1 相較于前代 Opus 4 又有提升,尤其在多文件代碼重構(gòu)方面表現(xiàn)出顯著進步。

不過,在剛剛過去的這個周末,Claude 最強編程模型的地位似乎開始動搖了。OpenAI 同樣本月發(fā)布的 GPT-5 在編程賽道獲得了越來越多人的青睞與使用。
有人發(fā)帖稱,他基本已經(jīng)完全不用 Claude Opus 了?,F(xiàn)在同時開著幾個 Codex 標簽頁,讓 GPT-5-high 分別在三個代碼庫(HVM、Bend、Kolmo)上處理不同的任務(wù)。AI 編程進展從未如此迅速。他的工作基本上就是將定義清晰的任務(wù)交給 Codex,然后審查代碼輸出。
他還特意強調(diào),這不是 OpenAI 打的廣告。他只是覺得這個模型真的非常強大,而人們沒有看到這一點。大多數(shù)人還只是將聊天機器人當作「女友」或其他用途,而不是用來協(xié)助完成復(fù)雜的編程任務(wù)。

不過,他也表示自己依然熱愛 Anthropic,并在 VIM 編輯器中使用 Opus 進行代碼補全,速度要比 GPT-5-high 快得多。

另一位推特博主、CoreView 聯(lián)合創(chuàng)始人兼 CTO Ivan Fioravanti 也表示,他現(xiàn)在主要用 Claude Code,但 Codex-CLI 搭配 GPT-5 reasoning high 逐漸獲得了他的更多信任。至于谷歌的 Gemini CLI,他都沒開始深入研究。

不僅如此,他在需要直接執(zhí)行的任務(wù)中同樣在用 GPT-5 reasoning。

一位全棧產(chǎn)品開發(fā)者表示,「GPT-5-high 是目前為止他用過的最好的編程模型?!?/span>
該模型在指令遵循方面表現(xiàn)出色,可以放手讓它處理更復(fù)雜的任務(wù)。此外,它在大規(guī)模重構(gòu)任務(wù)中尤其給力,只要下指令「把這個改得更像那個」,它就能處理得很好。

粉絲近 20 萬的推特大 V、e/acc 思潮創(chuàng)始人表示,根據(jù)他在舊金山聽到的一些「小道消息」,現(xiàn)在很多人私下里其實更喜歡用 GPT-5 來寫代碼,這和流行的「Claude 更擅長編程」的敘事恰恰相反。

看到自家模型受到了越來越多人的喜愛,OpenAI 聯(lián)合創(chuàng)始人兼總裁 Greg Brockman「坐不住」了,發(fā)推自夸道「用 GPT-5 寫代碼感覺太棒了」。

更多的人并認可了 GPT-5 的強大編程能力。

從這些人的反饋來看,GPT-5 編程能力更強似乎已經(jīng)成為了一個不爭的事實。與此同時,reddit 社區(qū)今天有一個帖子提到,「GPT-5 的幻覺率和通用實用性顯著優(yōu)于 Claude。」

帖子的主角是一位軟件工程師,主要使用大語言模型來做編程、架構(gòu)等工作。他開始注意到,Claude 在很大程度上其實是個「偏科型選手」(one-trick pony)。該系列模型只在寫代碼時表現(xiàn)出色,但一旦超出這個領(lǐng)域,幻覺率就高得離譜,結(jié)果也很差。
不過,他還是要給 Claude 加一分,它在寫作上的「溫度感」更強一些,尤其把它當成學(xué)習(xí)伙伴時。而 GPT-5 作為學(xué)習(xí)伙伴時,經(jīng)常會把答案偽裝成一個追問。相比之下,Claude 則保持了一種更嚴格的學(xué)習(xí)伙伴風(fēng)格,它會引導(dǎo)你逐步接近答案,而不是直接把答案給你。
然而,GPT-5 的幻覺現(xiàn)象較少,搜索功能也相當不錯。他舉例稱自己之前在找一款帶有非常具體尺寸、顏色等要求的收納抽屜。GPT-5 思考了大約 2.5 分鐘,并進行了多次搜索,最后給了他一個幾乎完全匹配的結(jié)果。而在那之前,他自己在 Amazon、Walmart、Target、Wayfair 等網(wǎng)站上搜了兩個小時都沒找到。最后他直接下單買了 GPT-5 推薦的那款。當他把完全相同的查詢交給 Claude Opus 4.1 時,它不僅給出的尺寸選項比他要求的小得多,還找了一堆借口。
與此同時,在健康醫(yī)療類的問題上,Claude 的幻覺非常嚴重,這很危險。它經(jīng)常把一些內(nèi)容當作事實來說,但這些內(nèi)容恰恰與醫(yī)學(xué)界公認的結(jié)論完全相反。相比之下,GPT-5 的幻覺率要低得多。
也許正如最后這樣網(wǎng)友所言,一開始并不信任 GPT-5,但用過之后發(fā)現(xiàn):它在各個領(lǐng)域的表現(xiàn)確實都不錯。

已經(jīng)用上 GPT-5 一段時間的小伙伴們,你們現(xiàn)在的感覺怎么樣呢?歡迎評論區(qū)探討。

































