突襲GPT-5！Claude甩出百萬上下文王炸！開發(fā)者吵翻：超出LLM極限，貴還沒價值？谷歌大佬分享：用好上下文的四個編程技巧

作者：伊風(fēng) 2025-08-13 13:38:08

隨著 Sonnet 4 升級完成，它正式躋身?百萬 Token 窗口俱樂部——這個陣營中，除了它，還包括?Gemini 2.5 Pro / Flash、Qwen-Plus、Qwen-Flash?等在編程領(lǐng)域表現(xiàn)突出的選手。長上下文之戰(zhàn)，已經(jīng)開打。

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

深夜更新！Claude Sonnet 4 已經(jīng)支持百萬級上下文窗口了！

這次升級，將上下文從原本的 20 萬 Token 一口氣提升 5 倍——百萬上下文究竟有多大？相當(dāng)于一次性放進整套《哈利·波特》全集。

換算到開發(fā)場景，就是可以一次處理超過 75,000 行代碼的完整代碼庫，或幾十篇研究論文。

這次的更新毫不意外地被技術(shù)社區(qū)熱議。

圖片

目前，這一功能已在 Anthropic API 和 Amazon Bedrock 上已經(jīng)可用。更令人關(guān)注的是，部分 Claude Code Max 用戶已經(jīng)收到了郵件通知，預(yù)計新的上下文窗口上限正在灰度推廣中。

圖片

對比來看，OpenAI 最新發(fā)布的 GPT-5 API 支持 40 萬 Token 上下文，總體體驗雖有爭議，但其編程能力升級與超低價格，被不少人視作打向 Anthropic 腹地的一記重拳。

有網(wǎng)友調(diào)侃，正是 GPT-5 的出現(xiàn)逼出了這次更新，否則 Claude 可能還不會這么快動手。

圖片

隨著 Sonnet 4 升級完成，它正式躋身百萬 Token 窗口俱樂部——這個陣營中，除了它，還包括 Gemini 2.5 Pro / Flash、Qwen-Plus、Qwen-Flash 等在編程領(lǐng)域表現(xiàn)突出的選手。長上下文之戰(zhàn)，已經(jīng)開打。

為什么 Claude 要用“加長上下文”來迎戰(zhàn)？原因很直接——長上下文對編碼體驗的提升是立竿見影的。它讓開發(fā)者能在一次會話中處理更復(fù)雜、更龐大的任務(wù)，而百萬級已是當(dāng)前的關(guān)鍵門檻。

此前，谷歌 DeepMind 長上下文預(yù)訓(xùn)練聯(lián)合負責(zé)人Nikolay Savinov在播客中提醒：

在當(dāng)前百萬 token 上下文遠還沒有達到完美之前，盲目追求更大規(guī)模的長上下文意義不大。

接下來，我們就來拆解 Sonnet 4 的百萬上下文細節(jié)，與 Gemini 的長文本能力做對比，并分享如何在實際編碼中更高效地用好這一能力。

一、Claude Sonnet 4 百萬上下文詳解：更長了但也更貴了

根據(jù) Claude 技術(shù)報告，百萬級上下文主要解鎖了三大核心場景：

大規(guī)模代碼分析一次性加載完整代碼庫，包括源碼文件、測試和文檔。Claude 能理解整體項目架構(gòu)，識別跨文件依賴，并在改進建議中考慮到整個系統(tǒng)的設(shè)計。
文檔綜合分析可處理法律合同、研究論文、技術(shù)規(guī)范等大規(guī)模文檔集，在保持全局上下文的同時，分析數(shù)百份文檔間的關(guān)聯(lián)與邏輯。
具備上下文記憶的智能體構(gòu)建能在數(shù)百次工具調(diào)用和多步驟工作流中保持連貫性的智能體，可一次性加載完整 API 文檔、工具定義和交互歷史，不丟失上下文。

然而，這個“長度飛躍”帶來了價格的同步攀升。對于超過 20 萬 Token 的請求，輸入費用翻倍至 $6 / 百萬 Token，輸出費用更是達到 $22.5 / 百萬 Token。

圖片

不少網(wǎng)友表示，本來看到百萬上下文很激動，但一看價格立刻冷靜下來：

“這一下操作得花我們 51 美元。”
“AI幻覺一次，我一個月工資沒了。”

圖片

至于是否值得為如此高昂的上下文窗口買單，社區(qū)爭議依然很大——即使給了更大的窗口，也未必真的能發(fā)揮出真正的價值。

二、爭議：百萬token已經(jīng)超出模型注意力極限

盡管百萬級上下文聽起來令人興奮，但開發(fā)者在實際應(yīng)用中或許會感到“貨不對板”——隨著會話長度和上下文規(guī)模的增長，模型常常難以保持連貫性。

有工程師指出，在自己的實際工作體驗中：

看到一個新模型比上一個好一點并不有趣，價格才是王炸。除非能有評估數(shù)據(jù)證明 Sonnet 在百萬級上下文下依然能穩(wěn)定保持上下文質(zhì)量，否則“加長”未必意味著“更好”。

圖片

在 Reddit 上，也有不少用戶表達了類似觀點：

有報告稱，當(dāng)上下文長度超過 30K Token 時，部分 LLM 的表現(xiàn)就會急劇下降，甚至直接“崩潰”。

圖片

這種現(xiàn)象反映出一個核心矛盾：上下文窗口的物理長度并不等于模型的有效注意力范圍。在真實的長文本或大代碼庫場景中，超過一定規(guī)模后，模型很可能無法在全局范圍內(nèi)平均分配注意力，從而導(dǎo)致性能下降。

模型生成的代碼可能會變得雜亂、邏輯跳脫，或者開始遺漏關(guān)鍵信息。

因此，Claude Sonnet 4 的百萬 Token 升級，雖然在技術(shù)規(guī)格上進入了“超長賽道”，但真實能力仍需要實測驗證。

三、Sonnet 4 實測：處理百萬代碼庫，與Gemini 2.5 Pro孰強孰弱？

外媒 Every 的 CEO Dan Shipper 提前獲得了 Sonnet 4 百萬上下文的測試權(quán)限，并用自家內(nèi)容管理系統(tǒng)（CMS）的代碼庫進行了實測。

測試方法很直接——他們將完整的 CMS 代碼庫（約 25 萬 Token 的 Ruby on Rails 代碼）配上 70 萬 Token 的填充代碼，總計湊滿 100 萬 Token，然后拋出 5 個問題：

訂閱系統(tǒng)如何運作？
數(shù)據(jù)庫中有哪些關(guān)系？
用戶取消訂閱時會運行哪些后臺任務(wù)？
CMS 使用什么支付處理器？
找到 FooBar 類并解釋其作用（陷阱題——實際并不存在）

平均得分（0-100）與耗時：

Claude Sonnet 4：74.6 分 / 36 秒
Gemini 2.5 Pro：89.7 分 / 39 秒
Gemini 2.5 Flash：91.7 分 / 39 秒

從結(jié)果來看，Claude 在速度和穩(wěn)定性（少幻覺）方面有優(yōu)勢，但在代碼分析的細節(jié)完整度上不如 Gemini。尤其是遇到復(fù)雜邏輯時，Gemini 給出的答案覆蓋面更廣，得分也明顯更高。

價格對比（輸入 Token 每百萬計）

Claude（> 200K Token）：$6
Gemini Pro：$2.50
Gemini Flash：$0.30

綜合性能與價格來看，Claude Sonnet 4 的絕對表現(xiàn)不差，但性價比相較 Gemini 仍稍顯遜色。

不過，這個實測也在一定程度上回擊了上文的質(zhì)疑：Claude Sonnet 4 和 Gemini 2.5 系列（Pro、Flash）在技術(shù)上都能穩(wěn)定加載并處理百萬 Token 級別的輸入，并且在完整運行過程中沒有因為上下文過大而直接崩潰。

遺憾的是，測試結(jié)果里并沒有展示具體題目的完整應(yīng)答，而且這些題目與真實生產(chǎn)環(huán)境仍有一定距離。

四、開發(fā)者如何用好長上下文能力？

在百萬級上下文的探索上，Gemini 是較早投入并積累經(jīng)驗的大模型。

在找資料的過程中，小編發(fā)現(xiàn)了大神 Logan 與 DeepMind 上下文預(yù)訓(xùn)練負責(zé)人 Nikolay Savinov 的一次深度對談，主題正是——“深入解析長上下文”。

對話從最硬核的技術(shù)視角，解答了開發(fā)者在真實使用中最關(guān)心的問題。

比如，在實際交互中，問題到底應(yīng)該放在上下文的前面，還是后面？

圖片

播客地址：

https://www.youtube.com/watch?v=NHMJ9mqKeMQ

答案是：放在后面。

Savinov 解釋說，如果想利用緩存降低成本，就必須把問題放在末尾；如果放在開頭，每次請求都會導(dǎo)致緩存失效，模型必須從頭處理，既慢又貴。

除了這個“位置問題”，Savinov 還給出了四條核心建議：

1.充分利用上下文緩存（Context Caching）

首次加載長上下文成本高，但在相同上下文基礎(chǔ)上進行的后續(xù)提問可直接命中緩存，處理速度更快、成本可降至原來的約四分之一。
如果知識需要更新，應(yīng)將新增內(nèi)容追加到末尾，底層會匹配最長公共前綴，只處理新增部分。

2.結(jié)合 RAG（檢索增強生成）

當(dāng)上下文達到數(shù)十億 token 時，RAG 是唯一可行方案。
即使規(guī)模較小，在需要跨多個關(guān)鍵信息檢索的任務(wù)中，RAG 也能提升準(zhǔn)確率。

3.精選上下文內(nèi)容

不要將長上下文當(dāng)作“數(shù)據(jù)垃圾桶”。無關(guān)或干擾信息會與目標(biāo)信息爭奪模型的注意力，尤其在多關(guān)鍵信息檢索任務(wù)中，反而降低性能。

4.消除“權(quán)重內(nèi)”與“上下文內(nèi)”記憶沖突

模型會同時依賴權(quán)重中的固有知識與上下文中的新信息，兩者可能產(chǎn)生矛盾。解決方法是在提示中明確信息來源，例如加上“基于以上提供的信息……”，讓模型優(yōu)先依賴上下文知識。

最后，Savinov 也談到了長上下文的發(fā)展趨勢：

在百萬級 Token 模型的質(zhì)量尚未完善前，盲目追求更大規(guī)模的上下文意義有限。
隨著成本下降，千萬級 Token 上下文將很快成為標(biāo)準(zhǔn)配置，對編碼等場景將是革命性突破。

五、寫在最后

如今，模型的注意力瓶頸已經(jīng)追不上上下文長度的擴張速度。

因此，即便上下文窗口不斷變大，“上下文工程”在短期內(nèi)依然是必不可少的技能。

展望未來，如果 Savinov 預(yù)測的千萬級 Token 真成了標(biāo)配，長上下文或?qū)⒁l(fā)開發(fā)模式的質(zhì)變：

模型可以真正“端到端”地接管整個代碼庫，從持續(xù)開發(fā)到重構(gòu)、調(diào)試全包攬，甚至變成團隊的“常駐虛擬工程師”。

不過，長上下文只是 AI 編碼能力躍升的一個維度。

模型架構(gòu)、推理鏈設(shè)計、工具集成、上下文管理等，都會共同決定最終體驗。

問題來了——

你愿意重金嘗試， Claude 的超長上下文嗎？

參考鏈接：

1.https://news.ycombinator.com/item?id=44878147

2.https://www.anthropic.com/news/1m-context

3.https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧