剛剛,DeepSeek-V3.1「終極版」重磅發布!最大提升超36%,V4/R2還遠嗎?
DeepSeek-V3.1-Terminus來了!
圖片
DeepSeek API文檔、官方微信均已正式確認本次更新:
此次更新在保持模型原有能力的基礎上,針對用戶反饋的問題進行了改進,包括:
- 語言一致性:緩解了中英文混雜、偶發異常字符等情況;
- Agent能力:進一步優化了Code Agent與Search Agent的表現。
圖片
目前,官方App、網頁端、小程序與DeepSeek API模型均已同步更新為DeepSeek-V3.1-Terminus。
開源版本下載地址如下:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
多項測評勝過Gemini 2.5 Pro
在推理能力和智能體工具使用上,本次更新在多個基準上得到提升。
DeepSeek上次更新為8月21日,短短一個月,取得這一成績來之不易,可喜可賀。
圖片
值得一提的是,新模型在Humanity's Last Exam(人類最后的考試)中,成績提升幅度高達36.48%!
告別「極你太美」
之前,有網友發現:DeepSeek V3.1輸出中隨機帶有「極」字。網友稱:
這一Bug已經導致DeepSeek V3.1無法從事編程或對輸出結構敏感的相關工作。希望官方早日修復。
圖片
這次更新明確已解決「偶發異常字符等情況」,結合「Code Agent優化」,希望這次更新能完美解決DeepSeek無法從事編程或對輸出結構敏感的相關工作的Bug。
至于中英文混雜,是LLM的老毛病了,比如OpenAI o3-mini等模型被曝使用中文推理。
OpenAI o3-mini被曝大量使用中文推理!全世界AI都要學中國話了?
在DeepSeek-R1的Nature論文中,DeepSeek坦言:
語言混雜(language-mixing)問題,留待未來更新解決。
圖片
這次DeepSeek更新解決了中英文混雜問題。
我們也對之前在網上流傳最廣的會觸發「極你太美」Bug的Prompt進行了測試:
圖片
之前,time.Second會被DeepSeek-V3.1在輸出中破壞成time.Se極 / time.Se極 / time.Seextreme。
現在,新模型給出了5種定時器實現方法,多處都使用了time.Second。
我們經過多次嘗試,均未能復現出該Bug,說明Bug確實可能已經被修復了。
圖片
圖片
圖片
圖片
圖片
圖片
此外,非Agent(Thinking模式)測評中,多項基準測試成績得到提升:MMLU-Pro、GPQA-Diamond、Humanity's Last Exam。
同時,Agent相關測評也來了。
圖片
圖源:https://x.com/karminski3/status/1970129020382826758
Agent能力超過Gemini
與DeepSeek-V3.1相比,新模型在工具使用與Agent任務中的表現有較大提升:
- BrowseComp:30.0 -> 38.5
- SimpleQA:93.4 -> 96.8
- SWE-bench Verified: 66.0 -> 68.4
- SWE-bench Multilingual: 54.5 -> 57.8
- Terminal-bench: 31.3 -> 36.7
DeepSeek上次更新發布了DeepSeek-V3.1,稱之為「邁向Agent時代第一步」。
短短一個月,Agent能力再次得到提升,年底的高級Agent還會遠嗎?
DeepSeek大招曝光?梁文鋒督戰超級智能體:能自主學習,或年底發布
奇怪的是,并非全部基準測試成績都得到提升,Codeforces、Aider-Polyglot、BrowseComp-zh測評成績有小幅下降。
不過,新模型DeepSeek-V3.1-Terminus總體上進步明顯,特別是在Humanity's Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified評測中,勝過了Gemini 2.5 Pro,補齊了Humanity's Last Exam這塊最大的短板。
圖片
DeepSeek-V4/R2還遠嗎?
Terminus這個單詞的中文意思是:終點。
圖片
DeepSeek這波更新理所應當地引起了網友的關注。網友在線催更:
DeepSeek-V4什么時候要來?
DeepSeek-R2什么時候要來?
圖片
圖片
期待DeepSeek-V4和DeepSeek-R2給我們帶來更大的震撼!
參考資料:
https://x.com/deepseek_ai/status/1970117808035074215
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus






























