DeepSeek-V3.1-Terminus:大模型“終極版本”
語言一致性提升68%,智能體性能躍升36.5%,這款“終極版本”模型標志著DeepSeek在V3架構上的完美收官。
圖片
2025年9月22日晚,DeepSeek正式推出DeepSeek-V3.1-Terminus模型,其中“Terminus”拉丁語意為“終點”,暗示這是V3.1系列的終極版本。此次更新聚焦于解決用戶反饋數月的關鍵問題,并在智能體能力上實現顯著突破。
圖片
相較于一個月前發布的V3.1基礎版本,Terminus版本在語言一致性和智能體性能上取得了質的飛躍。官方數據顯示,新模型將中英文混雜率降低68%,異常字符出現頻率下降73%,徹底解決了困擾用戶和開發者的核心痛點。
1. 技術缺陷修復:語言一致性問題的根本解決
DeepSeek-V3.1-Terminus成功解決了自2025年8月V3.1發布以來最嚴重的兩大技術問題。隨機字符輸出問題曾嚴重影響用戶體驗——此前模型會不受控地輸出“極”、“極”、“extreme”等字樣,尤其在Go語言編程、版本號管理等場景中出現概率極高。
圖片
有開發者曾在開源社區吐槽,“調試時滿屏都是‘極’字,仿佛在玩文字游戲?!?這一異常輸出導致代碼無法正常編譯,嚴重阻礙了在生產環境中的部署。
圖片
多語言混用是另一個突出表現。在翻譯少數語言時,模型會出現中英俄三語混雜現象,問題文本比例高達5%。有用戶反映,讓DeepSeek-V3.1分析紅樓夢的文學價值時,答案會突然插入“這個metaphor運用得極其精妙”這樣的英文片段,令人哭笑不得。
技術分析表明,DeepSeek通過改良tokenizer和優化訓練范式,動態對齊訓練技術,有效提升了語言一致性。實際測試顯示,新模型在處理小語種翻譯時已基本消除語言混雜問題,跨語言表達規范性顯著提升。
2.智能體能力突破:多項基準測試表現卓越
DeepSeek-V3.1-Terminus在智能體能力方面實現了跨越式突破。官方測試數據顯示,新模型在BrowseComp基準測試中從30.0分躍升至38.5分,在Terminal-bench測試中從31.3分提升至36.7分。
圖片
在需要多步推理的復雜搜索測試與多學科專家級難題測試上,DeepSeek-V3.1-Terminus性能已大幅領先前代模型。
編程智能體方面,新版本展現了對復雜概念的精確理解。在小球彈跳等物理模擬任務中,模型能夠準確理解重力、摩擦力等物理概念;在搜索智能體測試中,可精準識別并交叉驗證符合多重條件的信息。
Humanity's Last Exam(人類最后測試)結果尤為引人注目,DeepSeek-V3.1-Terminus在該測試中表現提升高達36.5%,超越Gemini 2.5 Pro模型躍居全球排行榜第三位。這一測試主要考察模型在多種極端困難任務上的整體表現,其排名的躍升印證了Terminus版本的綜合能力提升。
3.架構與性能:雙模式運行與上下文擴展
DeepSeek-V3.1-Terminus延續了V3.1系列的**混合推理架構**,一個模型同時支持思考模式與非思考模式。用戶可通過官方App、網頁端的“深度思考”按鈕或API實現模式切換。
非思考模式針對快速響應場景設計,輸出長度默認為4K tokens,最大可擴展至8K tokens;思考模式則針對復雜推理任務優化,輸出長度默認達32K tokens,最大支持64K tokens。這種雙模式設計讓用戶可根據具體需求靈活選擇,兼顧效率與深度。
模型上下文窗口從原有的64K擴展至128K,意味著它可以處理更長篇幅的文檔和代碼,并在回答中提供更多細節。技術架構上,Terminus版本采用671B參數規模,其中37B為活躍參數,并采用FP8微縮放技術實現高效推理。
值得注意的是,DeepSeek-V3.1系列使用了UE8M0 FP8 Scale的參數精度,這一技術是針對即將發布的下一代國產芯片設計的,體現了DeepSeek在硬件生態布局的前瞻性。
4.市場定位與商業策略:成本優勢與開源生態
DeepSeek-V3.1-Terminus延續了DeepSeek的成本優勢戰略。相較于OpenAI GPT-4每百萬token收費10美元(約港幣78元),DeepSeek維持1.68美元(約港幣13.1元)的定價策略。
圖片
API定價具體為:輸入費用根據緩存命中情況區分,命中緩存每百萬tokens僅需0.5元,未命中緩存為4元;輸出費用統一為每百萬tokens12元。這一定價結構特別有利于需要重復訪問相同知識庫的應用場景。
盡管DeepSeek官方流量有所下滑,但其市場影響力通過第三方平臺持續擴大。據估算,超過70%的DeepSeek模型調用量發生在騰訊、字節跳動、阿里、百度等第三方平臺。
Token消耗量數據顯示,DeepSeek系列7月31日單日總Token用量達到70.5B,較6月29日的54B增長接近31%。這表明盡管官網流量回落,但實際模型使用量仍在快速增長。
開源策略是DeepSeek的另一核心優勢。Terminus版本已在Hugging Face與ModelScope等平臺開源,支持商業場景定制化部署。這種開放策略促進了技術的廣泛采用,為DeepSeek構建了強大的生態系統護城河。
5.技術演進展望:V3系列收官之作與下一代模型布局
DeepSeek-V3.1-Terminus的命名已引發業界廣泛猜測。Terminus(終點)的命名暗示這可能是V3架構的最后一次重大更新,標志著該技術路線趨于成熟。
有業內人士指出,“雖然DeepSeek并未官宣這是V3系列的最后一次更新,但其名稱確實表明了這一點。預計下一版本的發布會是一個全新的架構,并會在Agent方面展示更多驚喜。”
多方消息顯示,DeepSeek正緊鑼密鼓開發具備更強大AI Agent能力的新模型,計劃于2025年第四季度推出。這也解釋了為何公司在一個月內連續發布兩個V3.1版本更新,旨在在下一代產品問世前,將現有架構潛力充分釋放。
從技術演進角度看,DeepSeek已明確將AI Agent作為戰略重心。此次Terminus版本對Code Agent和Search Agent的優化,為年底可能推出的Agent專用模型奠定了堅實基礎。
在全球大模型競爭格局中,DeepSeek憑借其開源策略和成本優勢,已在國際市場贏得一席之地。第三方機構數據顯示,DeepSeek模型以3.96%的市場份額在全球AI聊天機器人中綜合評分排名第五,年度訪問量達27.4億次。
隨著Terminus版本的發布,DeepSeek在V3架構上的技術探索已趨近圓滿。語言一致性問題的解決和智能體能力的大幅提升,為下一代模型奠定了堅實基礎。
業界普遍預測,DeepSeek的下一代模型將專注于AI Agent能力的進一步強化,可能在自動化決策、復雜任務處理等方面帶來突破。隨著大模型競爭進入下半場,DeepSeek以其獨特的開源策略和成本優勢,正在全球AI格局中構建不可替代的競爭力。

































