最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細(xì)節(jié)
也許是最近開源模型太多(Qwen3、K2、Step3、GLM4.5等等),也許是大家等R2時(shí)間太久,DeepSeek 開源V3.1模型,竟然能被狂噴,這點(diǎn)我是沒有想到的。

如果說是APP、客戶端,那沒辦法,畢竟DS的顯卡資源有限,我反正能理解。
API的話,就真不至于,因?yàn)镈eepSeek-V3.1模型本身就開源,完全可以自己部署之前版本,或者用火山引擎、阿里百煉、硅基流動(dòng)等等等云模型廠商的老版本API。
然后從昨晚到今天,也是看了不少帖子,褒貶不一。
跟不少人交流了一下使用體驗(yàn),還是那句話,不同人在不同任務(wù)下,體感很不同。
我昨天反正第一時(shí)間做了???評(píng)測(cè)??,在我的任務(wù)上沒有什么提高,
但是好友袋鼠帝在Tool Use上體驗(yàn)是變好的,比V3穩(wěn)定很多。
看了牙醫(yī)、崔思莫的評(píng)測(cè),說Coder上好了不少。
我覺得雖然V3.1沒達(dá)到我們的預(yù)期,但我們還是要對(duì)神保持敬仰,畢竟也沒說是R2、V3.5,只是升了0.1個(gè)版本。
反正我覺得核心還是現(xiàn)在開源大模型很多,Qwen3-2507、GLM4.5、K2、Step3等等,大家已經(jīng)變得比較挑剔了,我們已經(jīng)不是2024年的我們了。
我們這兩個(gè)月吃的太好。
當(dāng)然還有就是我們對(duì)DeepSeek的期望太高了,也是等R2等的比較久了~
說回V3.1本身,Base模型已經(jīng)開源,但是Model Card還沒寫,不過通過Config文件和從測(cè)試,可以發(fā)現(xiàn)一些內(nèi)容,分享給大家~
??https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base??
模型是混合推理模型,這個(gè)應(yīng)該是肯定得了,跟昨天模型還沒開源時(shí),猜測(cè)一致。相當(dāng)于把v3和r1合到了一起,跟初代Qwen3是一樣的。

但是,我比較好奇,DS在訓(xùn)練混合模型的時(shí)候是否有一些技巧,通過Qwen3-2507將推理和非推理分開來看,混合推理還是存在一些問題的。
但直覺中,混合推理的模型,應(yīng)該是非推理效果會(huì)好,推理會(huì)差一點(diǎn),有趨中情況,但是我也沒想通為啥Qwen3的非推理單獨(dú)訓(xùn)練上限更好,猜測(cè)是因?yàn)榛旌嫌?xùn)練不充分。
所以這里就比較好奇DS在這個(gè)部分有什么奇技淫巧。
除了混合推理之外,V3.1的special token還多了search標(biāo)記。

我理解,加入search標(biāo)記,應(yīng)該是讓模型在聯(lián)網(wǎng)搜索時(shí),不是一次性檢索,而是可以邊思考邊檢索,就是豆包的變向邊搜一樣。
在生成的內(nèi)容的過程中,會(huì)觸發(fā)搜索機(jī)制,從外部獲取更多的信息,以便于更好地回答。
不過,目前在客戶端,并沒有體現(xiàn),聯(lián)網(wǎng)搜索,依然是一次性搜索,不知道是不是還在適配,還是說后面會(huì)推出新的功能。

不過,前段時(shí)間,DS在招搜索工程師,應(yīng)該是要發(fā)力DeepResearch這一塊,不過暫時(shí)在整個(gè)產(chǎn)品上還沒有體現(xiàn)。
除了search標(biāo)記,tool use部分也做了更新,變得更加簡潔,<|tool call begin|> + 函數(shù)名 + <|tool sep|> + 參數(shù)字符串 + <|tool call end|>,參數(shù)直接作為字符串傳遞。
所以在tool部分,v3.1應(yīng)該也是專門訓(xùn)練過,不過具體如何還需要自行測(cè)試,袋鼠帝說調(diào)用更穩(wěn)定~

通過測(cè)試還發(fā)現(xiàn)一點(diǎn),也是我昨天帖子里提到的,think里的內(nèi)容,中英混雜會(huì)很多,之前R1只有在數(shù)學(xué)、代碼會(huì)出現(xiàn)中英混雜現(xiàn)象,而現(xiàn)在正常文本推理中也會(huì)出現(xiàn)。
找到一篇相關(guān)paper,The Impact of Language Mixing on Bilingual LLM Reasoning,結(jié)論是語言混雜可以增強(qiáng)推理能力。
但我覺得,感覺中英混雜可能也跟V3.1訓(xùn)練不充分有關(guān),當(dāng)然純YY,這個(gè)問題后面有機(jī)會(huì),再好好聊聊。

我前面說了,從直覺上,混合推理的模型,推理會(huì)差一點(diǎn),V3.1體現(xiàn)在think內(nèi)容相較于R1變短,如果按照test-time scaling來說,那整體效果變差似乎也是合理的。
當(dāng)然,大部分人在說V3.1提升主要是Code,當(dāng)然我之前測(cè)試的兩個(gè)例子R1和V3.1效果都不好,
但是在aider上,71.6%超過R1的71.4%,同時(shí)還是非推理模型第一,費(fèi)用更低。

并且很多人表示,V3.1過了他們的一些測(cè)試。符合他們的預(yù)期,也是在code上更好提高一些,
畢竟K2、Qwen3-coder現(xiàn)在代碼能力提高的不是一星半點(diǎn),但等一波橫測(cè)~
不可否認(rèn),改成V3.1這種混合模型,就不需要分開部署兩個(gè)模型,成本就會(huì)降低,同時(shí)現(xiàn)在V3.1也更穩(wěn)定。
我們不能忽略在系統(tǒng)層面的優(yōu)化。
最后我想說,V3.1,僅提高0.1個(gè)版本,也是DS的一次嘗試,嘗試混合推理、嘗試一些其他的小改進(jìn)。
很多人說也許沒有R2了,但我覺得不好說,畢竟Qwen3新版本還是拆開的,那么就有一定的實(shí)驗(yàn)結(jié)論,起碼暫時(shí)可能混合推理沒法達(dá)到分開效果的極限。
當(dāng)然如果DS有黑科技另說,但我更傾向會(huì)分開。
就說這么多吧,這篇是有感而發(fā),再加上看到資料的一些匯總。
本文轉(zhuǎn)載自??NLP工作站??,作者:NLP工作站

















