推理鏈縮短60%!新一代混合推理模型如何超越DeepSeek R1?
Deep cogito發(fā)布了4個(gè)混合推理模型,參數(shù)規(guī)模分別為70B、109B MoE、405B、671B MoE,均采用開源許可證。

這些模型是世界上最強(qiáng)大的大語(yǔ)言模型之一,并作為一種全新AI范式的概念驗(yàn)證——迭代自我改進(jìn)(AI系統(tǒng)自我提升)。
其中最大的671B MoE模型位列全球最強(qiáng)開源模型之列。它在性能上匹配甚至超越了最新的DeepSeek v3和DeepSeek R1模型,并接近o3和Claude 4 Opus等閉源前沿模型的水平。
這些模型基于在使用迭代蒸餾與放大(IDA)構(gòu)建超級(jí)智能方面的研究成果。具體而言,我們通過(guò)讓模型內(nèi)化推理過(guò)程并進(jìn)行迭代策略改進(jìn)來(lái)擴(kuò)展模型的智能先驗(yàn),而不是簡(jiǎn)單地在推理時(shí)進(jìn)行更長(zhǎng)時(shí)間的搜索。
這與AlphaGo/AlphaZero的方法相似,只是應(yīng)用到了自然語(yǔ)言領(lǐng)域。
這似乎是一種全新的擴(kuò)展范式,模型能夠發(fā)展出更強(qiáng)的”直覺”,并為自我改進(jìn)提供了有力的概念驗(yàn)證。由于Cogito模型在推理時(shí)搜索過(guò)程中形成了更好的軌跡直覺,其推理鏈比Deepseek R1短了60%。
自我改進(jìn)方法從目前的實(shí)驗(yàn)來(lái)看,這種技術(shù)比單純通過(guò)延長(zhǎng)推理鏈來(lái)”增加搜索”要高效得多。
Blog:https://www.deepcogito.com/research/cogito-v2-preview


? ?
本文轉(zhuǎn)載自?????????AI帝國(guó)?????????,作者:無(wú)影寺

















