MiroMind-M1:如何用CAMPO算法打造高效且可復(fù)現(xiàn)的全棧開源推理模型

大家好,我是肆〇柒。今天為大家介紹MiroMind-M1,這是一個(gè)開源的數(shù)學(xué)推理語言模型項(xiàng)目,它通過創(chuàng)新的"上下文感知多階段策略優(yōu)化"(CAMPO)算法,在保持高性能的同時(shí)顯著提升了推理效率。該項(xiàng)目解決了當(dāng)前推理語言模型(RLM)領(lǐng)域的主要痛點(diǎn):閉源模型主導(dǎo)市場導(dǎo)致研究不透明,以及開源項(xiàng)目缺乏完整可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)和配置。下面,一起來看看。

核心突破與價(jià)值
在眾多推理能力評估維度中,數(shù)學(xué)推理因其客觀可驗(yàn)證性成為評估模型推理能力的黃金標(biāo)準(zhǔn)。數(shù)學(xué)問題解決不僅要求精確的多步邏輯推導(dǎo),還涉及抽象思維能力,這些能力往往可以泛化到其他推理任務(wù)中。更重要的是,每個(gè)LLM生成的答案都可以通過規(guī)則驗(yàn)證器進(jìn)行嚴(yán)格評估,從而提供清晰的獎(jiǎng)勵(lì)信號,這使得數(shù)學(xué)推理成為基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards,RLVR)的理想測試場景。AIME24、AIME25和MATH500等高級基準(zhǔn)測試因其高難度和可控性,已成為評估RLM性能的核心指標(biāo)。
MiroMind-M1不僅在AIME24、AIME25和MATH500等基準(zhǔn)測試上達(dá)到或超越現(xiàn)有開源RLM的性能,還完整公開了模型、數(shù)據(jù)集和訓(xùn)練配置,為社區(qū)提供了一個(gè)可復(fù)現(xiàn)、可擴(kuò)展的推理語言模型開發(fā)框架,有力推動(dòng)RLM研究的透明化和協(xié)作化發(fā)展。
MiroMind-M1的核心價(jià)值有三點(diǎn):
1. 全棧開源:完整公開模型、訓(xùn)練數(shù)據(jù)(719K SFT數(shù)據(jù)集和62K RL數(shù)據(jù)集)和訓(xùn)練配置
2. CAMPO算法:創(chuàng)新性地整合多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器,解決RL訓(xùn)練中的效率與穩(wěn)定性問題
3. Token效率突破:在AIME24/25等數(shù)學(xué)推理基準(zhǔn)測試中,以更少的token消耗實(shí)現(xiàn)與競品模型相當(dāng)甚至更優(yōu)的性能
該項(xiàng)目基于Qwen-2.5架構(gòu),通過兩階段訓(xùn)練范式(監(jiān)督微調(diào)SFT和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)RLVR)構(gòu)建了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。實(shí)驗(yàn)證明,這些模型在數(shù)學(xué)推理任務(wù)上達(dá)到了開源領(lǐng)域的領(lǐng)先水平,且推理過程更加高效。
MiroMind-M1的技術(shù)架構(gòu)與創(chuàng)新
模型整體架構(gòu):Qwen-2.5基礎(chǔ)與兩階段訓(xùn)練范式
MiroMind-M1系列模型建立在Qwen-2.5架構(gòu)之上,采用兩階段訓(xùn)練范式:首先通過監(jiān)督微調(diào)(SFT)在高質(zhì)量思維鏈數(shù)據(jù)上進(jìn)行訓(xùn)練,然后通過基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)進(jìn)一步優(yōu)化推理性能與效率。
SFT階段為模型提供高質(zhì)量的推理基礎(chǔ),使模型學(xué)會(huì)模仿人類專家的思維過程;RLVR階段則在此基礎(chǔ)上通過獎(jiǎng)勵(lì)信號引導(dǎo)模型探索更有效、更穩(wěn)健的推理模式。MiroMind-M1針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估,形成了三個(gè)主要模型,滿足不同計(jì)算資源需求。
MiroMind-M1項(xiàng)目針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估,形成了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。
監(jiān)督微調(diào)(SFT)階段:數(shù)據(jù)構(gòu)建與訓(xùn)練策略
數(shù)據(jù)來源與質(zhì)量控制:719K數(shù)學(xué)推理問題的構(gòu)建過程
MiroMind-M1-SFT-7B的訓(xùn)練數(shù)據(jù)來源于四大公開數(shù)據(jù)源:OpenR1、OpenThoughts、Light-R1和Synthetic-1。這些數(shù)據(jù)源共同構(gòu)成了一個(gè)包含412K問題、719K驗(yàn)證過的思維鏈軌跡的高質(zhì)量數(shù)據(jù)集。其中,OpenR1提供了191K問題和418K推理軌跡,OpenThoughts貢獻(xiàn)了56K問題和56K軌跡,Light-R1提供了75K問題和76K軌跡,而Synthetic-1則貢獻(xiàn)了362K問題和638K軌跡(其中247K為數(shù)學(xué)相關(guān)軌跡)。

MiroMind-M1-SFT-719K數(shù)據(jù)集的詳細(xì)構(gòu)成,展示了各數(shù)據(jù)源的貢獻(xiàn)比例
數(shù)據(jù)質(zhì)量控制是SFT階段的關(guān)鍵環(huán)節(jié)。MiroMind團(tuán)隊(duì)采用了多層驗(yàn)證機(jī)制確保每條思維鏈軌跡的準(zhǔn)確性:首先通過MathVerify工具進(jìn)行規(guī)則驗(yàn)證,然后結(jié)合LLM裁判進(jìn)行二次驗(yàn)證。這種雙重驗(yàn)證策略有效過濾了錯(cuò)誤推理路徑,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。同一問題允許多個(gè)正確響應(yīng),這有助于模型學(xué)習(xí)多樣化的解題思路。
數(shù)據(jù)去重、去污染與驗(yàn)證流程
數(shù)據(jù)預(yù)處理過程中,MiroMind團(tuán)隊(duì)實(shí)施了嚴(yán)格的去重和去污染流程。通過計(jì)算N-gram重疊來識別并排除高度相似的樣本,有效減少了訓(xùn)練數(shù)據(jù)中的冗余。特別針對Math500、AIME24和AIME25等評估基準(zhǔn)進(jìn)行了N-gram重疊過濾,確保訓(xùn)練數(shù)據(jù)與評估數(shù)據(jù)之間無交叉污染。
訓(xùn)練策略優(yōu)化:無打包訓(xùn)練與長軌跡樣本選擇
在訓(xùn)練策略上,MiroMind團(tuán)隊(duì)發(fā)現(xiàn)無打包(no-packing)訓(xùn)練策略顯著優(yōu)于傳統(tǒng)的打包(packing)和整潔打包(neat-packing)策略。
如下表所示,在AIME24、AIME25和MATH500基準(zhǔn)測試上,no-packing策略分別達(dá)到38.12、29.37和90.40的得分,明顯優(yōu)于packing(35.41/26.66/89.06)和neat-packing(32.50/26.25/88.80)策略。

不同訓(xùn)練策略在數(shù)學(xué)推理基準(zhǔn)測試上的性能對比,no-packing策略顯著優(yōu)于其他方法
這一優(yōu)勢源于LlamaFactory實(shí)現(xiàn)中使用的knapsack算法可能違反訓(xùn)練中的i.i.d.假設(shè)(Independent and Identically Distributed,見下注解)。為平衡訓(xùn)練效率與性能,MiroMind團(tuán)隊(duì)提出了一種混合策略:前兩輪訓(xùn)練使用packing以提高效率,最后一輪切換到no-packing以提升性能。實(shí)驗(yàn)表明,這種策略在保持MATH500上90.4的高準(zhǔn)確率的同時(shí),顯著縮短了訓(xùn)練時(shí)間。
注:LlamaFactory框架在實(shí)現(xiàn)“打包”訓(xùn)練時(shí),使用了一種名為“knapsack”的算法來高效地填充數(shù)據(jù)。但這種算法可能會(huì)把不相關(guān)的樣本強(qiáng)行拼接在一起,導(dǎo)致模型誤以為這些樣本是有關(guān)聯(lián)的。這種人為制造的虛假聯(lián)系,破壞了“每個(gè)訓(xùn)練樣本都應(yīng)獨(dú)立”的基本原則,從而影響了模型的學(xué)習(xí)效果,使得“打包”策略的性能可能不如“無打包”策略
此外,研究發(fā)現(xiàn)長軌跡選擇策略優(yōu)于隨機(jī)選擇。在50K樣本規(guī)模下,長軌跡策略在AIME24上達(dá)到35.41分,比隨機(jī)策略的31.66分高出3.75分。

不同數(shù)據(jù)規(guī)模下長軌跡選擇與隨機(jī)選擇策略的性能對比,長軌跡選擇在所有指標(biāo)上均顯著優(yōu)于隨機(jī)選擇
這一現(xiàn)象的理論解釋是:長軌跡通常對應(yīng)更復(fù)雜的問題,能夠更好地訓(xùn)練模型處理AIME等挑戰(zhàn)性任務(wù)。復(fù)雜問題要求模型進(jìn)行更深入的邏輯推導(dǎo)和抽象思維,這正是高級推理能力的核心要素。因此,在數(shù)據(jù)篩選過程中優(yōu)先選擇長軌跡樣本,可以有效提升模型處理復(fù)雜推理任務(wù)的能力。
基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)階段
62K挑戰(zhàn)性問題的數(shù)據(jù)篩選過程
RLVR階段的數(shù)據(jù)構(gòu)建是MiroMind-M1成功的關(guān)鍵。研究團(tuán)隊(duì)從四大來源收集了約100萬候選問題:NuminaMath-1.5(896K問題)、Skywork-OR1-RL-Data(105K數(shù)學(xué)子集)、Big-Math(50K問題)以及DAPO-Math-17K(17K高質(zhì)量數(shù)學(xué)問題)。經(jīng)過嚴(yán)格的四輪篩選后,僅保留了62K個(gè)問題,過濾率高達(dá)94%。
研究團(tuán)隊(duì)發(fā)現(xiàn),并非所有問題都適合RLVR訓(xùn)練:某些問題(如需要長篇自由形式答案或詳細(xì)數(shù)學(xué)證明的問題)難以通過基于規(guī)則的驗(yàn)證器準(zhǔn)確評估;另一些問題則存在模糊或不完整的答案格式,可能導(dǎo)致不一致的標(biāo)簽。這些問題會(huì)引入沖突信號,阻礙模型學(xué)習(xí),甚至導(dǎo)致訓(xùn)練崩潰。
過濾策略:格式、難度、驗(yàn)證答案長度等關(guān)鍵因素
MiroMind團(tuán)隊(duì)設(shè)計(jì)了多維度的過濾策略:
1. 格式過濾:移除非可驗(yàn)證問題(如證明題)并限制為英語問題
2. 重復(fù)過濾:包括精確重復(fù)和基于10-gram相似度閾值的近似重復(fù)
3. 難度過濾:確保問題既不過于簡單也不過于困難
在強(qiáng)化學(xué)習(xí)算法選擇上,MiroMind團(tuán)隊(duì)評估了PPO、GRPO和DAPO等主流方法。PPO雖然穩(wěn)定,但需要價(jià)值模型和GAE(Gated Advantage Estimator)估計(jì)器,計(jì)算成本高;GRPO通過消除critic和GAE降低了內(nèi)存和計(jì)算成本,但省略KL損失可能導(dǎo)致熵崩潰和訓(xùn)練不穩(wěn)定;DAPO通過解耦ε參數(shù)和動(dòng)態(tài)采樣策略優(yōu)化了這些問題,但對長度偏差的處理仍需改進(jìn)。
這些分析為MiroMind團(tuán)隊(duì)開發(fā)更高效的RL算法奠定了基礎(chǔ),直接促成了CAMPO算法的誕生。
核心創(chuàng)新:上下文感知多階段策略優(yōu)化(CAMPO)
CAMPO算法的理論基礎(chǔ)與設(shè)計(jì)動(dòng)機(jī)
CAMPO算法的提出源于RL訓(xùn)練中的三大關(guān)鍵挑戰(zhàn):長rollout帶來的高計(jì)算成本、訓(xùn)練過程的不穩(wěn)定性以及推理過程中的冗余問題。傳統(tǒng)RLVR方法往往忽視這些挑戰(zhàn),導(dǎo)致訓(xùn)練效率低下、性能波動(dòng)大以及生成的推理過程冗長低效。
CAMPO算法的核心創(chuàng)新在于整合了多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器,通過上下文感知的學(xué)習(xí)策略促進(jìn)更有效的推理。訓(xùn)練過程在響應(yīng)長度達(dá)到飽和時(shí)進(jìn)入下一階段,即模型在當(dāng)前長度限制下已能生成足夠長的推理鏈。
效率感知的多階段訓(xùn)練策略
多階段訓(xùn)練策略是CAMPO的核心組件之一。該策略從較短的響應(yīng)限制開始(如16K tokens),隨著訓(xùn)練的深入逐步放寬長度限制(如32K tokens)。
這種設(shè)計(jì)有其深刻的理論依據(jù):較短的響應(yīng)限制有助于約束模型的輸出空間,減少rollout長度并加速反饋循環(huán)。同時(shí),超過當(dāng)前最大長度的響應(yīng)被視為失敗,提供了明確的訓(xùn)練信號,促使模型生成更簡潔、更精煉的輸出。

MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化趨勢,展示了長度限制對模型行為的塑造作用
上圖展示了MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化:在16K限制階段,響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定;當(dāng)限制提升至32K后,平均響應(yīng)長度顯著增加,超過13K tokens。
這一現(xiàn)象揭示了長度限制對模型行為的塑造作用:初始約束迫使模型在有限預(yù)算內(nèi)運(yùn)作,幫助建立強(qiáng)大的推理基礎(chǔ);這種基礎(chǔ)隨后支持在更長序列范圍內(nèi)的更穩(wěn)定、更有效的優(yōu)化。
重復(fù)懲罰機(jī)制:減少冗余推理
重復(fù)懲罰機(jī)制是CAMPO算法的另一關(guān)鍵組件,目的是減少推理過程中的冗余和循環(huán)。該機(jī)制通過計(jì)算重復(fù)分?jǐn)?shù)f(o_i)(檢測到的重復(fù)循環(huán)占整個(gè)序列的比例)來評估生成內(nèi)容中的重復(fù)程度。重要的是,重復(fù)發(fā)生越早,懲罰越重,因?yàn)樵缙诘闹貜?fù)對推理效率的影響更大。

重復(fù)懲罰機(jī)制使訓(xùn)練過程更加穩(wěn)定,避免了模型陷入冗余循環(huán)
上圖展示了重復(fù)懲罰機(jī)制對訓(xùn)練穩(wěn)定性的影響。在AIME24和AIME25基準(zhǔn)測試中,引入重復(fù)懲罰的模型表現(xiàn)出更穩(wěn)定的訓(xùn)練軌跡,而沒有重復(fù)懲罰的模型則出現(xiàn)了明顯的性能波動(dòng)。
這一機(jī)制有效減少了模型在推理過程中重復(fù)檢查相同條件或重新表述相同概念的行為。在幾何問題案例中,重復(fù)懲罰使模型的推理路徑減少了約18%的token數(shù),同時(shí)保持了相同的準(zhǔn)確率。更重要的是,去除冗余后,推理邏輯更加清晰連貫,減少了因重復(fù)導(dǎo)致的邏輯混淆風(fēng)險(xiǎn)。
精確驗(yàn)證器:提升推理效率的關(guān)鍵
MiroMind團(tuán)隊(duì)開發(fā)了改進(jìn)的級聯(lián)驗(yàn)證器(cascade verifier),能夠處理多種答案格式,包括數(shù)字、分?jǐn)?shù)、表達(dá)式等。這種設(shè)計(jì)確保了即使面對多樣化的答案格式,驗(yàn)證器也能提供準(zhǔn)確的反饋信號。
改進(jìn)的驗(yàn)證器通過提供更可靠的反饋,幫助模型學(xué)習(xí)生成簡潔且邏輯嚴(yán)謹(jǐn)?shù)拇鸢浮O聢D進(jìn)一步揭示了驗(yàn)證器改進(jìn)對推理效率的積極影響:在正確響應(yīng)的條件下,MiroMind-M1-RL-32B生成的平均token數(shù)顯著低于Skywork-OR1-32B-Preview。

MiroMind-M1-RL-32B在正確響應(yīng)上的平均Token數(shù)顯著低于Skywork-OR1-32B-Preview,證明了精確驗(yàn)證器對推理效率的積極影響
機(jī)制分析顯示,當(dāng)驗(yàn)證器能夠準(zhǔn)確識別正確答案時(shí),模型無需通過冗長的推理來"猜測"驗(yàn)證器的偏好,而是可以直接聚焦于最簡潔有效的解決方案。這種"獎(jiǎng)勵(lì)-行為"的正向循環(huán)使模型在保持高準(zhǔn)確率的同時(shí),顯著降低了推理成本,實(shí)現(xiàn)了性能與效率的雙贏。
CAMPO算法流程詳解
CAMPO算法的完整流程如Algorithm 1所示,包含以下關(guān)鍵步驟:
1. 階段初始化:設(shè)置當(dāng)前階段的最大上下文長度,從較短限制開始
2. 動(dòng)態(tài)clipping ratio設(shè)置:從和中采樣和,實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布
3. 批量采樣:從任務(wù)提示集合中采樣一批問題
4. 策略更新:使用舊策略模型生成多個(gè)響應(yīng),計(jì)算獎(jiǎng)勵(lì)和重復(fù)分?jǐn)?shù)
5. 難度過濾:排除完全正確或完全錯(cuò)誤的批次()
6. 策略優(yōu)化:應(yīng)用PPO目標(biāo)函數(shù)進(jìn)行參數(shù)更新
上下文感知多階段策略優(yōu)化(CAMPO)算法的詳細(xì)流程,展示了多階段訓(xùn)練和重復(fù)懲罰機(jī)制的實(shí)現(xiàn)
這一算法設(shè)計(jì)通過多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器的協(xié)同作用,有效解決了RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題,為MiroMind-M1的卓越性能奠定了基礎(chǔ)。
動(dòng)態(tài)clipping ratio:解決訓(xùn)練穩(wěn)定性問題
CAMPO算法還引入了動(dòng)態(tài)clipping ratio設(shè)置:從φlow(s)和φhigh(s)中采樣εlow和εhigh,實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布。DAPO將ε解耦為εlow和εhigh,以防止熵崩潰,強(qiáng)制多樣化的rollout以獲得穩(wěn)定的梯度,并對所有token的損失進(jìn)行平均以消除長度偏差。
這種動(dòng)態(tài)調(diào)整機(jī)制能夠適應(yīng)不同訓(xùn)練階段的需求,在早期訓(xùn)練階段允許更大的策略變化,在后期訓(xùn)練階段則更加穩(wěn)定,從而提高了整體訓(xùn)練的穩(wěn)定性和收斂速度。
MiroMind-M1-RL系列模型的性能表現(xiàn)
MiroMind-M1-SFT-7B 的 SFT 與 RL 的性能提升

不同SFT模型在AIME24、AIME25和MATH500基準(zhǔn)測試上的性能對比,MiroMind-M1-SFT-7B全面領(lǐng)先
MiroMind-M1-SFT-7B在數(shù)學(xué)推理基準(zhǔn)測試上取得了顯著成果:AIME24得分為60.4,AIME25得分為45.0,MATH500得分為94.6。經(jīng)過RLVR階段的優(yōu)化,MiroMind-M1-RL-7B在所有三個(gè)基準(zhǔn)測試上實(shí)現(xiàn)了顯著提升:AIME24達(dá)到73.4,AIME25達(dá)到57.8,MATH500達(dá)到96.7。

MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡,展示了RL過程帶來的顯著提升
上圖展示了MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡。RL過程帶來了AIME24和AIME25上超過15%的準(zhǔn)確率提升,這一提升在數(shù)學(xué)推理任務(wù)中是相當(dāng)顯著的。
這一結(jié)果不僅超越了所有基于Qwen2.5系列的7B模型,還超過了Skywork-OR1-7B(72.2, 54.6)的性能。特別值得注意的是,MiroMind-M1-RL-7B的AIME24得分比DeepSeek-R1-Distill-Qwen-7B(55.5)高出17.9個(gè)百分點(diǎn),展示了RLVR階段的巨大潛力。
MiroMind-M1-RL-32B的性能表現(xiàn)
對于32B規(guī)模的模型,MiroMind-M1-RL-32B同樣表現(xiàn)出色:AIME24得分為77.5,AIME25得分為65.6,MATH500得分為96.4。與初始檢查點(diǎn)DeepSeek-R1-Distill-Qwen-32B(70.8, 52.1, 95.8)相比,MiroMind-M1-RL-32B在AIME24上提升了6.7個(gè)百分點(diǎn),在AIME25上提升了13.5個(gè)百分點(diǎn),驗(yàn)證了CAMPO算法在更大規(guī)模模型上的有效性。

MiroMind-M1-RL-32B與其他32B模型在數(shù)學(xué)推理基準(zhǔn)上的性能對比,展示了CAMPO算法的有效性
盡管MiroMind-M1-RL-32B在AIME25上略遜于Skywork-OR1-32B-Preview(65.6 vs 68.2),但其token效率更高,在較短的響應(yīng)長度下表現(xiàn)更佳。這一權(quán)衡表明,MiroMind-M1-RL-32B更適合需要高效推理的實(shí)際應(yīng)用場景,并不只是追求絕對性能。
Token效率分析:MiroMind-M1-RL-32B為何能用更少的token完成推理
Token效率是MiroMind-M1系列模型的核心優(yōu)勢之一。

MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview在AIME24和AIME25基準(zhǔn)測試上,不同最大響應(yīng)長度下的性能對比
上圖清晰展示了在不同最大響應(yīng)長度下,MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview的性能對比。在AIME24上,MiroMind-M1-RL-32B在4K、8K、16K長度下分別領(lǐng)先2.6、7.5和8.7個(gè)百分點(diǎn);在AIME25上,分別領(lǐng)先3.7、4.8和5.8個(gè)百分點(diǎn)。
這一優(yōu)勢在較短的響應(yīng)長度下尤為明顯,表明MiroMind模型能夠在更少的計(jì)算資源下實(shí)現(xiàn)更高效的推理。這一優(yōu)勢源于CAMPO算法的三大關(guān)鍵組件:
1. 重復(fù)懲罰機(jī)制:有效減少了冗余推理步驟
2. 級聯(lián)驗(yàn)證器:引導(dǎo)模型生成更簡潔有效的推理過程
3. 多階段訓(xùn)練策略:初始階段的長度限制促使模型在有限預(yù)算內(nèi)建立高效推理習(xí)慣
Token效率的實(shí)際意義重大:在相同計(jì)算資源下,高效模型可以處理更多問題;在相同問題上,高效模型能提供更快的響應(yīng)速度;在資源受限場景下,高效模型更容易部署和應(yīng)用。這些優(yōu)勢使MiroMind-M1系列模型在實(shí)際應(yīng)用中具有顯著競爭力。
評估穩(wěn)定性問題:AIME基準(zhǔn)測試的波動(dòng)性深度分析
AIME基準(zhǔn)測試的評估穩(wěn)定性問題值得關(guān)注。由于AIME24和AIME25僅包含30個(gè)問題,單個(gè)問題的正確與否可能導(dǎo)致性能波動(dòng)超過3.3個(gè)百分點(diǎn);1-2個(gè)問題的差異甚至?xí)?dǎo)致超過5%的性能波動(dòng)。

64次重復(fù)評估的結(jié)果分布,顯示即使采用avg@k方法,AIME基準(zhǔn)測試仍存在顯著波動(dòng)
為應(yīng)對這一問題,MiroMind團(tuán)隊(duì)采用avg@k評估策略,在AIME24和AIME25上設(shè)置k=64,在MATH500上設(shè)置k=5。選擇k=64用于AIME評估是基于統(tǒng)計(jì)考慮:通過64次重復(fù)評估,可以將標(biāo)準(zhǔn)差降低到可接受水平(約1.25%)。
這一發(fā)現(xiàn)揭示了當(dāng)前數(shù)學(xué)推理基準(zhǔn)測試的固有限制:小樣本量導(dǎo)致的高方差使得精確比較變得困難。盡管增加評估次數(shù)可以提高結(jié)果的穩(wěn)健性,但這會(huì)顯著增加基準(zhǔn)測試的時(shí)間成本。
典型案例:MiroMind-M1的推理效率展示
Token效率對比案例
選取AIME24中的一個(gè)典型組合數(shù)學(xué)問題進(jìn)行分析:問題要求計(jì)算特定條件下排列組合的數(shù)量。MiroMind-M1-RL-32B生成的解決方案包含約7,200 tokens,而Skywork-OR1-32B-Preview生成的解決方案則超過10,500 tokens。
關(guān)鍵區(qū)別在于,MiroMind模型直接應(yīng)用了最相關(guān)的組合公式,而Skywork模型則進(jìn)行了更廣泛的公式推導(dǎo)和驗(yàn)證。具體而言,MiroMind模型識別出問題可以簡化為"從n個(gè)元素中選擇k個(gè)的組合數(shù)",直接應(yīng)用公式并代入數(shù)值計(jì)算。相比之下,Skywork模型從基本原理出發(fā),逐步推導(dǎo)組合公式,包括階乘定義、排列與組合的關(guān)系等,雖然邏輯正確但過程冗長。
這一案例清晰展示了MiroMind模型如何通過更聚焦的推理路徑實(shí)現(xiàn)更高的令牌效率。
重復(fù)懲罰機(jī)制的實(shí)際效果
在另一個(gè)幾何問題中,重復(fù)懲罰機(jī)制的效果尤為明顯。問題要求計(jì)算復(fù)雜圖形的面積。沒有重復(fù)懲罰的模型傾向于重復(fù)檢查同一條件或重新表述相同概念,例如多次驗(yàn)證"由于三角形ABC是等腰的,所以...",導(dǎo)致推理路徑膨脹。
而應(yīng)用重復(fù)懲罰后,模型能夠識別并避免這種冗余行為,直接進(jìn)入下一步推理。值得注意的是,即使在32K階段,MiroMind模型的推理路徑仍比同類模型短約25%,這歸功于前期建立的高效推理習(xí)慣。
這一案例證明,重復(fù)懲罰不僅提高了效率,還增強(qiáng)了推理質(zhì)量。
多階段訓(xùn)練的漸進(jìn)效果分析
分析一個(gè)需要多步變換的代數(shù)問題,可以清晰看到多階段訓(xùn)練的漸進(jìn)效果。在16K階段,模型能夠解決基礎(chǔ)版本的問題,但對更復(fù)雜的變體表現(xiàn)不佳;進(jìn)入32K階段后,模型成功處理了包含額外約束條件的復(fù)雜版本。關(guān)鍵區(qū)別在于推理深度:16K階段的模型傾向于使用已知公式直接求解,而32K階段的模型則能夠進(jìn)行更深入的代數(shù)變換,包括引入輔助變量和中間步驟。
然而,即使在32K階段,MiroMind模型的推理路徑仍比同類模型短約25%,這歸功于前期建立的高效推理習(xí)慣。這一案例說明,多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍,還保持了推理效率。
這一案例說明,多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍,還保持了推理效率。
開源貢獻(xiàn)與復(fù)現(xiàn)指南
完整開源棧:模型、數(shù)據(jù)集與訓(xùn)練配置
MiroMind-M1項(xiàng)目的核心價(jià)值在于其全面的開源承諾。與許多聲稱"開源"但缺乏關(guān)鍵資源的項(xiàng)目不同,MiroMind團(tuán)隊(duì)完整公開了以下資源:(見文末參考)
- 模型系列:包括MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B
- 數(shù)據(jù)集:MiroMind-M1-SFT-719K和MiroMind-M1-RL-62K
- 訓(xùn)練與評估配置:完整的訓(xùn)練腳本、超參數(shù)設(shè)置和評估協(xié)議
這種全棧開源策略為研究者提供了真正可復(fù)現(xiàn)的研究基礎(chǔ),使他們能夠從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到評估的完整流程進(jìn)行驗(yàn)證和改進(jìn)。
SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議
MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示,該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡,平均每個(gè)問題有1.75條正確推理路徑。
使用建議:
- SFT階段:推薦進(jìn)行3輪訓(xùn)練,采用峰值學(xué)習(xí)率5.0×10^-5,余弦學(xué)習(xí)率調(diào)度器,10%的預(yù)熱步長比例,以及128的批次大小
- RL階段:建議采用CAMPO算法進(jìn)行訓(xùn)練,包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制
SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議
MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示,該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡,平均每個(gè)問題有1.75條正確推理路徑。軌跡長度分布分析表明,該數(shù)據(jù)集特別強(qiáng)調(diào)長軌跡樣本,這對于訓(xùn)練模型處理復(fù)雜推理任務(wù)至關(guān)重要。
使用建議方面,SFT階段推薦進(jìn)行3輪訓(xùn)練,采用峰值學(xué)習(xí)率5.0×10^-5,余弦學(xué)習(xí)率調(diào)度器,10%的預(yù)熱步長比例,以及128的批次大小。為支持復(fù)雜推理的長生成,模型的最大位置嵌入被擴(kuò)展至32,768,使用線性RoPE縮放。訓(xùn)練策略上,推薦采用無打包(no-packing)方法,或采用前兩輪打包、最后一輪無打包的混合策略以平衡效率與性能。
MiroMind-M1-RL-62K數(shù)據(jù)集則專注于挑戰(zhàn)性和可驗(yàn)證性。該數(shù)據(jù)集經(jīng)過嚴(yán)格篩選,確保每個(gè)問題既非過于簡單也非無法解決,且答案格式適合規(guī)則驗(yàn)證。使用時(shí),建議采用CAMPO算法進(jìn)行訓(xùn)練,包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制。強(qiáng)化學(xué)習(xí)階段通常需要更高的計(jì)算資源,但能顯著提升模型的推理效率和準(zhǔn)確性。
訓(xùn)練資源需求與最佳實(shí)踐
SFT階段的資源需求相對可控:訓(xùn)練7B模型通常需要單節(jié)點(diǎn)8×A100 GPU,約3天時(shí)間完成3輪訓(xùn)練。關(guān)鍵配置包括:無打包訓(xùn)練策略、32,768的最大位置嵌入、5.0×10^-5的學(xué)習(xí)率和128的批次大小。
RLVR階段的資源需求則顯著增加:7B模型需要64×A800 GPU(8個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)8 GPU),32B模型需要16×8 A100 GPU。訓(xùn)練過程通常分為多個(gè)階段,每個(gè)階段有不同的最大響應(yīng)長度限制。對于7B模型,推薦采用兩階段策略:第一階段限制為16K tokens,訓(xùn)練約1200步;第二階段擴(kuò)展至32K tokens,繼續(xù)訓(xùn)練。對于32B模型,則推薦三階段策略,逐步將最大響應(yīng)長度從16K擴(kuò)展至32K再到49K。
特別是重復(fù)懲罰機(jī)制,需要精確計(jì)算重復(fù)分?jǐn)?shù)并正確整合到獎(jiǎng)勵(lì)信號中。MiroMind團(tuán)隊(duì)建議使用他們開源的實(shí)現(xiàn)代碼,以確保正確應(yīng)用這一關(guān)鍵組件。
RL訓(xùn)練效率瓶頸深度分析
rollout階段:RL訓(xùn)練的主要瓶頸
實(shí)驗(yàn)數(shù)據(jù)表明,rollout階段占據(jù)了RL訓(xùn)練90%以上的計(jì)算時(shí)間,是RL訓(xùn)練的主要瓶頸。在rollout階段,模型需要為每個(gè)輸入生成完整響應(yīng)以計(jì)算獎(jiǎng)勵(lì),這一過程高度依賴自回歸生成,計(jì)算成本隨序列長度線性增長。相比之下,參數(shù)更新階段的計(jì)算相對高效,因?yàn)榭梢猿浞掷肎PU的并行計(jì)算能力。
同步batch處理機(jī)制進(jìn)一步加劇了這一問題:在標(biāo)準(zhǔn)實(shí)現(xiàn)中,整個(gè)batch必須等待最長的生成完成才能進(jìn)行下一步處理。這意味著即使batch中只有一個(gè)樣本生成異常長的響應(yīng),也會(huì)拖慢整個(gè)batch的處理速度,導(dǎo)致GPU大量空閑。這種現(xiàn)象在數(shù)學(xué)推理任務(wù)中尤為明顯,因?yàn)閱栴}難度差異大,生成長度分布廣泛。
長尾問題:訓(xùn)練效率的隱形殺手
長尾問題(即生成極長響應(yīng)的樣本)對訓(xùn)練效率有顯著影響。這些長尾問題雖然數(shù)量不多,但由于同步處理機(jī)制,它們顯著拖慢了整個(gè)訓(xùn)練過程。具體影響包括:GPU空閑時(shí)間增加,訓(xùn)練效率降低;批次處理時(shí)間不穩(wěn)定,難以預(yù)測訓(xùn)練完成時(shí)間;資源利用率低下,增加了訓(xùn)練成本。
MiroMind團(tuán)隊(duì)觀察到,哪怕只是少量樣本生成了極長的序列,也會(huì)嚴(yán)重拖慢整個(gè)批次的處理速度,這使得長尾問題成為RL訓(xùn)練中的關(guān)鍵效率瓶頸。
多階段訓(xùn)練對效率瓶頸的緩解作用
MiroMind團(tuán)隊(duì)發(fā)現(xiàn),多階段訓(xùn)練策略部分緩解了這一問題。通過從較短的響應(yīng)限制開始訓(xùn)練,模型在早期階段就能建立高效的推理習(xí)慣,減少了長響應(yīng)的可能性。此外,較短的初始響應(yīng)限制降低了每個(gè)樣本的平均生成長度,從而減少了rollout階段的計(jì)算負(fù)擔(dān)。
如下圖顯示,在16K限制階段,模型的響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定,這顯著降低了rollout階段的計(jì)算成本。

效率優(yōu)化方向
針對RL訓(xùn)練效率瓶頸,MiroMind團(tuán)隊(duì)指出了幾個(gè)有前景的優(yōu)化方向:
1. 解耦rollout與參數(shù)更新(detached rollout):減少GPU空閑時(shí)間,通過異步方式處理rollout和參數(shù)更新
2. 流式負(fù)載均衡架構(gòu):動(dòng)態(tài)分配計(jì)算資源,確保GPU始終處于高效工作狀態(tài)
3. 長尾問題的主動(dòng)識別與處理:預(yù)測生成長度并動(dòng)態(tài)調(diào)整批次組成
這些優(yōu)化方向已在相關(guān)研究中得到初步驗(yàn)證。例如,Ji等人提出的流式負(fù)載均衡架構(gòu)顯著減少了GPU空閑時(shí)間,提高了整體訓(xùn)練效率。
局限性
模型在復(fù)雜問題上的局限性
盡管MiroMind-M1在多個(gè)基準(zhǔn)測試上表現(xiàn)出色,但在處理極端復(fù)雜的數(shù)學(xué)問題時(shí)仍存在局限。例如,49K長度限制仍不足以解決最復(fù)雜的數(shù)學(xué)問題,特別是在需要超長推理鏈或詳細(xì)證明的場景中。
值得注意的是,Skywork-OR1-32B-Preview在AIME25上表現(xiàn)更好,部分原因可能是其訓(xùn)練數(shù)據(jù)包含了代碼和數(shù)學(xué)的混合:Skywork-OR1-32B-Preview 得益于數(shù)學(xué)與代碼數(shù)據(jù)的多元混合;其中加入代碼,多半讓模型在符號推理上更強(qiáng)。
這表明,代碼訓(xùn)練數(shù)據(jù)通過強(qiáng)化模型對符號操作和結(jié)構(gòu)化邏輯的理解,間接提升了其數(shù)學(xué)推理能力。
RL訓(xùn)練效率瓶頸的系統(tǒng)性解決方案
rollout階段是RL訓(xùn)練的主要瓶頸,需要系統(tǒng)性解決方案。未來工作可能包括:開發(fā)異步rollout機(jī)制,設(shè)計(jì)智能長度預(yù)測模型,實(shí)現(xiàn)更精細(xì)的資源調(diào)度策略。MiroMind團(tuán)隊(duì)特別指出,detached rollout和流式負(fù)載均衡架構(gòu)是兩個(gè)有前景的方向。
多領(lǐng)域推理能力的擴(kuò)展可能性
MiroMind-M1目前專注于數(shù)學(xué)推理,但其方法論具有擴(kuò)展到其他領(lǐng)域的潛力。未來工作可以探索將MiroMind框架擴(kuò)展到科學(xué)、邏輯和代碼生成等領(lǐng)域。通過構(gòu)建多領(lǐng)域驗(yàn)證數(shù)據(jù)集,并設(shè)計(jì)領(lǐng)域自適應(yīng)的驗(yàn)證器,模型可能發(fā)展出更通用的推理能力。
總結(jié)
核心貢獻(xiàn)
MiroMind-M1項(xiàng)目的核心貢獻(xiàn)在于:
1. 全棧開源:完整公開模型、數(shù)據(jù)集和訓(xùn)練配置,為社區(qū)提供真正可復(fù)現(xiàn)的研究基礎(chǔ)
2. CAMPO算法:通過整合多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器,有效解決RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題
3. Token效率突破:在保持高性能的同時(shí)顯著提升推理效率,證明效率與性能可以兼得
這些貢獻(xiàn)不僅推動(dòng)了數(shù)學(xué)推理能力的提升,還為更廣泛的推理語言模型研究提供了方法論指導(dǎo)。
對開源RLM的關(guān)鍵啟示
MiroMind-M1項(xiàng)目為開源RLM社區(qū)提供了三點(diǎn)重要啟示:
1. 數(shù)據(jù)質(zhì)量與訓(xùn)練策略同等重要:719K高質(zhì)量SFT數(shù)據(jù)超越了更大規(guī)模但質(zhì)量較低的數(shù)據(jù)集
2. 效率與性能需要平衡考慮:在實(shí)際應(yīng)用中,高效的推理往往比絕對性能更重要
3. 嚴(yán)格的驗(yàn)證機(jī)制是RLVR成功的關(guān)鍵:準(zhǔn)確的獎(jiǎng)勵(lì)信號直接決定了模型能否學(xué)習(xí)有效的推理模式
這些啟示挑戰(zhàn)了當(dāng)前RLM研究中的一些常見假設(shè),如"數(shù)據(jù)越多越好"或"響應(yīng)越長越好"。
實(shí)操建議
基于MiroMind-M1的研究成果,有以下具體建議:
1. 評估方法:在小樣本基準(zhǔn)測試(如AIME)上進(jìn)行多次評估(如k=64),并報(bào)告標(biāo)準(zhǔn)差,避免僅憑單次評估結(jié)果做出結(jié)論
2. 訓(xùn)練策略:
- 采用多階段訓(xùn)練策略,從較短的響應(yīng)限制開始,逐步放寬長度限制
- 實(shí)施重復(fù)懲罰機(jī)制,減少推理過程中的冗余
- 使用精確的級聯(lián)驗(yàn)證器,提供可靠的獎(jiǎng)勵(lì)信號
3. 數(shù)據(jù)構(gòu)建:
- 優(yōu)先選擇長軌跡樣本,提升模型處理復(fù)雜問題的能力
- 嚴(yán)格進(jìn)行數(shù)據(jù)去重和去污染,確保訓(xùn)練數(shù)據(jù)質(zhì)量
- 采用多層驗(yàn)證機(jī)制,確保思維鏈軌跡的準(zhǔn)確性
- 效率優(yōu)化:
- 探索解耦rollout與參數(shù)更新的技術(shù)
- 實(shí)現(xiàn)流式負(fù)載均衡架構(gòu),提高GPU利用率
- 開發(fā)長尾問題的主動(dòng)識別與處理機(jī)制
MiroMind-M1項(xiàng)目證明,開源社區(qū)完全有能力開發(fā)出與閉源模型相媲美甚至超越的推理語言模型。通過持續(xù)的協(xié)作和創(chuàng)新,開源RLM有望成為AI推理能力發(fā)展的主要驅(qū)動(dòng)力,為更廣泛的應(yīng)用場景提供強(qiáng)大支持。最后還是那句話,開源,是人類歷史上最偉大的社會(huì)創(chuàng)作活動(dòng)!另外,相關(guān)開源資源已文末參考資料中,歡迎查閱。此外,倉庫中,我特意制作了RL和DPO后模型的量化版本,歡迎取用。




































