MiroMind-M1：如何用CAMPO算法打造高效且可復(fù)現(xiàn)的全棧開源推理模型

作者：肆零柒 2025-08-15 10:30:53

MiroMind-M1項(xiàng)目解決了開源推理模型領(lǐng)域的核心痛點(diǎn)：數(shù)據(jù)不透明、訓(xùn)練不可復(fù)現(xiàn)，真正實(shí)現(xiàn)了全棧開源。本文解析其創(chuàng)新的CAMPO算法，展示了如何在保持高性能的同時(shí)將推理效率提升25%。文末參考資料有開源模型，以及開源可復(fù)現(xiàn)過程的數(shù)據(jù)集和代碼。

大家好，我是肆〇柒。今天為大家介紹MiroMind-M1，這是一個(gè)開源的數(shù)學(xué)推理語言模型項(xiàng)目，它通過創(chuàng)新的"上下文感知多階段策略優(yōu)化"（CAMPO）算法，在保持高性能的同時(shí)顯著提升了推理效率。該項(xiàng)目解決了當(dāng)前推理語言模型（RLM）領(lǐng)域的主要痛點(diǎn)：閉源模型主導(dǎo)市場導(dǎo)致研究不透明，以及開源項(xiàng)目缺乏完整可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)和配置。下面，一起來看看。

核心突破與價(jià)值

在眾多推理能力評估維度中，數(shù)學(xué)推理因其客觀可驗(yàn)證性成為評估模型推理能力的黃金標(biāo)準(zhǔn)。數(shù)學(xué)問題解決不僅要求精確的多步邏輯推導(dǎo)，還涉及抽象思維能力，這些能力往往可以泛化到其他推理任務(wù)中。更重要的是，每個(gè)LLM生成的答案都可以通過規(guī)則驗(yàn)證器進(jìn)行嚴(yán)格評估，從而提供清晰的獎(jiǎng)勵(lì)信號，這使得數(shù)學(xué)推理成為基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（Reinforcement Learning with Verifiable Rewards，RLVR）的理想測試場景。AIME24、AIME25和MATH500等高級基準(zhǔn)測試因其高難度和可控性，已成為評估RLM性能的核心指標(biāo)。

MiroMind-M1不僅在AIME24、AIME25和MATH500等基準(zhǔn)測試上達(dá)到或超越現(xiàn)有開源RLM的性能，還完整公開了模型、數(shù)據(jù)集和訓(xùn)練配置，為社區(qū)提供了一個(gè)可復(fù)現(xiàn)、可擴(kuò)展的推理語言模型開發(fā)框架，有力推動(dòng)RLM研究的透明化和協(xié)作化發(fā)展。

MiroMind-M1的核心價(jià)值有三點(diǎn)：

1. 全棧開源：完整公開模型、訓(xùn)練數(shù)據(jù)（719K SFT數(shù)據(jù)集和62K RL數(shù)據(jù)集）和訓(xùn)練配置

2. CAMPO算法：創(chuàng)新性地整合多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器，解決RL訓(xùn)練中的效率與穩(wěn)定性問題

3. Token效率突破：在AIME24/25等數(shù)學(xué)推理基準(zhǔn)測試中，以更少的token消耗實(shí)現(xiàn)與競品模型相當(dāng)甚至更優(yōu)的性能

該項(xiàng)目基于Qwen-2.5架構(gòu)，通過兩階段訓(xùn)練范式（監(jiān)督微調(diào)SFT和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)RLVR）構(gòu)建了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。實(shí)驗(yàn)證明，這些模型在數(shù)學(xué)推理任務(wù)上達(dá)到了開源領(lǐng)域的領(lǐng)先水平，且推理過程更加高效。

MiroMind-M1的技術(shù)架構(gòu)與創(chuàng)新

模型整體架構(gòu)：Qwen-2.5基礎(chǔ)與兩階段訓(xùn)練范式

MiroMind-M1系列模型建立在Qwen-2.5架構(gòu)之上，采用兩階段訓(xùn)練范式：首先通過監(jiān)督微調(diào)（SFT）在高質(zhì)量思維鏈數(shù)據(jù)上進(jìn)行訓(xùn)練，然后通過基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）進(jìn)一步優(yōu)化推理性能與效率。

SFT階段為模型提供高質(zhì)量的推理基礎(chǔ)，使模型學(xué)會(huì)模仿人類專家的思維過程；RLVR階段則在此基礎(chǔ)上通過獎(jiǎng)勵(lì)信號引導(dǎo)模型探索更有效、更穩(wěn)健的推理模式。MiroMind-M1針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估，形成了三個(gè)主要模型，滿足不同計(jì)算資源需求。

MiroMind-M1項(xiàng)目針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估，形成了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。

監(jiān)督微調(diào)(SFT)階段：數(shù)據(jù)構(gòu)建與訓(xùn)練策略

數(shù)據(jù)來源與質(zhì)量控制：719K數(shù)學(xué)推理問題的構(gòu)建過程

MiroMind-M1-SFT-7B的訓(xùn)練數(shù)據(jù)來源于四大公開數(shù)據(jù)源：OpenR1、OpenThoughts、Light-R1和Synthetic-1。這些數(shù)據(jù)源共同構(gòu)成了一個(gè)包含412K問題、719K驗(yàn)證過的思維鏈軌跡的高質(zhì)量數(shù)據(jù)集。其中，OpenR1提供了191K問題和418K推理軌跡，OpenThoughts貢獻(xiàn)了56K問題和56K軌跡，Light-R1提供了75K問題和76K軌跡，而Synthetic-1則貢獻(xiàn)了362K問題和638K軌跡（其中247K為數(shù)學(xué)相關(guān)軌跡）。

MiroMind-M1-SFT-719K數(shù)據(jù)集的詳細(xì)構(gòu)成，展示了各數(shù)據(jù)源的貢獻(xiàn)比例

數(shù)據(jù)質(zhì)量控制是SFT階段的關(guān)鍵環(huán)節(jié)。MiroMind團(tuán)隊(duì)采用了多層驗(yàn)證機(jī)制確保每條思維鏈軌跡的準(zhǔn)確性：首先通過MathVerify工具進(jìn)行規(guī)則驗(yàn)證，然后結(jié)合LLM裁判進(jìn)行二次驗(yàn)證。這種雙重驗(yàn)證策略有效過濾了錯(cuò)誤推理路徑，確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。同一問題允許多個(gè)正確響應(yīng)，這有助于模型學(xué)習(xí)多樣化的解題思路。

數(shù)據(jù)去重、去污染與驗(yàn)證流程

數(shù)據(jù)預(yù)處理過程中，MiroMind團(tuán)隊(duì)實(shí)施了嚴(yán)格的去重和去污染流程。通過計(jì)算N-gram重疊來識別并排除高度相似的樣本，有效減少了訓(xùn)練數(shù)據(jù)中的冗余。特別針對Math500、AIME24和AIME25等評估基準(zhǔn)進(jìn)行了N-gram重疊過濾，確保訓(xùn)練數(shù)據(jù)與評估數(shù)據(jù)之間無交叉污染。

訓(xùn)練策略優(yōu)化：無打包訓(xùn)練與長軌跡樣本選擇

在訓(xùn)練策略上，MiroMind團(tuán)隊(duì)發(fā)現(xiàn)無打包（no-packing）訓(xùn)練策略顯著優(yōu)于傳統(tǒng)的打包（packing）和整潔打包（neat-packing）策略。

如下表所示，在AIME24、AIME25和MATH500基準(zhǔn)測試上，no-packing策略分別達(dá)到38.12、29.37和90.40的得分，明顯優(yōu)于packing（35.41/26.66/89.06）和neat-packing（32.50/26.25/88.80）策略。

不同訓(xùn)練策略在數(shù)學(xué)推理基準(zhǔn)測試上的性能對比，no-packing策略顯著優(yōu)于其他方法

這一優(yōu)勢源于LlamaFactory實(shí)現(xiàn)中使用的knapsack算法可能違反訓(xùn)練中的i.i.d.假設(shè)（Independent and Identically Distributed，見下注解）。為平衡訓(xùn)練效率與性能，MiroMind團(tuán)隊(duì)提出了一種混合策略：前兩輪訓(xùn)練使用packing以提高效率，最后一輪切換到no-packing以提升性能。實(shí)驗(yàn)表明，這種策略在保持MATH500上90.4的高準(zhǔn)確率的同時(shí)，顯著縮短了訓(xùn)練時(shí)間。

注：LlamaFactory框架在實(shí)現(xiàn)“打包”訓(xùn)練時(shí)，使用了一種名為“knapsack”的算法來高效地填充數(shù)據(jù)。但這種算法可能會(huì)把不相關(guān)的樣本強(qiáng)行拼接在一起，導(dǎo)致模型誤以為這些樣本是有關(guān)聯(lián)的。這種人為制造的虛假聯(lián)系，破壞了“每個(gè)訓(xùn)練樣本都應(yīng)獨(dú)立”的基本原則，從而影響了模型的學(xué)習(xí)效果，使得“打包”策略的性能可能不如“無打包”策略

此外，研究發(fā)現(xiàn)長軌跡選擇策略優(yōu)于隨機(jī)選擇。在50K樣本規(guī)模下，長軌跡策略在AIME24上達(dá)到35.41分，比隨機(jī)策略的31.66分高出3.75分。

不同數(shù)據(jù)規(guī)模下長軌跡選擇與隨機(jī)選擇策略的性能對比，長軌跡選擇在所有指標(biāo)上均顯著優(yōu)于隨機(jī)選擇

這一現(xiàn)象的理論解釋是：長軌跡通常對應(yīng)更復(fù)雜的問題，能夠更好地訓(xùn)練模型處理AIME等挑戰(zhàn)性任務(wù)。復(fù)雜問題要求模型進(jìn)行更深入的邏輯推導(dǎo)和抽象思維，這正是高級推理能力的核心要素。因此，在數(shù)據(jù)篩選過程中優(yōu)先選擇長軌跡樣本，可以有效提升模型處理復(fù)雜推理任務(wù)的能力。

基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)階段

62K挑戰(zhàn)性問題的數(shù)據(jù)篩選過程

RLVR階段的數(shù)據(jù)構(gòu)建是MiroMind-M1成功的關(guān)鍵。研究團(tuán)隊(duì)從四大來源收集了約100萬候選問題：NuminaMath-1.5（896K問題）、Skywork-OR1-RL-Data（105K數(shù)學(xué)子集）、Big-Math（50K問題）以及DAPO-Math-17K（17K高質(zhì)量數(shù)學(xué)問題）。經(jīng)過嚴(yán)格的四輪篩選后，僅保留了62K個(gè)問題，過濾率高達(dá)94%。

研究團(tuán)隊(duì)發(fā)現(xiàn)，并非所有問題都適合RLVR訓(xùn)練：某些問題（如需要長篇自由形式答案或詳細(xì)數(shù)學(xué)證明的問題）難以通過基于規(guī)則的驗(yàn)證器準(zhǔn)確評估；另一些問題則存在模糊或不完整的答案格式，可能導(dǎo)致不一致的標(biāo)簽。這些問題會(huì)引入沖突信號，阻礙模型學(xué)習(xí)，甚至導(dǎo)致訓(xùn)練崩潰。

過濾策略：格式、難度、驗(yàn)證答案長度等關(guān)鍵因素

MiroMind團(tuán)隊(duì)設(shè)計(jì)了多維度的過濾策略：

1. 格式過濾：移除非可驗(yàn)證問題（如證明題）并限制為英語問題

2. 重復(fù)過濾：包括精確重復(fù)和基于10-gram相似度閾值的近似重復(fù)

3. 難度過濾：確保問題既不過于簡單也不過于困難

在強(qiáng)化學(xué)習(xí)算法選擇上，MiroMind團(tuán)隊(duì)評估了PPO、GRPO和DAPO等主流方法。PPO雖然穩(wěn)定，但需要價(jià)值模型和GAE（Gated Advantage Estimator）估計(jì)器，計(jì)算成本高；GRPO通過消除critic和GAE降低了內(nèi)存和計(jì)算成本，但省略KL損失可能導(dǎo)致熵崩潰和訓(xùn)練不穩(wěn)定；DAPO通過解耦ε參數(shù)和動(dòng)態(tài)采樣策略優(yōu)化了這些問題，但對長度偏差的處理仍需改進(jìn)。

這些分析為MiroMind團(tuán)隊(duì)開發(fā)更高效的RL算法奠定了基礎(chǔ)，直接促成了CAMPO算法的誕生。

核心創(chuàng)新：上下文感知多階段策略優(yōu)化(CAMPO)

CAMPO算法的理論基礎(chǔ)與設(shè)計(jì)動(dòng)機(jī)

CAMPO算法的提出源于RL訓(xùn)練中的三大關(guān)鍵挑戰(zhàn)：長rollout帶來的高計(jì)算成本、訓(xùn)練過程的不穩(wěn)定性以及推理過程中的冗余問題。傳統(tǒng)RLVR方法往往忽視這些挑戰(zhàn)，導(dǎo)致訓(xùn)練效率低下、性能波動(dòng)大以及生成的推理過程冗長低效。

CAMPO算法的核心創(chuàng)新在于整合了多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器，通過上下文感知的學(xué)習(xí)策略促進(jìn)更有效的推理。訓(xùn)練過程在響應(yīng)長度達(dá)到飽和時(shí)進(jìn)入下一階段，即模型在當(dāng)前長度限制下已能生成足夠長的推理鏈。

效率感知的多階段訓(xùn)練策略

多階段訓(xùn)練策略是CAMPO的核心組件之一。該策略從較短的響應(yīng)限制開始（如16K tokens），隨著訓(xùn)練的深入逐步放寬長度限制（如32K tokens）。

這種設(shè)計(jì)有其深刻的理論依據(jù)：較短的響應(yīng)限制有助于約束模型的輸出空間，減少rollout長度并加速反饋循環(huán)。同時(shí)，超過當(dāng)前最大長度的響應(yīng)被視為失敗，提供了明確的訓(xùn)練信號，促使模型生成更簡潔、更精煉的輸出。

MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化趨勢，展示了長度限制對模型行為的塑造作用

上圖展示了MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化：在16K限制階段，響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定；當(dāng)限制提升至32K后，平均響應(yīng)長度顯著增加，超過13K tokens。

這一現(xiàn)象揭示了長度限制對模型行為的塑造作用：初始約束迫使模型在有限預(yù)算內(nèi)運(yùn)作，幫助建立強(qiáng)大的推理基礎(chǔ)；這種基礎(chǔ)隨后支持在更長序列范圍內(nèi)的更穩(wěn)定、更有效的優(yōu)化。

重復(fù)懲罰機(jī)制：減少冗余推理

重復(fù)懲罰機(jī)制是CAMPO算法的另一關(guān)鍵組件，目的是減少推理過程中的冗余和循環(huán)。該機(jī)制通過計(jì)算重復(fù)分?jǐn)?shù)f(o_i)（檢測到的重復(fù)循環(huán)占整個(gè)序列的比例）來評估生成內(nèi)容中的重復(fù)程度。重要的是，重復(fù)發(fā)生越早，懲罰越重，因?yàn)樵缙诘闹貜?fù)對推理效率的影響更大。

重復(fù)懲罰機(jī)制使訓(xùn)練過程更加穩(wěn)定，避免了模型陷入冗余循環(huán)

上圖展示了重復(fù)懲罰機(jī)制對訓(xùn)練穩(wěn)定性的影響。在AIME24和AIME25基準(zhǔn)測試中，引入重復(fù)懲罰的模型表現(xiàn)出更穩(wěn)定的訓(xùn)練軌跡，而沒有重復(fù)懲罰的模型則出現(xiàn)了明顯的性能波動(dòng)。

這一機(jī)制有效減少了模型在推理過程中重復(fù)檢查相同條件或重新表述相同概念的行為。在幾何問題案例中，重復(fù)懲罰使模型的推理路徑減少了約18%的token數(shù)，同時(shí)保持了相同的準(zhǔn)確率。更重要的是，去除冗余后，推理邏輯更加清晰連貫，減少了因重復(fù)導(dǎo)致的邏輯混淆風(fēng)險(xiǎn)。

精確驗(yàn)證器：提升推理效率的關(guān)鍵

MiroMind團(tuán)隊(duì)開發(fā)了改進(jìn)的級聯(lián)驗(yàn)證器（cascade verifier），能夠處理多種答案格式，包括數(shù)字、分?jǐn)?shù)、表達(dá)式等。這種設(shè)計(jì)確保了即使面對多樣化的答案格式，驗(yàn)證器也能提供準(zhǔn)確的反饋信號。

改進(jìn)的驗(yàn)證器通過提供更可靠的反饋，幫助模型學(xué)習(xí)生成簡潔且邏輯嚴(yán)謹(jǐn)?shù)拇鸢浮Ｏ聢D進(jìn)一步揭示了驗(yàn)證器改進(jìn)對推理效率的積極影響：在正確響應(yīng)的條件下，MiroMind-M1-RL-32B生成的平均token數(shù)顯著低于Skywork-OR1-32B-Preview。

MiroMind-M1-RL-32B在正確響應(yīng)上的平均Token數(shù)顯著低于Skywork-OR1-32B-Preview，證明了精確驗(yàn)證器對推理效率的積極影響

機(jī)制分析顯示，當(dāng)驗(yàn)證器能夠準(zhǔn)確識別正確答案時(shí)，模型無需通過冗長的推理來"猜測"驗(yàn)證器的偏好，而是可以直接聚焦于最簡潔有效的解決方案。這種"獎(jiǎng)勵(lì)-行為"的正向循環(huán)使模型在保持高準(zhǔn)確率的同時(shí)，顯著降低了推理成本，實(shí)現(xiàn)了性能與效率的雙贏。

CAMPO算法流程詳解

CAMPO算法的完整流程如Algorithm 1所示，包含以下關(guān)鍵步驟：

1. 階段初始化：設(shè)置當(dāng)前階段的最大上下文長度，從較短限制開始

2. 動(dòng)態(tài)clipping ratio設(shè)置：從和中采樣和，實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布

3. 批量采樣：從任務(wù)提示集合中采樣一批問題

4. 策略更新：使用舊策略模型生成多個(gè)響應(yīng)，計(jì)算獎(jiǎng)勵(lì)和重復(fù)分?jǐn)?shù)

5. 難度過濾：排除完全正確或完全錯(cuò)誤的批次（）

6. 策略優(yōu)化：應(yīng)用PPO目標(biāo)函數(shù)進(jìn)行參數(shù)更新

上下文感知多階段策略優(yōu)化(CAMPO)算法的詳細(xì)流程，展示了多階段訓(xùn)練和重復(fù)懲罰機(jī)制的實(shí)現(xiàn)

這一算法設(shè)計(jì)通過多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器的協(xié)同作用，有效解決了RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題，為MiroMind-M1的卓越性能奠定了基礎(chǔ)。

動(dòng)態(tài)clipping ratio：解決訓(xùn)練穩(wěn)定性問題

CAMPO算法還引入了動(dòng)態(tài)clipping ratio設(shè)置：從φlow(s)和φhigh(s)中采樣εlow和εhigh，實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布。DAPO將ε解耦為εlow和εhigh，以防止熵崩潰，強(qiáng)制多樣化的rollout以獲得穩(wěn)定的梯度，并對所有token的損失進(jìn)行平均以消除長度偏差。

這種動(dòng)態(tài)調(diào)整機(jī)制能夠適應(yīng)不同訓(xùn)練階段的需求，在早期訓(xùn)練階段允許更大的策略變化，在后期訓(xùn)練階段則更加穩(wěn)定，從而提高了整體訓(xùn)練的穩(wěn)定性和收斂速度。

MiroMind-M1-RL系列模型的性能表現(xiàn)

MiroMind-M1-SFT-7B 的 SFT 與 RL 的性能提升

不同SFT模型在AIME24、AIME25和MATH500基準(zhǔn)測試上的性能對比，MiroMind-M1-SFT-7B全面領(lǐng)先

MiroMind-M1-SFT-7B在數(shù)學(xué)推理基準(zhǔn)測試上取得了顯著成果：AIME24得分為60.4，AIME25得分為45.0，MATH500得分為94.6。經(jīng)過RLVR階段的優(yōu)化，MiroMind-M1-RL-7B在所有三個(gè)基準(zhǔn)測試上實(shí)現(xiàn)了顯著提升：AIME24達(dá)到73.4，AIME25達(dá)到57.8，MATH500達(dá)到96.7。

MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡，展示了RL過程帶來的顯著提升

上圖展示了MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡。RL過程帶來了AIME24和AIME25上超過15%的準(zhǔn)確率提升，這一提升在數(shù)學(xué)推理任務(wù)中是相當(dāng)顯著的。

這一結(jié)果不僅超越了所有基于Qwen2.5系列的7B模型，還超過了Skywork-OR1-7B（72.2, 54.6）的性能。特別值得注意的是，MiroMind-M1-RL-7B的AIME24得分比DeepSeek-R1-Distill-Qwen-7B（55.5）高出17.9個(gè)百分點(diǎn)，展示了RLVR階段的巨大潛力。

MiroMind-M1-RL-32B的性能表現(xiàn)

對于32B規(guī)模的模型，MiroMind-M1-RL-32B同樣表現(xiàn)出色：AIME24得分為77.5，AIME25得分為65.6，MATH500得分為96.4。與初始檢查點(diǎn)DeepSeek-R1-Distill-Qwen-32B（70.8, 52.1, 95.8）相比，MiroMind-M1-RL-32B在AIME24上提升了6.7個(gè)百分點(diǎn)，在AIME25上提升了13.5個(gè)百分點(diǎn)，驗(yàn)證了CAMPO算法在更大規(guī)模模型上的有效性。

MiroMind-M1-RL-32B與其他32B模型在數(shù)學(xué)推理基準(zhǔn)上的性能對比，展示了CAMPO算法的有效性

盡管MiroMind-M1-RL-32B在AIME25上略遜于Skywork-OR1-32B-Preview（65.6 vs 68.2），但其token效率更高，在較短的響應(yīng)長度下表現(xiàn)更佳。這一權(quán)衡表明，MiroMind-M1-RL-32B更適合需要高效推理的實(shí)際應(yīng)用場景，并不只是追求絕對性能。

Token效率分析：MiroMind-M1-RL-32B為何能用更少的token完成推理

Token效率是MiroMind-M1系列模型的核心優(yōu)勢之一。

MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview在AIME24和AIME25基準(zhǔn)測試上，不同最大響應(yīng)長度下的性能對比

上圖清晰展示了在不同最大響應(yīng)長度下，MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview的性能對比。在AIME24上，MiroMind-M1-RL-32B在4K、8K、16K長度下分別領(lǐng)先2.6、7.5和8.7個(gè)百分點(diǎn)；在AIME25上，分別領(lǐng)先3.7、4.8和5.8個(gè)百分點(diǎn)。

這一優(yōu)勢在較短的響應(yīng)長度下尤為明顯，表明MiroMind模型能夠在更少的計(jì)算資源下實(shí)現(xiàn)更高效的推理。這一優(yōu)勢源于CAMPO算法的三大關(guān)鍵組件：

1. 重復(fù)懲罰機(jī)制：有效減少了冗余推理步驟

2. 級聯(lián)驗(yàn)證器：引導(dǎo)模型生成更簡潔有效的推理過程

3. 多階段訓(xùn)練策略：初始階段的長度限制促使模型在有限預(yù)算內(nèi)建立高效推理習(xí)慣

Token效率的實(shí)際意義重大：在相同計(jì)算資源下，高效模型可以處理更多問題；在相同問題上，高效模型能提供更快的響應(yīng)速度；在資源受限場景下，高效模型更容易部署和應(yīng)用。這些優(yōu)勢使MiroMind-M1系列模型在實(shí)際應(yīng)用中具有顯著競爭力。

評估穩(wěn)定性問題：AIME基準(zhǔn)測試的波動(dòng)性深度分析

AIME基準(zhǔn)測試的評估穩(wěn)定性問題值得關(guān)注。由于AIME24和AIME25僅包含30個(gè)問題，單個(gè)問題的正確與否可能導(dǎo)致性能波動(dòng)超過3.3個(gè)百分點(diǎn)；1-2個(gè)問題的差異甚至?xí)?dǎo)致超過5%的性能波動(dòng)。

64次重復(fù)評估的結(jié)果分布，顯示即使采用avg@k方法，AIME基準(zhǔn)測試仍存在顯著波動(dòng)

為應(yīng)對這一問題，MiroMind團(tuán)隊(duì)采用avg@k評估策略，在AIME24和AIME25上設(shè)置k=64，在MATH500上設(shè)置k=5。選擇k=64用于AIME評估是基于統(tǒng)計(jì)考慮：通過64次重復(fù)評估，可以將標(biāo)準(zhǔn)差降低到可接受水平(約1.25%)。

這一發(fā)現(xiàn)揭示了當(dāng)前數(shù)學(xué)推理基準(zhǔn)測試的固有限制：小樣本量導(dǎo)致的高方差使得精確比較變得困難。盡管增加評估次數(shù)可以提高結(jié)果的穩(wěn)健性，但這會(huì)顯著增加基準(zhǔn)測試的時(shí)間成本。

典型案例：MiroMind-M1的推理效率展示

Token效率對比案例

選取AIME24中的一個(gè)典型組合數(shù)學(xué)問題進(jìn)行分析：問題要求計(jì)算特定條件下排列組合的數(shù)量。MiroMind-M1-RL-32B生成的解決方案包含約7,200 tokens，而Skywork-OR1-32B-Preview生成的解決方案則超過10,500 tokens。

關(guān)鍵區(qū)別在于，MiroMind模型直接應(yīng)用了最相關(guān)的組合公式，而Skywork模型則進(jìn)行了更廣泛的公式推導(dǎo)和驗(yàn)證。具體而言，MiroMind模型識別出問題可以簡化為"從n個(gè)元素中選擇k個(gè)的組合數(shù)"，直接應(yīng)用公式并代入數(shù)值計(jì)算。相比之下，Skywork模型從基本原理出發(fā)，逐步推導(dǎo)組合公式，包括階乘定義、排列與組合的關(guān)系等，雖然邏輯正確但過程冗長。

這一案例清晰展示了MiroMind模型如何通過更聚焦的推理路徑實(shí)現(xiàn)更高的令牌效率。

重復(fù)懲罰機(jī)制的實(shí)際效果

在另一個(gè)幾何問題中，重復(fù)懲罰機(jī)制的效果尤為明顯。問題要求計(jì)算復(fù)雜圖形的面積。沒有重復(fù)懲罰的模型傾向于重復(fù)檢查同一條件或重新表述相同概念，例如多次驗(yàn)證"由于三角形ABC是等腰的，所以..."，導(dǎo)致推理路徑膨脹。

而應(yīng)用重復(fù)懲罰后，模型能夠識別并避免這種冗余行為，直接進(jìn)入下一步推理。值得注意的是，即使在32K階段，MiroMind模型的推理路徑仍比同類模型短約25%，這歸功于前期建立的高效推理習(xí)慣。

這一案例證明，重復(fù)懲罰不僅提高了效率，還增強(qiáng)了推理質(zhì)量。

多階段訓(xùn)練的漸進(jìn)效果分析

分析一個(gè)需要多步變換的代數(shù)問題，可以清晰看到多階段訓(xùn)練的漸進(jìn)效果。在16K階段，模型能夠解決基礎(chǔ)版本的問題，但對更復(fù)雜的變體表現(xiàn)不佳；進(jìn)入32K階段后，模型成功處理了包含額外約束條件的復(fù)雜版本。關(guān)鍵區(qū)別在于推理深度：16K階段的模型傾向于使用已知公式直接求解，而32K階段的模型則能夠進(jìn)行更深入的代數(shù)變換，包括引入輔助變量和中間步驟。

然而，即使在32K階段，MiroMind模型的推理路徑仍比同類模型短約25%，這歸功于前期建立的高效推理習(xí)慣。這一案例說明，多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍，還保持了推理效率。

這一案例說明，多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍，還保持了推理效率。

開源貢獻(xiàn)與復(fù)現(xiàn)指南

完整開源棧：模型、數(shù)據(jù)集與訓(xùn)練配置

MiroMind-M1項(xiàng)目的核心價(jià)值在于其全面的開源承諾。與許多聲稱"開源"但缺乏關(guān)鍵資源的項(xiàng)目不同，MiroMind團(tuán)隊(duì)完整公開了以下資源：（見文末參考）

模型系列：包括MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B
數(shù)據(jù)集：MiroMind-M1-SFT-719K和MiroMind-M1-RL-62K
訓(xùn)練與評估配置：完整的訓(xùn)練腳本、超參數(shù)設(shè)置和評估協(xié)議

這種全棧開源策略為研究者提供了真正可復(fù)現(xiàn)的研究基礎(chǔ)，使他們能夠從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到評估的完整流程進(jìn)行驗(yàn)證和改進(jìn)。

SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議

使用建議：

SFT階段：推薦進(jìn)行3輪訓(xùn)練，采用峰值學(xué)習(xí)率5.0×10^-5，余弦學(xué)習(xí)率調(diào)度器，10%的預(yù)熱步長比例，以及128的批次大小
RL階段：建議采用CAMPO算法進(jìn)行訓(xùn)練，包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制

SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議

MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示，該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡，平均每個(gè)問題有1.75條正確推理路徑。軌跡長度分布分析表明，該數(shù)據(jù)集特別強(qiáng)調(diào)長軌跡樣本，這對于訓(xùn)練模型處理復(fù)雜推理任務(wù)至關(guān)重要。

使用建議方面，SFT階段推薦進(jìn)行3輪訓(xùn)練，采用峰值學(xué)習(xí)率5.0×10^-5，余弦學(xué)習(xí)率調(diào)度器，10%的預(yù)熱步長比例，以及128的批次大小。為支持復(fù)雜推理的長生成，模型的最大位置嵌入被擴(kuò)展至32,768，使用線性RoPE縮放。訓(xùn)練策略上，推薦采用無打包（no-packing）方法，或采用前兩輪打包、最后一輪無打包的混合策略以平衡效率與性能。

MiroMind-M1-RL-62K數(shù)據(jù)集則專注于挑戰(zhàn)性和可驗(yàn)證性。該數(shù)據(jù)集經(jīng)過嚴(yán)格篩選，確保每個(gè)問題既非過于簡單也非無法解決，且答案格式適合規(guī)則驗(yàn)證。使用時(shí)，建議采用CAMPO算法進(jìn)行訓(xùn)練，包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制。強(qiáng)化學(xué)習(xí)階段通常需要更高的計(jì)算資源，但能顯著提升模型的推理效率和準(zhǔn)確性。

訓(xùn)練資源需求與最佳實(shí)踐

SFT階段的資源需求相對可控：訓(xùn)練7B模型通常需要單節(jié)點(diǎn)8×A100 GPU，約3天時(shí)間完成3輪訓(xùn)練。關(guān)鍵配置包括：無打包訓(xùn)練策略、32,768的最大位置嵌入、5.0×10^-5的學(xué)習(xí)率和128的批次大小。

RLVR階段的資源需求則顯著增加：7B模型需要64×A800 GPU（8個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)8 GPU），32B模型需要16×8 A100 GPU。訓(xùn)練過程通常分為多個(gè)階段，每個(gè)階段有不同的最大響應(yīng)長度限制。對于7B模型，推薦采用兩階段策略：第一階段限制為16K tokens，訓(xùn)練約1200步；第二階段擴(kuò)展至32K tokens，繼續(xù)訓(xùn)練。對于32B模型，則推薦三階段策略，逐步將最大響應(yīng)長度從16K擴(kuò)展至32K再到49K。

特別是重復(fù)懲罰機(jī)制，需要精確計(jì)算重復(fù)分?jǐn)?shù)并正確整合到獎(jiǎng)勵(lì)信號中。MiroMind團(tuán)隊(duì)建議使用他們開源的實(shí)現(xiàn)代碼，以確保正確應(yīng)用這一關(guān)鍵組件。

RL訓(xùn)練效率瓶頸深度分析

rollout階段：RL訓(xùn)練的主要瓶頸

實(shí)驗(yàn)數(shù)據(jù)表明，rollout階段占據(jù)了RL訓(xùn)練90%以上的計(jì)算時(shí)間，是RL訓(xùn)練的主要瓶頸。在rollout階段，模型需要為每個(gè)輸入生成完整響應(yīng)以計(jì)算獎(jiǎng)勵(lì)，這一過程高度依賴自回歸生成，計(jì)算成本隨序列長度線性增長。相比之下，參數(shù)更新階段的計(jì)算相對高效，因?yàn)榭梢猿浞掷肎PU的并行計(jì)算能力。

同步batch處理機(jī)制進(jìn)一步加劇了這一問題：在標(biāo)準(zhǔn)實(shí)現(xiàn)中，整個(gè)batch必須等待最長的生成完成才能進(jìn)行下一步處理。這意味著即使batch中只有一個(gè)樣本生成異常長的響應(yīng)，也會(huì)拖慢整個(gè)batch的處理速度，導(dǎo)致GPU大量空閑。這種現(xiàn)象在數(shù)學(xué)推理任務(wù)中尤為明顯，因?yàn)閱栴}難度差異大，生成長度分布廣泛。

長尾問題：訓(xùn)練效率的隱形殺手

長尾問題（即生成極長響應(yīng)的樣本）對訓(xùn)練效率有顯著影響。這些長尾問題雖然數(shù)量不多，但由于同步處理機(jī)制，它們顯著拖慢了整個(gè)訓(xùn)練過程。具體影響包括：GPU空閑時(shí)間增加，訓(xùn)練效率降低；批次處理時(shí)間不穩(wěn)定，難以預(yù)測訓(xùn)練完成時(shí)間；資源利用率低下，增加了訓(xùn)練成本。

MiroMind團(tuán)隊(duì)觀察到，哪怕只是少量樣本生成了極長的序列，也會(huì)嚴(yán)重拖慢整個(gè)批次的處理速度，這使得長尾問題成為RL訓(xùn)練中的關(guān)鍵效率瓶頸。

多階段訓(xùn)練對效率瓶頸的緩解作用

MiroMind團(tuán)隊(duì)發(fā)現(xiàn)，多階段訓(xùn)練策略部分緩解了這一問題。通過從較短的響應(yīng)限制開始訓(xùn)練，模型在早期階段就能建立高效的推理習(xí)慣，減少了長響應(yīng)的可能性。此外，較短的初始響應(yīng)限制降低了每個(gè)樣本的平均生成長度，從而減少了rollout階段的計(jì)算負(fù)擔(dān)。

如下圖顯示，在16K限制階段，模型的響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定，這顯著降低了rollout階段的計(jì)算成本。

效率優(yōu)化方向

針對RL訓(xùn)練效率瓶頸，MiroMind團(tuán)隊(duì)指出了幾個(gè)有前景的優(yōu)化方向：

1. 解耦rollout與參數(shù)更新（detached rollout）：減少GPU空閑時(shí)間，通過異步方式處理rollout和參數(shù)更新

2. 流式負(fù)載均衡架構(gòu)：動(dòng)態(tài)分配計(jì)算資源，確保GPU始終處于高效工作狀態(tài)

3. 長尾問題的主動(dòng)識別與處理：預(yù)測生成長度并動(dòng)態(tài)調(diào)整批次組成

這些優(yōu)化方向已在相關(guān)研究中得到初步驗(yàn)證。例如，Ji等人提出的流式負(fù)載均衡架構(gòu)顯著減少了GPU空閑時(shí)間，提高了整體訓(xùn)練效率。

局限性

模型在復(fù)雜問題上的局限性

盡管MiroMind-M1在多個(gè)基準(zhǔn)測試上表現(xiàn)出色，但在處理極端復(fù)雜的數(shù)學(xué)問題時(shí)仍存在局限。例如，49K長度限制仍不足以解決最復(fù)雜的數(shù)學(xué)問題，特別是在需要超長推理鏈或詳細(xì)證明的場景中。

值得注意的是，Skywork-OR1-32B-Preview在AIME25上表現(xiàn)更好，部分原因可能是其訓(xùn)練數(shù)據(jù)包含了代碼和數(shù)學(xué)的混合：Skywork-OR1-32B-Preview 得益于數(shù)學(xué)與代碼數(shù)據(jù)的多元混合；其中加入代碼，多半讓模型在符號推理上更強(qiáng)。

這表明，代碼訓(xùn)練數(shù)據(jù)通過強(qiáng)化模型對符號操作和結(jié)構(gòu)化邏輯的理解，間接提升了其數(shù)學(xué)推理能力。

RL訓(xùn)練效率瓶頸的系統(tǒng)性解決方案

rollout階段是RL訓(xùn)練的主要瓶頸，需要系統(tǒng)性解決方案。未來工作可能包括：開發(fā)異步rollout機(jī)制，設(shè)計(jì)智能長度預(yù)測模型，實(shí)現(xiàn)更精細(xì)的資源調(diào)度策略。MiroMind團(tuán)隊(duì)特別指出，detached rollout和流式負(fù)載均衡架構(gòu)是兩個(gè)有前景的方向。

多領(lǐng)域推理能力的擴(kuò)展可能性

MiroMind-M1目前專注于數(shù)學(xué)推理，但其方法論具有擴(kuò)展到其他領(lǐng)域的潛力。未來工作可以探索將MiroMind框架擴(kuò)展到科學(xué)、邏輯和代碼生成等領(lǐng)域。通過構(gòu)建多領(lǐng)域驗(yàn)證數(shù)據(jù)集，并設(shè)計(jì)領(lǐng)域自適應(yīng)的驗(yàn)證器，模型可能發(fā)展出更通用的推理能力。

總結(jié)

核心貢獻(xiàn)

MiroMind-M1項(xiàng)目的核心貢獻(xiàn)在于：

1. 全棧開源：完整公開模型、數(shù)據(jù)集和訓(xùn)練配置，為社區(qū)提供真正可復(fù)現(xiàn)的研究基礎(chǔ)

2. CAMPO算法：通過整合多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器，有效解決RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題

3. Token效率突破：在保持高性能的同時(shí)顯著提升推理效率，證明效率與性能可以兼得

這些貢獻(xiàn)不僅推動(dòng)了數(shù)學(xué)推理能力的提升，還為更廣泛的推理語言模型研究提供了方法論指導(dǎo)。

對開源RLM的關(guān)鍵啟示

MiroMind-M1項(xiàng)目為開源RLM社區(qū)提供了三點(diǎn)重要啟示：

1. 數(shù)據(jù)質(zhì)量與訓(xùn)練策略同等重要：719K高質(zhì)量SFT數(shù)據(jù)超越了更大規(guī)模但質(zhì)量較低的數(shù)據(jù)集

2. 效率與性能需要平衡考慮：在實(shí)際應(yīng)用中，高效的推理往往比絕對性能更重要

3. 嚴(yán)格的驗(yàn)證機(jī)制是RLVR成功的關(guān)鍵：準(zhǔn)確的獎(jiǎng)勵(lì)信號直接決定了模型能否學(xué)習(xí)有效的推理模式

這些啟示挑戰(zhàn)了當(dāng)前RLM研究中的一些常見假設(shè)，如"數(shù)據(jù)越多越好"或"響應(yīng)越長越好"。

實(shí)操建議

基于MiroMind-M1的研究成果，有以下具體建議：

1. 評估方法：在小樣本基準(zhǔn)測試（如AIME）上進(jìn)行多次評估（如k=64），并報(bào)告標(biāo)準(zhǔn)差，避免僅憑單次評估結(jié)果做出結(jié)論

2. 訓(xùn)練策略：

采用多階段訓(xùn)練策略，從較短的響應(yīng)限制開始，逐步放寬長度限制
實(shí)施重復(fù)懲罰機(jī)制，減少推理過程中的冗余
使用精確的級聯(lián)驗(yàn)證器，提供可靠的獎(jiǎng)勵(lì)信號

3. 數(shù)據(jù)構(gòu)建：

優(yōu)先選擇長軌跡樣本，提升模型處理復(fù)雜問題的能力
嚴(yán)格進(jìn)行數(shù)據(jù)去重和去污染，確保訓(xùn)練數(shù)據(jù)質(zhì)量
采用多層驗(yàn)證機(jī)制，確保思維鏈軌跡的準(zhǔn)確性

效率優(yōu)化：

探索解耦rollout與參數(shù)更新的技術(shù)
實(shí)現(xiàn)流式負(fù)載均衡架構(gòu)，提高GPU利用率
開發(fā)長尾問題的主動(dòng)識別與處理機(jī)制

MiroMind-M1項(xiàng)目證明，開源社區(qū)完全有能力開發(fā)出與閉源模型相媲美甚至超越的推理語言模型。通過持續(xù)的協(xié)作和創(chuàng)新，開源RLM有望成為AI推理能力發(fā)展的主要驅(qū)動(dòng)力，為更廣泛的應(yīng)用場景提供強(qiáng)大支持。最后還是那句話，開源，是人類歷史上最偉大的社會(huì)創(chuàng)作活動(dòng)！另外，相關(guān)開源資源已文末參考資料中，歡迎查閱。此外，倉庫中，我特意制作了RL和DPO后模型的量化版本，歡迎取用。

責(zé)任編輯：龐桂玉來源：覺察流

CAMPO算法開源推理模型推理語言模型