精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MiroMind-M1:如何用CAMPO算法打造高效且可復(fù)現(xiàn)的全棧開源推理模型

人工智能
MiroMind-M1項(xiàng)目解決了開源推理模型領(lǐng)域的核心痛點(diǎn):數(shù)據(jù)不透明、訓(xùn)練不可復(fù)現(xiàn),真正實(shí)現(xiàn)了全棧開源。本文解析其創(chuàng)新的CAMPO算法,展示了如何在保持高性能的同時(shí)將推理效率提升25%。文末參考資料有開源模型,以及開源可復(fù)現(xiàn)過程的數(shù)據(jù)集和代碼。

大家好,我是肆〇柒。今天為大家介紹MiroMind-M1,這是一個(gè)開源的數(shù)學(xué)推理語言模型項(xiàng)目,它通過創(chuàng)新的"上下文感知多階段策略優(yōu)化"(CAMPO)算法,在保持高性能的同時(shí)顯著提升了推理效率。該項(xiàng)目解決了當(dāng)前推理語言模型(RLM)領(lǐng)域的主要痛點(diǎn):閉源模型主導(dǎo)市場導(dǎo)致研究不透明,以及開源項(xiàng)目缺乏完整可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)和配置。下面,一起來看看。

圖片

核心突破與價(jià)值

在眾多推理能力評估維度中,數(shù)學(xué)推理因其客觀可驗(yàn)證性成為評估模型推理能力的黃金標(biāo)準(zhǔn)。數(shù)學(xué)問題解決不僅要求精確的多步邏輯推導(dǎo),還涉及抽象思維能力,這些能力往往可以泛化到其他推理任務(wù)中。更重要的是,每個(gè)LLM生成的答案都可以通過規(guī)則驗(yàn)證器進(jìn)行嚴(yán)格評估,從而提供清晰的獎(jiǎng)勵(lì)信號,這使得數(shù)學(xué)推理成為基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards,RLVR)的理想測試場景。AIME24、AIME25和MATH500等高級基準(zhǔn)測試因其高難度和可控性,已成為評估RLM性能的核心指標(biāo)。

MiroMind-M1不僅在AIME24、AIME25和MATH500等基準(zhǔn)測試上達(dá)到或超越現(xiàn)有開源RLM的性能,還完整公開了模型、數(shù)據(jù)集和訓(xùn)練配置,為社區(qū)提供了一個(gè)可復(fù)現(xiàn)、可擴(kuò)展的推理語言模型開發(fā)框架,有力推動(dòng)RLM研究的透明化和協(xié)作化發(fā)展。

MiroMind-M1的核心價(jià)值有三點(diǎn):

1. 全棧開源:完整公開模型、訓(xùn)練數(shù)據(jù)(719K SFT數(shù)據(jù)集和62K RL數(shù)據(jù)集)和訓(xùn)練配置

2. CAMPO算法:創(chuàng)新性地整合多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器,解決RL訓(xùn)練中的效率與穩(wěn)定性問題

3. Token效率突破:在AIME24/25等數(shù)學(xué)推理基準(zhǔn)測試中,以更少的token消耗實(shí)現(xiàn)與競品模型相當(dāng)甚至更優(yōu)的性能

該項(xiàng)目基于Qwen-2.5架構(gòu),通過兩階段訓(xùn)練范式(監(jiān)督微調(diào)SFT和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)RLVR)構(gòu)建了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。實(shí)驗(yàn)證明,這些模型在數(shù)學(xué)推理任務(wù)上達(dá)到了開源領(lǐng)域的領(lǐng)先水平,且推理過程更加高效。

MiroMind-M1的技術(shù)架構(gòu)與創(chuàng)新

模型整體架構(gòu):Qwen-2.5基礎(chǔ)與兩階段訓(xùn)練范式

MiroMind-M1系列模型建立在Qwen-2.5架構(gòu)之上,采用兩階段訓(xùn)練范式:首先通過監(jiān)督微調(diào)(SFT)在高質(zhì)量思維鏈數(shù)據(jù)上進(jìn)行訓(xùn)練,然后通過基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)進(jìn)一步優(yōu)化推理性能與效率。

SFT階段為模型提供高質(zhì)量的推理基礎(chǔ),使模型學(xué)會(huì)模仿人類專家的思維過程;RLVR階段則在此基礎(chǔ)上通過獎(jiǎng)勵(lì)信號引導(dǎo)模型探索更有效、更穩(wěn)健的推理模式。MiroMind-M1針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估,形成了三個(gè)主要模型,滿足不同計(jì)算資源需求。

MiroMind-M1項(xiàng)目針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估,形成了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。

監(jiān)督微調(diào)(SFT)階段:數(shù)據(jù)構(gòu)建與訓(xùn)練策略

數(shù)據(jù)來源與質(zhì)量控制:719K數(shù)學(xué)推理問題的構(gòu)建過程

MiroMind-M1-SFT-7B的訓(xùn)練數(shù)據(jù)來源于四大公開數(shù)據(jù)源:OpenR1、OpenThoughts、Light-R1和Synthetic-1。這些數(shù)據(jù)源共同構(gòu)成了一個(gè)包含412K問題、719K驗(yàn)證過的思維鏈軌跡的高質(zhì)量數(shù)據(jù)集。其中,OpenR1提供了191K問題和418K推理軌跡,OpenThoughts貢獻(xiàn)了56K問題和56K軌跡,Light-R1提供了75K問題和76K軌跡,而Synthetic-1則貢獻(xiàn)了362K問題和638K軌跡(其中247K為數(shù)學(xué)相關(guān)軌跡)。

圖片

MiroMind-M1-SFT-719K數(shù)據(jù)集的詳細(xì)構(gòu)成,展示了各數(shù)據(jù)源的貢獻(xiàn)比例

數(shù)據(jù)質(zhì)量控制是SFT階段的關(guān)鍵環(huán)節(jié)。MiroMind團(tuán)隊(duì)采用了多層驗(yàn)證機(jī)制確保每條思維鏈軌跡的準(zhǔn)確性:首先通過MathVerify工具進(jìn)行規(guī)則驗(yàn)證,然后結(jié)合LLM裁判進(jìn)行二次驗(yàn)證。這種雙重驗(yàn)證策略有效過濾了錯(cuò)誤推理路徑,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。同一問題允許多個(gè)正確響應(yīng),這有助于模型學(xué)習(xí)多樣化的解題思路。

數(shù)據(jù)去重、去污染與驗(yàn)證流程

數(shù)據(jù)預(yù)處理過程中,MiroMind團(tuán)隊(duì)實(shí)施了嚴(yán)格的去重和去污染流程。通過計(jì)算N-gram重疊來識別并排除高度相似的樣本,有效減少了訓(xùn)練數(shù)據(jù)中的冗余。特別針對Math500、AIME24和AIME25等評估基準(zhǔn)進(jìn)行了N-gram重疊過濾,確保訓(xùn)練數(shù)據(jù)與評估數(shù)據(jù)之間無交叉污染。

訓(xùn)練策略優(yōu)化:無打包訓(xùn)練與長軌跡樣本選擇

在訓(xùn)練策略上,MiroMind團(tuán)隊(duì)發(fā)現(xiàn)無打包(no-packing)訓(xùn)練策略顯著優(yōu)于傳統(tǒng)的打包(packing)和整潔打包(neat-packing)策略。

如下表所示,在AIME24、AIME25和MATH500基準(zhǔn)測試上,no-packing策略分別達(dá)到38.12、29.37和90.40的得分,明顯優(yōu)于packing(35.41/26.66/89.06)和neat-packing(32.50/26.25/88.80)策略。

圖片

不同訓(xùn)練策略在數(shù)學(xué)推理基準(zhǔn)測試上的性能對比,no-packing策略顯著優(yōu)于其他方法

這一優(yōu)勢源于LlamaFactory實(shí)現(xiàn)中使用的knapsack算法可能違反訓(xùn)練中的i.i.d.假設(shè)(Independent and Identically Distributed,見下注解)。為平衡訓(xùn)練效率與性能,MiroMind團(tuán)隊(duì)提出了一種混合策略:前兩輪訓(xùn)練使用packing以提高效率,最后一輪切換到no-packing以提升性能。實(shí)驗(yàn)表明,這種策略在保持MATH500上90.4的高準(zhǔn)確率的同時(shí),顯著縮短了訓(xùn)練時(shí)間。

注:LlamaFactory框架在實(shí)現(xiàn)“打包”訓(xùn)練時(shí),使用了一種名為“knapsack”的算法來高效地填充數(shù)據(jù)。但這種算法可能會(huì)把不相關(guān)的樣本強(qiáng)行拼接在一起,導(dǎo)致模型誤以為這些樣本是有關(guān)聯(lián)的。這種人為制造的虛假聯(lián)系,破壞了“每個(gè)訓(xùn)練樣本都應(yīng)獨(dú)立”的基本原則,從而影響了模型的學(xué)習(xí)效果,使得“打包”策略的性能可能不如“無打包”策略

此外,研究發(fā)現(xiàn)長軌跡選擇策略優(yōu)于隨機(jī)選擇。在50K樣本規(guī)模下,長軌跡策略在AIME24上達(dá)到35.41分,比隨機(jī)策略的31.66分高出3.75分。

圖片

不同數(shù)據(jù)規(guī)模下長軌跡選擇與隨機(jī)選擇策略的性能對比,長軌跡選擇在所有指標(biāo)上均顯著優(yōu)于隨機(jī)選擇

這一現(xiàn)象的理論解釋是:長軌跡通常對應(yīng)更復(fù)雜的問題,能夠更好地訓(xùn)練模型處理AIME等挑戰(zhàn)性任務(wù)。復(fù)雜問題要求模型進(jìn)行更深入的邏輯推導(dǎo)和抽象思維,這正是高級推理能力的核心要素。因此,在數(shù)據(jù)篩選過程中優(yōu)先選擇長軌跡樣本,可以有效提升模型處理復(fù)雜推理任務(wù)的能力。

基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)階段

62K挑戰(zhàn)性問題的數(shù)據(jù)篩選過程

RLVR階段的數(shù)據(jù)構(gòu)建是MiroMind-M1成功的關(guān)鍵。研究團(tuán)隊(duì)從四大來源收集了約100萬候選問題:NuminaMath-1.5(896K問題)、Skywork-OR1-RL-Data(105K數(shù)學(xué)子集)、Big-Math(50K問題)以及DAPO-Math-17K(17K高質(zhì)量數(shù)學(xué)問題)。經(jīng)過嚴(yán)格的四輪篩選后,僅保留了62K個(gè)問題,過濾率高達(dá)94%。

研究團(tuán)隊(duì)發(fā)現(xiàn),并非所有問題都適合RLVR訓(xùn)練:某些問題(如需要長篇自由形式答案或詳細(xì)數(shù)學(xué)證明的問題)難以通過基于規(guī)則的驗(yàn)證器準(zhǔn)確評估;另一些問題則存在模糊或不完整的答案格式,可能導(dǎo)致不一致的標(biāo)簽。這些問題會(huì)引入沖突信號,阻礙模型學(xué)習(xí),甚至導(dǎo)致訓(xùn)練崩潰。

過濾策略:格式、難度、驗(yàn)證答案長度等關(guān)鍵因素

MiroMind團(tuán)隊(duì)設(shè)計(jì)了多維度的過濾策略:

1. 格式過濾:移除非可驗(yàn)證問題(如證明題)并限制為英語問題

2. 重復(fù)過濾:包括精確重復(fù)和基于10-gram相似度閾值的近似重復(fù)

3. 難度過濾:確保問題既不過于簡單也不過于困難

在強(qiáng)化學(xué)習(xí)算法選擇上,MiroMind團(tuán)隊(duì)評估了PPO、GRPO和DAPO等主流方法。PPO雖然穩(wěn)定,但需要價(jià)值模型和GAE(Gated Advantage Estimator)估計(jì)器,計(jì)算成本高;GRPO通過消除critic和GAE降低了內(nèi)存和計(jì)算成本,但省略KL損失可能導(dǎo)致熵崩潰和訓(xùn)練不穩(wěn)定;DAPO通過解耦ε參數(shù)和動(dòng)態(tài)采樣策略優(yōu)化了這些問題,但對長度偏差的處理仍需改進(jìn)。

這些分析為MiroMind團(tuán)隊(duì)開發(fā)更高效的RL算法奠定了基礎(chǔ),直接促成了CAMPO算法的誕生。

核心創(chuàng)新:上下文感知多階段策略優(yōu)化(CAMPO)

CAMPO算法的理論基礎(chǔ)與設(shè)計(jì)動(dòng)機(jī)

CAMPO算法的提出源于RL訓(xùn)練中的三大關(guān)鍵挑戰(zhàn):長rollout帶來的高計(jì)算成本、訓(xùn)練過程的不穩(wěn)定性以及推理過程中的冗余問題。傳統(tǒng)RLVR方法往往忽視這些挑戰(zhàn),導(dǎo)致訓(xùn)練效率低下、性能波動(dòng)大以及生成的推理過程冗長低效。

CAMPO算法的核心創(chuàng)新在于整合了多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器,通過上下文感知的學(xué)習(xí)策略促進(jìn)更有效的推理。訓(xùn)練過程在響應(yīng)長度達(dá)到飽和時(shí)進(jìn)入下一階段,即模型在當(dāng)前長度限制下已能生成足夠長的推理鏈。

效率感知的多階段訓(xùn)練策略

多階段訓(xùn)練策略是CAMPO的核心組件之一。該策略從較短的響應(yīng)限制開始(如16K tokens),隨著訓(xùn)練的深入逐步放寬長度限制(如32K tokens)。

這種設(shè)計(jì)有其深刻的理論依據(jù):較短的響應(yīng)限制有助于約束模型的輸出空間,減少rollout長度并加速反饋循環(huán)。同時(shí),超過當(dāng)前最大長度的響應(yīng)被視為失敗,提供了明確的訓(xùn)練信號,促使模型生成更簡潔、更精煉的輸出。

圖片

 MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化趨勢,展示了長度限制對模型行為的塑造作用

上圖展示了MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化:在16K限制階段,響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定;當(dāng)限制提升至32K后,平均響應(yīng)長度顯著增加,超過13K tokens。

這一現(xiàn)象揭示了長度限制對模型行為的塑造作用:初始約束迫使模型在有限預(yù)算內(nèi)運(yùn)作,幫助建立強(qiáng)大的推理基礎(chǔ);這種基礎(chǔ)隨后支持在更長序列范圍內(nèi)的更穩(wěn)定、更有效的優(yōu)化。

重復(fù)懲罰機(jī)制:減少冗余推理

重復(fù)懲罰機(jī)制是CAMPO算法的另一關(guān)鍵組件,目的是減少推理過程中的冗余和循環(huán)。該機(jī)制通過計(jì)算重復(fù)分?jǐn)?shù)f(o_i)(檢測到的重復(fù)循環(huán)占整個(gè)序列的比例)來評估生成內(nèi)容中的重復(fù)程度。重要的是,重復(fù)發(fā)生越早,懲罰越重,因?yàn)樵缙诘闹貜?fù)對推理效率的影響更大。

圖片

重復(fù)懲罰機(jī)制使訓(xùn)練過程更加穩(wěn)定,避免了模型陷入冗余循環(huán)

上圖展示了重復(fù)懲罰機(jī)制對訓(xùn)練穩(wěn)定性的影響。在AIME24和AIME25基準(zhǔn)測試中,引入重復(fù)懲罰的模型表現(xiàn)出更穩(wěn)定的訓(xùn)練軌跡,而沒有重復(fù)懲罰的模型則出現(xiàn)了明顯的性能波動(dòng)。

這一機(jī)制有效減少了模型在推理過程中重復(fù)檢查相同條件或重新表述相同概念的行為。在幾何問題案例中,重復(fù)懲罰使模型的推理路徑減少了約18%的token數(shù),同時(shí)保持了相同的準(zhǔn)確率。更重要的是,去除冗余后,推理邏輯更加清晰連貫,減少了因重復(fù)導(dǎo)致的邏輯混淆風(fēng)險(xiǎn)。

精確驗(yàn)證器:提升推理效率的關(guān)鍵

MiroMind團(tuán)隊(duì)開發(fā)了改進(jìn)的級聯(lián)驗(yàn)證器(cascade verifier),能夠處理多種答案格式,包括數(shù)字、分?jǐn)?shù)、表達(dá)式等。這種設(shè)計(jì)確保了即使面對多樣化的答案格式,驗(yàn)證器也能提供準(zhǔn)確的反饋信號。

改進(jìn)的驗(yàn)證器通過提供更可靠的反饋,幫助模型學(xué)習(xí)生成簡潔且邏輯嚴(yán)謹(jǐn)?shù)拇鸢浮O聢D進(jìn)一步揭示了驗(yàn)證器改進(jìn)對推理效率的積極影響:在正確響應(yīng)的條件下,MiroMind-M1-RL-32B生成的平均token數(shù)顯著低于Skywork-OR1-32B-Preview。

圖片

MiroMind-M1-RL-32B在正確響應(yīng)上的平均Token數(shù)顯著低于Skywork-OR1-32B-Preview,證明了精確驗(yàn)證器對推理效率的積極影響

機(jī)制分析顯示,當(dāng)驗(yàn)證器能夠準(zhǔn)確識別正確答案時(shí),模型無需通過冗長的推理來"猜測"驗(yàn)證器的偏好,而是可以直接聚焦于最簡潔有效的解決方案。這種"獎(jiǎng)勵(lì)-行為"的正向循環(huán)使模型在保持高準(zhǔn)確率的同時(shí),顯著降低了推理成本,實(shí)現(xiàn)了性能與效率的雙贏。

CAMPO算法流程詳解

CAMPO算法的完整流程如Algorithm 1所示,包含以下關(guān)鍵步驟:

1. 階段初始化:設(shè)置當(dāng)前階段的最大上下文長度,從較短限制開始

2. 動(dòng)態(tài)clipping ratio設(shè)置:從和中采樣和,實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布

3. 批量采樣:從任務(wù)提示集合中采樣一批問題

4. 策略更新:使用舊策略模型生成多個(gè)響應(yīng),計(jì)算獎(jiǎng)勵(lì)和重復(fù)分?jǐn)?shù)

5. 難度過濾:排除完全正確或完全錯(cuò)誤的批次()

6. 策略優(yōu)化:應(yīng)用PPO目標(biāo)函數(shù)進(jìn)行參數(shù)更新

圖片上下文感知多階段策略優(yōu)化(CAMPO)算法的詳細(xì)流程,展示了多階段訓(xùn)練和重復(fù)懲罰機(jī)制的實(shí)現(xiàn)

這一算法設(shè)計(jì)通過多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器的協(xié)同作用,有效解決了RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題,為MiroMind-M1的卓越性能奠定了基礎(chǔ)。

動(dòng)態(tài)clipping ratio:解決訓(xùn)練穩(wěn)定性問題

CAMPO算法還引入了動(dòng)態(tài)clipping ratio設(shè)置:從φlow(s)和φhigh(s)中采樣εlow和εhigh,實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布。DAPO將ε解耦為εlow和εhigh,以防止熵崩潰,強(qiáng)制多樣化的rollout以獲得穩(wěn)定的梯度,并對所有token的損失進(jìn)行平均以消除長度偏差。

這種動(dòng)態(tài)調(diào)整機(jī)制能夠適應(yīng)不同訓(xùn)練階段的需求,在早期訓(xùn)練階段允許更大的策略變化,在后期訓(xùn)練階段則更加穩(wěn)定,從而提高了整體訓(xùn)練的穩(wěn)定性和收斂速度。

MiroMind-M1-RL系列模型的性能表現(xiàn)

MiroMind-M1-SFT-7B 的 SFT 與 RL 的性能提升

圖片

不同SFT模型在AIME24、AIME25和MATH500基準(zhǔn)測試上的性能對比,MiroMind-M1-SFT-7B全面領(lǐng)先

MiroMind-M1-SFT-7B在數(shù)學(xué)推理基準(zhǔn)測試上取得了顯著成果:AIME24得分為60.4,AIME25得分為45.0,MATH500得分為94.6。經(jīng)過RLVR階段的優(yōu)化,MiroMind-M1-RL-7B在所有三個(gè)基準(zhǔn)測試上實(shí)現(xiàn)了顯著提升:AIME24達(dá)到73.4,AIME25達(dá)到57.8,MATH500達(dá)到96.7。

圖片

 MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡,展示了RL過程帶來的顯著提升

上圖展示了MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡。RL過程帶來了AIME24和AIME25上超過15%的準(zhǔn)確率提升,這一提升在數(shù)學(xué)推理任務(wù)中是相當(dāng)顯著的。

這一結(jié)果不僅超越了所有基于Qwen2.5系列的7B模型,還超過了Skywork-OR1-7B(72.2, 54.6)的性能。特別值得注意的是,MiroMind-M1-RL-7B的AIME24得分比DeepSeek-R1-Distill-Qwen-7B(55.5)高出17.9個(gè)百分點(diǎn),展示了RLVR階段的巨大潛力。

MiroMind-M1-RL-32B的性能表現(xiàn)

對于32B規(guī)模的模型,MiroMind-M1-RL-32B同樣表現(xiàn)出色:AIME24得分為77.5,AIME25得分為65.6,MATH500得分為96.4。與初始檢查點(diǎn)DeepSeek-R1-Distill-Qwen-32B(70.8, 52.1, 95.8)相比,MiroMind-M1-RL-32B在AIME24上提升了6.7個(gè)百分點(diǎn),在AIME25上提升了13.5個(gè)百分點(diǎn),驗(yàn)證了CAMPO算法在更大規(guī)模模型上的有效性。

圖片

MiroMind-M1-RL-32B與其他32B模型在數(shù)學(xué)推理基準(zhǔn)上的性能對比,展示了CAMPO算法的有效性

盡管MiroMind-M1-RL-32B在AIME25上略遜于Skywork-OR1-32B-Preview(65.6 vs 68.2),但其token效率更高,在較短的響應(yīng)長度下表現(xiàn)更佳。這一權(quán)衡表明,MiroMind-M1-RL-32B更適合需要高效推理的實(shí)際應(yīng)用場景,并不只是追求絕對性能。

Token效率分析:MiroMind-M1-RL-32B為何能用更少的token完成推理

Token效率是MiroMind-M1系列模型的核心優(yōu)勢之一。

圖片

 MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview在AIME24和AIME25基準(zhǔn)測試上,不同最大響應(yīng)長度下的性能對比

上圖清晰展示了在不同最大響應(yīng)長度下,MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview的性能對比。在AIME24上,MiroMind-M1-RL-32B在4K、8K、16K長度下分別領(lǐng)先2.6、7.5和8.7個(gè)百分點(diǎn);在AIME25上,分別領(lǐng)先3.7、4.8和5.8個(gè)百分點(diǎn)。

這一優(yōu)勢在較短的響應(yīng)長度下尤為明顯,表明MiroMind模型能夠在更少的計(jì)算資源下實(shí)現(xiàn)更高效的推理。這一優(yōu)勢源于CAMPO算法的三大關(guān)鍵組件:

1. 重復(fù)懲罰機(jī)制:有效減少了冗余推理步驟

2. 級聯(lián)驗(yàn)證器:引導(dǎo)模型生成更簡潔有效的推理過程

3. 多階段訓(xùn)練策略:初始階段的長度限制促使模型在有限預(yù)算內(nèi)建立高效推理習(xí)慣

Token效率的實(shí)際意義重大:在相同計(jì)算資源下,高效模型可以處理更多問題;在相同問題上,高效模型能提供更快的響應(yīng)速度;在資源受限場景下,高效模型更容易部署和應(yīng)用。這些優(yōu)勢使MiroMind-M1系列模型在實(shí)際應(yīng)用中具有顯著競爭力。

評估穩(wěn)定性問題:AIME基準(zhǔn)測試的波動(dòng)性深度分析

AIME基準(zhǔn)測試的評估穩(wěn)定性問題值得關(guān)注。由于AIME24和AIME25僅包含30個(gè)問題,單個(gè)問題的正確與否可能導(dǎo)致性能波動(dòng)超過3.3個(gè)百分點(diǎn);1-2個(gè)問題的差異甚至?xí)?dǎo)致超過5%的性能波動(dòng)。

圖片

 64次重復(fù)評估的結(jié)果分布,顯示即使采用avg@k方法,AIME基準(zhǔn)測試仍存在顯著波動(dòng)

為應(yīng)對這一問題,MiroMind團(tuán)隊(duì)采用avg@k評估策略,在AIME24和AIME25上設(shè)置k=64,在MATH500上設(shè)置k=5。選擇k=64用于AIME評估是基于統(tǒng)計(jì)考慮:通過64次重復(fù)評估,可以將標(biāo)準(zhǔn)差降低到可接受水平(約1.25%)。

這一發(fā)現(xiàn)揭示了當(dāng)前數(shù)學(xué)推理基準(zhǔn)測試的固有限制:小樣本量導(dǎo)致的高方差使得精確比較變得困難。盡管增加評估次數(shù)可以提高結(jié)果的穩(wěn)健性,但這會(huì)顯著增加基準(zhǔn)測試的時(shí)間成本。

典型案例:MiroMind-M1的推理效率展示

Token效率對比案例

選取AIME24中的一個(gè)典型組合數(shù)學(xué)問題進(jìn)行分析:問題要求計(jì)算特定條件下排列組合的數(shù)量。MiroMind-M1-RL-32B生成的解決方案包含約7,200 tokens,而Skywork-OR1-32B-Preview生成的解決方案則超過10,500 tokens。

關(guān)鍵區(qū)別在于,MiroMind模型直接應(yīng)用了最相關(guān)的組合公式,而Skywork模型則進(jìn)行了更廣泛的公式推導(dǎo)和驗(yàn)證。具體而言,MiroMind模型識別出問題可以簡化為"從n個(gè)元素中選擇k個(gè)的組合數(shù)",直接應(yīng)用公式并代入數(shù)值計(jì)算。相比之下,Skywork模型從基本原理出發(fā),逐步推導(dǎo)組合公式,包括階乘定義、排列與組合的關(guān)系等,雖然邏輯正確但過程冗長。

這一案例清晰展示了MiroMind模型如何通過更聚焦的推理路徑實(shí)現(xiàn)更高的令牌效率。

重復(fù)懲罰機(jī)制的實(shí)際效果

在另一個(gè)幾何問題中,重復(fù)懲罰機(jī)制的效果尤為明顯。問題要求計(jì)算復(fù)雜圖形的面積。沒有重復(fù)懲罰的模型傾向于重復(fù)檢查同一條件或重新表述相同概念,例如多次驗(yàn)證"由于三角形ABC是等腰的,所以...",導(dǎo)致推理路徑膨脹。

而應(yīng)用重復(fù)懲罰后,模型能夠識別并避免這種冗余行為,直接進(jìn)入下一步推理。值得注意的是,即使在32K階段,MiroMind模型的推理路徑仍比同類模型短約25%,這歸功于前期建立的高效推理習(xí)慣。

這一案例證明,重復(fù)懲罰不僅提高了效率,還增強(qiáng)了推理質(zhì)量。

多階段訓(xùn)練的漸進(jìn)效果分析

分析一個(gè)需要多步變換的代數(shù)問題,可以清晰看到多階段訓(xùn)練的漸進(jìn)效果。在16K階段,模型能夠解決基礎(chǔ)版本的問題,但對更復(fù)雜的變體表現(xiàn)不佳;進(jìn)入32K階段后,模型成功處理了包含額外約束條件的復(fù)雜版本。關(guān)鍵區(qū)別在于推理深度:16K階段的模型傾向于使用已知公式直接求解,而32K階段的模型則能夠進(jìn)行更深入的代數(shù)變換,包括引入輔助變量和中間步驟。

然而,即使在32K階段,MiroMind模型的推理路徑仍比同類模型短約25%,這歸功于前期建立的高效推理習(xí)慣。這一案例說明,多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍,還保持了推理效率。

這一案例說明,多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍,還保持了推理效率。

開源貢獻(xiàn)與復(fù)現(xiàn)指南

完整開源棧:模型、數(shù)據(jù)集與訓(xùn)練配置

MiroMind-M1項(xiàng)目的核心價(jià)值在于其全面的開源承諾。與許多聲稱"開源"但缺乏關(guān)鍵資源的項(xiàng)目不同,MiroMind團(tuán)隊(duì)完整公開了以下資源:(見文末參考)

  • 模型系列:包括MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B
  • 數(shù)據(jù)集:MiroMind-M1-SFT-719K和MiroMind-M1-RL-62K
  • 訓(xùn)練與評估配置:完整的訓(xùn)練腳本、超參數(shù)設(shè)置和評估協(xié)議

這種全棧開源策略為研究者提供了真正可復(fù)現(xiàn)的研究基礎(chǔ),使他們能夠從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到評估的完整流程進(jìn)行驗(yàn)證和改進(jìn)。

SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議

MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示,該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡,平均每個(gè)問題有1.75條正確推理路徑。

使用建議:

  • SFT階段:推薦進(jìn)行3輪訓(xùn)練,采用峰值學(xué)習(xí)率5.0×10^-5,余弦學(xué)習(xí)率調(diào)度器,10%的預(yù)熱步長比例,以及128的批次大小
  • RL階段:建議采用CAMPO算法進(jìn)行訓(xùn)練,包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制

SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議

MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示,該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡,平均每個(gè)問題有1.75條正確推理路徑。軌跡長度分布分析表明,該數(shù)據(jù)集特別強(qiáng)調(diào)長軌跡樣本,這對于訓(xùn)練模型處理復(fù)雜推理任務(wù)至關(guān)重要。

使用建議方面,SFT階段推薦進(jìn)行3輪訓(xùn)練,采用峰值學(xué)習(xí)率5.0×10^-5,余弦學(xué)習(xí)率調(diào)度器,10%的預(yù)熱步長比例,以及128的批次大小。為支持復(fù)雜推理的長生成,模型的最大位置嵌入被擴(kuò)展至32,768,使用線性RoPE縮放。訓(xùn)練策略上,推薦采用無打包(no-packing)方法,或采用前兩輪打包、最后一輪無打包的混合策略以平衡效率與性能。

MiroMind-M1-RL-62K數(shù)據(jù)集則專注于挑戰(zhàn)性和可驗(yàn)證性。該數(shù)據(jù)集經(jīng)過嚴(yán)格篩選,確保每個(gè)問題既非過于簡單也非無法解決,且答案格式適合規(guī)則驗(yàn)證。使用時(shí),建議采用CAMPO算法進(jìn)行訓(xùn)練,包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制。強(qiáng)化學(xué)習(xí)階段通常需要更高的計(jì)算資源,但能顯著提升模型的推理效率和準(zhǔn)確性。

訓(xùn)練資源需求與最佳實(shí)踐

SFT階段的資源需求相對可控:訓(xùn)練7B模型通常需要單節(jié)點(diǎn)8×A100 GPU,約3天時(shí)間完成3輪訓(xùn)練。關(guān)鍵配置包括:無打包訓(xùn)練策略、32,768的最大位置嵌入、5.0×10^-5的學(xué)習(xí)率和128的批次大小。

RLVR階段的資源需求則顯著增加:7B模型需要64×A800 GPU(8個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)8 GPU),32B模型需要16×8 A100 GPU。訓(xùn)練過程通常分為多個(gè)階段,每個(gè)階段有不同的最大響應(yīng)長度限制。對于7B模型,推薦采用兩階段策略:第一階段限制為16K tokens,訓(xùn)練約1200步;第二階段擴(kuò)展至32K tokens,繼續(xù)訓(xùn)練。對于32B模型,則推薦三階段策略,逐步將最大響應(yīng)長度從16K擴(kuò)展至32K再到49K。

特別是重復(fù)懲罰機(jī)制,需要精確計(jì)算重復(fù)分?jǐn)?shù)并正確整合到獎(jiǎng)勵(lì)信號中。MiroMind團(tuán)隊(duì)建議使用他們開源的實(shí)現(xiàn)代碼,以確保正確應(yīng)用這一關(guān)鍵組件。

RL訓(xùn)練效率瓶頸深度分析

rollout階段:RL訓(xùn)練的主要瓶頸

實(shí)驗(yàn)數(shù)據(jù)表明,rollout階段占據(jù)了RL訓(xùn)練90%以上的計(jì)算時(shí)間,是RL訓(xùn)練的主要瓶頸。在rollout階段,模型需要為每個(gè)輸入生成完整響應(yīng)以計(jì)算獎(jiǎng)勵(lì),這一過程高度依賴自回歸生成,計(jì)算成本隨序列長度線性增長。相比之下,參數(shù)更新階段的計(jì)算相對高效,因?yàn)榭梢猿浞掷肎PU的并行計(jì)算能力。

同步batch處理機(jī)制進(jìn)一步加劇了這一問題:在標(biāo)準(zhǔn)實(shí)現(xiàn)中,整個(gè)batch必須等待最長的生成完成才能進(jìn)行下一步處理。這意味著即使batch中只有一個(gè)樣本生成異常長的響應(yīng),也會(huì)拖慢整個(gè)batch的處理速度,導(dǎo)致GPU大量空閑。這種現(xiàn)象在數(shù)學(xué)推理任務(wù)中尤為明顯,因?yàn)閱栴}難度差異大,生成長度分布廣泛。

長尾問題:訓(xùn)練效率的隱形殺手

長尾問題(即生成極長響應(yīng)的樣本)對訓(xùn)練效率有顯著影響。這些長尾問題雖然數(shù)量不多,但由于同步處理機(jī)制,它們顯著拖慢了整個(gè)訓(xùn)練過程。具體影響包括:GPU空閑時(shí)間增加,訓(xùn)練效率降低;批次處理時(shí)間不穩(wěn)定,難以預(yù)測訓(xùn)練完成時(shí)間;資源利用率低下,增加了訓(xùn)練成本。

MiroMind團(tuán)隊(duì)觀察到,哪怕只是少量樣本生成了極長的序列,也會(huì)嚴(yán)重拖慢整個(gè)批次的處理速度,這使得長尾問題成為RL訓(xùn)練中的關(guān)鍵效率瓶頸。

多階段訓(xùn)練對效率瓶頸的緩解作用

MiroMind團(tuán)隊(duì)發(fā)現(xiàn),多階段訓(xùn)練策略部分緩解了這一問題。通過從較短的響應(yīng)限制開始訓(xùn)練,模型在早期階段就能建立高效的推理習(xí)慣,減少了長響應(yīng)的可能性。此外,較短的初始響應(yīng)限制降低了每個(gè)樣本的平均生成長度,從而減少了rollout階段的計(jì)算負(fù)擔(dān)。

如下圖顯示,在16K限制階段,模型的響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定,這顯著降低了rollout階段的計(jì)算成本。

圖片

效率優(yōu)化方向

針對RL訓(xùn)練效率瓶頸,MiroMind團(tuán)隊(duì)指出了幾個(gè)有前景的優(yōu)化方向:

1. 解耦rollout與參數(shù)更新(detached rollout):減少GPU空閑時(shí)間,通過異步方式處理rollout和參數(shù)更新

2. 流式負(fù)載均衡架構(gòu):動(dòng)態(tài)分配計(jì)算資源,確保GPU始終處于高效工作狀態(tài)

3. 長尾問題的主動(dòng)識別與處理:預(yù)測生成長度并動(dòng)態(tài)調(diào)整批次組成

這些優(yōu)化方向已在相關(guān)研究中得到初步驗(yàn)證。例如,Ji等人提出的流式負(fù)載均衡架構(gòu)顯著減少了GPU空閑時(shí)間,提高了整體訓(xùn)練效率。

局限性

模型在復(fù)雜問題上的局限性

盡管MiroMind-M1在多個(gè)基準(zhǔn)測試上表現(xiàn)出色,但在處理極端復(fù)雜的數(shù)學(xué)問題時(shí)仍存在局限。例如,49K長度限制仍不足以解決最復(fù)雜的數(shù)學(xué)問題,特別是在需要超長推理鏈或詳細(xì)證明的場景中。

值得注意的是,Skywork-OR1-32B-Preview在AIME25上表現(xiàn)更好,部分原因可能是其訓(xùn)練數(shù)據(jù)包含了代碼和數(shù)學(xué)的混合:Skywork-OR1-32B-Preview 得益于數(shù)學(xué)與代碼數(shù)據(jù)的多元混合;其中加入代碼,多半讓模型在符號推理上更強(qiáng)。

這表明,代碼訓(xùn)練數(shù)據(jù)通過強(qiáng)化模型對符號操作和結(jié)構(gòu)化邏輯的理解,間接提升了其數(shù)學(xué)推理能力。

RL訓(xùn)練效率瓶頸的系統(tǒng)性解決方案

rollout階段是RL訓(xùn)練的主要瓶頸,需要系統(tǒng)性解決方案。未來工作可能包括:開發(fā)異步rollout機(jī)制,設(shè)計(jì)智能長度預(yù)測模型,實(shí)現(xiàn)更精細(xì)的資源調(diào)度策略。MiroMind團(tuán)隊(duì)特別指出,detached rollout和流式負(fù)載均衡架構(gòu)是兩個(gè)有前景的方向。

多領(lǐng)域推理能力的擴(kuò)展可能性

MiroMind-M1目前專注于數(shù)學(xué)推理,但其方法論具有擴(kuò)展到其他領(lǐng)域的潛力。未來工作可以探索將MiroMind框架擴(kuò)展到科學(xué)、邏輯和代碼生成等領(lǐng)域。通過構(gòu)建多領(lǐng)域驗(yàn)證數(shù)據(jù)集,并設(shè)計(jì)領(lǐng)域自適應(yīng)的驗(yàn)證器,模型可能發(fā)展出更通用的推理能力。

總結(jié)

核心貢獻(xiàn)

MiroMind-M1項(xiàng)目的核心貢獻(xiàn)在于:

1. 全棧開源:完整公開模型、數(shù)據(jù)集和訓(xùn)練配置,為社區(qū)提供真正可復(fù)現(xiàn)的研究基礎(chǔ)

2. CAMPO算法:通過整合多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器,有效解決RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題

3. Token效率突破:在保持高性能的同時(shí)顯著提升推理效率,證明效率與性能可以兼得

這些貢獻(xiàn)不僅推動(dòng)了數(shù)學(xué)推理能力的提升,還為更廣泛的推理語言模型研究提供了方法論指導(dǎo)。

對開源RLM的關(guān)鍵啟示

MiroMind-M1項(xiàng)目為開源RLM社區(qū)提供了三點(diǎn)重要啟示:

1. 數(shù)據(jù)質(zhì)量與訓(xùn)練策略同等重要:719K高質(zhì)量SFT數(shù)據(jù)超越了更大規(guī)模但質(zhì)量較低的數(shù)據(jù)集

2. 效率與性能需要平衡考慮:在實(shí)際應(yīng)用中,高效的推理往往比絕對性能更重要

3. 嚴(yán)格的驗(yàn)證機(jī)制是RLVR成功的關(guān)鍵:準(zhǔn)確的獎(jiǎng)勵(lì)信號直接決定了模型能否學(xué)習(xí)有效的推理模式

這些啟示挑戰(zhàn)了當(dāng)前RLM研究中的一些常見假設(shè),如"數(shù)據(jù)越多越好"或"響應(yīng)越長越好"。

實(shí)操建議

基于MiroMind-M1的研究成果,有以下具體建議:

1. 評估方法:在小樣本基準(zhǔn)測試(如AIME)上進(jìn)行多次評估(如k=64),并報(bào)告標(biāo)準(zhǔn)差,避免僅憑單次評估結(jié)果做出結(jié)論

2. 訓(xùn)練策略

  • 采用多階段訓(xùn)練策略,從較短的響應(yīng)限制開始,逐步放寬長度限制
  • 實(shí)施重復(fù)懲罰機(jī)制,減少推理過程中的冗余
  • 使用精確的級聯(lián)驗(yàn)證器,提供可靠的獎(jiǎng)勵(lì)信號

3. 數(shù)據(jù)構(gòu)建

  •    優(yōu)先選擇長軌跡樣本,提升模型處理復(fù)雜問題的能力
  •    嚴(yán)格進(jìn)行數(shù)據(jù)去重和去污染,確保訓(xùn)練數(shù)據(jù)質(zhì)量
  •    采用多層驗(yàn)證機(jī)制,確保思維鏈軌跡的準(zhǔn)確性
  1.    效率優(yōu)化
  •    探索解耦rollout與參數(shù)更新的技術(shù)
  •    實(shí)現(xiàn)流式負(fù)載均衡架構(gòu),提高GPU利用率
  •    開發(fā)長尾問題的主動(dòng)識別與處理機(jī)制

MiroMind-M1項(xiàng)目證明,開源社區(qū)完全有能力開發(fā)出與閉源模型相媲美甚至超越的推理語言模型。通過持續(xù)的協(xié)作和創(chuàng)新,開源RLM有望成為AI推理能力發(fā)展的主要驅(qū)動(dòng)力,為更廣泛的應(yīng)用場景提供強(qiáng)大支持。最后還是那句話,開源,是人類歷史上最偉大的社會(huì)創(chuàng)作活動(dòng)!另外,相關(guān)開源資源已文末參考資料中,歡迎查閱。此外,倉庫中,我特意制作了RL和DPO后模型的量化版本,歡迎取用。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-08-11 09:00:00

2024-09-24 11:01:03

2025-06-11 14:39:50

AILLMMistral

2025-03-05 00:22:00

2025-04-02 09:00:00

模型開源AI

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-10 03:30:00

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2025-01-21 11:53:53

2025-03-06 10:14:39

2025-06-27 08:40:00

模型推理AI

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-05-08 16:45:32

開源Phi-4推理模型

2025-03-06 17:29:21

2016-01-28 10:16:29

ConsulPaaS平臺運(yùn)維

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-03-19 09:20:00

2025-04-08 09:16:00

推理模型AI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-05-06 09:09:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲免费观看在线观看| 久久精品久久久精品美女| 日韩成人av在线播放| 日韩人妻精品无码一区二区三区| 国产原创av在线| 国产一区二区三区日韩| 久久久久久国产精品久久| 亚洲av无码一区二区二三区| 一个人看的www视频在线免费观看| 国产日韩欧美综合一区| 亚洲aaaaaa| 天天操天天操天天操天天| 久久影院一区| 日韩精品www| 手机精品视频在线| 在线天堂新版最新版在线8| 亚洲欧洲日产国产综合网| 国产日韩亚洲精品| 艳妇乳肉豪妇荡乳av| 亚洲精品中文字幕成人片| 69成人在线| 99久久精品免费看国产免费软件| 国产成人精品av在线| 中文字幕在线有码| 精品产国自在拍| 精品久久久久久久久久久久包黑料 | 中文字幕在线成人| www.免费av| 久久wwww| 欧美久久久久久久久中文字幕| 国产97在线 | 亚洲| 182tv在线播放| 国产精品进线69影院| 免费一区二区三区| 蜜臀av中文字幕| 国产麻豆成人精品| 国产精品入口福利| 日韩在线 中文字幕| 影音先锋在线一区| 欧美精品国产精品日韩精品| 多男操一女视频| 日本久久一二三四| 亚洲区中文字幕| 右手影院亚洲欧美| 三级精品视频| 日韩电影网在线| 激情综合激情五月| 日韩欧美中文在线观看| 欧美一区中文字幕| 午夜一区二区视频| 国产aa精品| 9191成人精品久久| 亚洲va在线va天堂va偷拍| 日韩亚洲国产免费| 欧美日韩免费观看一区二区三区 | 久久uomeier| 精品久久久久人成| 中文字幕日本最新乱码视频| 久久久男人天堂| 午夜精品国产更新| 欧美亚洲国产成人| 周于希免费高清在线观看| 欧美性生交大片免费| 欧美日韩亚洲一| 黑人巨大精品| 欧美日韩亚洲另类| 伊人成人222| 日韩高清在线观看一区二区| 日韩一级视频免费观看在线| avtt中文字幕| 欧美电影完整版在线观看| 日韩精品免费一线在线观看| 在线免费观看日韩av| 成人免费在线播放| 美女少妇精品视频| 色播视频在线播放| 首页综合国产亚洲丝袜| 国产精品香蕉国产| 国产激情视频在线播放| 成人激情视频网站| 日韩精品在在线一区二区中文| 77导航福利在线| 亚洲女人****多毛耸耸8| 成人午夜免费在线视频| 午夜不卡影院| 欧美日本在线一区| 乱码一区二区三区| 经典一区二区| 久久国产精品网站| 免费日韩一级片| 蜜桃视频在线观看一区二区| 91久久久一线二线三线品牌| 人妻91麻豆一区二区三区| 国产亚洲综合在线| 久久久无码中文字幕久...| 77thz桃花论族在线观看| 日韩欧美精品中文字幕| 欧美日韩精品区别| 日本三级久久| 日韩在线小视频| 日韩黄色精品视频| 久久精品二区亚洲w码| 精品国产免费久久久久久尖叫| 九色在线观看| 亚洲一区二区精品视频| 九九九在线观看视频| 清纯唯美激情亚洲| 一本色道久久88综合日韩精品| 国产精品精品软件男同| 久久国产精品久久久久久电车| 亚洲mm色国产网站| 东凛在线观看| 精品二区三区线观看| 亚洲一区二区在线视频观看| 特黄特色欧美大片| 欧美大片免费观看在线观看网站推荐| 无码视频在线观看| 成人黄色777网| 国产av第一区| 国产成人福利夜色影视| 日韩hd视频在线观看| 免费一级a毛片夜夜看| 欧美aa在线视频| 久久久久久久久久久久久9999| 污影院在线观看| 欧美丝袜自拍制服另类| 在线免费观看污视频| 欧美网站在线| 91精品在线观| 免费黄色在线观看| 欧美日韩精品欧美日韩精品一综合| 少妇精品一区二区| 亚洲第一黄网| 成人永久免费| 亚洲www色| 91麻豆精品久久久久蜜臀| 亚洲а∨天堂久久精品2021| 亚洲女人av| 久久综合福利| 在线观看的黄色| 亚洲国产精品电影在线观看| 久久久久久蜜桃| 国产一区二区三区在线看麻豆| 日韩电影大全在线观看| 成人影院网站| 亚洲欧美中文日韩在线v日本| 日本少妇激情舌吻| 不卡的av网站| 久在线观看视频| 三级小说欧洲区亚洲区| 91av福利视频| 秋霞av在线| 色成年激情久久综合| 爱爱免费小视频| 三级不卡在线观看| 日日夜夜精品网站| 欧美高清影院| 精品国产欧美一区二区三区成人| 在线观看国产精品视频| 中文字幕一区二区三区视频| 国产精品自在自线| 欧美国产91| 国产免费一区| 男人皇宫亚洲男人2020| 亚洲图片在线综合| 亚洲综合免费视频| 亚洲自拍偷拍图区| 久久久老熟女一区二区三区91| 99av国产精品欲麻豆| 久久婷婷国产综合尤物精品| 成人av免费电影网站| 中文欧美日本在线资源| 国产男女裸体做爰爽爽| 亚洲丶国产丶欧美一区二区三区| 免费在线观看成年人视频| 水蜜桃久久夜色精品一区的特点 | 欧美1区2区视频| 国产精品一区二区三区精品| 黄色激情在线播放| 国产亚洲人成a一在线v站| 国产乱码精品一区二三区蜜臂 | 国产日韩第一页| 草草视频在线一区二区| 国产成人精品视频| 黄色av电影在线播放| 亚洲成人网av| 人妻中文字幕一区二区三区| 综合久久综合久久| 一起草在线视频| 麻豆91精品视频| 国内精品在线观看视频| 日本欧美国产| 国产欧美在线一区二区| 88xx成人网| 欧美精品成人在线| 北岛玲一区二区三区| 精品美女被调教视频大全网站| 欧美a视频在线观看| 中文字幕一区二区三区不卡| 一边摸一边做爽的视频17国产| 欧美aⅴ一区二区三区视频| 久久综合亚洲精品| 精品视频免费在线观看| 国产精品xxx在线观看www| 欧美日韩五区| 午夜精品久久久久久久白皮肤| 91社区在线观看| 日韩电影中文 亚洲精品乱码 | 亚洲成人在线网| 亚洲视频一区在线播放| 精品国产福利视频| 亚洲最大的黄色网址| 国产欧美一区二区精品秋霞影院| 美女又黄又免费的视频| 免费久久精品视频| 欧洲黄色一级视频| 欧美精品18| 伊人久久大香线蕉成人综合网| 欧美精品中文| 亚洲一区亚洲二区| 日韩毛片免费视频一级特黄| 日本一区二区在线播放| 黄色在线看片| 免费91麻豆精品国产自产在线观看| 青青草在线播放| 精品久久久久一区| 不卡的日韩av| 69p69国产精品| 中文字幕免费高清在线观看| 欧美日韩中文字幕在线视频| 亚洲国产综合久久| 亚洲国产一区二区在线播放| 日韩一区二区不卡视频| 国产精品久久二区二区| 日本xxxxxxxxx18| 久久在线观看免费| 亚洲国产果冻传媒av在线观看| 国产成人一区二区精品非洲| 中文字幕第一页在线视频| 奇米888四色在线精品| 日韩一级免费在线观看| 久久黄色网页| 88av.com| 日韩精品亚洲一区| 91av俱乐部| 日韩高清不卡一区二区三区| 欧美 国产 日本| 媚黑女一区二区| 国产精品少妇在线视频| 天堂一区二区在线免费观看| 日本精品一区二区三区四区| 久久狠狠一本精品综合网| 任你操这里只有精品| 日日夜夜一区二区| 在线观看免费污视频| 激情综合网天天干| 国产高清999| 国产91精品露脸国语对白| 美女扒开腿免费视频| av一区二区三区在线| 久久久精品人妻无码专区| 久久九九久精品国产免费直播| 成人黄色免费网址| 中文字幕在线不卡一区二区三区 | 亚洲成a人片在线观看中文| 日韩免费一级片| 色综合婷婷久久| 伊人精品在线视频| 欧美一卡二卡在线观看| www夜片内射视频日韩精品成人| 精品精品欲导航| 日韩毛片在线一区二区毛片| 国产一区二区三区直播精品电影| 在线观看免费网站黄| 欧美福利在线观看| 色多多在线观看| 国产精品视频永久免费播放| 国产精品99| 91香蕉视频在线下载| 婷婷国产精品| 一本久道久久综合| 好吊日精品视频| 欧美日韩一区二区在线免费观看| 免费看欧美女人艹b| 亚洲成a人无码| 久久久久久久电影| 色哟哟一一国产精品| 亚洲成人av免费| 亚洲性猛交富婆| 日韩美女视频在线| 成人在线观看免费| 色综合天天狠天天透天天伊人| 黑人巨大精品| 成人免费观看网站| 成人一区二区| 青青草精品视频在线| 男人的j进女人的j一区| 国产精品手机在线观看| 国产精品久久综合| 日韩成人免费观看| 91精品国产一区二区三区| 少妇一级淫片免费看| xxxxx成人.com| 伊人久久在线| av在线不卡一区| 色乱码一区二区三区网站| 欧美a v在线播放| 国产不卡视频在线播放| 国产又粗又黄又猛| 欧美日韩加勒比精品一区| 一级黄色短视频| 亚洲精品在线91| 大桥未久在线播放| 成人中文字幕在线观看| 国产精品自拍区| 毛片在线播放视频| 国产99一区视频免费| 我要看一级黄色录像| 在线免费观看视频一区| 欧美一区二不卡视频| 九九久久综合网站| 日本a人精品| 日本高清一区| 久久视频一区| 国产精品久久不卡| 精品国产91久久久| 亚洲欧美国产高清va在线播放| www.亚洲免费视频| 国产原创一区| 日韩欧美三级电影| 久久久久久久高潮| mm131美女视频| 欧美性色视频在线| 日本福利片在线| 欧美影院久久久| 亚洲v天堂v手机在线| 精品国产一区三区| 99riav久久精品riav| 国产精品16p| 欧美不卡一区二区三区四区| 成人av黄色| 99热99热| 亚洲视频久久| 一本加勒比波多野结衣| 亚洲国产精品自拍| 无码国产精品96久久久久| 久久久欧美一区二区| 韩国女主播一区二区三区| 欧美日韩福利在线| av不卡一区二区三区| 成年免费在线观看| 日韩精品在线电影| 亚洲高清黄色| 亚洲欧洲国产精品久久| 久久av老司机精品网站导航| 99热这里只有精品4| 欧美一区二区视频在线观看| 1区2区在线观看| 国产精品久久久久久久久久久久午夜片 | www国产精品| 国产a级片网站| 久久综合色一综合色88| 国产成人精品亚洲| 久久久精品日本| 91午夜精品| 日本三级免费网站| 91免费看视频| 天天综合网久久综合网| 亚洲欧美在线免费观看| 成人免费网站观看| 日本在线观看一区二区| 久久国产精品第一页| 国产va在线播放| 亚洲娇小xxxx欧美娇小| yy6080久久伦理一区二区| 午夜免费电影一区在线观看| 国产乱码精品一品二品| 日本熟妇成熟毛茸茸| 亚洲一区二区福利| 美国十次综合久久| 成人综合视频在线| 亚洲欧洲精品一区二区三区 | 国产69精品久久久久777| a v视频在线观看| 中文字幕亚洲综合| 97品白浆高清久久久久久| 毛片av免费在线观看| 亚洲欧洲日韩av| 亚洲欧美日韩动漫| 成人有码在线播放| 男女av一区三区二区色多| 麻豆精品国产免费| 日韩电影大全免费观看2023年上| 日本亚洲欧洲无免费码在线| 免费一级特黄特色毛片久久看| 国产日韩v精品一区二区| 亚洲精品第五页| 国产欧美一区二区| 国产精品嫩草99av在线| 欧美一级片在线视频|