微軟rStar2智能體:破解AI推理 “工具噪聲 + GPU 閑置” ,“智能體RL” 14B 逆襲 671B!
當671B參數的DeepSeek-R1仍被視為數學推理領域的“重量級選手”時,一款僅14B參數的模型卻以更短的推理路徑實現了性能超越——微軟研究院推出的rStar2-智能體(rStar2-Agent),通過智能體強化學習(Agentic Reinforcement Learning)技術,讓小模型擺脫了“靠長度堆性能”的傳統路徑,具備了“更聰明思考”的能力。這款模型僅用64張MI300X GPU、510步強化學習訓練,便在AIME24數學競賽中取得80.6%的pass@1準確率,超越OpenAI o3-mini、Claude-Opus-4.0等主流模型。其背后的技術創新,不僅解決了智能體強化學習的規模化難題,更為小模型高效推理提供了可復用的框架。
我們解讀最新技術,文末有相關信息。

1 引言:AI數學推理的“兩難困境”
當前AI數學推理的進步,很大程度上依賴“延長思維鏈(CoT)”——通過讓模型生成更長的推理步驟,提升復雜問題的求解能力。微軟研究院的研究員指出,OpenAI o系列、DeepSeek-R1、Gemini-2.5等領先模型雖通過這一思路實現性能突破,但面臨兩大核心困境:
一是內部反思的局限性。對于需中間驗證或思路切換的難題(如多步驟代數推導、數論證明),模型依賴內部反思檢測錯誤,但這種“自檢查”常失效——一旦初始推理方向偏差,后續步驟會持續偏離正確路徑。
二是工具使用的環境噪聲干擾。為彌補內部反思的不足,研究人員引入Python編碼工具(如SymPy符號計算、NumPy數值分析)輔助推理,但工具環境會引入新問題:模型生成的代碼可能存在語法錯誤或邏輯漏洞,導致執行反饋(如報錯信息)與推理任務無關,浪費 tokens 修正工具錯誤而非推進推理。更關鍵的是,傳統強化學習(RL)依賴“僅結果獎勵”(僅根據最終答案是否正確打分),即便中間工具調用出錯,只要最終答案正確,軌跡仍會被賦予正獎勵,導致模型默認“錯誤可接受”,生成低質量推理過程。

此外,大規模智能體強化學習的基礎設施瓶頸也不容忽視:單訓練批次可能觸發數萬次并發工具調用,傳統本地Python解釋器無法應對,且GPU資源因軌跡長度不均常處于空閑狀態,訓練效率極低。
rStar2-智能體的核心目標,正是通過技術創新破解上述困境——讓小模型在有限計算資源下,通過“智能使用工具+環境反饋學習”實現高效推理。
2 核心突破一:支撐大規模訓練的智能體RL基礎設施
要實現智能體強化學習的規模化,穩定、高效的基礎設施是前提。微軟研究院的研究員團隊設計了兩套關鍵組件,解決了“高并發工具調用”和“GPU負載不均”兩大痛點:
2.1 高吞吐量隔離式代碼環境
針對工具調用的并發與安全問題,研究員構建了分布式代碼執行服務,核心設計包括:
- ?隔離部署:將代碼執行任務與主訓練流程分離,部署在64張MI300X GPU集群的CPU核心上,避免LLM生成的異常代碼(如死循環、外部庫調用)影響訓練進程;
- ?批量調度機制:通過集中式任務隊列管理工具調用請求,32個“發送worker”持續從隊列中抓取任務,每批最多整合64個工具調用(或超時后觸發調度),減少通信開銷;
- ?動態負載分配:worker節點通過輕量級任務調度器,將代碼執行任務分配給空閑的“執行worker”(每節點部署1024個),確保資源利用率。
該環境可支持45K并發工具調用,平均執行延遲僅0.3秒(含調度與執行時間),且通過“答案驗證離線化”進一步優化效率——將CPU密集型的數學答案驗證任務(如規則-based驗證器)也納入該服務,避免阻塞訓練循環。

2.2 負載均衡軌跡生成(Rollout)調度器
傳統強化學習中,軌跡生成任務按“靜態均勻分配”方式分發到GPU,導致兩大問題:一是軌跡長度差異大(部分推理需多輪工具調用,部分短步驟完成),短軌跡GPU需等待長軌跡完成,產生大量空閑時間;二是KV緩存溢出——Inference引擎(如SGLang)無法預測軌跡長度,并行啟動任務時易超出緩存容量,需驅逐已部分計算的軌跡重新執行,浪費資源。

研究員設計的動態調度器通過KV緩存剩余容量分配任務:根據各GPU當前可用的KV緩存空間,估算可處理的軌跡數量(而非均勻分配),軌跡生成過程中異步觸發工具調用,避免等待;當某GPU完成任務釋放緩存后,立即分配新任務。實驗顯示,該調度器可將GPU利用率提升30%以上,顯著縮短訓練周期。
3 核心突破二:GRPO-RoC算法——應對環境噪聲的智能體RL方案
智能體強化學習的關鍵挑戰是“環境噪聲干擾”——工具調用錯誤、格式違規等噪聲會導致“高質量推理軌跡被淹沒”。微軟研究院的研究員在Group Relative Policy Optimization(GRPO)基礎上,提出GRPO-RoC(Resample-on-Correct)算法,通過“軌跡重采樣策略”過濾噪聲,同時避免復雜獎勵設計帶來的風險。

3.1 傳統GRPO的局限與改進方向
GRPO是一種面向推理任務的強化學習算法,通過“分組軌跡對比”計算優勢函數(Advantage):對每個問題采樣G條軌跡,基于軌跡組內的獎勵分布(而非全局分布)計算每條軌跡的相對優勢,提升訓練穩定性。但在工具環境中,該算法存在明顯缺陷:
- ? 僅結果獎勵(0/1,根據最終答案是否正確)無法區分“中間步驟完美”與“中間錯誤但答案巧合正確”的軌跡,后者會被賦予相同正獎勵,導致模型學習到“容忍錯誤”的策略;
- ? 環境噪聲(如代碼錯誤、格式違規)會導致正獎勵軌跡中約10%-15%存在工具調用問題,長期訓練會讓模型生成冗長低質的推理過程。
研究員的核心思路是:不修改獎勵函數(保持僅結果獎勵以避免獎勵hacking),而是通過軌跡采樣策略篩選高質量正軌跡。
3.2 GRPO-RoC的核心邏輯:重采樣與質量篩選
GRPO-RoC的軌跡處理流程分為兩步:過采樣(Oversampling)與選擇性下采樣(Selective Downsampling):
1. 過采樣階段:對每個問題采樣2G條軌跡(而非傳統GRPO的G條),擴大候選集;
2. 下采樣階段:將軌跡分為正軌跡(獎勵1)與負軌跡(獎勵0),分別采用不同策略篩選,最終保留G條用于訓練:
? 負軌跡:均勻下采樣至目標數量,保留多樣化的失敗模式(如工具調用錯誤、推理思路偏差),確保模型學習到“避免各類錯誤”的信號;
? 正軌跡:按“質量評分”逆概率采樣——評分越低(工具錯誤多、格式違規)的軌跡,被選中的概率越低。
質量評分由兩部分構成:
? 工具錯誤率(p_err):若軌跡無工具調用,默認p_err=0.5(鼓勵工具使用);否則為“錯誤工具調用次數/總工具調用次數”;
? 格式違規率(p_format):若軌跡無答案標簽(如缺失標簽),p_format=1;若存在多個答案標簽,按“(標簽數-1)/推理輪次”計算,懲罰重復標注。
總評分p_total = p_err + p_format,采樣概率與1/p_total正相關,確保高質量正軌跡(低p_total)被優先選中。
3.3 算法優勢:穩定與高效的平衡
與“在獎勵函數中加入工具錯誤懲罰”的方案相比,GRPO-RoC有兩大優勢:
? 避免獎勵hacking:無需人工設計復雜的步驟級獎勵(如“代碼正確得0.5分”),減少因獎勵規則不完善導致的模型“鉆空子”行為(如刻意簡化代碼以避免錯誤,而非優化推理);
? 提升訓練穩定性:通過篩選高質量正軌跡,模型學習到的是“正確推理+正確工具使用”的聯合策略,實驗顯示,GRPO-RoC可將正軌跡中的工具錯誤率從15%降至5%以下,同時推理長度縮短20%。
4 核心突破三:低計算成本的多階段訓練方案
大規模模型訓練常依賴“大參數量+長訓練周期”,而rStar2-智能體通過“非推理SFT+多階段RL”的設計,讓14B模型在有限計算資源下快速達到前沿水平。
4.1 非推理SFT:避免過擬合的“冷啟動”
傳統推理模型在RL前會進行“推理導向SFT”(用大量數學推理數據微調),但研究員發現,這種方式易導致模型“過擬合初始推理模式”,且初始響應長度過長,增加RL階段的計算成本。
rStar2-智能體的SFT階段僅聚焦基礎能力培養,不涉及數學推理優化:
- ? 數據選擇:165K函數調用數據(ToolACE、APIGen-MT等)、30K指令跟隨數據(Tulu3數據集,用o4-mini優化響應質量)、27K對話數據(LLaMA-Nemontron數據集);
- ? 目標:讓模型掌握“工具調用格式(如JSON結構化調用)”“指令跟隨邏輯”“基礎Python編碼能力”,保持初始響應長度約1K tokens。
實驗顯示,該SFT后模型的數學推理能力與基線模型(Qwen3-14B-Base)持平,但工具使用準確率提升40%,為RL階段奠定基礎。

4.2 多階段RL:逐步提升難度與效率
研究員將RL分為3個階段,逐步增加任務難度與軌跡長度上限,避免資源浪費:
?階段1(8K長度):用42K高質量數學題(整數答案,確保驗證可行性)訓練,強制模型在短長度約束下優化推理效率,平均響應長度從1K增至4K,AIME24準確率從3.3%(SFT后)提升至72.1%;
?階段2(12K長度):當階段1的軌跡截斷率(超過長度上限的軌跡比例)穩定在10%時,提升長度上限至12K,釋放模型推理空間,AIME24準確率進一步提升至77.0%;
?階段3(聚焦難題):用階段2的模型對42K題目生成8條軌跡,移除“8條全對”的簡單題,保留17.3K難題訓練,重置優化器狀態,最終AIME24準確率達80.6%,AIME25達69.8%。

整個RL過程僅510步,在64張MI300X GPU上1周內完成,計算成本僅為傳統大模型訓練的1/10。
5 實驗驗證:性能與泛化能力的雙重突破
rStar2-智能體的核心價值,不僅體現在數學推理性能的突破,更在于“小模型+高效推理”的性價比,以及跨領域泛化能力。
5.1 數學推理性能:超越大模型的小模型
在三大數學競賽數據集上,rStar2-智能體(14B)表現突出:
? AIME24:80.6% pass@1,超越OpenAI o3-mini(79.6%)、DeepSeek-R1(671B,79.8%)、Claude-Opus-4.0(76.0%);
? AIME25:69.8% pass@1,與DeepSeek-R1(70.0%)基本持平,遠超DeepSeek-R1-Zero(53.3%);
? HMMT25:52.7% pass@1,僅次于OpenAI o3-mini(53.0%),遠超DeepSeek-R1(44.4%)。

更關鍵的是推理效率:rStar2-智能體的平均推理長度僅10943 tokens,遠短于DeepSeek-R1-Zero(17132 tokens)、QWQ-32B(15865 tokens),證明其“思考更高效”而非“思考更長”。
5.2 跨領域泛化:數學訓練賦能多任務
盡管僅用數學數據訓練,rStar2-智能體在非數學任務上仍表現出強泛化能力:

? 科學推理(GPQA-Diamond):60.9%準確率,超越DeepSeek-V3(59.1%),證明數學推理習得的“工具使用+邏輯驗證”能力可遷移至科學問題;
? 智能體工具使用(BFCL v3):60.8%準確率,與SFT后基線(63.1%)基本持平,未因數學訓練丟失工具能力;
? 通用對齊(IFEval、Arena-Hard):IFEval 83.4%、Arena-Hard 86.6%,與基線水平一致,說明數學RL訓練不影響通用對齊性能。
6 技術啟示與未來展望
rStar2-智能體的突破,為AI推理領域提供了三大核心啟示:
1. 小模型的潛力:通過“智能體強化學習+工具協作”,小模型可在特定領域超越大模型,降低AI推理的部署成本;
2. 環境交互的價值:相比“純文本思維鏈”,讓模型與工具環境實時交互(接收反饋、修正錯誤),是提升推理可靠性的關鍵路徑;
3. 簡化獎勵設計:復雜獎勵函數易導致模型“鉆空子”,而“僅結果獎勵+高質量軌跡篩選”的組合,是平衡訓練穩定性與推理質量的高效方案。
微軟研究院的研究員表示,未來將進一步擴展rStar2-智能體的應用場景,如工程計算、學術研究輔助等,并通過開源代碼(https://github.com/microsoft/rStar)推動智能體強化學習技術的普及。對于行業而言,rStar2-智能體的技術框架為“高效AI推理系統”提供了可復用的模板——從基礎設施到算法再到訓練方案,每一環的創新都指向“用更少資源實現更強能力”的核心目標。
參考資料
? 標題:rStar2-Agent: Agentic Reasoning Technical Report
? 作者:Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
? 單位:微軟研究院(Microsoft Research)
? 鏈接:https://arxiv.org/pdf/2508.20722
本文轉載自??旺知識??,作者:旺知識

















