精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

14B打敗671B!微軟rStar2-Agent在數學推理上超過DeepSeek-R1

人工智能 新聞
近日,微軟研究院的一個研究團隊探索了使用主動式強化學習(agentic reinforcement learning)來實現這一目標,也就是說,模型會與專用工具環境中的工具進行交互,并根據收到的反饋調整其推理方式。

現在,LLM 已經可以獲得非常強大的推理能力,而其中關鍵便是測試時擴展(test-time scaling)。

通常而言,延長思維鏈(CoT)就可以延長「思考時間」,從而顯著提升性能,尤其是當使用大規模強化學習和可驗證獎勵 (RLVR) 進行優化時。

然而,對于容易出現細微中間錯誤或需要創造性推理轉變的難題,較長的思維鏈仍然存在根本性的局限性。在這些情況下,模型往往依賴內部的自我反思,但這又常常無法發現錯誤,也無法在初始方法存在缺陷時進行自我糾正。

因此,模型不僅要能更長時間地思考,還應該要能「更聰明」地思考。為此,可以引入更高級的認知能力,讓模型可以自主地利用合適的工具,從工具環境提供的反饋信號中進行推理、驗證和學習。

近日,微軟研究院的一個研究團隊探索了使用主動式強化學習(agentic reinforcement learning)來實現這一目標,也就是說,模型會與專用工具環境中的工具進行交互,并根據收到的反饋調整其推理方式。

而他們的探索成果便是 rStar2-Agent,這是一種強大的主動式強化學習方法。使用該方法,這個微軟團隊訓練了一個 14B 的推理模型 rStar2-Agent-14B—— 該模型達到前沿級別的性能,媲美甚至超越了 671B 的 DeepSeek-R1!

這項研究在社交網絡上獲得了廣泛關注。

下面我們就來簡單了解一下微軟是如何造出了這個能以小搏大的模型。

  • 論文標題:rStar2-Agent: Agentic Reasoning Technical Report
  • 論文地址:https://arxiv.org/pdf/2508.20722
  • 代碼地址:https://github.com/microsoft/rStar

環境與問題描述

本研究使用的環境是 Python 編程工具和解釋器。

Python 編程工具可拓寬模型的行動空間,使其能夠探索替代方案并驗證中間步驟,從而在單靠較長的 CoT 不足的情況下補充內部的自我反思。

然而,在該環境中有效地擴展主動式強化學習非常困難。

首先,編程工具和 Python 解釋器的固有復雜性會將環境噪聲引入推理過程。當模型不可避免地生成語法或邏輯上錯誤的代碼時,由此產生的環境反饋(例如,錯誤消息)可能會導致模型浪費寶貴的 token 來糾正錯誤,而不是推進推理。遺憾的是,當前的強化學習方法主要依賴于「僅結果獎勵」,而這只會加劇這個問題,因為即使中間工具調用失敗的軌跡仍然會獲得正獎勵,只要最終答案正確即可。如此一來,該模型就會將錯誤視為可接受的,并生成冗長且低質量的推理軌跡。

其次,大規模主動式強化學習訓練對基礎設施的要求很高。單個訓練批次可以觸發數萬個并發工具調用,這使得構建可靠且響應迅速的代碼執行環境變得極具挑戰性。

此外,與環境交互的智能體部署會放大標準強化學習系統中部署效率低下的現象,從而顯著減慢整體訓練速度。

rStar2-Agent 三大創新

微軟提出的 rStar2-Agent 包含三大關鍵創新。

第一,該團隊為大規模主動式強化學習構建了一個高效可靠的基礎架構

他們構建了一個高吞吐量、獨立的代碼環境,能夠處理 45K 個并發工具調用,平均執行反饋僅需 0.3 秒即可返回。

為了解決強化學習 rollout 效率低下的問題,他們引入了一個負載均衡的 rollout 調度程序,該調度程序會根據 GPU 上可用的鍵值緩存容量動態分配 rollout 請求,從而最大限度地提高計算利用率。

即使在 GPU 資源有限的情況下,該基礎架構也能實現高效的強化學習訓練。使用 64 塊 MI300X GPU,該團隊僅用一周時間就完成了 rStar2-Agent-14B 的訓練。

第二,為了在代碼環境中實現有效的主動式強化學習,該團隊提出了基于正確重采樣的組相對策略優化 (GRPO-RoC),它將 GRPO 與基于正確重采樣 (RoC) 的 rollout 策略相結合,以解決稀疏且僅關注結果的獎勵條件下環境引起的噪聲。

具體而言,RoC 首先對較大的 rollout 組進行過采樣,然后下采樣至標準批次大小。正向軌跡經過篩選,僅保留質量最高且工具導致錯誤或格式問題最少的軌跡,而負向軌跡則進行均勻下采樣。

這種簡單而有效的非對稱采樣方法將各種故障模式保留為信息豐富的負向信號,同時強調更高質量的成功案例以進行正向監督。

相比于在獎勵函數中明確懲罰工具使用錯誤的方法,GRPO-RoC 可提高訓練穩定性,并可避免 reward-hacking 的風險。

通過學習更清潔、更高質量的正向軌跡,該模型不僅能提升 Python 編程工具的使用率,還展現出高級認知能力,能夠在真實的代碼環境交互下更高效、更簡潔地進行推理。

第三,該團隊還提出了一套訓練方案,能以最少的計算量將一個 14B 預訓練基礎模型提升到前沿數學推理水平。

不同于先前的研究(在強化學習之前應用推理密集型 SFT ),該團隊從非推理 SFT 階段開始 —— 僅用于灌輸一般的指令遵循、編程工具使用和格式,而不增強推理能力。這可避免潛在的 SFT 過擬合,并保持初始平均響應較短,從而使強化學習能夠更有效地培養推理能力,同時充分利用模型的預訓練能力。

然后,該團隊使用 GRPO-RoC 進行多階段強化學習訓練,逐漸增加任務難度和最大訓練時長。不同于之前的強化學習方法,這些方法需要將 rollout 規模大幅擴展至 16K→48K 甚至更高,該團隊將每個階段的長度限制在較短的范圍內(8K→12K)。這可顯著降低強化學習成本,同時鼓勵更高效的推理策略。

該模型僅需 510 個強化學習步驟,即可快速實現前沿水平的數學推理,展現出強大的能力和卓越的訓練效率。

結果很驚艷

最終,使用新方法,他們訓練得到了一個模型并將其命名為 rStar2-Agent-14B。它只有 14B 大小,但卻實現了超越 DeepSeek-R1 和 Kimi k1.5 等領先推理模型的強大數學推理性能。

值得注意的是,在 AIME24 上,它的準確度達到了 80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分別高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分別達到了 69.8% 和 52.7%,展現了穩定一致的強大能力。

除了數學之外,盡管這里只使用數學的主動式強化學習進行訓練,它仍然能夠有效地泛化。

它在 GPQA-Diamond 科學推理基準上的表現優于 DeepSeek-V3,在 BFCL v3 的智能體工具使用任務上也表現不錯,并在 IFEval 和 Arena-Hard 等通用基準測試中取得了具有競爭力的結果。

該團隊還報告了未成功的嘗試和分析,并重點介紹了由 rStar2-Agent 主動式強化學習帶來的對更高級認知推理行為的發現,例如驅動更有效推理的環境反饋反思 token。

更多分析和消融研究請見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-04-03 06:30:00

2025-05-01 10:33:59

2025-03-07 08:30:00

2025-03-27 10:28:32

2025-04-03 15:57:48

2025-04-11 12:10:33

2025-06-12 09:48:27

2025-02-03 13:55:20

2025-03-06 08:11:25

2025-03-06 17:29:21

2025-03-06 01:00:00

2025-06-17 08:45:00

模型智能工具

2025-03-19 09:52:50

2025-07-18 09:55:11

2025-04-14 09:15:00

英偉達模型數據

2025-02-19 08:00:00

2025-02-24 09:33:10

點贊
收藏

51CTO技術棧公眾號

日韩成人一区二区三区在线观看| 美女av一区| 中文字幕中文字幕一区二区| 亚洲精品免费一区二区三区| 久青草免费视频| 亚洲午夜久久| 欧美精选在线播放| 可以看毛片的网址| www.视频在线.com| 国产乱子伦一区二区三区国色天香| 色综合久久88| 女女互磨互喷水高潮les呻吟| 日韩毛片网站| 午夜精品久久久久久不卡8050| 欧美一区二区三区精美影视| 国产喷水福利在线视频| 99国产精品久久久久久久成人热 | av动漫精品一区二区| 欧美日韩加勒比精品一区| 亚洲精品中文字幕在线| 高清毛片aaaaaaaaa片| 日韩在线播放一区二区| 欧美激情a∨在线视频播放| 国产真实乱人偷精品人妻| 成人在线视频国产| 日本韩国一区二区三区视频| 老司机激情视频| 成全电影播放在线观看国语| av中文字幕一区| 91欧美日韩一区| 亚洲精品久久久久久久蜜桃| 1024日韩| 美女av一区二区三区| 97人妻人人揉人人躁人人| 一区二区日韩| 3751色影院一区二区三区| 精品www久久久久奶水| 狂野欧美性猛交xxxxx视频| 国产精品麻豆久久久| 久久久久久亚洲精品不卡4k岛国 | 免费看日韩精品| 777国产偷窥盗摄精品视频| 国产精品久久久精品四季影院| 免费不卡中文字幕在线| 亚洲成年人在线| 日批视频在线看| 中文成人在线| 欧美日韩免费在线视频| 手机看片福利日韩| 成人免费看黄| 欧美色另类天堂2015| 欧美一级片免费播放| 色婷婷av在线| 亚洲精品成人少妇| 蜜臀在线免费观看| 高清免费电影在线观看| 国产精品久久午夜夜伦鲁鲁| 色噜噜狠狠一区二区三区| 精品视频一二三| 久久久久久久国产精品影院| 欧美第一黄网| 国产经典自拍视频在线观看| 久久精品人人做人人爽97| 人禽交欧美网站免费| 国产在线观看精品一区| 欧美激情一区二区三区全黄| 色一情一区二区三区四区| 国产黄色片在线观看| 国产精品日韩成人| 亚洲第一页在线视频| 国产午夜精品久久久久免费视| 最新欧美精品一区二区三区| 在线观看亚洲视频啊啊啊啊| 黄网站免费在线观看| 一区二区在线免费| 国产日韩av网站| 亚洲精品国产精品国产| 色成年激情久久综合| 亚洲欧美久久久久| 欧美成年网站| 亚洲精品99久久久久| 高潮毛片无遮挡| 久久国产精品成人免费观看的软件| 日韩少妇与小伙激情| 欧美日韩在线视频免费播放| 亚洲精品九九| 奇米影视亚洲狠狠色| 波多野结衣电影在线播放| 美女网站一区二区| 成人自拍网站| 黄色av免费在线观看| 中文字幕亚洲一区二区av在线| 欧美人与动牲交xxxxbbbb| 绿色成人影院| 欧美放荡的少妇| 中国特级黄色大片| 精品久久国产| 久久久久成人网| 国产精品欧美综合| 国产99一区视频免费| 欧美不卡在线一区二区三区| 欧美一区二区三区| 天天综合天天综合色| the porn av| 久久365资源| 日韩在线欧美在线| 1级黄色大片儿| 久久国产精品99久久久久久老狼 | 成年人在线看片| 国产麻豆精品| 亚洲色图第一页| 91aaa在线观看| 日本vs亚洲vs韩国一区三区 | 国产三级三级三级看三级| 精品一区二区三区免费看| 国产婷婷97碰碰久久人人蜜臀| 久艹在线观看视频| 美女黄色成人网| 成人激情直播| 在线观看黄色av| 欧美日韩在线免费观看| 日本55丰满熟妇厨房伦| 日本成人小视频| 欧美一级黑人aaaaaaa做受| 国产模特av私拍大尺度| 久久精品夜夜夜夜久久| 丝袜人妻一区二区三区| 久久久91麻豆精品国产一区| 国产亚洲在线播放| 欧美福利视频一区二区| 国产福利一区二区| 中文字幕一区二区三区有限公司| 欧洲亚洲两性| 亚洲精品av在线播放| 久久婷婷综合国产| 国产精品一品视频| 中文字幕日韩精品久久| 成人国产精品| 伊人久久免费视频| 亚洲欧美综合自拍| 成人97人人超碰人人99| 国产毛片久久久久久国产毛片| 国产精品视频一区视频二区| 日韩亚洲成人av在线| 中文字幕在线观看你懂的| 久久婷婷综合激情| 日韩av黄色网址| 要久久爱电视剧全集完整观看| 国内精品久久久久久| 欧美熟女一区二区| 亚洲国产精品视频| 无码任你躁久久久久久老妇| 1024精品一区二区三区| 国产一区精品在线| 国产高清自产拍av在线| 日韩高清a**址| 免费看一级视频| 久久久久久久久一| 激情综合网俺也去| 日韩欧美视频| 国产日韩在线观看av| 麻豆电影在线播放| 91精品国产一区二区| 欧美成人三级视频| 不卡视频一二三| 免费看国产曰批40分钟| 亚洲老女人视频免费| 日韩女优人人人人射在线视频| 黄上黄在线观看| 欧美视频一区二区三区| 99热6这里只有精品| 国产福利一区在线观看| 亚洲中文字幕无码av永久| 丝袜美腿综合| 国产精品人成电影在线观看| 欧美精品电影| 日韩女同互慰一区二区| 国产 欧美 日韩 在线| 久久久午夜电影| 999精彩视频| 国产精品激情| 欧美日韩一区在线观看视频| 亚洲国产天堂| 国产做受高潮69| 国产高清视频在线| 日韩欧美国产一区在线观看| 日韩美女视频网站| 国产女主播一区| 自拍一级黄色片| 久久狠狠婷婷| 欧美性受xxxx黑人猛交88| 精品人人人人| 国产精自产拍久久久久久| 欧美videos另类精品| 日韩精品视频在线观看网址| 亚洲天堂手机在线| 亚洲成人av中文| 亚欧精品视频一区二区三区| 国产99久久久精品| 杨幂毛片午夜性生毛片| 欧美国产激情| 少妇免费毛片久久久久久久久| 免费看日产一区二区三区| 日韩av成人在线| 欧美日韩色网| 视频直播国产精品| 亚洲av片在线观看| 欧美一区二区啪啪| 老熟妇一区二区三区啪啪| 亚洲午夜影视影院在线观看| 天天操天天舔天天射| 不卡免费追剧大全电视剧网站| 黄色免费网址大全| 亚洲综合电影一区二区三区| 国产香蕉一区二区三区| 欧美日韩国产传媒| 久久riav二区三区| 无码国模国产在线观看| 国产精品偷伦视频免费观看国产| 精品极品在线| 欧美精品在线视频观看| av影片免费在线观看| 日韩成人久久久| 国产91免费在线观看| 欧美疯狂做受xxxx富婆| 成年人晚上看的视频| 精品国产老师黑色丝袜高跟鞋| 亚洲色婷婷一区二区三区| 国产精品久久久久永久免费观看| 国产精品1000部啪视频| 99久久久国产精品免费蜜臀| 精品人妻一区二区乱码| 另类中文字幕网| 另类小说第一页| 日本在线观看不卡视频| 欧美私人情侣网站| 国产免费成人| 成人黄色av片| 亚洲第一毛片| 国产xxxx振车| 欧美视频一区| av一区二区三区免费观看| 91精品一区二区三区综合| 亚洲va久久久噜噜噜久久狠狠 | 亚洲高清视频在线观看| 久久99国内| 欧美性色黄大片人与善| 亚洲精品国产精品粉嫩| 欧美在线播放一区二区| 欧美日韩一二| 在线成人av电影| 国产精品91一区二区三区| 亚洲三级一区| 围产精品久久久久久久| 亚洲在线色站| 天天av综合| 韩国黄色一级大片| 欧美日一区二区三区在线观看国产免| 91精品国产吴梦梦| 亚洲天堂偷拍| 鲁一鲁一鲁一鲁一澡| 亚洲一区自拍| jizz欧美激情18| 久久精品国产亚洲aⅴ| 性欧美在线视频| 国产精品 日产精品 欧美精品| 亚洲精品成人无码毛片| 不卡的av电影在线观看| 91精品人妻一区二区| 国产欧美一区二区在线| 精品一区二区在线观看视频| 亚洲色图视频网| 国产精久久久久久| 黑人精品xxx一区| 精品一区二区无码| 欧美日韩成人激情| www.亚洲天堂.com| 日韩大片免费观看视频播放| 成全电影播放在线观看国语| 久久中文字幕一区| 成人免费观看在线观看| 国产97免费视| 美女精品视频在线| 久久亚洲一区二区| 天天做天天爱天天综合网| www.欧美黄色| 日日夜夜精品视频免费| 99视频在线观看视频| 91免费小视频| 97在线观看视频免费| 婷婷综合另类小说色区| 中文字幕在线观看国产| 精品久久久久久综合日本欧美| 欧美日韩影视| 久久成人精品视频| a欧美人片人妖| 99re6在线| 国产精品嫩模av在线| 欧美日韩视频免费| 男女视频一区二区| 你懂的在线观看网站| 国产精品久久久久婷婷二区次| 豆国产97在线 | 亚洲| 欧美亚洲国产一卡| 天天摸天天干天天操| 日韩中文字幕欧美| 性爽视频在线| 91成人在线看| 欧美一级淫片| www.浪潮av.com| 国产精品自拍网站| 色偷偷男人天堂| 欧美性猛交xxxx富婆弯腰| www.爱爱.com| 色综合伊人色综合网| 深夜av在线| 动漫一区二区在线| 91精品一区国产高清在线gif | 男女羞羞在线观看| 91在线观看免费高清| 国产一区二区三区探花| 久久精品视频16| 国产宾馆实践打屁股91| 免费一级suv好看的国产网站| 精品久久久久久久久久| 亚洲AV无码一区二区三区少妇| 中文字幕精品久久久久| 天堂av中文在线观看| 99久久99久久精品国产片| 91欧美在线| 亚洲欧美激情网| 国产亚洲成av人在线观看导航| 精品美女久久久久| 亚洲电影天堂av| 牛牛电影国产一区二区| 91在线中文字幕| 91综合久久一区二区| 日本美女高潮视频| 国产亚洲人成网站| 日本黄色一级视频| 亚洲欧美国产高清va在线播| 国产在线看片免费视频在线观看| www日韩av| 精品1区2区3区4区| 性感美女一区二区三区| 亚洲在线视频一区| 黑人精品一区二区| 久久人人看视频| 欧美理伦片在线播放| 成 年 人 黄 色 大 片大 全| 不卡影院免费观看| 制服.丝袜.亚洲.中文.综合懂色| 精品99999| 女人高潮被爽到呻吟在线观看| 国产一区免费观看| 亚洲主播在线| 亚洲а∨天堂久久精品2021| 在线欧美日韩国产| 午夜不卡视频| 91在线短视频| 亚洲青色在线| 尤物视频最新网址| 欧美日本在线播放| av在线免费观看网址| 国产精品播放| 六月婷婷一区| 在线观看亚洲大片短视频| 欧美精品高清视频| 日韩经典av| 久久艳妇乳肉豪妇荡乳av| 日韩—二三区免费观看av| 成人午夜免费影院| 欧美不卡在线视频| 中文日产幕无线码一区二区| 日韩高清三级| 国产精品资源在线看| 日本中文字幕免费| 亚洲人成欧美中文字幕| 日韩三级成人| 欧美视频在线观看视频| 久久精品人人爽人人爽| av网站在线免费看| 91精品国产777在线观看| 激情五月综合| 国产无套精品一区二区三区| 欧美日韩国产丝袜另类| 91精品国产91久久久久游泳池| 亚洲精品日产aⅴ| 亚洲在线免费| 久久爱一区二区| 日韩精品亚洲元码| 香蕉久久久久久| 91九色在线观看视频| 国产精品国产自产拍在线| 丰满肉肉bbwwbbww| 国产精品自产拍在线观看| 极品裸体白嫩激情啪啪国产精品| 人人妻人人澡人人爽| 精品日韩一区二区| 国产一区二区三区四区五区3d|