精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越DeepSeek-R1關鍵RL算法GRPO,CMU「元強化微調」新范式登場

人工智能 新聞
在本文中,CMU、HuggingFace 的研究者提出從元強化學習(RL)的視角來形式化上述優化測試時計算的挑戰。

大語言模型(LLM)在推理領域的最新成果表明了通過擴展測試時計算來提高推理能力的潛力,比如 OpenAI 的 o1 系列。

通常來說,這些方法在訓練模型時可以產生比典型正確解決方案更長的軌跡,并包含了試圖實現某些「算法」的 token:例如反思前一個答案、規劃或實現某種形式的線性搜索。這些方法包括顯式地微調預訓練 LLM 以適應算法行為,例如對搜索數據進行監督微調(SFT)或針對 0/1 正確性獎勵運行結果獎勵(outcome-reward,OR)RL。

雖然通過「結果獎勵 RL 生成長推理鏈」的方式來訓練模型消耗測試時計算的前景看好,但為了繼續從擴展測試時計算中獲得收益,我們最終需要回答一些關鍵的理解和方法設計問題。

第一個問題:當前的 LLM 是否高效使用了測試時間計算?也就是說,它們是否消耗了與典型解決方案長度大致相當的 token,或者它們是否在簡單的問題上使用了太多 token?

第二個問題:當運行測試時 token 預算遠大于用于訓練的 token 預算時,LLM 是否能夠「發現」用于更難問題的解決方案?最終,我們希望模型能夠從它們生成的每個 token(或任何語義上有意義的片段)中獲得足夠的效用,這不僅是為了提高效率,還因為這樣做可以形成一個系統化的流程來發現更難、分布外問題的解決方案。

在本文中,CMU、HuggingFace 的研究者提出從元強化學習(RL)的視角來形式化上述優化測試時計算的挑戰。

image.png

  • 論文標題:Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
  • 論文地址:https://arxiv.org/pdf/2503.07572
  • 項目主頁:https://cohenqu.github.io/mrt.github.io/

在構建方法的過程中,研究者在給定問題上將 LLM 的輸出流分割成多個片段(圖 2)。如果我們只關心效率,那么 LLM 應該只學習利用并直接輸出最終答案,而無需耗費太多片段。另一方面,如果 LLM 僅專注于發現(discovery),那么探索就更可取,這樣 LLM 就可以耗費幾個片段來嘗試不同的方法,并進行驗證和修改,然后得出最終答案。

從根本上說,這與傳統的 RL 不同,這里的目標是學習一個可以在每個測試問題上實現探索 - 利用算法的 LLM。換句話說,本文的目標是從訓練數據中學習這樣的算法,使其成為一個「元」RL 學習問題。

SCR-20250312-mzdt_副本.jpg理想的「元」行為是在過早采用一種方法(即「利用」片段)和嘗試過多高風險策略(即「探索」片段)之間取得平衡的行為。從元 RL 文獻中,我們知道探索和利用的最佳權衡相當于最小化輸出 token 預算的累積悔值。這種悔值衡量了 LLM 與一個 oracle 比較器成功可能性之間的累積差異,如圖 1 (b) 中的紅色陰影區域所示。

image.png

通過訓練 LLM 來最小化每個查詢的累積悔值,本文學習了一種在某種程度上與測試時預算無關的策略,即在部署時 LLM 僅耗費必要數量的 token,同時在更大的 token 預算下運行時仍會取得進展。

具體地,研究者利用一類新的微調方法來優化測試時計算,通過最小化累積悔值的概念產生了一種被稱為元強化微調(Meta Reinforcement Fine-Tuning,MRT)的解決方案(或范式),從而為評估現有推理模型(如 Deepseek-R1)在使用測試時計算的有效性提供了一個指標。

研究者發現,使用結果獎勵 RL 進行微調的 SOTA LLM 無法通過更多片段來提高發現正確答案的概率,即它們沒有取得穩定的「進展」(如上圖 1 (a) 所示),即使這種行為對于發現未見過難題的解決方案至關重要。事實上,在 FLOPs 匹配的評估中,運行更少片段并結合多數投票的更簡單方法通常對較難的問題更有效(下圖 3)。

SCR-20250312-olro_副本.jpg

相反,研究者表明,當目標是最小化悔值時,除了結果獎勵之外,對進展的優化也會自然而然出現。本文的微調范式 MRT 為 RL 訓練規定了密集的獎勵(reward bonus)。直觀地說,這一進展獎勵衡量了在生成給定片段之前和之后獲得正確答案的似然的變化。

在實驗部分,研究者在兩種設置下對 MRT 進行了評估,二者的不同之處在于它們對片段進行參數化的方式。對于第一種設置,他們對基礎模型進行微調,包括 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeekR1-Distill-Qwen-7B,并采用了數學推理問題數據集。

結果發現,MRT 的表現始終優于結果獎勵強化學習,在多個基準測試(AIME 2024、AIME 2025、AMC 2023 等)上取得了 15 億參數規模的 SOTA 結果,其相較于基礎模型的準確率提升是標準結果獎勵 RL(GRPO)的約 2-3 倍,而 token 效率是 GRPO 的 1.5 倍、是基礎模型的 5 倍。GRPO 是 DeepSeek-R1 的關鍵強化學習算法。

對于第二種設置,研究者對 Llama 3.1 進行微調以實現回溯,結果表明,MRT 相較于 STaR 和 GRPO 均實現了 1.6-1.7 倍的 token 效率提升。

元強化微調(MRT)范式

MRT 的目標是直接學習一種與預算無關(budget-agnostic)的 LLM,使其能夠穩步取得進展。

image.png

該研究使用在線強化學習方法(如 GRPO)實現元強化學習范式。下面是它的工作原理:

該研究定義了一個元證明器策略(Meta-Prover Policy)μ,用于評估一個片段對解決問題的貢獻程度。該策略的工作方式如下:

  • 強制終止當前的思考塊(thought block),使用「time is up」提示(prompt);
  • 讓模型根據當前的推理前綴(reasoning prefix)生成其最佳猜測的解決方案。

對于推理過程中的每一個片段,需要這樣操作:

  • 使用元證明器策略 μ 計算思維前綴的獎勵;
  • 基于這個前綴采樣多個策略內的軌跡(rollouts),這些軌跡被均勻分配為:繼續進一步推理;終止思考軌跡并生成最佳猜測的解決方案;
  • 根據對進展(progress)的獎勵,然后計算進展獎勵。

在訓練過程中,該研究優化了包含標準結果獎勵和基于進展的密集獎勵獎勵的 MRT 目標函數:

image.png

實驗結果

實驗評估了 MRT 在優化「測試時計算」資源方面的有效性。

如表 1 所示,MRT 的表現優于在相同數據集上未使用密集獎勵訓練的模型。

image.png

此外,該研究還得出了以下結論:

  • 基于 DeepScaleR-1.5B-Preview 基礎模型微調的模型達到了其規模下 SOTA 水平。由于模型在經過蒸餾或已經經過強化學習(RL)訓練的基礎模型上進行了訓練,因此絕對性能提升較小。然而,與基于結果獎勵的 RL 方法(如 GRPO)相比,使用 MRT 的相對性能提升約為 2-3 倍。
  • 當使用 DeepScaleR-1.5B 模型在 AIME 問題數據集上進行微調時,MRT 不僅在 AIME 2024 和 AIME 2025 評估集上取得了更好的性能(這或許在意料之中),而且在相對于結果獎勵強化學習(RL)分布外的 AMC 2023 數據集上也保持了較好的性能。

MRT 對 token 的處理效率

前文我們已經看到 MRT 可以在 pass@1 準確率上超越標準的結果獎勵強化學習(RL)。接下來,作者嘗試評估 MRT(RL)在 token 效率上是否可以帶來提升。

如圖 7 所示,MRT 在 AIME 2024 數據集上,在相同 token 數量的情況下,平均準確率比基礎模型高出 5%。此外,MRT(RL)在 AIME 2024 上所需的 token 數量比基礎模型少 5 倍,在 MATH 500 上少 4 倍,就能達到相同的性能(本例中使用的是 DeepSeek-R1 蒸餾的 Qwen-1.5B 模型)。

同樣地,MRT 在 token 效率上比結果獎勵 RL 提高了 1.2-1.6 倍。這些結果表明,MRT 在保持或提升準確率的同時,顯著提高了 token 效率。

image.png

回溯搜索設置中的線性化評估

在這種設置中,模型被限制為先生成一個解決方案,接著進行錯誤檢測,最后在進行修正(如圖 5 所示)。

image.png

該研究首先對基于 Llama-3.1-8B 模型微調的 MRT 的 STaR 變體進行評估。如圖 8(左)所示,MRT 在兩種評估模式下(并行模式為實線;線性化模式為虛線)均實現了最高的測試效率,并在線性化評估模式下將效率提高了 30% 以上。

圖 8(右)顯示,與結果獎勵 GRPO 相比,MRT(RL)通過減少 1.6 倍的 token 來提升線性化效率。

image.png

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-19 09:15:00

AI算法模型

2025-02-03 14:17:27

2025-03-03 09:32:00

2025-02-19 08:00:00

2025-06-26 09:06:59

2025-02-07 15:52:20

2025-02-20 15:32:28

2025-11-07 08:51:41

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-02-21 12:24:14

2025-10-11 04:00:00

2024-12-09 09:50:00

數據模型

2025-02-19 08:33:18

2025-04-22 09:12:00

AI模型數據

2025-08-08 09:06:00

2025-09-08 09:06:16

2025-05-06 15:39:53

DeepSeek-R英偉達開源
點贊
收藏

51CTO技術棧公眾號

色呦呦免费观看| 精品国产精品国产精品| 伊人久久视频| 国产日产欧美一区二区三区| 国产精品视频一区国模私拍| 日韩亚洲欧美中文字幕| 亚洲三级av| 精品露脸国产偷人在视频| 欧美日韩在线播放一区二区| 中文字幕在线观看视频一区| 欧美日一区二区在线观看| 亚洲精品一区二区三区四区高清| 黑人糟蹋人妻hd中文字幕| a√在线中文网新版址在线| 国产一区二区精品久久99| 97香蕉久久夜色精品国产| 成人做爰69片免网站| 亚洲精品一区在线| 欧美图片一区二区三区| www.夜夜爱| 高清在线观看av| 丁香亚洲综合激情啪啪综合| 欧美最猛黑人xxxx黑人猛叫黄| 手机在线中文字幕| 免费成人高清在线视频theav| 欧美一区二区久久久| 日韩视频第二页| av免费在线网站| 国产亲近乱来精品视频| 国产乱码精品一区二区三区卡| 这里只有精品999| 亚洲午夜91| 日韩在线中文字幕| 在线看黄色的网站| 精品一区二区三区在线观看视频| 在线视频国内一区二区| 91丨porny丨探花| 91国内在线| 国产精品伦理一区二区| 欧美亚洲另类久久综合| 天天干免费视频| 国产另类ts人妖一区二区| 国产精品久久91| 探花视频在线观看| 亚洲精品免费观看| 欧美高清第一页| 制服丨自拍丨欧美丨动漫丨| 深爱激情综合| 精品视频一区在线视频| 亚州av综合色区无码一区| 2020最新国产精品| 日韩欧美在线1卡| 最新av免费在线观看| 成人在线高清| 欧美日韩国产一级片| 韩国视频一区二区三区| 免费污视频在线一区| 色综合天天综合色综合av | 你懂的成人av| 久久伊人精品视频| 日韩三级久久久| 欧美freesextv| 日韩视频中文字幕| 女同久久另类69精品国产| 99热在线成人| 久热精品视频在线观看| 欧美高清视频一区二区三区| 91精品啪在线观看国产81旧版| 日韩在线观看免费av| 天美传媒免费在线观看| 欧美wwwww| 久久精品国产成人精品| 成人在线观看小视频| 欧美激情性爽国产精品17p| 九九热精品视频在线播放| 久久国产免费观看| 99国产精品久久久久久久成人热| 国产91|九色| 无码人妻丰满熟妇精品区| 日av在线不卡| 91免费欧美精品| 黄色aaa大片| 91麻豆成人久久精品二区三区| 日韩影片在线播放| 麻豆tv入口在线看| 亚洲国产乱码最新视频 | 国产精品第十页| 欧美交受高潮1| 国产小视频在线免费观看| 久久精品九九| 国产在线a不卡| www.爱爱.com| 91蝌蚪porny九色| 视频在线精品一区| 亚洲区欧洲区| 丰满岳妇乱一区二区三区| 9久久婷婷国产综合精品性色| av在线精品| 日韩精品在线影院| 国产麻豆视频在线观看| 亚洲久色影视| 国产色综合天天综合网| 狠狠躁日日躁夜夜躁av| 国产日本一区二区| 日本一道在线观看| 一区二区精品伦理...| 欧美二区三区的天堂| 麻豆精品国产传媒av| 成人婷婷网色偷偷亚洲男人的天堂| 欧美成人免费在线视频| 日日夜夜狠狠操| 国产原创一区二区| 欧美视频1区| 成人性生交大片免费看在线播放| 日本精品一区二区三区高清| 中国老熟女重囗味hdxx| 精品72久久久久中文字幕| 欧美激情综合色综合啪啪五月| 无码无套少妇毛多18pxxxx| 国产不卡视频一区| 亚洲视频精品一区| av日韩电影| 欧美成人综合网站| 亚洲欧美综合7777色婷婷| 母乳一区在线观看| 国产高清精品一区二区| 精品美女在线观看视频在线观看| 日韩欧美第一页| 在线观看免费视频国产| 天天影视天天精品| 日本午夜在线亚洲.国产| 亚洲av无码乱码国产麻豆 | 免费看一级大片| 日本欧美久久久久免费播放网| 国产伦精品一区二区三区高清| 黄色动漫在线| 欧美日韩一卡二卡三卡| 国产美女精品久久| 国产欧美大片| 国产精品一区二区免费看| 中文字幕中文字幕在线十八区 | 99久久精品免费看| 菠萝蜜视频在线观看入口| 成人黄色免费观看| 亚洲系列中文字幕| 欧美一级淫片免费视频黄| 9l国产精品久久久久麻豆| 人妻互换免费中文字幕| 91精品一久久香蕉国产线看观看| 中文字幕av日韩| 波多野结衣黄色| 久久久噜噜噜久久人人看| 免费观看美女裸体网站| 成人影院中文字幕| 久久久久久久97| 欧美性受xxxx狂喷水| 亚洲综合色婷婷| 国产免费无码一区二区| 韩国精品一区二区三区| 国产精品免费一区二区三区在线观看 | 亚洲性av在线| 日韩 国产 欧美| 国产亚洲成年网址在线观看| 国产精品免费观看久久| 欧美人妖在线| 国产精品日韩久久久久| 日本欧美在线视频免费观看| 在线播放国产精品二区一二区四区| 999福利视频| 韩国女主播成人在线观看| 91免费视频黄| 91成人精品在线| 亚洲91精品在线| 深夜福利在线视频| 欧美丝袜第三区| 亚洲xxxx3d动漫| 国产99精品国产| 久久久久久久久久久福利| 久久不见久久见免费视频7| 国产精品老女人精品视频| 免费大片黄在线| 欧美成人精精品一区二区频| 日韩精品视频免费播放| 久久久久国产精品麻豆| 性生活免费在线观看| 欧美福利网址| 蜜桃av色综合| 日韩在线激情| 亚洲91精品在线| 98在线视频| 欧美大片在线观看一区| 国产女主播喷水视频在线观看 | 色婷婷综合中文久久一本| 久久久久亚洲AV成人无在| 国产二区国产一区在线观看| 日韩avxxx| 中文无码久久精品| 欧美精品v日韩精品v国产精品| 美女久久久久久| 午夜精品一区二区三区在线播放| 国产在线观看免费| 欧美成人乱码一区二区三区| 亚洲成人第一网站| 一区二区三区国产精品| 免费一级做a爰片久久毛片潮| 国产一区二区精品在线观看| 777米奇影视第四色| 一精品久久久| 日本一区二区精品| 荡女精品导航| 成人高清视频观看www| 色戒汤唯在线观看| 欧美成年人视频网站| 国产毛片在线看| 精品国产污网站| 岳乳丰满一区二区三区| 丰满岳妇乱一区二区三区| 欧美成人三级视频| 国产精品国产三级国产普通话99 | 日韩av综合网| 国产日韩在线观看一区| 色婷婷亚洲综合| 国产一级二级三级视频| 国产精品美女久久福利网站| 日本黄色片在线播放| 国产福利一区二区三区视频在线| 亚洲精品一二三四五区| 国产欧美高清| 久草免费福利在线| 亚洲色图国产| 亚洲三区在线| 国产伦精品一区二区三区千人斩| 国产欧美日韩一区二区三区| 久久天堂久久| 成人激情视频在线| 国产成人精选| 国产精品ⅴa在线观看h| 中文字幕高清在线播放| 7m第一福利500精品视频| 丁香花在线观看完整版电影| 欧美xxxx做受欧美| 亚洲制服国产| 久久国产精彩视频| a视频在线免费看| 久久在精品线影院精品国产| 蜜桃视频在线观看www社区 | 91黄视频在线观看| 久久久久久久极品| 丰满岳妇乱一区二区三区| 欧美亚韩一区二区三区| 性做久久久久久免费观看| 久久综合亚洲色hezyo国产| 一区二区三区四区国产精品| 69xx绿帽三人行| 一区二区三区日韩在线观看| 欧美国产日韩综合| 亚洲国产日韩精品| 99热国产在线观看| 福利一区视频在线观看| 五月天婷婷久久| 日韩欧美国产黄色| 无码人妻熟妇av又粗又大| 欧洲精品视频在线观看| 中文字幕永久在线观看| 欧美日韩久久不卡| 国产精品熟女久久久久久 | 五月天久久久久久| 亚洲毛片在线观看.| 国产在线视频网址| 最新的欧美黄色| a视频在线观看| 97久久久久久| 色婷婷综合久久久中字幕精品久久| 国产精品久久久久av免费| 视频91a欧美| 99国内精品久久久久久久软件| 粉嫩的18在线观看极品精品| 久久国产一区| 日韩欧美视频| 黄网站色视频免费观看| 亚洲一区二区三区免费在线观看| 国产xxxxx视频| 国产在线精品一区二区| 国产chinese中国hdxxxx| 久久九九99视频| 搜索黄色一级片| 亚洲综合自拍偷拍| 51国产偷自视频区视频| 欧美日韩大陆一区二区| 丰满人妻妇伦又伦精品国产| 日韩电影视频免费| 欧美jizzhd欧美| 1769国内精品视频在线播放| 国产精品videossex撒尿| 91人成网站www| 日韩av中文字幕一区| 一区视频二区视频| 国产农村妇女精品一二区| 亚洲一区日韩精品| av男人天堂一区| 激情无码人妻又粗又大| 天天操天天色综合| 国产一区二区在线不卡| 日韩精品欧美国产精品忘忧草 | 国产精品久久久久一区| 一区二区三区视频免费看| 欧美精品久久天天躁| 欧美孕妇孕交| 欧美国产精品va在线观看| 成人国产激情在线| 久中文字幕一区| 欧美伊人久久| 在线视频日韩一区| av不卡免费电影| 国产精品丝袜一区二区| 欧美亚一区二区| 亚洲 小说区 图片区 都市| 久久亚洲精品毛片| 97久久香蕉国产线看观看| 国产高清精品一区| 亚洲精品国产成人影院| 无码少妇一区二区三区芒果| 不卡一卡二卡三乱码免费网站| 日韩av手机在线免费观看| 色爱区综合激月婷婷| 婷婷丁香花五月天| 欧美日韩xxxxx| 中文字幕成人| 婷婷久久五月天| 久久性色av| 青青草视频播放| 午夜激情一区二区三区| 亚洲成人av综合| 欧美www在线| 国产精品久久久久久久久久辛辛| 亚洲精品国产精品国自产| 久久久久久久欧美精品| 中文字幕在线播放一区| 亚洲电影在线播放| 亚洲精品一区二区三区蜜桃| 另类视频在线观看| 国产成年精品| 色撸撸在线观看| 久久成人免费电影| 亚洲熟女少妇一区二区| 欧美日韩一区高清| jizz在线观看视频| 国产精品人成电影在线观看| 加勒比久久综合| 国产一级做a爰片久久| 国产免费成人在线视频| 免费观看日批视频| 伊人男人综合视频网| 日韩色淫视频| 一区二区成人国产精品| 精品中文字幕一区二区小辣椒| 性生交大片免费全黄| 337p亚洲精品色噜噜狠狠| 黄色成人影院| 91免费看网站| 亚洲精品系列| 欧美 日本 国产| 日本高清不卡一区| a中文在线播放| 91精品久久久久久久久青青| 亚洲成人精品| 亚洲 自拍 另类 欧美 丝袜| 亚洲综合一区二区三区| 人妻精品一区二区三区| 91av在线播放| 精品国产a一区二区三区v免费| 国产wwwxx| 亚洲精品五月天| 天堂在线中文网| 国产精品96久久久久久又黄又硬| 日韩大片在线观看| 日本一本在线视频| 午夜精品久久一牛影视| 国产理论电影在线观看| 成人一区二区电影| 精品91在线| 国产小视频自拍| 欧美一区二区在线免费播放 | 国产成人精品午夜| 国产精品二区不卡| 国产精品熟妇一区二区三区四区| 欧美视频一二三| 日日夜夜精品一区| 国产伦精品一区二区三区| 日本不卡不码高清免费观看| 午夜精品一区二区三区视频| 亚洲高清色综合| 69堂精品视频在线播放| 蜜臀av性久久久久蜜臀av| 99re视频这里只有精品| 亚洲性在线观看| 久久久久国色av免费观看性色 | 国产美女一区二区三区| 成年人视频在线免费看| 久久视频免费观看|