精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

攻克AI過度思考難題!美團新研究讓通過“可驗證”過程獎勵激活LRM的高效推理

人工智能 新聞
來自美團等機構的研究團隊提出可驗證的過程獎勵機制(VSRM),鼓勵CoT中的“有效步驟”,懲戒“無效步驟”,最大限度保持性能的同時,實現高效推理。

LRM通過簡單卻有效的RLVR范式,培養了強大的CoT推理能力,但伴隨而來的冗長的輸出內容,不僅顯著增加推理開銷,還會影響服務的吞吐量,這種消磨用戶耐心的現象被稱為“過度思考”問題。

針對這一缺陷,來自美團等機構的研究團隊提出可驗證的過程獎勵機制(VSRM),鼓勵CoT中的“有效步驟”,懲戒“無效步驟”,最大限度保持性能的同時,實現高效推理。

通過在數學任務上的實驗顯示,在多個常用benchmark上,VSRM加持的后訓練使得不同尺度的模型實現了輸出長度的大幅縮減,甚至在部分情況下提升了模型表現。

過度思考問題的本質

此前的工作將過度思考問題的現象總結為:對于一個問題,模型傾向于給出多種不同的解答,特別簡單的問題。在這一認識的基礎上,作者團隊更進一步,對現有LRM在MATH-500上做出的回復進行了深入的case study。

如圖所示,在這個例子中,模型為解決一個非常簡單的子問題([-500,0]中有多少個小于0的整數)進行了反復的思考,在正確和錯誤之間反復橫跳,最終得出了一個不正確的中間結論,進而導致了最終結論的錯誤。

這些無效步驟不但不能指引推理路徑的發展,反而會導致中間過程出錯。

這樣的案例并不孤立,甚至頻繁出現。

基于上述觀察,作者團隊提出:大量無效的中間步驟是導致模型過度思考的根本原因。因此,抑制這些無效步驟,鼓勵有效步驟,是后訓練的核心優化目標。

設計可驗證的逐步驟獎勵

現有RLVR的機制,通過獎勵函數以可驗證的二元結果獎勵促進模型探索能夠獲得正確答案的解法。

但是結果獎勵無法精確地獎懲不同的步驟,也因此無法達到作者所期望的目標。

過程獎勵機制雖然能滿足這一要求,但過程獎勵模型(PRM)往往難以訓練且預測結果的可靠性有限,針對數學問題/代碼編程等推理任務更是嚴重欠缺可解釋性。

作者團隊將可驗證獎勵與步驟級獎勵結合在一起,創造性地提出VSRM,為推理過程中的每個中間步驟分配獎勵信號,從而實現對不同步驟的鼓勵和抑制,天然地契合推理任務分步作答的特點。

引入步驟級獎勵的第一步是定位所有的步驟。

在CoT中,一些特殊的token,比如“However”、“Therefore”、“So”、“But”、“Wait”等往往表示模型已經完成了一個推理步驟,即將進行下一步推理(遞進或是轉折)。這些特殊token的存在將整個軌跡劃分成了多個中間步驟。

為了保證劃分后內容的可讀性,作者額外設計了三條規則:1. 跳過最初的若干token,這部分內容往往是對問題進行重述。2. 相鄰劃分點之間必須至少間隔一定距離,避免過度分割。3. 若特殊token位于句子內部,將劃分點放在該句句首。

為了評估中間步驟有效與否,最直接的方式就是評估該步驟完成前后帶來的正確率增益。而正確率是完全可以通過可驗證的方式得到的。

只需要在每個劃分點的位置前,加上一個token,這樣,從query開始,到該處的,就構成了一條子軌跡。以每個子軌跡為prompt,模型能夠產生多個候選答案,平均正確率體現了當前步驟得到正確答案的概率。

相鄰子軌跡的正確率差值,即為完成當前步驟后獲得的正確率增益。

直接將增益作為步驟級獎勵就能夠指導模型區分有效與無效步驟。但考慮到,往往若干個步驟才能夠導致解題過程的實質性推進,因此,多個連續步驟的平均正確率很可能保持不變,進而導致稀疏的獎勵信號,不利于優化。

為了避免這種情況,作者引入一個前瞻窗口機制,將未來的正確率變化通過折扣因子傳播給當前步,從而確保獎勵信號盡量密集。

通過這種機制,VSRM機制實現了為每個步驟分配可驗證的,步驟級獎勵信號,從而鼓勵模型減少無效步驟的輸出。與直接施加長度懲罰不同,VSRM直接從源頭上給予模型最清晰明了的獎勵信號,引導模型更多選擇對提升最終正確率有幫助的步驟,在緩解過度思考問題的同時,最大限度地保留模型性能。

VSRM機制本身與強化學習算法解耦,能夠天然地適配支持過程獎勵的方法,只需將逐步獎勵添加到最終的reward tensor即可,搭配常用的結果二元結果獎勵和格式獎勵,即可無縫實現高效推理。

實驗結果

作者在數學問題最常用的benchmark上,使用三個不同base model,兩種RL算法,將VSRM與多種最新的相關工作進行對比,實驗結果展現出VSRM在降低輸出長度的同時,能夠最大限度地保持性能,取得很好的均衡。

消融實驗的結果顯示了VSRM中,前瞻窗口機制的有效性,以及,額外的顯式長度懲罰對于VSRM機制并無幫助。

在困難benchamrk上,隨著k的增加,Pass@k指標的提升趨勢能夠反饋模型探索更多可行解的能力。可以看到VSRM-PPO訓練后的模型,體現了與原本模型一致的趨勢,說明模型并沒有因為輸出長度的壓縮而失去了最重要的探索能力。

總結

通過廣泛的對比實驗,作者證明了可驗證的過程獎勵在不同RL算法,不同base model的設置下,均能實現保持性能的同時,極大緩解過度思考問題。消融實驗以及進一步的實證分析也展示出,可驗證的過程獎勵,真正起到了抑制無效步驟,鼓勵有效步驟的作用,是從根本上解決過度思考問題,保持模型良好推理行為的有效途徑。

論文鏈接:https://arxiv.org/abs/2508.10293
項目鏈接:https://github.com/1benwu1/VSRM-Efficient-LRMs

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-30 04:00:00

IBMRLVRGRPO

2025-08-06 02:00:00

LLM大型語言模型AI

2025-07-01 09:05:28

2025-11-07 01:33:00

AIMeta大模型

2025-05-30 02:00:00

獎勵模型RRMAI

2025-04-07 09:23:00

大模型LLM推理

2025-06-03 17:38:24

模型AIDeepSeek

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-10-23 14:05:35

2025-06-09 09:17:44

2011-11-04 09:51:23

Platform

2022-11-25 09:42:53

AI技術

2025-05-29 09:14:17

2025-01-16 08:40:00

2025-08-04 09:20:07

2022-07-18 10:05:16

AI挑戰方案

2025-09-26 09:32:47

AI模型框架

2023-08-14 13:40:22

AI網友視頻

2020-09-27 14:23:36

AI

2021-04-02 09:40:06

量子計算芯片超算
點贊
收藏

51CTO技術棧公眾號

欧美日韩aaa| 国产欧美综合色| 欧美极品少妇与黑人| av网站有哪些| 欧美国产视频| 五月天一区二区| 亚洲精品久久久久久一区二区| 国产精品久久久久久在线| 狠狠综合久久av一区二区老牛| 精品无人区太爽高潮在线播放| 奇米影音第四色| 蜜乳av一区| 国产欧美日本一区二区三区| 亚洲综合大片69999| 无码视频在线观看| 欧美日韩1区2区3区| 国产亚洲精品美女久久久| 亚洲av无一区二区三区久久| 手机在线观看av| 《视频一区视频二区| 精品在线观看一区二区| 国产三级午夜理伦三级| 久久九九精品| 国内成人精品一区| 朝桐光av在线| 欧美最新另类人妖| 亚洲精品久久久久久久久久久久 | 极品尤物一区二区| 97色成人综合网站| 欧美高清www午色夜在线视频| 日韩激情免费视频| 91破解版在线观看| 亚洲日本va在线观看| 亚洲国产激情一区二区三区| 青青草免费在线| 成人性视频免费网站| 91欧美日韩一区| 在线观看国产黄| 日日骚欧美日韩| 欧美亚洲在线观看| 久久夜色精品亚洲| 精久久久久久| 久久久亚洲国产| 中文字幕第28页| 午夜视频一区| 欧美精品一区三区| 少妇影院在线观看| 亚洲免费二区| 久久夜精品香蕉| 日韩在线视频网址| 91精品国产自产在线观看永久∴ | 蜜臀91精品一区二区三区| 欧美一区三区三区高中清蜜桃| 日韩欧美激情视频| 亚洲精品乱码| 2019中文字幕在线观看| 亚洲天堂av片| 日韩国产在线一| 国产精品久久久久久久久久新婚| 中文字幕人成人乱码亚洲电影| 日本午夜精品视频在线观看| 国产精品一区电影| 国产一区二区三区三州| 国内精品久久久久影院一蜜桃| 国产日韩在线观看av| 国产特级aaaaaa大片| 国产成人一区二区精品非洲| 国产日韩久久| 日韩欧美电影在线观看| 国产欧美日韩卡一| 色爽爽爽爽爽爽爽爽| 成人性生交大片免费看网站| 欧美日韩精品国产| 嫩草av久久伊人妇女超级a| 8av国产精品爽爽ⅴa在线观看| 欧美日韩国产影片| 久久久久亚洲av无码网站| 狼人天天伊人久久| 在线播放国产精品| 可以直接看的黄色网址| 99亚洲一区二区| 国产精品69久久| 国产精品乱码一区二区| 成人av在线一区二区| 欧美亚洲丝袜| 黄色精品免费看| 午夜激情久久久| 黑森林精品导航| 国产午夜久久av| 日韩大片免费观看视频播放| 成人在线观看免费高清| 欧美福利一区| 日韩av色综合| 99精品国产99久久久久久97| 91在线视频播放地址| 性欧美大战久久久久久久免费观看| 超碰在线caoporen| 欧美性生交大片免网| 国产毛片久久久久久| 日韩有码av| 久久久精品2019中文字幕神马| 在线观看 中文字幕| 另类专区欧美蜜桃臀第一页| 国产一区精品在线| 麻豆传媒视频在线| 欧美丝袜第一区| 丰满人妻一区二区三区53视频| 美女亚洲一区| 欧美精品电影免费在线观看| 成人黄色三级视频| 99热在这里有精品免费| 肉大捧一出免费观看网站在线播放 | 九九久久国产精品| 中文人妻熟女乱又乱精品| 成人av免费观看| 亚洲区成人777777精品| 精品成人免费一区二区在线播放| 亚洲国产成人精品女人久久久 | 国产激情一区二区三区在线观看 | 国产精品天干天干在观线| 久久国产精品网| 精品一区二区三区四区五区| 亚洲天堂久久av| 久久露脸国语精品国产91| 国产成人午夜高潮毛片| 一区二区三区精品国产| 亚洲成人人体| 日韩成人av一区| 亚洲精品在线观看av| 国产一区二区视频在线播放| 亚洲精品成人久久久998| 国产精品久久久久av电视剧| 亚洲精品日韩丝袜精品| 国产精品成人国产乱| 国产91丝袜在线播放九色| 看一级黄色录像| 欧美亚洲综合视频| 日韩在线小视频| 中文字幕在线观看第二页| 国产亚洲一本大道中文在线| 欧美韩国日本在线| 国产亚洲一区二区三区啪| 欧美在线性爱视频 | 欧美私人情侣网站| 欧美三级电影在线| 97国产在线视频| 天堂在线中文字幕| 色综合久久天天| 色无极影院亚洲| 美女久久一区| 亚洲高清在线观看一区| 91精品在线免费视频| 久久这里只有精品视频首页| 99在线观看免费| 亚洲国产一区二区在线播放| 毛茸茸free性熟hd| 亚洲精品乱码| 日本在线播放一区| www.成人在线视频| 久久久av网站| 亚洲美女福利视频| 欧美日韩一区二区精品| 亚洲天堂久久新| 蜜芽一区二区三区| 大地资源网在线观看免费官网| 国产成人澳门| 欧美在线性爱视频| 日本美女在线中文版| 69堂国产成人免费视频| 久久久久久福利| 97se狠狠狠综合亚洲狠狠| 国产精品丝袜久久久久久消防器材| 亚洲自拍电影| 91精品视频观看| 波多野结衣乳巨码无在线观看| 精品香蕉在线观看视频一| 亚洲天堂2021av| 亚洲一区二区三区国产| 日韩精品无码一区二区三区久久久| 美女久久久精品| 少妇大叫太大太粗太爽了a片小说| 欧美日韩精品一区二区三区在线观看| 国产福利视频一区| 欧美aaa免费| 国产午夜精品美女视频明星a级| 国产精品高潮呻吟av| 亚洲图片欧美综合| 免费看黄色三级| 成人丝袜高跟foot| av在线无限看| 亚洲国产日韩欧美一区二区三区| 日本免费高清不卡| 亚洲综合色婷婷在线观看| 国产suv精品一区二区| 18在线观看的| 亚洲香蕉成视频在线观看| av网站在线观看免费| 色婷婷狠狠综合| 日韩黄色免费观看| 久久精品视频在线免费观看 | 日韩成人在线看| 国产成人精品国内自产拍免费看| 国产区在线看| 亚洲最大在线视频| 熟妇高潮一区二区三区| 欧美高清www午色夜在线视频| 亚洲熟妇无码乱子av电影| 一区二区三区在线视频播放| 免费看的黄色录像| 99久久久久免费精品国产 | 四虎国产精品免费久久5151| 欧美性受xxx| 日本性爱视频在线观看| 自拍视频国产精品| 青梅竹马是消防员在线| 亚洲福利小视频| 精品区在线观看| 欧美日韩国产123区| 蜜臀99久久精品久久久久小说 | 中文字幕手机在线视频| 亚洲午夜私人影院| 青青草免费av| 亚洲欧洲日产国码二区| 国产精品情侣呻吟对白视频| www国产精品av| 在线观看免费视频黄| 国产真实乱偷精品视频免| 日韩av手机版| 日韩高清在线电影| 成人午夜视频免费在线观看| 亚洲清纯自拍| 阿v天堂2018| 国色天香一区二区| 日韩一级片一区二区| 外国成人免费视频| 一区二区三区视频| 欧美高清视频手机在在线| 先锋在线资源一区二区三区| 欧美最新另类人妖| 亚洲国产欧美日韩| 青青草成人影院| 亚洲国产一区二区精品视频| 欧美亚洲国产激情| 日韩wuma| 日本久久精品| 一区二区精品在线| 色爱综合网欧美| 婷婷视频在线播放| 亚洲综合色站| 第九区2中文字幕| 狠狠色丁香久久综合频道| 欧美一级视频免费看| 亚洲精选在线| 成人黄色片视频| 奇米色一区二区| 国产aⅴ爽av久久久久| 狠狠色丁香久久婷婷综合_中| 亚洲精品免费一区亚洲精品免费精品一区 | 熟妇人妻va精品中文字幕| 天堂在线亚洲视频| 中文字幕第100页| 国产精品综合在线视频| 蜜桃色一区二区三区| 菠萝蜜视频在线观看一区| 亚洲av无码一区二区三区网址 | 日韩高清专区| 欧美激情欧美| 国产亚洲黄色片| 久久国产欧美| 欧美丝袜在线观看| 成人综合婷婷国产精品久久 | 肥臀熟女一区二区三区| 日韩不卡在线观看| 91九色在线porn| 欧美久久精品午夜青青大伊人| 国产亚av手机在线观看| 欧美在线精品免播放器视频| 欧洲亚洲精品| 国产高清精品一区| 国产在线日韩精品| 成人毛片100部免费看| 亚洲在线视频| 欧美国产日韩另类 | 欧美va在线播放| 国产中文在线视频| 久久国产色av| 成人直播视频| 91大片在线观看| 国产成人精品999在线观看| 午夜啪啪福利视频| 久久亚洲欧美| 中文字幕一二三区| 久久奇米777| 青春草免费视频| 色综合久久久久网| 亚洲国产精品一| 最近的2019中文字幕免费一页 | 国产美女91呻吟求| 欧美色图五月天| 色乱码一区二区三区熟女| 国产精品婷婷| 国产精品无码自拍| 国产日产精品一区| 亚欧视频在线观看| 日韩区在线观看| 91在线不卡| 26uuu久久噜噜噜噜| 日韩精品一区二区三区中文字幕 | 91日韩久久| 日本一二区不卡| 欧美亚洲一二三区| 国产99一区视频免费| 国产欧美小视频| 日韩欧美亚洲一二三区| 亚洲免费不卡视频| 久久亚洲私人国产精品va| 国产成人免费| 久久婷婷人人澡人人喊人人爽| 欧美激情1区| 日韩av片免费观看| 欧美激情一区二区| 亚洲午夜18毛片在线看| 亚洲激情视频在线观看| 欧美xxxx免费虐| 999视频在线免费观看| 青青草原综合久久大伊人精品| 国产最新免费视频| 成人黄色在线看| 国产在线视频99| 欧美一级爆毛片| 成人影院在线观看| 成人国产精品免费视频| 日韩大片在线观看| jizz欧美激情18| 久久精品欧美一区二区三区不卡 | 无码人妻精品中文字幕| 欧美三级电影网| 1pondo在线播放免费| 国产精品91久久久| 欧美色图一区| 亚洲性图一区二区| 中文字幕亚洲欧美在线不卡| 中文字幕久久久久| 色婷婷久久av| 欧美成人三级| 一区二区三区一级片| 国模无码大尺度一区二区三区| 中文字幕观看av| 91精品国产一区二区三区香蕉| 黄色网页在线看| 99久久综合狠狠综合久久止| 亚洲午夜在线| 精品中文字幕在线播放| 欧美日韩中文字幕综合视频| 日本午夜在线| 国产精品自拍偷拍视频| 在线观看日韩| 99久久免费看精品国产一区| 日韩欧美国产一区二区| 国产黄色免费在线观看| 国产一区二区丝袜| 亚洲综合专区| 国产美女视频免费观看下载软件| 激情懂色av一区av二区av| 色鬼7777久久| 国产精品久久视频| 在线电影一区二区| 亚洲精品女人久久久| 欧美三级一区二区| 综合图区亚洲| 久久综合婷婷综合| 久久精品国产免费| 国产精品成人久久| 在线视频中文亚洲| 视频一区国产| 日韩久久一级片| 日韩美女精品在线| 色婷婷av一区二区三区之e本道| 欧美一二三视频| 欧美高清视频在线观看mv| 制服.丝袜.亚洲.中文.综合懂| 日韩欧美中文字幕在线观看| 国产h视频在线观看| 成人一区二区在线| 奇米影视在线99精品| 欧美成人一区二区三区高清| 精品网站999www| 日韩中文一区二区| 免费在线观看的毛片| 一区二区三区在线视频观看58| 欧美大片aaa| 99re热精品| 蜜臀a∨国产成人精品| 日韩精品乱码久久久久久| 在线日韩精品视频| 秋霞蜜臀av久久电影网免费| 中文字幕12页| 在线观看国产日韩| free性护士videos欧美| 色乱码一区二区三区熟女|