精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華、快手提出AttnRL:讓大模型用「注意力」探索

人工智能 新聞
來自清華和快手的研究團隊提出了一種新框架?AttnRL,通過引入注意力機制作為探索的「指南針」,顯著提升了過程監督強化學習的效率與性能。

從 AlphaGo 戰勝人類棋手,到 GPT 系列展現出驚人的推理與語言能力,強化學習(Reinforcement Learning, RL)一直是讓機器「學會思考」的關鍵驅動力。

然而,在讓大模型真正掌握「推理能力」的道路上,探索效率仍是一道難以逾越的鴻溝。

當下最前沿的強化學習范式之一——過程監督強化學習(Process-Supervised RL, PSRL),讓模型不再只看「結果對不對」,而是學會在「推理過程」中不斷修正自己。

然而,傳統的過程監督強化學習方法在探索效率和訓練成本上仍存在明顯瓶頸。

為此,來自清華和快手的研究團隊提出了一種新框架 AttnRL,通過引入注意力機制作為探索的「指南針」,顯著提升了過程監督強化學習的效率與性能。

  • 論文標題:

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

  • 論文鏈接:

https://arxiv.org/abs/2509.26628

  • GitHub:

https://github.com/RyanLiu112/AttnRL

  • HuggingFace:

https://huggingface.co/papers/2509.26628

過程監督RL的現實困境

傳統的結果監督強化學習方法對所有token賦予相同的獎勵信號,忽略了推理過程中的細粒度質量。過程監督強化學習方法雖然能提供更精細的獎勵,但在分支位置選擇和采樣策略上效率低下,導致訓練成本高昂:

  • 分支策略粗糙:往往按固定長度或熵劃分,忽視語義和推理行為;
  • 采樣效率低下:在簡單和困難問題間一視同仁,導致大量計算浪費在簡單問題上;
  • 訓練流程冗余:每次訓練需進行兩次采樣,顯著增加了時間與計算成本。

為解決這些難題,研究者提出了全新的過程監督強化學習框架——AttnRL,并將注意力機制首次引入推理探索過程,使「注意力」真正成為模型的推理「指南針」。如上圖所示,AttnRL 在注意力分數高的步驟進行分支,并在效果和效率上超過了基線方法。

研究核心:讓注意力引導探索

研究團隊的關鍵洞察是:在大模型的推理過程中,那些注意力得分高的步驟,往往恰好對應「真正的思考時刻」——模型在規劃、自我驗證或轉折時的關鍵推理節點。

因此,AttnRL 提出了一種創新的探索方式:

不再隨機地從任意位置「分支探索」,而是讓模型從高注意力的關鍵步驟出發,去探索新的推理路徑。

論文將這種策略稱為Attention-based Tree Branching(ATB),ATB會分析推理序列中的每個步驟,通過計算「前向上下文影響力(Forward Context Influence, FCI)」分數來衡量其對后續推理的影響程度,然后只在FCI得分最高的幾個位置建立分支。這種機制讓模型能夠「少走彎路」,在推理樹中更快找到高質量路徑。

具體來說,AttnRL首先對回答進行分步,計算步驟-步驟之間的注意力分數矩陣,其中, 表示步驟j注意步驟k在第l層第h個注意力頭的分數。計算步驟k后續所有步驟的注意力分數之和:

取所有層和注意力頭的最大值,即為FCI分數: 

實驗結果表明,破壞這些高注意力步驟會顯著降低模型的解題準確率,證明它們確實是推理過程的關鍵節點。

自適應采樣:

讓模型在「最值得學」的地方學習

傳統的PSRL方法往往采用固定比例、均勻采樣的方式進行探索,無論任務難易都同等對待,導致大量算力浪費在「簡單題」上。

AttnRL引入了兩種自適應采樣機制:

  • 難度感知探索:根據FCI分數過濾掉那些在兩次采樣中大概率100%正確的「簡單題」,對于困難問題,模型會擴展更多「推理樹」來探索解法;而對簡單問題,則自動縮減計算量;
  • 動態批次調整:根據當前有效樣本數動態調整采樣批次大小,保證每次訓練中,所有樣本的梯度都「有貢獻」(即非零advantage),大幅提升了訓練效率。 

高效訓練:一步采樣,性能反超

在工程層面,AttnRL設計了一個 One-Step Off-Policy 的訓練流程:

以前的 PSRL 方法在每次更新都需要兩次生成(初始采樣+蒙特卡洛采樣),采樣成本高。而 AttnRL 在第 m 步訓練時對 m?1 批進行蒙特卡羅采樣,對m+1批進行初始采樣,將初始采樣與蒙特卡羅采樣交錯執行,每步只生成一次即可得到訓練所需的兩類樣本。

實驗結果:性能與效率雙贏

主要結果

  • 在AIME24/25、AMC23、MATH-500、Minerva、Olympiad等六個數學推理基準上,AttnRL對1.5B與7B兩個基座均穩定提升,平均準確率分別達到57.2%與68.7%,顯著高于GRPO、TreeRL及強RLVR基線方法;
  • 相比DeepScaleR-Preview-1.5B(1750步,24K上下文),AttnRL僅需500步、8K上下文即實現更優結果。

分支采樣更高效

基于注意力的分支方法相比于熵分支(TreeRL),在「全對比例」、「全錯比例」、「有效比例」等統計上全面占優,AttnRL 在簡單題采樣到更多錯誤回答,在困難題采樣到更多正確回答,證明了 AttnRL 分支采樣更加高效。

采樣更「干凈」

自適應采樣讓每個批次的每個 token 都有非零優勢,訓練信號密度顯著提高。相比于 GRPO 和 TreeRL,AttnRL 在更少的訓練步數下達到更高性能,并且動態批次機制確保每批次中所有樣本均有效,使 AttnRL 能夠訓練更多有效token。 

未來展望

AttnRL 將「注意力分數」首次用于過程監督強化學習的探索決策,把探索預算投向「影響后續最多」的關鍵推理步驟,為未來的大模型可解釋性與強化學習研究打開了新的方向。它啟示我們:在讓模型「思考得更好」的路上,效率與智能并非對立,而是可以通過更高效的探索實現共贏。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-29 11:56:23

數據AI

2025-08-07 09:16:41

2024-07-01 12:17:54

2025-09-11 13:23:28

多模態大模型文檔問答

2024-06-28 08:04:43

語言模型應用

2024-12-09 00:00:10

2025-10-16 09:00:00

大模型

2023-05-05 13:11:16

2025-07-16 10:15:51

2024-06-03 10:56:53

2024-11-04 08:45:00

2022-03-16 09:33:13

模型算法智能

2024-12-17 14:39:16

2011-07-07 13:12:58

移動設備端設計注意力

2024-04-03 14:31:08

大型語言模型PytorchGQA

2025-03-18 09:23:22

2022-03-25 11:29:04

視覺算法美團

2024-09-19 10:07:41

2025-04-29 09:05:00

點贊
收藏

51CTO技術棧公眾號

久久日本片精品aaaaa国产| 日韩a在线看| 黄色免费成人| 亚洲免费视频网站| 四季av一区二区三区| 亚洲男同gay网站| 91视频com| 91久久久久久久久久久| 五月天婷婷综合网| 日韩毛片视频| 亚洲成人网在线| 天堂社区在线视频| 美女日批视频在线观看| 久久精品人人做人人爽人人| 91久久久久久久久久| 久久免费激情视频| 欧美一区国产在线| 亚洲无av在线中文字幕| 91精品国产高清91久久久久久| 成人性生活av| 亚洲午夜成aⅴ人片| 日韩久久在线| 同心难改在线观看| 国产高清久久久久| 国产人妖伪娘一区91| 日韩av女优在线观看| 99久久精品费精品国产| 亚洲欧美日韩一区二区三区在线| 宇都宫紫苑在线播放| 精品肉辣文txt下载| 欧美日韩在线观看视频| 国产在线xxxx| 中文字幕中文字幕在线十八区| 国产日韩视频一区二区三区| 精品婷婷色一区二区三区蜜桃| 国产精品无码免费播放 | 久久激情视频久久| 日本激情小视频| av自拍一区| 欧美一区二区女人| 伊人五月天婷婷| 日韩专区视频网站| 欧美日韩精品系列| 91人人澡人人爽人人精品| 欧美三根一起进三p| 91在线品视觉盛宴免费| 99久久综合色| 99久久综合狠狠综合久久止| 国产乱淫片视频| 麻豆精品一区二区三区| 国产精品久久久久久久午夜 | 国产成人天天5g影院在线观看| av男人天堂一区| 精品欧美国产| 色鬼7777久久| 久久先锋影音av鲁色资源网| 欧美日韩国产免费一区二区三区 | 精品国偷自产在线视频| 超碰人人人人人人人| 欧美色女视频| 久久精品视频在线| 欧美成人三级在线观看| 亚洲一区二区三区| 九九久久精品一区| 久久久久亚洲av成人片| 精品999成人| 91高潮精品免费porn| av黄色在线播放| 日本亚洲三级在线| 国产精品久久久久久久7电影| 国产一区二区视频网站| 人人狠狠综合久久亚洲| 成人激情在线播放| 国产成人毛毛毛片| 国产99精品在线观看| 国产亚洲情侣一区二区无| 四虎精品在线| 中文乱码免费一区二区| 最新中文字幕久久| h片视频在线观看| 一本色道亚洲精品aⅴ| 天天爽人人爽夜夜爽| 91精品在线免费视频| 日韩一区二区电影| 国产中文字幕一区二区| 久久理论电影| 欧美激情精品在线| 日韩综合在线观看| 精品一区二区三区蜜桃| 国产激情一区二区三区在线观看 | 激情成人开心网| 性国裸体高清亚洲| 欧美久久久久久久久久| 亚洲色偷偷色噜噜狠狠99网| 精品日韩毛片| 欧美激情精品久久久| 久久这里只有精品9| 国产精品一区久久久久| 欧美精品一区二区三区在线四季 | 国产精品永久在线| 风流老熟女一区二区三区| 久久久精品日韩欧美| 国产日本欧美在线| 日韩欧美看国产| 欧美大片拔萝卜| 九九九视频在线观看| 精品91在线| 国产精品专区h在线观看| 日日夜夜精品免费| 国产精品福利在线播放| 欧美日韩在线中文| 欧美午夜网站| 一本色道久久88综合亚洲精品ⅰ | 欧美视频第一页| 992tv人人草| 精品一区av| 97久久久久久| 亚洲第一页av| 欧美91精品| 国产精品视频久久久| 四虎成人免费在线| 亚洲精品国产一区二区精华液 | 欧美理论影院| 亚洲成人激情在线| 日本黄色小说视频| 久久国产精品99精品国产| 欧美深深色噜噜狠狠yyy| av今日在线| 精品伦理精品一区| caoporn91| 美女一区二区视频| 日本精品视频一区| 亚洲欧洲美洲av| 精品日韩欧美在线| 极品盗摄国产盗摄合集| 激情深爱一区二区| 亚洲精品9999| 日韩不卡视频在线观看| 亚洲欧美日韩综合| 丁香六月婷婷综合| 本田岬高潮一区二区三区| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 97中文字幕在线观看| 91tv官网精品成人亚洲| 国产精品一区二区久久久久| 九色在线观看| 色一情一乱一乱一91av| 18禁裸乳无遮挡啪啪无码免费| 欧美特黄视频| 国产精品一区二区av| sm在线观看| 日韩成人av在线| 一级成人黄色片| 国产网站一区二区| 在线免费av播放| 日韩大片在线| 91精品视频在线看| 丝袜国产在线| 亚洲激情在线观看视频免费| 成人午夜视频精品一区| 久久女同精品一区二区| 亚洲国产精品久久久久爰色欲| 日韩精品丝袜美腿| 欧洲日韩成人av| 国产系列电影在线播放网址| 欧美在线|欧美| 中文字幕无码日韩专区免费| 国产一区二区三区免费在线观看| 成人欧美一区二区三区视频| 丁香高清在线观看完整电影视频 | 成人在线免费电影| 欧美日韩国产综合视频在线观看| 日本裸体美女视频| 国产精品亚洲第一| 又粗又黑又大的吊av| 伊甸园亚洲一区| 国产日本欧美一区| 国产精品69xx| 亚洲天堂开心观看| 国产免费无遮挡| 亚洲午夜av在线| 性猛交娇小69hd| 国产大陆a不卡| wwwxxx黄色片| 中文字幕免费一区二区三区| 国产亚洲精品自在久久| 成人黄色视屏网站| 欧美黄色免费网站| 国产玉足榨精视频在线观看| 欧美一级国产精品| 一级一片免费看| 亚洲日本在线天堂| 黄色在线观看av| 韩国v欧美v亚洲v日本v| 奇米影视亚洲色图| 四虎成人精品永久免费av九九| 波多野结衣一区二区三区在线观看| 麻豆视频在线观看免费网站黄| 中文字幕亚洲色图| 人妻一区二区三区四区| 精品视频在线看| 欧美三级一区二区三区| 亚洲男人的天堂在线观看| 亚洲天堂网一区二区| 激情综合色综合久久| 欧美日韩在线视频一区二区三区| 91av精品| 亚洲精品一区国产精品| 日本成人7777| 51国产成人精品午夜福中文下载| 欧美极度另类| 高清亚洲成在人网站天堂| 一级毛片视频在线| 日韩精品久久久久久久玫瑰园| 精品国产区一区二| 欧美性色黄大片| wwwxxx亚洲| 亚洲国产日韩精品| 欧美大片xxxx| 中文字幕精品三区| 一卡二卡三卡四卡| 懂色av一区二区三区免费观看| 午夜精品中文字幕| 日韩av一级电影| 欧美 日韩精品| 亚洲精品女人| 国产免费裸体视频| 欧美在线亚洲| 永久域名在线精品| 成人羞羞视频播放网站| 九九九九精品九九九九| 操你啦视频在线| 这里只有精品在线观看| 色视频免费在线观看| 日韩经典一区二区三区| 精品人妻无码一区二区| 欧美一区二区三区在线观看| 一二三区在线播放| 欧美三级电影网站| 在线免费观看视频网站| 欧美在线小视频| 成年人视频免费| 日本高清免费不卡视频| 区一区二在线观看| 在线观看91精品国产入口| 免费的毛片视频| 91成人在线精品| 一级黄色av片| 欧美色视频在线| 亚洲特级黄色片| 欧美三级视频在线观看| 一级日韩一级欧美| 欧美精品自拍偷拍动漫精品| 国产精品久久久久精| 欧美一区二区三区免费大片 | 成人激情视屏| 国产色视频一区| 欧美成年网站| 国产精品国色综合久久| 九色丨蝌蚪丨成人| 免费久久一级欧美特大黄| 亚洲日产av中文字幕| 秋霞在线观看一区二区三区| 日韩成人综合| 国产成人三级视频| 国产精品草草| 99爱视频在线| 免费不卡在线视频| 潘金莲一级淫片aaaaa| 成人精品一区二区三区四区 | 欧美在线视频免费播放| 666av成人影院在线观看| 国产玖玖精品视频| 秋霞一区二区| 欧美日韩亚洲免费| 国产精品99一区二区三区| 99久久免费观看| 久久久久免费| 乳色吐息在线观看| 2021中文字幕一区亚洲| 久久久久麻豆v国产| 亚洲一级二级在线| 日韩在线播放中文字幕| 69堂精品视频| 午夜激情在线视频| 深夜成人在线观看| 看黄在线观看| 91精品中国老女人| 琪琪久久久久日韩精品| 亚洲综合欧美日韩| 亚洲精品日韩久久| www.国产福利| 久久亚洲精品小早川怜子| 校园春色 亚洲| 色婷婷综合激情| 99热这里只有精品5| 亚洲人成在线观看| 日韩伦理av| 国产精品揄拍一区二区| 欧美人妖在线观看| 国内外成人激情免费视频| 免费日韩av| 国产人妖在线观看| 国产精品欧美一区二区三区| 在线观看 中文字幕| 51精品秘密在线观看| 欧美xxx.com| 久久久免费精品视频| 97精品资源在线观看| 日本视频一区二区在线观看| 欧美福利影院| 三区视频在线观看| 久久精品这里都是精品| 日本三级欧美三级| 欧美一区二区在线免费播放| 成人在线免费电影| 国产91av在线| 成人爽a毛片| 在线观看18视频网站| 蜜桃视频在线观看一区二区| caopeng视频| 精品久久久免费| 好吊视频一区二区三区| 久久精品91久久香蕉加勒比| 国产精品videossex撒尿| 欧美精品一区二区三区在线看午夜| 99国产精品久久久久久久成人热| 色男人天堂av| 自拍偷在线精品自拍偷无码专区 | 日韩免费观看高清完整版| 日本不卡不卡| 国产日韩专区在线| 久久亚洲国产| 日韩肉感妇bbwbbwbbw| 国产视频911| 日韩欧美成人一区二区三区 | 91精品久久香蕉国产线看观看| 99国产**精品****| 色天使在线观看| 中文字幕一区二区三区视频| 欧美成人一区二区视频| 中国日韩欧美久久久久久久久| 人人鲁人人莫人人爱精品| 女女同性女同一区二区三区91| 欧美一级播放| 中文字幕人妻一区二区三区在线视频| 色香蕉久久蜜桃| 精彩国产在线| 国产精品精品久久久| 日本精品三区| 亚洲天堂av一区二区| 亚洲欧美日韩久久| 亚洲国产中文字幕在线| 97在线观看免费| 岳的好大精品一区二区三区| 免费看a级黄色片| 国产精品久久久久婷婷二区次| 国产精品美女一区| 久久777国产线看观看精品| 91午夜精品| 国产日产欧美视频| 中文字幕的久久| 国产女18毛片多18精品| 久久99精品视频一区97| 好吊妞视频这里有精品| 国产裸体舞一区二区三区| 国产日韩欧美在线一区| 国产伦精品一区二区三区四区 | 国产一二精品视频| 麻豆changesxxx国产| 日韩av网址在线| 成人黄色视屏网站| 国产欧美123| 91在线观看高清| 五月激情丁香网| 欧美高清激情视频| 日韩人体视频| 日本一二区免费| 亚洲国产日韩a在线播放性色| 日本精品专区| 国产免费一区二区三区在线观看| 欧美日韩爆操| 日本二区在线观看| 欧美一区二区视频网站| 91美女精品| 天天综合狠狠精品| 成人午夜视频在线观看| 波多野结衣在线观看视频| 欧美精品在线免费观看| 亚洲理论电影| 中国男女全黄大片| 在线精品国精品国产尤物884a| 成人a在线视频免费观看| 久久精品欧美| 国产精品一区免费在线观看| 中文字幕日韩免费| 久久久免费av| 7777久久香蕉成人影院| 91精品人妻一区二区三区蜜桃欧美 | 久久亚洲国产成人|