精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型強化學習新突破——SPO新范式助力大模型推理能力提升!

人工智能 新聞
來自中科院軟件所和香港城市大學的的研究團隊創新性提出了 Segment Policy Optimization (SPO) 框架。

當前,強化學習(RL)在提升大語言模型(LLM)推理能力方面展現出巨大潛力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分證明了 RL 在增強 LLM 復雜推理能力方面的有效性。

然而,要實現有效的強化學習,需要解決一個根本性的挑戰,即信用分配問題(credit assignment):在大語言模型的場景下,如何將整個序列(LLM 的回復)最終的評估結果,歸因到序列中具體的決策動作(token)上。

這一問題的困難在于獎勵信號非常稀疏 — 只能在序列結束時才能獲得明確的成功或失敗反饋。

當前主要方法

在強化學習中,通常采用優勢值估計(advantage estimation)的方法來解決信用分配問題。目前針對大語言模型的強化學習方法主要分為兩類,它們之間的區別在于優勢值估計的粒度不同。

粗粒度的軌跡級 (trajectory-level) 方法,如 DeepSeek R1 使用的 GRPO,只根據最終的獎勵為整個序列計算一個優勢值。這種方法雖然高效但反饋信號過于粗糙,LLM 無法對錯誤回答中正確的部分進行獎勵,也無法對正確回答中冗余的部分進行懲罰。

另一種極端是細粒度的 token 級(token-level)方法,如經典的 PPO。這類方法為每個 token 估計優勢值,需要依賴額外的 critic 模型來預測每個 token 的狀態價值(V 值)。然而,在大語言模型的強化學習任務中,不同 prompt 對應的軌跡分布差異很大,而且在訓練過程中每個 prompt 采樣出來的模型回復數量非常有限,critic 模型難以訓練好,造成 token 級的優勢值估計誤差很大。

新的 SPO 框架

為突破這一瓶頸,來自中科院軟件所和香港城市大學的的研究團隊創新性提出了 Segment Policy Optimization (SPO) 框架。

圖片

  • 論文題目:Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
  • 作者:Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
  • 鏈接:https://arxiv.org/abs/2505.23564
  • 代碼鏈接:https://github.com/AIFrameResearch/SPO 

SPO 使用了一種中等粒度的段級(segment-level)優勢值估計方式。它不像軌跡級方法只在最后一步計算優勢,也不像 token 級方法每步都計算優勢,而是將生成的序列劃分為若干相連的段,計算每個段的優勢值。

這種段級的優勢值估計方式具有幾個明顯的優勢:

(1) 更優的信用分配:相比軌跡級方法,段級方法能夠提供更局部化的優勢反饋,讓模型能夠獎勵錯誤回答中仍然有價值的部分,同時也能懲罰正確回答中冗余和無效的片段。

(2) 更準確的優勢值估計:相比 token 級方法,段級方法所需的估計點數量更少,從而能夠有效利用蒙特卡洛(Monte Carlo, MC)采樣得到更加準確且無偏的優勢值估計,而無需再依賴額外且不穩定的 critic 模型。

(3) 更靈活、更易調整:段級的劃分方式可以任意定義,并不要求語義上的完整性,因此可以靈活地在 token 級與軌跡級之間自由調整粒度,并且可以適應不同的任務和應用場景。

SPO 框架主要包含三個核心部分:(1) 靈活的段級劃分策略;(2) 基于蒙特卡洛采樣的段級優勢值估計;(3) 利用段級優勢值進行策略優化。

這種模塊化的設計使框架具備高度的靈活性,不同的部分可以有不同的實現策略,以適用不同的應用場景。

該團隊進一步針對不同的推理場景提出 SPO 框架的兩個具體實例:對于短的思維鏈(chain-of-thought, CoT)場景,提出了 SPO-chain,該方法使用基于切分點(cutpoint-based)的段劃分和鏈式優勢值估計;對于長 CoT 場景,提出極大提升 MC 采樣效率的樹形結構優勢值估計方法。

此外,該團隊還提出了一種 token 概率掩碼(token probability-mask)策略優化方法,選擇性的對段內的低概率 token 計算損失而非段內的所有 token。作者認為這些 token 是模型推理軌跡可能發生分叉的地方,是段級優勢值產生的主要原因。這種方法可以用于 SPO-chain 和 SPO-tree,從而進一步強化信用分配。

框架及核心技術

SPO 框架主要圍繞以下三個具有挑戰性的問題進行設計:(1) 如何將生成的序列劃分為多個段?(2) 如何準確且高效地估計每個段對應的優勢值?(3) 如何利用段級優勢值來更新策略?SPO 的三個核心模塊分別解答上面三個問題,每個模塊包含多種可選策略,來適用于不同的場景: 

圖片

1. 段劃分 (Segment Partition):

a) 基于切分點的段劃分 (Cutpoint-based Partition): 為短思維鏈場景設計,將段劃分點放置在狀態值(V 值)更有可能發生變化的地方。根據 token 概率動態確定段邊界,優先在模型 “猶豫” 或可能改變推理路徑的關鍵點(cutpoints)進行劃分,使信用分配更精確。比如,在下圖例子中,標記為紅色的 token 是關鍵點,而標記為藍色的豎杠是分段結果。

圖片

b) 固定 token 數量段劃分 (Fixed Token Count Partition): 將序列劃分為固定長度的段,便于樹形結構的組織和優勢值估計,為 SPO-tree 設計。

2. 段級優勢值估計(Segment Advantage Estimation):

圖片

a) 鏈式優勢值估計 (Chain-based) 方法:在短思維鏈場景下,MC 采樣的成本不高,該團隊采用一種直接的段級優勢值估計方式,獨立估計每個段邊界的狀態值(V 值),然后計算段級優勢值。以下公式展示了鏈式優勢值的估計方法。

圖片

圖片

b) 樹形優勢值估計 (Tree-based): 在長思維鏈場景下,MC 估計的代價很高,團隊提出了一種高效的樹形估計方法:將采樣軌跡組織成樹形結構,通過自底向上的獎勵聚合計算狀態價值(V 值),同一個父節點的子節點形成一個組,在組內計算每個段的優勢值。這種方式將用于 V 值估計的樣本同時用于策略優化,極大提高了樣本效率。以下公式展示了樹形優勢值估計方法。

圖片

3. 基于段級優勢值 token 概率掩碼策略優化(Policy Optimization Using Segment Advantages with Token Probability-mask):

在得到段級優勢值以后,為了進一步提高信用分配,團隊創新性地提出 token 概率掩碼策略優化方法,在策略更新僅將段級優勢值分配給該段內的低概率(關鍵)token,而非所有 token。這種方法能更精確地將獎勵 / 懲罰賦予關鍵的決策點,提升學習效率和效果。下面分別展示了 SPO-chain 和 SPO-tree 的優化目標。

a) SPO-chain 優化目標:

圖片

圖片

b) SPO-tree 優化目標:

圖片

圖片

對比基線方法

如下圖所示,在短思維鏈場景,使用 RhoMath1.1B 作為基座模型,使用 GSM8K 訓練集進行訓練,對比各種訓練算法,使用 SPO 訓練得到的模型測試集正確率更高。

圖片

對于長思維鏈場景,如下圖所示,使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座模型,使用 MATH 數據集進行訓練,在相同的訓練時間下,測試集正確率比 GRPO 更高。

圖片

下表展示了在長思維鏈場景下的更多對比結果:與同期基于相同基座模型(DeepSeek-R1-Distill-Qwen-1.5B)并使用 GRPO 方法訓練得到的模型(DeepScaleR、STILL-3)相比,盡管 SPO 僅使用 MATH 數據集且僅使用 4K 的最大上下文長度進行訓練,SPO-tree 在各個上下文長度評測下表現優秀。值得注意的是,盡管 DeepScaleR 在 32K 上下文長度評測下表現最佳,但它在較短上下文長度(2K 與 4K)下卻表現最差,甚至不及原始基座模型。這表明,GRPO 訓練方法可能未有效優化模型的 token 效率,導致輸出存在較多冗余,從而在上下文長度有限的情形下出現正確率下降的問題。

圖片

分段粒度的影響

圖片

通過實驗發現,很細的粒度 (int2,每個兩個切分點進行分段),相比于中等粒度 (int5),僅有微小提升,但是過粗的粒度 (int100),相比于中等粒度 (int5),正確率下降很大。證明了 SPO 采用中等粒度優勢值的有效性。

段劃分方式的影響

圖片

實驗表明,在短思維鏈場景下,采用提出的基于切分點的段劃分方式效果最好,優于采用換行符進行劃分(VinePPO)以及固定 token 數量劃分(Fixed-token-count)。

Token 概率掩碼消融

圖片

實驗表明,將 token 概率掩碼去除會導致 SPO-chain 正確率下降,更值得注意的是:將 token 概率掩碼應用到 GRPO 上,會讓其正確率有明顯上升。

不同樹結構的影響

圖片

實驗表明,更小的樹結構在早期正確率更高,可能因為更快掃過更多的數據樣本。然而隨著訓練的進行,更大的樹結構會有更好的正確率,因為更大的樹結構對于段級優勢值的估計更加準確。

總結

該工作提出了一種基于中間粒度段級優勢值的 RL 訓練框架 SPO,在 token 級和軌跡級之間更好的平衡,具有比軌跡級更好的信用分配,同時僅需要少量優勢值估計點,可以使用有效無偏的 MC 方式進行估計,不需要額外的 critic 模型。

文章同時提出了 SPO 的兩個實例,為短思維鏈場景設計的 SPO-chain 以及為長思維鏈場景設計的 SPO-tree,通過實驗證明了 SPO 框架和兩個實例的有效性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-26 09:06:59

2025-10-21 09:06:00

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2025-08-07 09:16:41

2025-10-23 14:05:35

2025-02-20 09:21:51

2025-05-26 09:16:00

2024-09-13 06:32:25

2025-06-26 09:13:22

2025-04-30 16:48:07

2025-06-27 10:10:43

AI模型技術

2025-11-04 01:43:00

循環語言模型架構

2025-05-30 04:00:00

IBMRLVRGRPO

2025-05-29 03:00:00

混合推理模型LHRMAI

2023-06-09 07:29:03

模型文本document

2025-08-08 09:02:00

AI架構模型

2022-11-03 14:13:52

強化學習方法

2023-08-28 06:52:29

2025-01-16 08:40:00

2025-05-30 02:00:00

獎勵模型RRMAI
點贊
收藏

51CTO技術棧公眾號

日韩免费特黄一二三区| 黄色在线免费网站| 亚洲人成毛片在线播放女女| 精品久久久久久久人人人人传媒 | 日本福利专区在线观看| 蜜臀精品一区二区三区在线观看| 国产亚洲人成a一在线v站| 国产精品无码av无码| 拍真实国产伦偷精品| 国产精品视频久久一区| 亚洲午夜色婷婷在线| 日韩在线一区视频| 人交獸av完整版在线观看| 国产剧情一区二区| 啪一啪鲁一鲁2019在线视频| 超碰97av在线| 一区二区三区高清在线观看| 懂色av影视一区二区三区| 日本视频一区二区在线观看| 国产伦理吴梦梦伦理| 最新亚洲视频| 中文字幕亚洲欧美日韩高清 | 老司机精品视频导航| 中文字幕精品在线视频| 久久久久亚洲av无码专区首jn| 96av在线| 亚洲欧洲色图综合| 精品一区二区三区国产| 国产又爽又黄又嫩又猛又粗| 亚洲激情社区| www.日韩欧美| 国产精品高清无码在线观看| 国产成年精品| 色狠狠桃花综合| 欧洲金发美女大战黑人| 国产精品秘入口| 成人h动漫精品一区二区| 国产精品小说在线| 日产精品久久久久| 亚洲成人av| 亚洲网站视频福利| 韩国三级视频在线观看| 欧美videos粗暴| 狠狠躁18三区二区一区| xxxxxx在线观看| av在线播放免费| 99精品一区二区三区| 国产在线视频2019最新视频| 亚洲欧美精品一区二区三区| 亚洲啊v在线观看| 在线观看亚洲区| 野外性满足hd| 精品自拍偷拍| 精品人在线二区三区| 午夜免费看毛片| 日本肉肉一区| 色先锋资源久久综合| 国产精品又粗又长| 高清电影在线观看免费| 国产精品第一页第二页第三页| 久久一区二区三区av| 亚洲国产剧情在线观看| 国产精品亚洲а∨天堂免在线| 国产精品视频免费在线观看| 久久久久久不卡| 国产一区91| 91精品国产色综合久久不卡98| 放荡的美妇在线播放| 久久精品亚洲人成影院| 久久亚洲精品成人| 日韩精品一区二区三区在线视频| 精品视频亚洲| 伊人男人综合视频网| 国产 欧美 在线| 精品一区二区三| 伊人一区二区三区久久精品| 一级在线观看视频| 欧美国产一级| 久久天天躁日日躁| 天天做夜夜爱爱爱| 欧美一区免费| 欧美成aaa人片在线观看蜜臀| 538任你躁在线精品视频网站| 999国产精品| 久久亚洲精品一区| 国产精品白嫩白嫩大学美女| 国产精品hd| 久久久在线观看| 天堂а√在线中文在线新版| 久久久777| 日本免费久久高清视频| 成人免费一区二区三区| 精品一二三四在线| 高清国语自产拍免费一区二区三区| 一二三区在线播放| 国产美女精品人人做人人爽| 国产精品自产拍高潮在线观看| 中文字幕人妻一区二区三区视频 | 亚洲欧美日韩网| 亚洲女同二女同志奶水| 在线成人超碰| 91大神福利视频在线| 日日夜夜综合网| 日本女人一区二区三区| 91在线视频一区| 日本黄色一区二区三区| 国产亚洲精品久| 今天免费高清在线观看国语| 欧美激情护士| 欧美日韩国产影片| 日本少妇xxxx| 欧美日韩中文一区二区| 超碰97人人做人人爱少妇| 精品国产乱码久久久久久鸭王1 | 久久精品国产av一区二区三区| 亚洲精品影院在线观看| 国产精品网址在线| 日韩在线视频第一页| 中文字幕在线一区二区三区| 日本中文字幕亚洲| 亚洲精品毛片| 日韩麻豆第一页| 国产麻豆a毛片| 久久精品一区| 国产日韩欧美精品| 黄色网址在线免费观看| 欧美性猛交xxxx乱大交极品| 亚洲人高潮女人毛茸茸| 91人成网站www| 亚洲欧美色视频| 国产精品成人网| aⅴ在线免费观看| 91精品国产自产观看在线| 日韩电影在线观看中文字幕 | 欧美写真视频网站| 午夜剧场在线免费观看| 欧美国产极品| 色哟哟入口国产精品| 欧美日韩亚洲国产另类| 开心九九激情九九欧美日韩精美视频电影 | 日韩pacopacomama| 日韩欧美你懂的| 先锋资源av在线| 欧美日本不卡| 亚洲在线免费看| 激情综合闲人网| 婷婷久久综合九色综合绿巨人| 91丝袜超薄交口足| 成人激情在线| 日韩av电影院| 性xxxx视频| 午夜久久久影院| 少妇极品熟妇人妻无码| 欧洲视频一区| 国内精品久久久| 免费av网站在线播放| 成人欧美一区二区三区白人 | 日本精品专区| 婷婷成人激情在线网| 337p日本欧洲亚洲大胆张筱雨 | 国内精品在线视频| 亚洲综合色区另类av| 性生交免费视频| 亚洲伊人春色| 久久久久久九九九| 亚洲毛片在线播放| 亚洲一区二区三区在线播放| 91亚洲精品久久久蜜桃借种| av一区二区在线播放| 国产成人综合精品在线| 成人全视频高清免费观看| 欧洲国产伦久久久久久久| 午夜精产品一区二区在线观看的| 欧美亚洲免费| 日韩欧美一区二区视频在线播放 | 亚洲字幕在线观看| av网站大全在线| 日韩欧美你懂的| 全网免费在线播放视频入口| 国产老肥熟一区二区三区| 美女扒开大腿让男人桶| 欧美三级午夜理伦三级小说| 欧洲亚洲免费在线| 川上优的av在线一区二区| 欧美三区在线观看| 男人在线观看视频| 国产精品亚洲综合一区在线观看| 99国产精品白浆在线观看免费| 大香伊人久久精品一区二区| 97视频免费看| 国产日产精品久久久久久婷婷| 欧美日韩一区二区不卡| 欧产日产国产v| 91在线一区二区三区| 精品中文字幕av| 日韩欧美二区| 国产精品一区二区三区在线观| 97人澡人人添人人爽欧美| 亚洲成人久久网| 亚洲永久精品一区| 亚洲免费色视频| 精品伦一区二区三区| 久久精品首页| 日本xxxxx18| 天天躁日日躁狠狠躁欧美巨大小说| 国产精品99久久久久久白浆小说 | 99精品黄色片免费大全| 中文字幕第80页| 欧美天天视频| 偷拍视频一区二区| 3d动漫一区二区三区在线观看| 久久久久久久久久久免费| 韩国中文字幕2020精品| 日韩女优av电影| 久久久久久久黄色| 国产视频一区不卡| www日本在线观看| 国产精品sm| 亚洲高清视频一区二区| 成人爽a毛片| 国产精品自拍偷拍| 日本资源在线| 中文国产成人精品| 欧美在线 | 亚洲| 色8久久精品久久久久久蜜| 亚洲熟女www一区二区三区| 国产亚洲成年网址在线观看| 亚洲三级在线视频| 天堂在线一区二区| 免费在线看黄色片| 久久一区91| 免费一区二区三区| 高潮久久久久久久久久久久久久 | 青青青国产精品| 韩国一区二区电影| 91国内在线| 日韩在线资源网| 搞黄视频免费在线观看| 日韩不卡在线观看| 亚洲欧美高清视频| 91精品国产色综合久久ai换脸 | 天天超碰亚洲| 日本一区视频在线播放| 欧美日韩看看2015永久免费| 国产免费一区二区三区香蕉精| 韩国久久久久久| …久久精品99久久香蕉国产| 日本片在线看| 久久99精品久久久久久琪琪 | 国产欧美一区二区在线| 久久久国产精品无码| 成人黄色小视频在线观看| 日本成人xxx| 国模大尺度一区二区三区| 国产男女无遮挡| 亚洲激情视频| 嫩草影院中文字幕| 999久久久国产精品| 日韩av在线电影观看| 欧美丝袜丝交足nylons172| 久久精品人成| 你微笑时很美电视剧整集高清不卡 | 欧美一区二区三区视频免费播放| 一个人看的www日本高清视频| 在线亚洲免费视频| 免费视频久久久| 懂色av一区二区三区| 日韩成人免费在线视频| 夜夜嗨av一区二区三区中文字幕| 五月天丁香激情| 一区二区欧美国产| 国产污片在线观看| 欧美午夜丰满在线18影院| 五月婷婷亚洲综合| 日本高清不卡视频| 制服丝袜在线一区| 欧美人与禽zozo性伦| 国产精品呻吟久久| 欧美视频完全免费看| 一本色道久久综合无码人妻| 91精品国产色综合久久ai换脸 | 亚洲美女一区| jizzjizzxxxx| 麻豆极品一区二区三区| 激情图片中文字幕| 成人精品免费网站| 成年人免费观看视频网站| 中文字幕成人网| 91视频青青草| 午夜精品久久久久久久99樱桃| 91精品国产乱码久久久张津瑜| 一本大道久久a久久精二百| 中文字幕人妻互换av久久| 欧美一级xxx| 天堂av资源网| 伊人亚洲福利一区二区三区| www免费视频观看在线| 国内外成人免费激情在线视频| 高潮在线视频| 国产精品视频男人的天堂| 我要色综合中文字幕| 久久99久久99精品蜜柚传媒| 色婷婷综合网| 久无码久无码av无码| 日韩电影免费在线看| 91制片厂毛片| 99久久国产综合色|国产精品| 性欧美一区二区| 亚洲国产人成综合网站| 国产一级片免费视频| 日韩欧美国产麻豆| 波多野结衣在线影院| 欧美激情乱人伦一区| 韩国精品主播一区二区在线观看| 92看片淫黄大片看国产片| 国产suv精品一区| 欧美极品日韩| 中文字幕亚洲综合久久五月天色无吗''| 成年人视频观看| 国产又粗又猛又爽又黄91精品| 日本免费福利视频| 亚洲欧美偷拍卡通变态| 黄色av网站免费观看| 精品国产免费人成电影在线观看四季| 欧美女同网站| 欧美成人午夜免费视在线看片| 神马电影网我不卡| 国产精品免费区二区三区观看| 欧美freesextv| 91免费视频网站在线观看| 丁香激情综合五月| 日本伦理一区二区三区| 色综合久久久久久久久久久| 亚洲精品一区二区三区区别| 色av中文字幕一区| 香蕉视频亚洲一级| 精品视频第一区| 国内在线观看一区二区三区| 三级性生活视频| 久久伊人蜜桃av一区二区| 欧美黑吊大战白妞| 欧美午夜精品久久久久久孕妇| 国产人妻精品一区二区三区| 日韩中文在线中文网三级| 日产精品一区| 美女一区视频| 一本一本久久| 成熟妇人a片免费看网站| 亚洲精品久久久蜜桃| 亚洲一卡二卡在线观看| 伊人久久免费视频| 99久久伊人| 五月天婷亚洲天综合网鲁鲁鲁| 久久香蕉精品| 欧美做受喷浆在线观看| 婷婷国产在线综合| xxxx国产精品| 久久亚洲一区二区三区四区五区高| 本网站久久精品| 欧美亚洲爱爱另类综合| 免费日韩av片| 女女互磨互喷水高潮les呻吟| 午夜欧美视频在线观看| 午夜成人免费影院| 51精品在线观看| 一本色道久久综合狠狠躁的番外| 日本a级片免费观看| 久久看人人爽人人| 在线永久看片免费的视频| 亚洲人午夜色婷婷| 99热播精品免费| 在线视频福利一区| 国产一区二区电影| 午夜写真片福利电影网| 亚洲精品一线二线三线无人区| gogo久久| 久久综合伊人77777麻豆| 久久久精品日韩| 四虎国产成人精品免费一女五男| 欧美日韩国产一级| 超碰公开在线| 国产综合 伊人色| 久久久夜夜夜| 福利视频第一页| 91精品一区二区三区在线观看| 污视频在线看网站| 亚洲最大的成人网| 亚洲区一区二| 日本高清www| 亚洲国产视频在线| 深夜影院在线观看| 国产精品入口日韩视频大尺度 | 激情成人开心网| 99re这里只有精品首页| 男人的天堂av网站| 久久成人国产精品| 亚洲妇女av| www.亚洲自拍| 欧美性大战久久久久久久| av人人综合网|