精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節&MAP重塑大模型推理算法優化重點,強化學習重在高效探索助力LLM提升上限

人工智能 新聞
來自字節跳動、MAP,曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

強化學習(RL)范式雖然顯著提升了大語言模型(LLM)在復雜任務中的表現,但其在實際應用中仍面臨傳統RL框架下固有的探索難題。

一個普遍存在的現象是:在訓練過程中,模型的熵值迅速下降,推理路徑趨于固化,導致“利用(exploitation)”遠超“探索(exploration)”,嚴重失衡。

這種過早收斂不僅削弱了模型的多樣性生成能力,也限制了其性能上限的進一步突破。

受OpenAI經典論文《First Return, Then Explore》中“先返回,再探索”思想的啟發,來自字節跳動、MAP,曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

圖片

該方法通過識別推理軌跡中具有高不確定性的關鍵token,并以此為錨點引導后續的多樣化展開,系統性地重建了LLM在強化學習中的探索機制,旨在實現利用與探索之間的動態平衡,從而釋放RL訓練的更高潛力。

值得一提的是,FR3E發布后,《First Return, Then Explore》的作者之一Jeff Clune還在X(原 Twitter)上轉發了這篇文章。

圖片

算法框架

FR3E的算法框架分為兩個階段:

第一階段:First Return

圖片

在該階段,模型對每條prompt進行多次rollout,自由探索可能的解題路徑,并收集相應的軌跡及其獎勵信號。

隨后,采用拒絕采樣(rejection sampling)策略過濾掉全正確的樣本(避免對已掌握知識的重復學習),并針對剩余樣本構建基準路徑:對于存在部分正確結果的prompt,選取其中一條正確軌跡作為基準;

對于全部錯誤的prompt,則隨機選取一條作為參考路徑。

在此基礎上,計算基準路徑中每個token的生成熵,篩選出top-n個高熵token作為關鍵決策點。

這些關鍵點將整條軌跡劃分為n+1個partial rollout。通過將原始prompt與前n個partial rollout依次拼接(最后一個包含答案的部分被排除),形成n+1個中間狀態(state),初始狀態即為原始prompt本身。

第二階段:Entropy-Eliciting Explore

圖片

基于構建的多狀態prompt組,FR3E在GRPO++(融合了拒絕采樣與Clip-Higher機制的GRPO變體)的基礎上,進一步引入動態優勢調制機制,以更精細地調控學習信號。具體而言,通過引入了一個優勢調制因子,它基于從上一個狀態到當前狀態的價值邊際改善來縮放學習信號。

優勢調制因子定義為:

圖片

調控后的Advantage定義為:

圖片

圖片

表示當前state prompt中的partial rollout部分對最終答案有正向影響,此時需要適當降低它的advantage,防止模型過早鎖定當前推理路徑,保留探索空間。

反之,當

圖片

則意味著當前state prompt中的partial rollout部分對思考過程沒有或有負向影響,需要放大其優勢信號,激勵模型在該節點進行更積極的探索,以突破推理瓶頸。

在數據構建方面,團隊采用雙難度混合策略:低難度數據來自DeepScaler,用于穩定訓練初期的收斂過程;

高難度數據則取自SimpleRL中難度等級為3–5的樣本,旨在激發模型的深層推理能力。這種組合既保障了訓練穩定性,又提供了足夠的挑戰性以推動能力躍遷。

實驗結果

為全面評估FR3E的有效性,團隊在多個權威數學推理基準上進行了實驗,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進行了評測。

圖片

實驗結果表明,FR3E在多個基準上均顯著優于強基線GRPO++,展現出更強的泛化與推理能力。

圖片

尤其值得注意的是,在訓練動態分析中,FR3E展現出更持久的探索行為:其熵值衰減更緩慢,響應長度更長,特別是在Qwen2.5-Math-7B這類已微調模型上,成功突破了傳統方法中熵值長期處于低位的“僵化”困境,實現了探索能力的再激活。

圖片

此外,通過對多次rollout結果的統計監控,團隊發現FR3E顯著提升了“全正確”軌跡的數量,同時大幅降低了“全錯誤”軌跡的比例。

這表明,原本僅能部分解出或完全失敗的問題,在FR3E的訓練機制下,逐步演化為穩定、完整的正確解答路徑,真正實現了從“部分成功”到“全面突破”的躍遷。

綜上所述,FR3E提出了一種新穎且高效的結構化探索范式,直面LLM在強化學習中“探索不足”的核心瓶頸。

通過“先返回、再探索”的兩階段設計,結合高熵錨點識別與動態優勢調制機制,FR3E不僅有效延緩了模型的過早收斂,更顯著提升了復雜推理任務中的性能上限。

實驗充分驗證了FR3E在多個數學推理基準上的優越性,尤其在提升探索多樣性、增強長程推理穩定性方面表現突出。

更重要的是,該方法所體現的“結構化反饋 + 自適應調節”思想,具備良好的可擴展性。團隊期待FR3E所倡導的探索機制,能夠為未來大模型的強化學習訓練提供新的范式參考。

論文地址:https://arxiv.org/pdf/2507.07017

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-09 09:32:35

2024-09-13 06:32:25

2025-06-05 06:36:17

2025-07-08 03:11:00

2025-11-12 08:56:15

2025-10-08 10:44:16

2025-05-30 04:00:00

IBMRLVRGRPO

2024-09-30 14:40:00

AI強化學習框架

2025-08-07 09:16:41

2025-04-22 09:12:00

AI模型數據

2025-05-28 02:25:00

2023-06-25 11:30:47

可視化

2022-12-01 08:00:00

2023-08-28 06:52:29

2025-06-23 09:09:00

2025-02-13 10:34:30

LLM算法PPO

2025-03-24 09:50:00

大模型自動駕駛AI

2022-11-02 14:02:02

強化學習訓練

2025-05-26 17:16:51

2025-07-01 09:05:28

點贊
收藏

51CTO技術棧公眾號

免费看黄色av| 久久久噜噜噜www成人网| av加勒比在线| 999亚洲国产精| 亚洲日韩中文字幕| 亚洲免费黄色录像| 春色校园综合激情亚洲| 久久久久9999亚洲精品| 亚洲一区美女视频在线观看免费| 日产亚洲一区二区三区| 日韩久久久久| 亚洲国产精品福利| 亚洲精品自拍网| 91福利区在线观看| 综合色中文字幕| 久久久久se| 999av视频| 日韩中文字幕av电影| 欧美大荫蒂xxx| ass极品国模人体欣赏| 大香伊人久久精品一区二区 | 9191国产视频| 国产福利在线看| www.亚洲在线| 91视频免费进入| 中文字幕久久网| 亚洲欧美久久| 久久久这里只有精品视频| 美国一级片在线观看| 九一亚洲精品| 日韩二区三区在线| 国产清纯白嫩初高中在线观看性色| 影视一区二区三区| 黑人精品xxx一区| 日本a级片在线播放| 在线视频三区| 亚洲国产精品激情在线观看| 久久久久久高清| 国模私拍视频在线| 国产成人自拍在线| 91午夜在线播放| 中文字幕一区二区三区四区免费看| 午夜在线视频观看日韩17c| 欧美日韩国产123| 99久久99久久精品国产| 三上亚洲一区二区| 国产一区二区美女视频| 久久精品成人av| 色先锋久久影院av| 亚洲国产美女久久久久| 99国产精品免费视频| 麻豆国产一区| 日韩欧美一二三区| 91蝌蚪视频在线| 精品视频91| 日韩欧美成人一区| 午夜影院免费版| 中文字幕一区二区三区中文字幕 | 91亚洲自偷观看高清| 在线观看久久久久久| 毛片aaaaaa| 色爱综合网欧美| 色偷偷偷亚洲综合网另类| 1024手机在线观看你懂的| 色97色成人| 伦理中文字幕亚洲| 看片网站在线观看| 国内精品福利| 午夜精品福利视频| www.国产毛片| 老鸭窝一区二区久久精品| 成人高清视频观看www| 国产又粗又黄又爽| 国产白丝精品91爽爽久久| 国产精品一国产精品最新章节| 亚洲精品国偷拍自产在线观看蜜桃| 成人免费毛片嘿嘿连载视频| 久久久久久久久久久久久9999| 久久精品国产亚洲a∨麻豆| 国产婷婷一区二区| 亚洲第一精品区| 免费电影网站在线视频观看福利| 亚洲国产精品一区二区久久恐怖片| 久久久久久久久久久99| www.久久.com| 91精品国产综合久久久久久| 理论片大全免费理伦片| 欧美日韩123| 美日韩精品免费视频| 日本少妇激情舌吻| 日本免费新一区视频| 91青青草免费在线看| 欧美777四色影视在线| 国产精品伦理在线| 人妻少妇精品久久| 国产福利91精品一区二区| 日韩精品一区二区三区视频在线观看 | 亚洲天堂一级片| 在线亚洲激情| 91九色精品视频| 日韩欧美在线番号| 亚洲欧美日韩在线| 37pao成人国产永久免费视频| 午夜不卡一区| 日韩久久精品成人| 极品久久久久久| 久久久精品网| 91av免费看| 国产精品麻豆一区二区三区| 亚洲综合激情另类小说区| 亚洲精品乱码久久久久久自慰| 国产亚洲高清一区| 亚洲天堂色网站| 久久一区二区三| 久久激五月天综合精品| 精品一区二区国产| 黄av在线播放| 欧美影院一区二区三区| 亚洲第一黄色网址| 夜间精品视频| 国产美女高潮久久白浆| 欧美高清电影在线| 亚洲成av人综合在线观看| 天堂av在线8| 国产成人ay| 91精品国产高清自在线| av中文字幕免费| 国产精品久久国产精麻豆99网站| 国产免费一区二区三区视频| 中文字幕一区二区三区中文字幕 | 丁香影院在线| 91精品国产综合久久精品| 1024在线看片| 日韩精品一级二级 | 91精品在线观看国产| 国产成人a亚洲精品| 天堂在线视频免费| 亚洲最快最全在线视频| 佐山爱在线视频| 亚洲一区欧美| 成人免费网站在线| 欧美96在线| 欧美日韩精品系列| 日韩毛片无码永久免费看| 国产精品女主播一区二区三区| 国产精品日韩高清| 国产深夜视频在线观看| 日韩精品资源二区在线| 波多野结衣不卡视频| 激情五月播播久久久精品| 午夜欧美性电影| 成人精品国产亚洲| 最近更新的2019中文字幕| 真实的国产乱xxxx在线91| 91视频观看视频| 久久国产亚洲精品无码| 一区二区三区视频免费观看| 欧美性做爰毛片| 狠狠狠综合7777久夜色撩人| 在线观看视频一区| 国产精品美女高潮无套| 免费精品视频在线| www.午夜色| 国产一区二区三区视频在线 | 第84页国产精品| 亚洲欧洲日本专区| 中国女人一级一次看片| 国产精品乱人伦| 亚洲三级在线视频| 黄网址在线观看| 美腿丝袜一区二区三区| 亚洲精品国产精品国自产观看| 国产一区高清| 久久的精品视频| 蜜桃av噜噜一区二区三区麻豆 | 国产又粗又硬又长| 亚洲一二三区视频| 91精品国产网站| 国产人成在线视频| 欧美精品丝袜久久久中文字幕| 日韩欧美综合视频| 成人性生交大片免费看中文| 少妇高潮喷水在线观看| 欧美男同视频网| 91老司机精品视频| free性护士videos欧美| 亚洲视频在线观看视频| 国产精品老熟女视频一区二区| 亚洲欧美激情插| 久久久久亚洲AV成人无码国产| 日本一区中文字幕| 草草草视频在线观看| 蜜桃a∨噜噜一区二区三区| 国产日韩在线播放| www.51av欧美视频| 日韩中文在线视频| 乱色精品无码一区二区国产盗| 在线观看www91| 久久免费视频6| 中文字幕精品三区| 久久人人爽人人人人片| 久久99国产精品尤物| 老太脱裤子让老头玩xxxxx| 日韩激情在线| 久久99精品国产99久久| 精品91福利视频| 国产精品福利网站| 麻豆蜜桃在线观看| 久久视频在线免费观看| 加勒比一区二区三区在线| 日韩午夜av一区| 国语对白做受69按摩| 亚洲国产裸拍裸体视频在线观看乱了 | 欧美丰满熟妇xxxxx| 国产综合视频| 自拍偷拍99| 日产精品一区二区| 久久青青草综合| baoyu135国产精品免费| 91精品视频免费| av激情成人网| 日本久久中文字幕| 国产乱码午夜在线视频| 欧美疯狂性受xxxxx另类| 日韩美女网站| 国产一区二区三区直播精品电影| 五月激情婷婷综合| 欧美不卡视频一区| 国产美女免费看| 在线成人免费视频| 一区二区视频免费| 色94色欧美sute亚洲线路一久| 天海翼一区二区| 亚洲一区二区在线免费观看视频| 午夜国产福利一区二区| 国产精品福利av| 国产午夜精品福利视频| 久久久精品tv| 四虎国产精品成人免费入口| 26uuu亚洲综合色欧美| 在线免费播放av| 99久久免费精品| 国产高清成人久久| 成人动漫av在线| 成人性生活免费看| aaa国产一区| 中文字幕免费在线播放| av在线播放一区二区三区| 五月天丁香社区| av午夜一区麻豆| 成人手机在线免费视频| 91在线一区二区| 性欧美13一14内谢| 日本一区二区三区高清不卡 | 亚洲精品国产品国语在线app| www.97视频| 亚洲精品国产精品乱码不99| 无码人妻精品一区二区三区夜夜嗨| 国产精品看片你懂得| 三上悠亚在线观看视频| 成人免费在线视频| 久久久精品一区二区涩爱| 亚洲国产欧美另类丝袜| 亚洲图片在线视频| 91国偷自产一区二区三区成为亚洲经典 | 亚洲a一级视频| 亚洲精品在线a| 国产有色视频色综合| 视频福利一区| 亚洲成人第一| 伊人青青综合网| 丁香六月激情婷婷| 亚洲欧美久久久| 在线观看岛国av| 国产91富婆露脸刺激对白| 在线观看国产网站| 国产精品素人视频| 精品一区在线观看视频| 亚洲国产一区二区视频| 亚洲精品男人的天堂| 欧美麻豆精品久久久久久| www夜片内射视频日韩精品成人| 亚洲国产小视频在线观看| 国产视频二区在线观看| 操91在线视频| av电影一区| 91视频免费进入| 国产一区二区三区电影在线观看| 女同性恋一区二区| 免费看亚洲片| 日本精品一区在线| 91日韩在线专区| 欧洲美女女同性互添| 精品久久久免费| 国产精品热久久| 国产丝袜视频一区| 国产欧美黑人| 国产不卡av在线| 一级毛片精品毛片| 亚洲v国产v| 亚洲综合日本| 香蕉视频在线观看黄| 久久久99免费| 久久丫精品久久丫| 欧美人xxxx| 欧美成人免费| 久久久久亚洲精品国产| 91伊人久久| 明星裸体视频一区二区| 欧美私人啪啪vps| 亚洲综合欧美在线| 91丨国产丨九色丨pron| 老女人性淫交视频| 欧美日韩aaaaa| 黄色av免费在线看| 午夜精品久久17c| 午夜精品在线| 亚洲欧洲一区二区福利| 久久久久久久欧美精品| 老熟妇精品一区二区三区| 亚洲黄网站在线观看| 中文字幕第315页| 亚洲乱码一区二区| 99热99re6国产在线播放| 91视频九色网站| 91嫩草亚洲精品| 50路60路老熟妇啪啪| 99久久777色| 欧美不卡视频在线观看| 日韩一级黄色大片| 精品51国产黑色丝袜高跟鞋| 国产精品三级网站| 亚洲盗摄视频| 国产中文字幕免费观看| av男人天堂一区| 精品深夜av无码一区二区老年| 91精品国产美女浴室洗澡无遮挡| 成全电影播放在线观看国语| 日产精品99久久久久久| 天天久久夜夜| 黑人糟蹋人妻hd中文字幕| 99视频精品全部免费在线| 国产 日韩 欧美 成人| 日韩视频一区二区三区在线播放| 国产激情在线观看| 成人免费视频网| 亚洲字幕久久| 下面一进一出好爽视频| 亚洲免费三区一区二区| 国产ts人妖调教重口男| 久久国产精品久久国产精品| 国产精品亚洲综合在线观看| 男女爱爱视频网站| 国产一区二区三区美女| 国产女人被狂躁到高潮小说| 欧美一级久久久| 欧美人与性动交α欧美精品济南到| 91免费福利视频| 国产一区日韩一区| 国产原创剧情av| 色中色一区二区| jizz在线免费观看| 成人在线一区二区| 欧美日韩精品一本二本三本 | 黑森林福利视频导航| 久久综合色天天久久综合图片| 一级黄色av片| 精品国产一区二区三区久久狼黑人 | 欧美久久久久久久久| 精品黄色免费中文电影在线播放| 亚洲综合社区网| 99伊人成综合| 欧美丰满老妇熟乱xxxxyyy| 欧美日韩国产首页在线观看| av免费看在线| 久久精品美女| 久久97超碰国产精品超碰| 久久久精品视频在线| 精品性高朝久久久久久久| 人人精品久久| 996这里只有精品| 久久久久久97三级| 99在线精品视频免费观看20| 136fldh精品导航福利| 日韩www.| 年下总裁被打光屁股sp| 一本久久精品一区二区| 超碰个人在线| 麻豆视频成人| 韩国欧美国产一区| 西西44rtwww国产精品| 色悠悠久久88| 欧美电影免费网站| 少妇一级淫免费播放| 亚洲国产aⅴ天堂久久| 97电影在线看视频| 国产精品日本一区二区 | 91网在线免费观看| 久久精品天堂| 精品少妇久久久久久888优播|