精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

混合數學編程邏輯數據,一次性提升AI多領域強化學習能力 | 上海AI Lab

人工智能 新聞
上海AI Lab的OpenDataLab團隊通過大規模實驗,深入剖析了RLVR在多領域推理中的復雜機制,為構建更強大、更具魯棒性的AI推理模型提供了多個維度的關鍵發現。

近年來,AI大模型在數學計算、邏輯推理和代碼生成領域的推理能力取得了顯著突破。特別是DeepSeek-R1等先進模型的出現,可驗證強化學習(RLVR)技術展現出強大的性能提升潛力。

然而,現有關于強化學習和模型的研究多聚焦于單一領域優化,缺乏對跨領域知識遷移和協同推理能力的系統性探索,讓模型能夠在多領域協同工作,發揮更好的推理能力。

上海AI Lab的OpenDataLab團隊通過大規模實驗,深入剖析了RLVR在多領域推理中的復雜機制,為構建更強大、更具魯棒性的AI推理模型提供了多個維度的關鍵發現。

圖片

團隊構建了一個涵蓋數學(Math)、編程(Code)和邏輯謎題(Puzzle)三大類數據的多領域評估框架,并為不同訓練數據設計了定制化的獎勵策略。

實驗基于Qwen2.5-7B系列模型,在將數學、代碼和謎題三大領域數據進行聯合訓練后,模型的整體平均性能達到了56.57,顯著優于任何雙領域組合。

圖片

研究團隊通過大規模實驗,有以下關鍵發現:

Puzzle與Math數據的相互支持:邏輯推理與數學能力相輔相成,顯著提升模型的整體性能。

Code推理的跨領域混合效應:指令遵循能力較強的Instruct模型可以較好的將代碼能力泛化到其他領域,而Base模型則不然。

跨領域數據提升魯棒性:多樣化數據通常能提升模型能力或實現更均衡的表現,但需要更復雜的設計來解決Math、Code和Puzzle領域間的潛在沖突。

SFT可以提升強化學習效果:在強化學習前加入SFT階段可顯著改善模型性能。

Template一致性至關重要:訓練與評估Template的不匹配會導致性能大幅下降,表明RLVR在特定領域訓練時的泛化能力魯棒性面臨挑戰。

Policy Refresh的益處:在課程學習中定期更新參考模型和優化器狀態可提升模型穩定性和性能。

獎勵設計需適應任務難度:根據模型在訓練數據上的表現調整獎勵設置,可提高學習效率。

RLVR對語言敏感:中文訓練的模型性能低于英文訓練的模型,存在一定的性能差距。

研究過程與性能表現

領域劃分與數據構建:多域推理的“基石”

上海AI Lab的OpenDataLab團隊構建了一個涵蓋數學(Math)、編程(Code)和邏輯謎題(Puzzle)三大類數據的多領域評估框架,并為不同訓練數據設計了定制化的獎勵策略。

實驗基于Qwen2.5-7B系列模型,探索了以下幾方面:

模型在數據上的表現與泛化能力:重點關注單領域數據優化與跨領域泛化,以及跨領域數據間的相互影響。

訓練方法與策略的有效性:評估Template在RLVR中的作用,以及課程學習策略的有效性。

模型優化要素:研究不同獎勵機制的設計原則,以及訓練語言對模型性能的影響。

圖片

通過系統性實驗,研究揭示了強化學習(RLVR)在多領域推理中的內在機制,為優化大模型推理能力提供了新視角。

單領域訓練:各領域“內卷”大比拼

在單領域訓練中,模型在特定任務上展現出顯著的性能提升,但跨領域效應復雜,既有協同增效也有相互削弱。

數學領域:RLVR提升數學性能,但跨域效應復雜

經過針對性訓練,Base模型在CountDown任務上準確率提升了約75個百分點。同時,數學訓練還能有效提升模型解決邏輯謎題的能力,平均得分得到提高。然而,深度優化數學能力的同時,也可能對代碼任務產生負面影響,提示了不同領域技能間存在一定的權衡關系。

圖片

代碼領域:指令微調助力編程,展現更強的跨域泛化

代碼訓練提升了模型在編程任務上的表現,尤其是經過SFT的Instruct模型表現出更高的性能上限。同時,Base模型在代碼訓練后往往在多數域外任務上出現性能下降,而Instruct模型則展現出更強的跨域泛化能力,能夠在多數域外任務上保持甚至提升表現。

圖片

謎題領域:邏輯推理實力強勁,部分訓練利于數學遷移

在KK數據集上,Instruct模型準確率高達99.14,在Zebra任務中,得分提升至36.20。此外,KK謎題的訓練效果還能遷移到數學任務上,甚至在部分數學基準中,使得Base模型的表現接近或超過Instruct模型,進一步體現了跨領域遷移的潛力。

跨域互動:協同與沖突的探究

雙領域組合:探索協同與權衡

  • 存在顯著協同效應的組合:Math+Puzzle組合使Math任務表現提升至49.72(優于單Math訓練的47.48),證明跨領域知識遷移的有效性;Code任務在添加Puzzle或Math數據后均獲得提升,顯示組合訓練的潛在優勢。
  • 需要謹慎處理的組合情況:Puzzle任務在所有多領域訓練中表現均不及單領域訓練,凸顯其高度專業化特性;值得注意的是Math+Puzzle組合會顯著降低Code任務表現;而Puzzle+Code的組合實現了平均最大19.39的提升。

圖片

三領域全家桶:平衡與魯棒性

緊接著,將三個領域的數據全部組合在一起,結果如下所示,多領域聯合訓練展現出更優的整體表現與魯棒性:

圖片

  • 三領域聯合訓練實現整體性能突破:將數學、代碼和謎題三大領域數據進行聯合訓練,模型的整體平均性能達到了56.57,顯著優于任何雙領域組合。
  • 數據多樣性與邊際收益:增加訓練數據的多樣性(領域組合數量)確實能提升整體性能,但這種提升存在邊際效應遞減的趨勢。
  • 防止性能塌陷,實現均衡發展:與某些雙領域組合(如Math+Puzzle可能導致Code任務性能驟降)不同,三領域聯合訓練有效地避免了特定任務的性能“崩潰”,確保了模型在所有任務上均能保持競爭力。

Template一致性:最佳表現

在RL訓練中,一個常被忽略的問題是訓練和測試的Template不匹配。這可能導致模型性能大幅下降。研究團隊在不同Template(R1、Qwen、Base)下進行測試,揭示了Template一致性的重要性。

  • 不匹配Template會嚴重拖累性能:例如,Base模型在使用不匹配模板時,CountDown準確率從19.36暴跌至0,MBPP從51.80降至3.00。Instruct模型在MATH500上從73.20跌至1.80。
  • 一致性Template通常帶來最佳表現:R1模板下,Base模型平均性能達47.84,Instruct模型達54.56,遠超不匹配情況。這強調了Template一致性的必要性——RLVR在特定領域訓練時的泛化魯棒性仍面臨挑戰。

圖片

課程學習:從易到難,逐步征服

課程學習在SFT中已證明有效,但在RLVR中的應用仍未全面探索。研究團隊在Puzzle中的KK數據集上進行測試,基于子問題數量(3PPL到8PPL)設置難度梯度,并設計了”Policy Refresh”策略——在每個難度階段后更新參考模型并重置優化器狀態。

圖片

通過實驗發現,

  • 課程學習提升性能上限:標準課程學習最終準確率達97.29,遠超混合訓練的94.29。這種方法幫助模型逐步掌握復雜依賴關系,提升泛化能力。
  • Policy Refresh加速收斂:采用刷新策略后,模型在6PPL階段就達到97.43的準確率,最終結果近乎完美(99.71),甚至超過了指令模型的混合訓練結果(99.14)。

獎勵設計:個性化定制

獎勵設計是強化學習的核心。研究團隊在KK和LPB數據集上測試了四種策略:(1)二元獎勵要求答案全對才得分;(2)部分獎勵按正確比例計分;(3)格式獎勵用標簽引導推理;(4)重縮放獎勵則將分數范圍調整為[-1,1]并對錯誤施加懲罰。不同設計為模型塑造了截然不同的學習信號。

圖片

研究團隊發現,在簡單任務KK上,二元獎勵R1憑借直接明了的獎勵設置實現了最優表現;但在復雜任務LPB中,R1因信號稀疏反而訓練崩潰。部分獎勵R2能在LPB初期迅速起效,卻難以長期維持優勢;格式獎勵R3和重縮放獎勵R4則憑借穩定推理和放大行為差異,后來居上奪得LPB冠軍。不過,復雜設計在KK上反成累贅。結果表明,數據集稀疏性和任務難度,是決定RLVR獎勵機制成敗的關鍵因素。

圖片

展望未來,團隊呼吁拓展Science、General Reasoning等新領域數據分類,并探索Llama、DeepSeek等模型的適配性。RLVR已經在多個領域被證明其有效性,但無論訓練方式如何,數據永遠是模型能力來源的基石,也希望未來的研究能夠更深入地探究數據對RLVR的影響。

論文地址:https://arxiv.org/abs/2507.17512
訓練代碼:https://github.com/Leey21/A-Data-Centric-Study

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-25 09:20:00

數據模型AI

2024-04-26 10:12:38

混合訓練AI集群

2019-09-20 09:38:18

開源技術 趨勢

2021-08-12 09:48:21

Webpack Loa工具Webpack

2021-02-02 10:08:17

AI深度強化學習智能城市

2021-04-27 09:30:47

AI 數據人工智能

2025-07-09 01:22:00

AI強化學習監督學習

2023-11-03 08:27:46

2025-07-29 09:10:00

2011-04-18 13:36:42

2024-08-29 13:50:00

AI數學

2025-11-10 08:46:00

AI模型訓練

2024-11-05 14:20:00

AI模型

2010-11-24 16:32:50

2018-11-07 10:58:55

2014-08-04 14:38:25

LinuxToken

2024-02-28 08:18:13

Java日志項目

2013-04-17 09:16:37

2025-06-03 08:51:00

2025-03-13 09:47:29

點贊
收藏

51CTO技術棧公眾號

成人国产在线视频| 日韩视频精品在线| 免费激情视频在线观看| 免费大片黄在线| 成人高清免费观看| 国产精品www色诱视频| 免费高清在线观看电视| 免费成人三级| 欧美欧美欧美欧美首页| 2019日韩中文字幕mv| 国产福利在线| www.欧美精品一二区| 国产精品久久久久久久久免费看| www.av视频| 国产乱码精品一区二区亚洲| 欧美一卡2卡3卡4卡| 日韩有码免费视频| 男人添女人下部高潮视频在线观看| 久久伊人中文字幕| 69堂成人精品视频免费| 无码人妻精品一区二区蜜桃色欲| 午夜精品久久久久99热蜜桃导演| 亚洲欧洲一区二区三区久久| 日批视频免费看| 欧美激情啪啪| 色婷婷久久久久swag精品| 99久re热视频精品98| 免费在线毛片| 国产不卡在线视频| 91欧美激情另类亚洲| 天天干天天操天天操| 日韩一区二区久久| 久久久女女女女999久久| 久久国产高清视频| 热久久天天拍国产| 亚洲人成人99网站| 免费的av网站| 好吊妞国产欧美日韩免费观看网站 | 麻豆免费在线观看| 国产日产亚洲精品系列| 鲁丝一区二区三区免费| 成人毛片在线精品国产| 韩国欧美一区二区| 国产日韩欧美夫妻视频在线观看| 丁香社区五月天| 日韩网站在线| 国语自产在线不卡| 激情视频在线播放| 欧美日本亚洲韩国国产| 久久人人爽亚洲精品天堂| 女人黄色一级片| 精品国产91久久久久久浪潮蜜月| 日韩精品高清视频| 国产人妻人伦精品1国产丝袜| 大陆精大陆国产国语精品| 日韩一区二区三区三四区视频在线观看| 日韩一区二区三区久久| 成人在线视频免费| 欧美精品久久天天躁| 亚洲激情在线看| 疯狂欧洲av久久成人av电影| 欧美精品第一页| 在线视频观看91| www.久久热| 日韩欧美一二三四区| 在线观看免费看片| 国产ts一区| 亚洲精品一区中文字幕乱码| 亚洲成人网在线播放| 欧美日韩水蜜桃| 久久久99久久精品女同性| 四虎精品免费视频| 国产精品大片| 国产91精品高潮白浆喷水| 久久久精品免费看| 日日摸夜夜添夜夜添亚洲女人| 国产精品久久久91| 91av国产精品| 成人免费视频播放| 日本精品国语自产拍在线观看| 成人h小游戏| 亚洲免费av在线| 香港三级韩国三级日本三级| 三上悠亚国产精品一区二区三区| 欧美综合一区二区三区| 久久久久久综合网| 欧美五码在线| 一本久久综合亚洲鲁鲁| 国产大片免费看| 亚洲激情网站| 国产精品网站大全| 免费观看国产视频| 国产喂奶挤奶一区二区三区| 国产三级中文字幕| 成人美女视频| 欧美一级艳片视频免费观看| 一级国产黄色片| 久久国产亚洲| 7777精品久久久久久| 中文字幕视频在线播放| 成熟亚洲日本毛茸茸凸凹| 涩涩涩999| 超碰在线公开| 宅男噜噜噜66一区二区66| aaa黄色大片| 日韩理论在线| 欧美孕妇与黑人孕交| 91女人18毛片水多国产| www.欧美精品一二区| 一区二区三区视频| 在线观看涩涩| 欧美成人vps| 五月婷婷欧美激情| 国产亚洲福利| 91日韩久久| 尤物在线视频| 色综合久久久久综合体 | 成人激情视频网站| 三级网在线观看| 在线成人视屏| 日韩精品在线免费观看| 国产一级一片免费播放放a| 另类欧美日韩国产在线| 免费99视频| sm性调教片在线观看| 欧美一区国产二区| 呻吟揉丰满对白91乃国产区| 免费日韩av片| 久久精品国产精品国产精品污| 色爱综合区网| 日韩视频一区二区三区在线播放| 女人黄色一级片| 日韩激情在线观看| 欧美日产一区二区三区在线观看| 国产白丝在线观看| 欧美成人午夜电影| www.99re7| 国产一区二区三区av电影| 亚洲国产精品久久久久婷婷老年| 中文在线8资源库| 日韩成人xxxx| 99热国产在线观看| av亚洲精华国产精华| www.激情网| 97一区二区国产好的精华液| 久久中文字幕视频| a级片免费视频| 亚洲人成在线观看一区二区| 日韩欧美理论片| 你懂的国产精品| 91在线无精精品一区二区| 免费观看在线午夜影视| 欧美日韩激情一区| 欧美三级日本三级| 国产99久久精品| 日韩一级性生活片| 全球av集中精品导航福利| 91精品国产成人www| 日漫免费在线观看网站| 色综合久久天天| 一级特黄曰皮片视频| 麻豆高清免费国产一区| 吴梦梦av在线| 日本精品视频| 高清欧美性猛交xxxx| 涩涩视频在线观看免费| 欧洲一区在线观看| 很污很黄的网站| 国产精品1024| 青青草国产精品视频| 亚洲都市激情| 国产欧美一区二区| 亚洲91av| 精品在线小视频| 一本一道人人妻人人妻αv| 亚洲免费视频成人| 亚洲av成人片色在线观看高潮| 国产一区二区三区成人欧美日韩在线观看 | 久久久久亚洲视频| 亚洲欧洲综合另类| 亚洲熟女一区二区| 免费日本视频一区| 大片在线观看网站免费收看| 日韩伦理一区二区三区| 国产精品一区=区| 国产在线拍揄自揄拍视频| 亚洲欧美激情一区| 国产视频在线免费观看| 午夜av电影一区| 国产18无套直看片| 成人综合在线视频| 少妇激情一区二区三区| 欧美理论在线| 日本不卡二区| 日韩中文字幕一区二区高清99| 5252色成人免费视频| 日韩在线资源| 日韩成人网免费视频| 亚洲无码精品在线播放| 亚洲高清免费一级二级三级| 日本一道本视频| 97久久超碰国产精品电影| 尤物国产在线观看| 国产毛片久久| 97中文字幕在线| 不卡一区综合视频| 久久久久久精| 色妞ww精品视频7777| 国产经典一区二区| 国产理论在线| 久久综合五月天| 国产高清一区在线观看| 亚洲精品国产免费| www.桃色av嫩草.com| 欧美三级韩国三级日本一级| 日本一区二区欧美| 一区二区三区中文字幕电影| 性欧美精品男男| a亚洲天堂av| 蜜桃色一区二区三区| 久久66热re国产| 手机看片福利盒子久久| 一区二区三区精品视频在线观看| 黄色网络在线观看| 欧美韩日高清| 五月天久久综合网| 欧美男gay| 久久久福利视频| 成人h动漫免费观看网站| 91精品久久久久久久久青青| 亚洲第一会所| 国产精品v片在线观看不卡| 中文日产幕无线码一区二区| 国语自产精品视频在线看| 在线观看a级片| 欧美成人免费播放| 国产激情视频在线观看| www.日韩.com| 一区二区三区视频在线观看视频| 亚洲偷欧美偷国内偷| 免费理论片在线观看播放老| 日韩风俗一区 二区| 亚洲欧洲视频在线观看| 日韩不卡在线观看| 蜜芽tv福利在线视频| 亚洲美女精品久久| 每日更新在线观看av| 亚洲欧美精品伊人久久| 黄色小视频在线观看| 亚洲欧美另类中文字幕| 精品乱码一区二区三四区视频 | 国产精品日韩高清| 国产精品成人自拍| 久久亚洲综合网| 亚洲老女人视频免费| 青青草成人激情在线| 九九亚洲精品| 亚洲综合第一| 亚洲xxx拳头交| 国产91在线亚洲| av成人毛片| 五月婷婷深爱五月| 激情六月婷婷综合| 2018国产精品| 91在线国产观看| 一本加勒比北条麻妃| 久久精品无码一区二区三区 | 亚洲高清视频中文字幕| 日韩aaaaaa| 在线视频一区二区三| 91久久精品国产91性色69| 日韩欧美国产综合在线一区二区三区| 精品人妻少妇AV无码专区| 日韩av一区二区在线| 成人在线免费公开观看视频| 久久最新资源网| jizzjizz中国精品麻豆| 国产精品99导航| 欧美影院精品| 欧美二区在线| 国产精品7m凸凹视频分类| 免费在线看黄色片| 日韩精品免费专区| 国产又粗又猛又爽又黄| 久久新电视剧免费观看| 999福利视频| 亚洲成人7777| 亚洲一区二区激情| 亚洲成人精品久久| 91福利在线视频| 韩国精品久久久999| 欧美三级精品| 成人欧美一区二区三区在线观看| 亚洲色图美女| 青青在线免费视频| 美女久久一区| 美女伦理水蜜桃4| 国产精品免费看片| 伊人久久综合视频| 777欧美精品| 国产免费av高清在线| 欧美激情精品久久久| 亚洲精品555| 国产精品日本一区二区| 91亚洲国产成人久久精品| 久久国产成人精品国产成人亚洲| 麻豆精品一区二区综合av| 午夜一区二区三区免费| 亚洲男人的天堂在线aⅴ视频| 无码人妻一区二区三区线| 亚洲成人1234| 中文字幕有码在线视频| 国产精品老女人精品视频| 欧美电影完整版在线观看| 日韩国产小视频| 久草精品在线观看| www.黄色在线| 欧美午夜精品伦理| 后进极品白嫩翘臀在线视频| 久久精品国产亚洲精品2020| 日韩三级影视| 麻豆av福利av久久av| 亚洲天堂男人| 91成人在线观看喷潮蘑菇| 亚洲日本电影在线| 91在线观看喷潮| 伊人久久久久久久久久| 免费成人动漫| 蜜桃狠狠色伊人亚洲综合网站| 激情欧美日韩一区| 亚洲国产欧美日韩在线| 日韩毛片在线免费观看| 亚洲天天综合网| 日韩中文字幕视频在线观看| 成人日韩av| 亚洲精品中字| 久久99国产精品尤物| 三上悠亚在线观看视频| 欧美三级韩国三级日本三斤 | 国产精品免费观看视频| 国产女主播喷水视频在线观看| 日韩精品免费电影| 一本大道色婷婷在线| 久久综合福利| 老司机精品视频网站| 人妻一区二区视频| 色八戒一区二区三区| 蜜桃视频在线免费| 国产精品福利在线观看网址| 国产欧美日韩精品一区二区三区 | 国产高清精品网站| 久草免费在线视频观看| 亚洲精品在线观看网站| 极品美鲍一区| 欧美日韩国产不卡在线看| 石原莉奈一区二区三区在线观看| 蜜桃av免费看| 欧美日韩亚洲另类| 黄网站免费在线播放| 999日本视频| 亚洲美女黄网| 37p粉嫩大胆色噜噜噜| 欧美在线你懂得| 国产激情在线观看| 久久国产精品久久精品国产| 久久精品一区| 久久高清内射无套| 亚洲激情免费观看| 国产精品亚洲d| 91国在线高清视频| 不卡欧美aaaaa| 国产精品无码一区| 久久福利视频导航| 日本国产精品| 中文字幕第100页| 亚洲午夜免费电影| 精品视频一二区| 成人免费视频97| 一道本一区二区| 国产麻豆a毛片| 欧美精品一区二区三区高清aⅴ| 久久久久久久| 超碰人人爱人人| 久久品道一品道久久精品| 怡红院男人天堂| 国内精品久久久久久| 欧美少妇性xxxx| 亚洲熟女一区二区三区| 欧洲一区二区av| 欧美aaa免费| 亚洲丰满在线| av在线播放一区二区三区| 中文字幕日韩国产| 性色av一区二区三区| 久久免费大视频| a级大片在线观看| 欧美成人一级视频| 欧美在线一级| 成人一级片网站| 亚洲国产你懂的|