精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

騰訊AI Lab首創RL框架Parallel-R1,教大模型學會「并行思維」

人工智能 新聞
來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們(第一作者鄭童是馬里蘭大學博士生,本工作于其在騰訊 AI Lab 西雅圖實習期間完成)首創了 Parallel-R1 框架。

自從 Google Gemini 將數學奧賽的成功部分歸功于「并行思維」后,如何讓大模型掌握這種并行探索多種推理路徑的能力,成為了學界關注的焦點。

然而,現有方法多依賴于監督微調(SFT),模型一來只能模仿預先構造的 parallel thinking 數據,難以泛化到真實的復雜任務中,其次這種方式對數據要求很高,往往需要復雜的 data pipeline 來構造。

為解決這些難題,來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們(第一作者鄭童是馬里蘭大學博士生,本工作于其在騰訊 AI Lab 西雅圖實習期間完成)首創了 Parallel-R1 框架 —— 這是第一個通過強化學習(RL)在通用數學推理任務上教會大模型進行并行思維的框架。該框架通過創新的「漸進式課程」與「交替式獎勵」設計,成功解決了 RL 訓練中的冷啟動和獎勵設計難題。

實驗表明,Parallel-R1 不僅在多個數學基準上帶來高達 8.4% 的平均準確率提升,更通過一種 “中程訓練腳手架” 的策略,在 AIME25 測試中實現了 42.9% 的性能飛躍。

  • 論文標題:Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2509.07980
  • 項目地址:https://github.com/zhengkid/Parallel-R1 (Coming Soon)
  • 項目主頁:https://zhengkid.github.io/Parallel_R1.github.io/

并行思維的挑戰:為何注入并行思維如此困難?

并行思維,即同時探索多條推理路徑再進行歸納總結。

圖 1:并行思考流程示意圖。

目前最主流的注入并行思維的范式是監督微調 (SFT),但這種方式本質上是行為克隆,強迫模型模仿固定的、預先生成的數據,導致模型只會進行表面上的模式匹配,而無法真正習得和泛化并行思維這一內在的推理能力。其次,這類方式對數據質量和多樣性的要求非常高,只有非常高質量的數據才能讓模型學習到很好的 parallel thinking 能力。然而,遺憾的是,在現實世界中,人們很難天然獲取高質量的這類數據,因此只能依賴于人工合成。而對于真實世界的推理任務,構造這些數據的難度很大,需要復雜的數據管道。

另一方面強化學習(RL)是一種更擴展性強的,但在通用、真實的復雜任務中進行并行思維訓練卻面臨兩大核心挑戰:

  1. 冷啟動問題(Cold-Start):由于預訓練模型從未見過并行思維的特定格式(如同時生成多個解題路徑),在 RL 探索初期,它根本無法自發產生這類軌跡,導致學習無從下手。這時候就需要一個冷啟動階段。但是上文提到,對于真實世界的難題,這種數據很難構造。
  2. 獎勵設計困境(Reward Design):如何平衡「解題正確率」和「思維方式」是一個難題。如果只獎勵最終答案的正確性,模型會傾向于走最簡單、最熟悉的單路徑「捷徑」,從而「遺忘」更復雜的并行思維;而如果強行要求使用平行格式,又可能導致模型為了格式而犧牲邏輯的嚴謹性,反而降低了準確率。

圖 2:漸進式課程訓練示意圖

Parallel-R1 的解法:首個為真實世界推理任務打造的 RL 框架

為攻克上述難題,Parallel-R1 作為首個專為通用、復雜數學推理等真實世界任務設計的強化學習框架被提出。它通過一套精巧的組合拳,系統性地解決了訓練困境。

漸進式課程:從「學格式」到「學探索」

研究者的一個關鍵發現是:用簡單的提示工程,讓強大的模型為簡單數學題(如 GSM8K)生成高質量的并行思維數據是可行的(成功率 83.7%),但對于復雜難題(如 DAPO)則完全無效(成功率 0.0%)。

基于這一洞察,他們巧妙的避開了復雜的數據管道依賴,并設計了一種漸進式課程:

  • 第一階段(格式學習):首先,利用新建的 Parallel-GSM8K 數據集,在簡單的數學任務上對模型進行 SFT。此階段的核心目標并非解決難題,而是讓模型學會并行思維的「語法格式」,例如如何使用等控制標簽 。
  • 第二階段(能力泛化):當模型掌握了基本格式后,再將其置于更困難的數學任務中,通過 RL 進行訓練 。此時,模型已經具備了生成平行軌跡的 “火種”,可以在 RL 的驅動下自由探索、試錯,并最終將這一能力泛化到未知難題上。

交替式獎勵:在「準確性」與「多樣性」間取得平衡

針對獎勵設計的困境,研究團隊試驗了多種方案,最終提出了一種高效的交替式獎勵策略。該策略在訓練過程中,周期性地在兩種獎勵模式間切換:

  • 80% 的時間使用「準確率獎勵」:只根據最終答案是否正確給予獎勵,確保模型的核心目標始終是解決問題。
  • 20% 的時間使用「分層獎勵」:在這一模式下,如果模型使用了并行思維并且答案正確,會獲得一個額外獎勵(+1.2 分);如果未使用并行思維但答案正確,則獲得標準獎勵(+1.0 分);否則將受到懲罰。

消融實驗(見下表)證明了該策略的優越性。單純獎勵準確率,模型的并行思維使用率極低(13.6%);單純獎勵平行格式,模型性能會嚴重下滑。而交替式策略在將并行思維使用率提升至 63.0% 的同時,還能在 AIME 等高難度測試上取得最佳性能,完美實現了「既要并行行為又要準確率」的目標。

并行思考模型超過單一思考模型

根據下面提供的性能對比表,注入了并行思維能力的模型在各項數學推理基準測試中,其性能優于傳統的單一(順序)思考模型。

打開「黑箱」:模型如何悄然改變思維策略?

除了提出高效的訓練框架,該研究還深入分析了模型在學習過程中的動態變化,揭示了一個有趣現象:模型的并行思維策略會隨著訓練的深入,從「探索」演變為 「驗證」。

通過追蹤模塊在解題過程中出現的位置,研究者發現,在訓練初期,模型傾向于在解題的早期就使用并行思維,這相當于「廣撒網」,同時探索多種可能性來尋找解題思路。然而,隨著模型能力的增強,它變得更加自信,平行模塊出現的位置逐漸后移。在訓練后期,模型會先用一條自己最有把握的路徑推導出一個初步答案,然后在解題的末尾才調用并行思維,從不同角度對該答案進行復核與驗證,以確保萬無一失。

圖 3:訓練過程中 < Parallel > 模塊相對位置的變化,曲線穩步上升,表明其應用從早期探索轉向后期驗證。

意外之喜:作為「訓練腳手架」的并行思維

研究還發現了一個更令人振奮的結論:并行思維本身可以作為一種臨時的「結構化探索腳手架」,來幫助模型解鎖更高的性能上限。

研究者設計了一個兩階段訓練實驗:

  1. 探索階段(0-200 步):采用交替式獎勵,強制模型高頻率地使用并行思維,進行廣泛的策略空間探索。
  2. 利用階段(200 步后):切換為純粹的準確率獎勵。此時,模型會逐漸減少對平行格式的依賴,轉而專注于提煉和利用在第一階段發現的最優策略。

結果(見下圖)顯示,進入第二階段后,盡管模型的并行思維使用率(綠線)驟降,但其在 AIME25 上的準確率(紅線)卻持續攀升,最終達到了 25.6% 的峰值。這一成績相較于從頭到尾只用標準 RL 訓練的基線模型,實現了高達 42.9% 的相對提升。這證明了,短暫地「強迫」模型進行平行探索,能夠幫助它發現一個更優的「能力區間」,即使后續不再使用這種形式,其學到的核心推理能力也得到了質的飛躍。

圖 4:兩階段訓練曲線。在探索階段后,并行思維使用率下降,但模型準確率持續走高,超越基線。

總結

在這項工作中,研究者們提出了 Parallel-R1,這是首個能在真實的通用數學推理任務上,通過強化學習教會大模型進行并行思維的框架。除此之外,研究者們進一步對并行思考行為以及其潛在價值進行了深入探討。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-28 09:00:00

2023-09-14 12:35:59

2024-10-29 21:01:44

2025-03-12 12:10:13

2025-02-17 09:33:00

AI算法模型

2023-06-05 10:09:03

研究人工智能

2018-09-18 10:12:47

騰訊框架深度學習

2025-06-16 14:40:40

模型AI訓練

2025-10-20 09:02:00

2025-01-17 13:53:11

AI大模型檢測工具

2023-11-22 12:41:42

AI模型

2023-09-06 13:17:00

AI數據

2025-02-06 10:18:45

2025-11-21 08:29:14

2025-05-19 08:37:00

2025-03-21 13:25:14

2025-10-16 08:59:00

2025-01-08 13:08:55

2025-05-22 04:00:00

PARSCALE大型語言模型LLM
點贊
收藏

51CTO技術棧公眾號

精品孕妇一区二区三区| 色婷婷久久一区二区| 久久乐国产精品| 99999精品视频| 欧美老熟妇一区二区三区| 欧亚av在线| 911久久香蕉国产线看观看| 欧美午夜精品伦理| 99高清视频有精品视频| 日本成人免费视频| 国产资源在线观看入口av| 国产精品一卡二| 日韩小视频在线| 国产熟人av一二三区| 深夜视频在线免费| 99日韩精品| 亚洲国产成人精品久久久国产成人一区 | 七七成人影院| 国产一区二区三区不卡在线观看| 中文字幕亚洲第一| 免费裸体美女网站| 黄色影院在线播放| 亚洲欧美清纯在线制服| 亚洲精品91美女久久久久久久| 久久久久久久免费视频| 一区二区的视频| 日韩一区二区中文| 欧美日韩国产一级二级| 在线精品亚洲一区二区| 亚洲天堂免费av| 久久人人99| 91精品国产乱| 大荫蒂性生交片| 亚洲国产精品久久久久久久| 亚洲午夜黄色| 亚洲国产高清自拍| 欧美体内she精高潮| 自拍亚洲图区| 91在线精品一区二区| 日本精品在线视频| 战狼4完整免费观看在线播放版| 黑人一区二区三区| 亚洲日韩欧美一区二区在线| 亚洲最大av网站| 日韩激情一区二区三区| 亚洲涩涩av| 欧美视频一二三区| 日日噜噜夜夜狠狠久久丁香五月| 成人性爱视频在线观看| 麻豆高清免费国产一区| 久久av中文字幕| 催眠调教后宫乱淫校园| 韩国精品主播一区二区在线观看| 亚洲国产成人私人影院tom| 91久久国产精品| 日本少妇久久久| 性欧美18一19内谢| av网站免费大全| 亚洲国产精品一区制服丝袜| 亚洲精品色婷婷福利天堂| 精品亚洲一区二区三区四区| 污污网站在线看| 久久欧美中文字幕| 国产三级精品网站| 日韩精品视频播放| 在线欧美福利| 最近2019免费中文字幕视频三| 久久久久无码精品国产sm果冻| 偷窥自拍亚洲色图精选| 欧美高清性hdvideosex| 欧美二区在线视频| 国产精品久久久久久福利| 狠狠色丁香婷婷综合久久片| 欧美精品tushy高清| 特黄视频免费观看| 成人性生交大片免费观看网站| 中文字幕中文字幕一区二区| 精品乱色一区二区中文字幕| 91尤物国产福利在线观看| 另类中文字幕网| 91九色国产视频| 亚洲女人18毛片水真多| 免费观看日韩电影| 2019中文字幕在线| 破处女黄色一级片| 狠狠色综合网| 日韩美女福利视频| 国产又粗又猛视频免费| 欧美中文字幕| 久久久久五月天| √资源天堂中文在线| 综合激情婷婷| 最近2019中文字幕大全第二页| 午夜三级在线观看| 日本大胆欧美| 亚洲精品在线视频| 色撸撸在线视频| 少妇精品久久久一区二区三区 | 96日本xxxxxⅹxxx17| 国产丶欧美丶日本不卡视频| 国产精品视频免费在线| 永久免费看片在线播放| 欧美精品综合| 久久久国产成人精品| 在线欧美一区二区| 偷拍视频一区二区| 国内av一区二区三区| 中文字幕一区二区三区蜜月| 日本阿v视频在线观看| 免费a级人成a大片在线观看| 国产欧美一区二区精品婷婷| 久久综合九色99| 午夜在线视频免费| av亚洲精华国产精华精| 国产精品国产三级欧美二区| 欧美 日韩 国产 精品| 国产白丝精品91爽爽久久| 91观看网站| 性生交生活影碟片| 中文字幕av一区二区三区| 成年人看的毛片| 亚洲天堂网站| 欧美一级欧美三级| 日本精品视频一区二区| 国产精品中出一区二区三区| 男女污污视频在线观看| 久久久久久久久久久99999| 久久亚洲午夜电影| 污片视频在线免费观看| 欧美日韩精品三区| 久久久久久九九九九九| japanese国产精品| 丝袜美腿亚洲一区二区| 日韩毛片在线视频| 国产激情视频一区二区三区欧美| 日韩欧美亚洲精品| 老司机在线永久免费观看| 欧美视频中文字幕在线| japanese在线观看| 国产精品日韩精品中文字幕| 亚洲欧美日韩天堂| 99久久99久久精品免费看小说.| 亚洲国产片色| 成人在线视频电影| 理论在线观看| 精品久久久中文| 污视频免费在线观看网站| 亚洲三级电影| 久久精品国产亚洲精品2020| 中文字幕在线网站| 国产91精品免费| 国产一二三四五| 电影91久久久| 日韩高清免费在线| 一区二区三区伦理片| 91精品综合| 91福利视频导航| 影音先锋男人在线资源| 日韩视频免费观看高清完整版 | av在线播放网址| 精品9999| 国偷自产av一区二区三区小尤奈| 毛片在线播放网址| 欧美日韩一区二区免费在线观看| 亚洲福利精品视频| 青青草原综合久久大伊人精品 | 瑟瑟视频在线免费观看| 国产精品18久久久久久久久久久久| 亚洲欧洲精品一区二区| jizzjizz中国精品麻豆| 欧美日韩一区二区三区四区五区| youjizz.com日本| 久久网站免费观看| 成人激情视频免费在线| 免费在线黄色影片| 在线精品视频一区二区三四| www.xx日本| 国产精品一区二区久久不卡| 国产av国片精品| 国产精品一区二区精品| 欧美高清电影在线看| 一级全黄少妇性色生活片| 亚洲视频免费在线观看| zjzjzjzjzj亚洲女人| 免费看黄裸体一级大秀欧美| 亚洲一二三区精品| 东京一区二区| 中文字幕日韩欧美精品在线观看| 国产又粗又猛又黄又爽| 午夜精品成人在线视频| 中文字幕第10页| 99亚洲一区二区| 亚洲国产精品www| 成人av婷婷| 欧美精品在线观看| 国产精品久久婷婷| 亚洲一卡二卡三卡四卡五卡| 热久久久久久久久| 伊人蜜桃色噜噜激情综合| 欧美午夜精品久久久久久蜜| 国产伦理精品| 丝袜美腿亚洲一区二区| 天天射天天色天天干| 亚洲一二三区在线观看| b站大片免费直播| 国产精品99久久久| 成人精品小视频| 欧美午夜a级限制福利片| 欧美日本韩国一区二区三区| 人人九九精品视频| 欧美成人免费全部观看天天性色| 亚洲日本中文字幕在线| 91麻豆精品国产91久久久资源速度| 69xxx免费| 男女视频一区二区| 97超碰在线人人| 国产精品99一区二区三| 91精品久久久久久综合乱菊| 欧美aaaaa性bbbbb小妇| 欧美成人第一页| 国产视频福利在线| 欧美色倩网站大全免费| 国产午夜精品一区二区理论影院| 国产精品美女www爽爽爽| 欧美婷婷精品激情| 国产日韩欧美三区| 91精品久久久久久久| 伊人久久视频| 亚州国产精品久久久| 四虎国产精品永远| 日韩精品一区二| 午夜影院在线看| 一区二区三区影院| youjizz.com国产| 狠狠色丁香久久婷婷综合_中| 九热视频在线观看| 国产精品久久久久久久久久10秀| 欧美日韩一区在线视频| 欧美电影免费网站| 国产精品久久久久免费a∨| 麻豆视频在线观看免费网站黄| 欧美大荫蒂xxx| 在线电影福利片| 九九精品视频在线| 日韩av视屏| 欧美日韩高清一区二区不卡| 精品一区二三区| 91电影在线观看| 69av视频在线观看| 亚洲综合一区二区三区| 日本高清www| 狠狠狠色丁香婷婷综合久久五月| 欧美三级理论片| 蜜桃av噜噜一区| 一女二男3p波多野结衣| 久久国产精品无码网站| www.成年人视频| 伊人久久婷婷| 国产中文字幕免费观看| 久久国产精品久久w女人spa| 2022亚洲天堂| 欧美人与动xxxxz0oz| 欧美日韩视频一区二区三区| 91精品国产综合久久久久久漫画 | 制服丝袜中文字幕第一页| 韩国av一区二区| 少妇高潮一69aⅹ| av成人在线观看| 亚洲在线视频免费观看| 欧美日韩午夜视频| 91丨九色丨国产丨porny| 色噜噜狠狠一区二区| 国内精品久久久久影院一蜜桃| 伊人成人免费视频| 99久久精品国产一区| 国产成人免费观看网站| 最新久久zyz资源站| 国产一二三四五区| 国产精品乱码一区二区三区软件 | 亚洲日本中文字幕在线| 国产一区二区三区三区在线观看| 国产小视频免费观看| 亚洲高清免费观看高清完整版| 美国成人毛片| 免费不卡在线观看av| 黄频免费在线观看| 国产欧美精品va在线观看| 国模套图日韩精品一区二区| 国产精品三级网站| 国产精品x8x8一区二区| 91日韩久久| 亚洲精品aaaaa| 影音先锋欧美在线| 中文亚洲免费| 精品国产鲁一鲁一区二区三区| 日韩精品亚洲一区二区三区免费| 男人日女人视频网站| 蜜臀久久久久久久| 精品1卡二卡三卡四卡老狼| 国产精品污www在线观看| 九九视频在线免费观看| 亚洲女同ⅹxx女同tv| 四虎地址8848| 午夜精品福利一区二区蜜股av | 九九热只有精品| 欧美色成人综合| 日韩一区二区三区在线观看视频| 中文字幕亚洲一区在线观看| 啊啊啊久久久| 99电影在线观看| 五月激情综合| 国产情侣av自拍| 99精品热视频| 激情四射综合网| 欧美唯美清纯偷拍| 欧美偷拍视频| 久久免费视频在线观看| 成人乱码手机视频| 四虎永久国产精品| 亚洲欧美不卡| 朝桐光av一区二区三区| xnxx国产精品| 久久午夜鲁丝片午夜精品| 亚洲高清不卡在线观看| 狠狠躁夜夜躁人人爽天天高潮| 亚洲一区精品在线| 国产一区二区麻豆| 国产一区二区日韩| 中文字幕乱码中文乱码51精品| 国产精品18久久久久久麻辣| 成人精品一区二区三区电影| 久久视频在线观看中文字幕| 精品久久久亚洲| www.国产区| 久久人人爽爽爽人久久久| 中文字幕在线观看免费视频| 精品国产91洋老外米糕| 内衣办公室在线| 91精品国产色综合久久不卡98口 | 91久久久久久久久久久久久| 精品视频免费在线观看| 欧美韩国日本在线| 老司机午夜精品| 后入内射无码人妻一区| 欧美午夜一区二区| 免费一级片视频| 亚洲国产合集| 欧美又大又硬又粗bbbbb| 99精品在免费线中文字幕网站一区 | av成人资源网| www.av片| a在线播放不卡| 啦啦啦免费高清视频在线观看| 日韩第一页在线| a级片在线免费| 久久九九99视频| 国产aⅴ精品一区二区三区黄| av黄色在线看| 欧美xxxxxxxx| 国产精品视频一二区| 中文字幕欧美日韩精品| 91国内外精品自在线播放| 亚洲一区二区四区| 国产精品1区二区.| 亚洲免费激情视频| 尤物yw午夜国产精品视频| 中文字幕有码在线视频| 欧美亚洲综合网| 日本私人网站在线观看| 日本电影亚洲天堂| 亚洲精品一区二区在线播放∴| 伊人色综合久久天天五月婷| 国产精品99久久久久久久女警| 国产无码精品一区二区| 亚洲欧美日韩一区在线| 日本免费成人| 日韩福利视频| 另类小说视频一区二区| 欧美久久久久久久久久久久| 亚洲国产欧美一区二区三区同亚洲| 澳门成人av网| 久久久国产精华液999999| 成人福利视频在线看| 欧美国产日韩在线观看成人| 精品国产污网站| 粉嫩一区二区三区| 国产三级中文字幕| 91美女在线观看| 国产精品爽爽久久| 日本91av在线播放| 你懂的视频一区二区| 一区二区久久精品| 午夜国产精品一区| 男人天堂久久久| 久久大片网站| 国产真实乱偷精品视频免| 亚洲成人第一网站| 亚洲男人天堂2024| 国产精品一区二区三区av| 女人扒开屁股爽桶30分钟|