精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓GPU不再摸魚!清華螞蟻聯合開源首個全異步RL,一夜擊穿14B SOTA

人工智能 新聞
清華與螞蟻聯合開源AReaL-boba2,實現全異步強化學習訓練系統,有效解耦模型生成與訓練流程,GPU利用率大幅提升。14B模型在多個代碼基準測試中達到SOTA,性能接近235B模型。異步RL訓練上大分!

還記得今年初DeepSeek?R1系列把純強化學習(RL)訓練開源,點燃社區對于RL的熱情嗎?

不久后,來自清華螞蟻聯合開源項目AReaL(v0.1)也通過在DeepSeek-R1-Distill-Qwen-1.5B上進行RL訓練,觀察到模型性能的持續提升。

AReaL(v0.1)在40小時內,使用RL訓練的一個1.5B參數模型,在數學推理方面就超越了o1-Preview版本。

研究人員發現,RL在構建大型推理模型(LRM)方面確實有「奇效」,但是傳統的同步RL卻有著「昂貴」的代價——效率很低,無法充分利用推理設備性能。

6月3日,清華螞蟻聯合研發的全異步強化學習訓練系統AReaL-boba2(即AReaL v0.3)正式開源,這是AReaL的第三個版本,也是其里程碑版本AReaL-boba的重磅升級,直指RL訓效提升靶心!

AReaL-boba2在經過兩個版本的迭代后,進化出多項重要能力:

  • 全面實現了異步強化學習訓練,完全解耦模型生成與訓練,GPU資源利用率大幅優化。
  • 性能效果不變的前提下,訓練速度對比AReaL-boba最高提升2.77倍,且沒有任何性能損失。
  • 研究人員使用這一系統在Qwen3系列模型上做強化學習訓練,實現8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達到SOTA水準。
  • AReaL-boba2還原生支持多輪智能體強化學習訓練,開發者可以根據自己的需求自由定制智能體和智能體環境,進行多輪交互智能體Agentic RL訓練。
  • 完全開源:不僅開源代碼、腳本,還包括可復現結果的數據集、模型權重。

圖片

開源地址:https://github.com/inclusionAI/AReaL

技術論文:https://arxiv.org/pdf/2505.24298

模型下載:https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5

尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業人員持續面臨的課題。

異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。這次清華和螞蟻聯合開源的AReaL-boba2以及一系列實驗效果,驗證了這方面的共識。

一舉達到SOTA性能

首先來看AReaL-boba2在多個測試基準上的性能對比。研究人員使用這一系統在Qwen3系列模型上做強化學習訓練。

圖片

其中,AReaL-boba2-8B/14B-Open表示在開源數據上的訓練結果;AReaL-boba2-8B/14B模型則額外使用了少量內部數據進行訓練。

AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實現了SOTA。

最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型,已經接近Qwen3-235B的性能!要知道這可是14B VS 235B的較量。

同時AReaL-boba2-8B模型的得分也有63分,已經接近DeepSeek-R1的水準!

異步強化學習系統的必要性

在傳統的強化學習訓練流程中,同步強化學習訓練每一個batch的數據都是由最新版本模型產生,因此模型參數更新需要等待batch中數據全部生成完成才能啟動。

由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,強化學習訓練必須等待batch中最長的輸出生成完才能繼續進行訓練,以及進行下一個batch的數據收集,這樣,就會造成極大的GPU資源浪費。

圖片

左側為同步RL訓練的執行時間線:同batch輸出(藍色)需要等待其中最長的輸出生成完成,存在大量GPU空閑

DeepCoder,Intellect-2等使用從前一模型版本生成的輸出來更新當前模型,從而在單步上重疊生成與訓練。然而,所有這些系統仍然遵循批量生成設置,在生成階段期間系統效率低下的問題仍未得到有效解決。

圖1右側為一步重疊RL系統的執行時間線,單模型訓練與單batch數據收集同時進行。同batch內依然存在大量GPU空閑。

完全異步RL訓練系統

實現高GPU利用率

為了從根本上解決以上這些系統設計中的問題,清華和螞蟻的聯合研究團隊開發了AReaL-boba2,一個面向大型推理模型(LRM)的完全異步強化學習訓練系統,它完全解耦了生成與訓練,在不影響最終性能的同時,實現大幅度加速。

而AReaL-boba2之所以能實現高GPU利用率,就是因為它以流式方式執行LRM生成,讓每個rollout worker能不斷生成新的輸出,無需等待。

同時,AReaL-boba2中的trainer worker會并行地在從rollout worker獲得生成完成的數據構成訓練batch,用來更新模型。一旦模型更新完成,新的模型權重會更新到每個rollout worker中。

值得注意的是,在這種異步設計中,AReaL-boba2中的每個訓練batch可能包含由不同過去模型版本生成的樣本。在實踐中,訓練數據的陳舊性可能會導致RL算法訓練效果不佳,為此研究者們提出了算法改進以保證訓練效果。

結果顯示,完成數學推理和代碼任務時,在高達320億參數的模型上,AReaL-boba2的訓練吞吐量最高可提高2.77倍,訓練效率在512塊GPU上實現了線性擴展。

關鍵點在于,這種加速甚至還帶來了解題準確性的提升,這就表明,AReaL-boba2并不需要犧牲模型性能,就能顯著提升效率!

系統架構

圖片

AReaL的架構與數據流

AReaL-boba2系統由四個核心組件組成:

1. 可中斷的采樣工作器(Interruptible Rollout Worker)

它負責處理兩類請求:

(1)generate請求:根據提示詞生成響應;

(2)update_weights請求:中斷當前所有生成任務,并加載新版本模型參數。

在權重更新時,采樣工作器會丟棄舊權重生成的KV緩存,并使用新權重重新計算。隨后,采樣工作器將繼續解碼未完成的序列,直到下一次中斷或任務終止。

這種在生成中途打斷并切換模型權重的機制,將導致一條軌跡由多個不同模型版本生成的片段組成。當然,這也帶來了新的算法挑戰。

2. 獎勵服務(Reward Service)

用于評估模型生成響應的準確性。

例如,在代碼任務中,該服務會提取生成的代碼并執行單元測試,以驗證其正確性。

3. 訓練工作器(Trainer Workers)

這個組件會持續地從重放緩存(replay buffer)中采樣數據,直到累積到訓練所需的batch大小為止。

隨后,它們將執行PPO更新,并將更新后的模型參數存儲到分布式存儲系統中。

4. 采樣控制器(Rollout Controller)

它是采樣工作器、獎勵服務與訓練工作器之間的重要橋梁。在訓練過程中,它從數據集中讀取數據,向采樣工作器發送generate 請求,獲取模型生成的結果。生成結果隨后會被發送至獎勵服務進行評估,以獲取對應的獎勵值。

包含獎勵的軌跡會被存入重放緩存,等待訓練工作器進行訓練。當訓練工作器更新完模型參數后,控制器會向采樣工作器發送update_weights請求,將最新權重加載至采樣工作器中。

圖片

AReaL的生成與訓練的管理流程

異步強化學習的算法挑戰與解決方案

雖然異步系統設計通過提高設備利用率提供了顯著的加速效果,但它也引入了一些需要從算法層面考量的技術挑戰。

· 數據陳舊性

由于AReaL-boba2的異步特性,每個訓練batch都包含來自多個先前策略版本的數據。數據陳舊性會導致訓練數據與最新模型的輸出之間出現分布差距。在針對LRM的異步RL訓練中,由于解碼時間延長,此問題對于長軌跡可能會更加嚴重。

· 策略版本不一致

如上圖3所示,單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標準PPO的公式化假設,即所有數據都由單一模型生成。

為了解決這兩個挑戰,AReaL-boba2提出了兩種關鍵解決方案:

1. 陳舊性控制

為了避免數據陳舊性問題帶來的負面影響,AReaL-boba2限制生成軌跡的策略版本與訓練策略之間的版本差異。AReaL引入了一個超參數η,用于表示允許的最大陳舊程度。當η=0,系統退化為同步強化學習設置,此時生成與訓練batch完全匹配。

2. 解耦的PPO目標

團隊應用了一個解耦的PPO目標,將行為策略和代理策略分離,其中行為策略表示用于采樣軌跡的策略,而代理策略是一個近端策略,作為最近的目標,用于規范在線策略的更新。

圖片

效果顯著

首先在一個數學任務上評估異步AReaL-boba2,在之前發布的AReaL-boba(v0.2)基礎上,采用R1-Distill-Qwen作為基礎模型,并使用AReaL-boba-106k作為訓練數據集。

端到端性能對比

團隊比較了在1.5B和7B參數模型上的同步與異步訓練。

結果顯示,在資源限制和訓練步驟相同的情況下,異步系統速度是同步系統的兩倍多!

在AIME24上的評估,證實了這一加速并未影響性能。

圖片

可以看到,AReaL-boba2在性能上始終與基線持平甚至超過,并且訓練速度有顯著提升。

特別是在訓練吞吐量方面,AReaL-boba2相較于同步方法最高可實現2.77倍的提升,且幾乎無性能損失。

圖片

研究者在數學任務上基于一個1.5B的大型推理模型(LRM),開展了消融實驗,以驗證他們所提出算法創新。

他們調整了允許的最大staleness η,并比較使用和不使用解耦式PPO目標函數的不同配置。結果表明,陳舊性控制有效地避免了過舊的數據帶來的負面影響,同時使用解耦PPO目標可以在陳舊程度大的情況下保持訓練效果。

圖片

(a)和(b)分別為使用傳統PPO以及解耦PPO目標進行訓練的曲線

圖片

解耦PPO目標的消融實驗

推進先進AI推理平權

此前,聯合研究小組在3月開源的AReaL-boba項目,得到了來自海外開發者的高度認可,評價「AReaL-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 」

而AReaL-boba2 延續了一貫的完全開源原則,代碼、數據集、腳本及 SOTA 級模型權重全部開源,團隊希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。

AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。

AReaL的誕生離不開DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優秀開源框架和模型的啟發。

最后,AReaL還給出了完善的訓練教程和開發指南,包括復現SOTA代碼模型訓練指南以及基于Async RL的智能體搭建教程,想體驗極速RL訓練的小伙伴可以跑起來了!

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-05 08:40:00

2023-08-02 12:52:02

谷歌模型

2014-08-22 17:19:12

經營信息化

2025-04-01 09:00:00

模型訓練開源

2024-02-22 10:09:00

開源模型

2015-07-14 11:39:08

Docker容器DevOps虛擬機

2018-05-23 11:43:59

數據庫

2025-09-25 09:33:54

2024-10-14 13:40:00

2016-01-26 17:47:58

SaaSSaaS平臺SaaS服務

2025-02-20 10:07:09

2022-01-11 23:03:02

Java元數據語言

2011-09-23 09:41:02

2022-07-05 07:59:00

VSCode開源項目

2019-03-05 10:03:17

阿里云云廠商硬盤

2025-04-10 10:02:43

2025-09-16 10:09:00

2023-09-21 09:49:09

人臉識別? ChatGPT圖像

2024-03-18 13:21:13

2022-11-11 15:16:36

機器學習開源
點贊
收藏

51CTO技術棧公眾號

国产女同无遮挡互慰高潮91| 日韩欧美一区二区三区四区五区 | 性人久久久久| 色就色 综合激情| 亚洲一区bb| 开心激情综合网| 国产精品呻吟| 久久亚洲春色中文字幕| 精品一区二区视频在线观看| 小明成人免费视频一区| 一区二区三区久久久| 蜜桃欧美视频| 精品人妻无码一区二区| 久久一区二区三区四区五区| 久久色在线播放| 人妻丰满熟妇av无码久久洗澡| 国产精品蜜月aⅴ在线| 激情亚洲一区二区三区四区| 艳色歌舞团一区二区三区| 日本人妻熟妇久久久久久| 久久国产婷婷国产香蕉| 97在线观看免费| 午夜爽爽爽男女免费观看| 精品一区毛片| 欧美tickling网站挠脚心| 黄色三级视频片| 成人bbav| 亚洲一区二区在线免费看| 日韩av在线电影观看| 色wwwwww| 成人在线视频一区| 国产人妖伪娘一区91| 日本黄色一级视频| 亚洲经典自拍| 久久久久久久爱| 黄视频网站免费看| 日韩av大片| 亚洲无限av看| 爱爱的免费视频| 狠狠久久伊人| 精品国产免费视频| 老司机av网站| 四虎国产精品成人免费影视| 日本高清不卡aⅴ免费网站| 欧美,日韩,国产在线| 丁香花高清在线观看完整版| 亚洲日本在线视频观看| 亚洲欧洲国产日韩精品| www.视频在线.com| 欧美极品aⅴ影院| 日韩欧美亚洲在线| a天堂中文在线88| 亚洲国产精品高清| 日韩欧美三级电影| 草碰在线视频| 国产精品日日摸夜夜摸av| 午夜精品一区二区三区在线观看| 男人av在线| 国产日韩欧美在线一区| 欧洲高清一区二区| www.av在线播放| 国产精品少妇自拍| 正在播放精油久久| 色网站免费在线观看| 国产精品天美传媒| 在线无限看免费粉色视频| 高潮毛片在线观看| 一区二区三区精品久久久| avav在线播放| 蜜桃麻豆av在线| 日本福利一区二区| 亚洲精品久久久中文字幕| 涩涩涩久久久成人精品 | 亚洲xxx在线| 成人avav影音| 日本一区二区三区免费看| 99中文字幕一区| 亚洲欧美激情小说另类| 成人免费网站入口| 成人性生交大片免费观看网站| 在线国产亚洲欧美| 欧美成人乱码一二三四区免费| 91麻豆精品国产综合久久久 | 手机在线观看av| 色欧美日韩亚洲| www.五月天色| 琪琪久久久久日韩精品| 国产一区二区三区精品久久久| 最新日韩免费视频| 国内精品久久久久久久影视麻豆 | 成年人观看网站| 日本肉肉一区 | 香蕉久久一区二区三区| 久久久久99精品国产片| 日韩高清专区| 污片在线免费观看| 一道本成人在线| www.桃色.com| 国产a久久精品一区二区三区| 精品国产拍在线观看| 亚洲精品视频在线观看免费视频| 男女性色大片免费观看一区二区 | 国产精品露脸自拍| 国产小视频一区| 日本一区二区三级电影在线观看| 久久www视频| 色8久久影院午夜场| 91精品国产综合久久福利软件| 超碰97在线资源站| 综合精品久久| 国产精品亚洲综合天堂夜夜| 欧美一级视频免费| 亚洲三级在线看| 精品久久久久久久无码| 精品国产导航| 久久亚洲国产精品成人av秋霞| 狠狠人妻久久久久久| 国产真实乱对白精彩久久| 欧美另类一区| 阿v视频在线观看| 3atv一区二区三区| 国产真实乱人偷精品人妻| 亚洲高清不卡| 97久久天天综合色天天综合色hd| 福利片在线看| 色综合久久久久久久久久久| 亚洲av成人精品一区二区三区| 91精品婷婷色在线观看| 国产精品电影一区| 秋霞av在线| 午夜久久福利影院| 极品白嫩的小少妇| 一区二区日韩欧美| 国产噜噜噜噜久久久久久久久| 欧美视频免费一区二区三区| 五月天激情小说综合| 性折磨bdsm欧美激情另类| 99久久精品费精品国产| 国产精品欧美久久久| 国产私人尤物无码不卡| 色诱亚洲精品久久久久久| 欧美深性狂猛ⅹxxx深喉| 激情视频一区| aa成人免费视频| 永久免费网站在线| 日韩精品一区二区三区四区| 极品颜值美女露脸啪啪| 国产一区二区不卡| 日本一道在线观看| 亚洲日本va| 欧美激情亚洲国产| 深爱激情五月婷婷| 精品国产精品三级精品av网址| 国产人成视频在线观看| 影音先锋亚洲电影| 狠狠干一区二区| 蜜桃av在线| 一本大道亚洲视频| 中文字幕av久久爽| 中文字幕一区二区在线播放| 国产成年人视频网站| 久久精品影视| 97人人澡人人爽| a天堂资源在线| 国产偷亚洲偷欧美偷精品 | 宅男噜噜噜66一区二区66| 人人澡人人澡人人看| 国产激情一区二区三区桃花岛亚洲 | 欧美综合视频在线| 五月天国产精品| 亚洲一区二区自偷自拍| 久久国产三级精品| 久操手机在线视频| 亚洲精华一区二区三区| 国产精品久久久久久久一区探花| 九色porny在线| 精品伦理精品一区| 久久国产黄色片| 国产精品色哟哟网站| 国产91在线免费观看| 亚洲免费成人| 视频一区二区综合| 日韩一二三区| 国产ts一区二区| a天堂中文在线官网在线| 欧美精品一区二区三区在线| 五月婷婷中文字幕| 亚洲欧美在线观看| 中文字幕a在线观看| 日韩精品一级二级| 日本大片免费看| 不卡在线一区二区| 国产乱人伦精品一区二区| 深夜成人福利| 久久成人精品一区二区三区| 天天操天天舔天天干| 欧美三级视频在线| 日韩欧美a级片| 中文字幕一区二区三区不卡在线| 理论片大全免费理伦片| 老鸭窝一区二区久久精品| 波多野结衣av一区二区全免费观看| 欧美日韩爱爱| 97碰碰视频| 日韩制服一区| 久久久久中文字幕| 麻豆网在线观看| 亚洲另类图片色| 性猛交xxxx乱大交孕妇印度| 欧美亚洲自拍偷拍| 日韩 欧美 综合| 亚洲欧美色一区| 亚洲av成人无码久久精品| 成人免费毛片a| 成人综合久久网| 日本欧美久久久久免费播放网| 日韩一级特黄毛片| 91精品久久久久久久久久不卡| 区一区二区三区中文字幕| 高潮久久久久久久久久久久久久| 成人a在线视频| 日韩高清在线| 欧洲亚洲在线视频| 2020av在线| 久久91精品国产91久久久| 在线观看免费网站黄| 亚洲老板91色精品久久| 高h震动喷水双性1v1| 欧美一区二区视频观看视频| 中文字幕av无码一区二区三区| 黑人巨大精品欧美一区二区| 久久精品人妻一区二区三区| 亚洲人成人一区二区在线观看 | 亚洲国产欧美另类丝袜| 2025国产精品自拍| 亚洲欧美日韩一区| 紧身裙女教师波多野结衣| 国产精品护士白丝一区av| 成人激情五月天| 国产日韩欧美激情| 中日韩精品一区二区三区| 99re视频精品| 中文字幕人妻一区二区| 91亚洲国产成人精品一区二三 | 国产一区二区麻豆| 亚洲成人自拍偷拍| 日韩欧美大片在线观看| 图片区小说区国产精品视频| 国产午夜精品无码一区二区| 午夜伊人狠狠久久| 一级片中文字幕| 91国产福利在线| 中文字幕+乱码+中文| 欧美日韩一区二区三区免费看 | 亚洲成av人影院在线观看| 亚洲精品视频网| 亚洲国产精品小视频| 香蕉久久一区二区三区| 亚洲丝袜在线视频| 番号集在线观看| 久久精品成人欧美大片古装| www视频在线免费观看| 欧美精品午夜视频| 91福利区在线观看| 欧美怡红院视频一区二区三区| 日本欧美不卡| 成人亲热视频网站| 97品白浆高清久久久久久| 精品亚洲一区二区三区四区五区高| 免费欧美激情| 宅男av一区二区三区| 你懂的网址国产 欧美| 免费在线观看视频a| 久久亚洲精选| 日本特黄在线观看| 99视频超级精品| 69xxx免费| 一区二区欧美精品| 久久久精品视频网站| 欧美精品乱人伦久久久久久| 成人黄色在线观看视频| 精品无人区太爽高潮在线播放| av网站在线播放| 欧美极品在线播放| 亚洲精品在线影院| 91国产在线播放| 久久不见久久见免费视频7| 在线精品亚洲一区二区| 亚洲伦伦在线| 国产一级做a爰片久久| 国产成人精品免费网站| 日韩av一二区| 一区二区在线观看视频| 久久青青草原亚洲av无码麻豆| 欧美久久久影院| 水中色av综合| 美女精品久久久| 婷婷六月国产精品久久不卡| 97在线电影| 欧美丝袜激情| av免费观看国产| 国模一区二区三区白浆| 三上悠亚影音先锋| 亚洲一区在线视频| 中文字幕一区二区在线视频| 亚洲精品电影网站| 免费大片黄在线观看视频网站| 欧美亚洲午夜视频在线观看| 久久伊人影院| 伊人情人网综合| 久久精选视频| 精品国产av色一区二区深夜久久| 日韩理论片网站| 国产又粗又猛又爽又| 亚洲国产精品成人精品| 成人无遮挡免费网站视频在线观看| 欧美一区二区三区免费视| 51精品国产| 天天操天天干天天玩| 美腿丝袜在线亚洲一区| 爱爱免费小视频| 精品毛片网大全| 国精产品一品二品国精品69xx | 日韩在线观看视频一区二区| 日本精品一级二级| 天堂91在线| 91精品国产高清自在线看超| 亚洲精品观看| 色爽爽爽爽爽爽爽爽| 久久精品国产在热久久| 亚洲精品国产精品国自产网站| 色综合色综合色综合| 韩国av免费在线| 欧美激情精品久久久久久大尺度| 亚洲网站免费| 99精品视频网站| 国内精品免费**视频| 国产视频精品免费| 欧美日韩国产中文| 免费在线观看av| 成人a免费视频| 中文在线日韩| 九九九久久久久久久| 亚洲激情成人在线| 国产国语亲子伦亲子| 九九热在线精品视频| 亚洲福利合集| 国产九色porny| 97se亚洲国产综合自在线观| 九九热在线视频播放| 亚洲精品v欧美精品v日韩精品| 成入视频在线观看| 久久草.com| 日韩国产欧美一区二区三区| av网站免费在线看| 欧美日韩精品一区二区天天拍小说 | 日韩美女视频一区二区| 国产深喉视频一区二区| 欧美日韩爱爱视频| 国产精品欧美大片| 国产最新免费视频| 欧美激情一区二区三区蜜桃视频 | 国产在线视频一区二区三区| 免费在线观看h片| 精品久久久久久最新网址| 国产乱码午夜在线视频| 欧美日韩一区二| 久久精品国产久精国产| 欧美日韩精品一区二区三区视频播放| 欧美xxx久久| 欧美片第1页| 久久精品国产精品亚洲精品色| 国产精品一二三四| 91精品国产乱码久久久张津瑜| 国产亚洲美女久久| 久久的色偷偷| 六月激情综合网| 中文字幕一区二区三区四区不卡| 东京干手机福利视频| 日韩av大片免费看| 永久91嫩草亚洲精品人人| 免费看毛片的网站| 欧美在线观看一区| 日本一级理论片在线大全| 日本一区不卡| 国产成人自拍网| 懂色av蜜臀av粉嫩av喷吹| 欧美成人精品xxx| 免费精品国产| 无码人妻一区二区三区精品视频| 欧美午夜宅男影院在线观看| 日韩精品成人av| 国产亚洲精品美女久久久m| 蜜臀精品一区二区三区在线观看 | 在线播放一区二区三区| 久久男人av资源站| 天天成人综合网| 国产日韩欧美高清| 理论片中文字幕| 国产综合在线观看视频|