精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架,支持超千卡規模高效訓練

人工智能 新聞
來自上海創智學院的研究團隊正式推出 siiRL,一個支持大規模高效強化學習訓練的 RL 框架!

還在為強化學習(RL)框架的擴展性瓶頸和效率低下而煩惱嗎?當模型和集群規模達到上千塊 GPU 時,傳統的中心化控制器架構難免會遇到性能瓶頸、內存溢出甚至系統崩潰。

事實上,當前最頂尖的基礎模型,從 DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都離不開大規模強化學習的加持。這充分表明,RL Scaling 已經成為大模型領域邁向更高智能的 “軍備競賽” 核心,是大勢所趨。而 xAI 最近發布的 Grok 4,更是將這一趨勢推向了新的高度,他們直接在其擁有的 200,000 塊 GPU 大集群上,以前所未有的 “后訓練規模” 來運行強化學習,旨在精進模型的推理能力。

Grok 4 和其他頂尖推理模型的成功共同揭示了一個明確的事實:解決強化學習的擴展性瓶頸,已不再僅僅是一個工程挑戰,而是解鎖下一代 AI 高級推理能力、實現更強通用智能的關鍵所在。因此,對 RL Scaling 的投入和研究,是未來 AI 發展的重要方向和核心戰略。

現在,來自上海創智學院的研究團隊正式推出 siiRL,一個支持大規模高效強化學習訓練的 RL 框架!

siiRL 的核心在于其創新的 多控制器 范式和 全分布式 架構,它將數據加載、計算和數據流轉等任務均勻地分散到所有工作節點,從根本上解決了傳統 RL 框架中由單一控制器引發的性能瓶頸。 

  • 線性擴展:全分布式架構帶來近乎線性的擴展能力,已在 1024 GPU 規模下成功驗證 。
  • 性能再飛躍:徹底消除單點瓶頸,實現最高達到 7 倍 的端到端訓練吞吐提升 。
  • 極致靈活:基于 DAG 的工作流定義,將算法邏輯與物理資源解耦,讓算法創新和實驗迭代快如閃電,并且能夠更靈活的支持多智能體協同訓練。
  • 跨硬件平臺兼容:siiRL 現已正式支持華為昇騰(Ascend)NPU,為用戶提供在不同的硬件平臺上進行 RL 訓練的高性能選擇。
  • 開箱即用:全面開源,輕松部署。

圖片

  • 論文鏈接: https://arxiv.org/abs/2507.13833 
  • 代碼鏈接: https://github.com/sii-research/siiRL

傳統 RL 框架為何遭遇瓶頸?

解構單控制器之痛

圖片

圖 1:傳統單控制器架構瓶頸。所有數據操作(初始加載、中間數據流轉)都需經過中心控制器,導致嚴重的通信開銷和擴展限制 。

在主流的強化學習框架中,系統通常采用一種混合或單一控制器架構,即由一個中心化的控制器節點來調度整個執行邏輯和管理數據流 。無論是初始的數據集加載,還是各計算階段間海量中間數據的收集與分發,所有數據都必須流經這個中心節點 。

這種設計在小規模下尚可運行,但一旦擴展到數百乃至上千 GPU,該中心節點就會因巨大的 I/O 和通信開銷而成為系統的性能瓶頸 。更糟糕的是,海量數據很容易壓垮中心節點的內存,導致系統崩潰(OOM),從根本上限制了系統的可擴展性和穩定性 。此外,固化的算法流程也大大增加了研究者進行算法創新的難度 。

siiRL 的高效秘訣:全分布式架構

為了徹底解決上述痛點, siiRL 創新性地采用了 全分布式架構 和 多控制器范式,移除了中心節點,將數據與計算的調度權下放到每一個工作單元 。

圖片

圖 2:siiRL 架構概覽 

siiRL 的整體設計包含三大核心組件:

a. DAG Planner (DAG 規劃器):用戶可以通過配置文件靈活定義一個代表完整 RL 工作流的 有向無環圖(DAG) 。DAG Planner 負責接收這個邏輯圖,并將其自動解析、分解為一系列線性的執行任務,分發給每個 Worker 。這種設計將算法邏輯與物理執行完全解耦,賦予了研究者極大的靈活性 。

b. DAG Worker (DAG 工作單元):作為框架的基本執行單位,每個 DAG Worker 綁定到一個 GPU,并獨立執行由 DAG Planner 分配的任務鏈 。它通過動態函數分發機制,將 DAG 節點定義(如角色、類型)與具體的計算函數實現解耦,使得框架極易擴展 。

c. Data Coordinator (數據協調器):它負責管理整個數據生命周期,確保數據在全分布式系統中的高效、正確流動 。

i. Distributed Dataloader:在初始加載階段,每個 Worker 只加載自己所需的數據分片,通過并行加載的方式從源頭避免了單點瓶頸 。

ii. Distributed Databuffer:在階段轉換時,當并行策略(如數據并行度)發生變化,Databuffer 會自動完成跨節點的數據重組與分發,確保數據流無縫銜接 。

圖片

圖 3:Distributed Databuffer 示意圖。當數據并行從 2(生成階段)變為 4(訓練階段)時,Databuffer 自動將數據重新切分并分發給正確的 Worker 。

效果驗證:速度與擴展性雙豐收,

性能依舊強勁!

我們在涵蓋 7B 到 72B 的多種模型尺寸和算法上,將 siiRL 與當前最主流的開源框架 verl 進行了全面對比。實驗結果證明了 siiRL 架構的巨大優勢。

在 PPO 和 GRPO 算法的端到端訓練中,siiRL 的性能全面超越基線。尤其是在數據交互量更大的 GRPO 算法下,siiRL 實現了高達 2.62 倍 的吞吐提升 。值得注意的是,在訓練 72B 模型時,基線框架在 32 卡配置下便遭遇了 OOM 錯誤,而 siiRL 則能輕松完成任務。

圖片

圖片

圖 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐對比。siiRL(藍色)在所有模型尺寸和 GPU 規模上均大幅領先基線框架 verl(紅色) 。

擴展性評估:千卡規模下的近線性擴展

得益于全分布式設計,siiRL 在擴展至 1024 個 GPU 時仍表現出近乎完美的線性擴展能力 。如下圖所示,在訓練 32B 模型時,從 64 卡擴展至 512 卡,系統依然保持了 80.5% 的線性擴展效率 。由于基線框架在同等規模下無法運行,我們轉而測試其所能支持的最大訓練批次大小,在此條件下,siiRL 在 VLM 設定下實現了驚人的 7 倍 速度提升。

圖片

圖 5:siiRL 在 VLM 任務上的擴展性評估,展示了從 32 到 1024 GPU 規模下的近線性擴展能力 。

圖片

圖 6: siiRL 和基線框架在基線框架支持最大訓練批次下對比實驗,7B 模型訓練吞吐提升最高達到 7 倍。

數據密集型場景:優勢愈發明顯

在長上下文這類數據密集型任務中,siiRL 的優勢愈發凸顯 。隨著上下文長度從 8k 增加到 64k,siiRL 相對于基線的領先優勢從 1.48 倍擴大到 2.03 倍 。這充分證明,數據通信量越大,siiRL 的全分布式數據流設計的效率提升就越高 。

圖片

圖 7:長上下文性能評估。隨著上下文長度增加,siiRL(藍色)的性能優勢愈發顯著 。

收斂性驗證:性能提升,精度無損

為了確保性能提升不以犧牲模型精度為代價,我們進行了收斂性對比實驗 。結果表明,在完全相同的超參數下,siiRL 和基線框架的獎勵值與熵值曲線幾乎完全重合 。這意味著,siiRL 在將訓練總耗時大幅減少的同時,保證了與基線完全一致的訓練效果 。

圖片

圖 8:收斂性對比。siiRL 與基線框架的訓練曲線趨勢一致,證明其優化不影響模型最終精度 。

未來計劃:

我們基于 DAG 的靈活設計,為構建復雜的 “多智能體系統” 奠定了天然且堅實的基礎。展望未來,我們計劃將多智能體支持作為系統的核心特性進行重點拓展,這包括支持更復雜的智能體交互工作流,擴展對多智能體強化學習(MARL)算法的兼容性,并實現更豐富的智能體與環境的交互機制,從而將我們的框架打造為一個功能全面的多智能體研發平臺。

總結:

開啟大規模強化學習新紀元

本文介紹了 siiRL,一個為解決大規模 RL 訓練中的擴展性和靈活性挑戰而設計的全新框架 。通過創新的全分布式架構 和用戶自定義的 DAG 驅動流程,siiRL 不僅徹底解決了傳統單控制器設計的瓶頸問題,實現了千卡規模的近線性擴展和高達 7 倍的吞吐提升,還極大地增強了框架的靈活性,加速了算法的創新迭代周期 。

我們相信這項工作為大規模強化學習研究鋪平了道路,提供了一個更高效、更靈活、真正可擴展的解決方案 。歡迎大家試用 siiRL,共同邁向大規模 AI 的未來!

上海創智學院 AI Infra 團隊介紹

siiRL 誕生于上海創智學院產學研一體化人才培養模式。

  • 團隊成員包括來自國內 31 所頂尖高校的博士生和一線大廠豐富產業經驗的導師,含萬卡集群建設者、中國第一批 CUDA 開發者、國產芯片優化專家、互聯網大廠機器學習平臺負責人等。
  • 全鏈路開源:從硬件到框架,代碼 100% 開放。
  • 團隊核心目標:讓大模型跑在中國芯,讓 AGI 基石全球共享。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-06-05 14:49:51

強化學習算法框架

2020-10-15 19:22:09

Menger機器學習強化學習

2021-07-22 15:25:14

開源技術 框架

2020-11-16 08:54:05

Google 開源技術

2025-06-25 13:44:09

開源訓練模型

2023-05-04 15:53:34

強化學習開發

2025-03-28 10:16:15

2023-04-19 16:51:54

分布式Primus開源

2025-05-13 13:51:20

模型AI訓練

2020-12-25 13:56:27

數據庫易用穩定

2025-06-05 08:40:00

2020-01-16 15:57:36

AI 數據人工智能

2017-09-11 15:19:05

CoCoA機器學習分布式

2023-11-08 10:25:00

模型技術

2017-10-27 08:40:44

分布式存儲剪枝系統

2022-03-09 08:05:26

框架分布式開源

2010-06-03 19:46:44

Hadoop

2021-09-09 15:45:17

機器學習人工智能Ray

2017-09-01 05:35:58

分布式計算存儲

2025-08-08 09:15:00

點贊
收藏

51CTO技術棧公眾號

色哟哟国产精品| 日日噜噜噜噜人人爽亚洲精品| 亚洲一区 中文字幕| 国产亚洲亚洲国产一二区| aa级大片欧美三级| 欧美一区二区三区免费大片 | 青青草成人免费| 欧洲亚洲两性| 成人av在线播放网站| 日韩色av导航| 无人在线观看的免费高清视频| 国精产品一品二品国精品69xx| 婷婷综合久久| 精品视频1区2区3区| 精品国产免费久久久久久尖叫| 国产成人久久久久| 国产精品蜜月aⅴ在线| 久久一区二区视频| 欧美亚洲视频一区二区| 国产精久久久久| 在线播放免费av| 天天影视综合| 亚洲国模精品一区| 国产精品久久久久久久乖乖| 国产免费叼嘿网站免费| 99国产精品免费视频观看| 欧美成va人片在线观看| 久久福利一区二区| 亚洲av色香蕉一区二区三区| 四季av一区二区凹凸精品| 精品1区2区3区| 黄色成人在线看| 欧美 日韩 国产 在线| 欧美日本一区二区视频在线观看| 欧美一区二区精美| 粗暴91大变态调教| 成人动漫在线免费观看| 蜜臀av一区二区在线免费观看 | 欧美捆绑视频| 亚洲精品社区| 亚洲国产天堂久久综合| 欧美一级特黄aaa| 2024最新电影在线免费观看| 国产三区在线成人av| 国内精品久久久久伊人av| 久久发布国产伦子伦精品| 国精一区二区三区| 99久久伊人精品| 热久久免费视频精品| 91亚洲精品一区二区| 91精品成人久久| 日韩精品国产一区| 日韩激情电影| 国产亚洲精品免费| 久久久久久久免费| 国产精品成人无码| 欧美777四色影| 亚洲第一天堂无码专区| 一本久道综合色婷婷五月| 麻豆蜜桃在线| 国产日韩精品一区二区浪潮av| 国产有色视频色综合| 狠狠躁夜夜躁人人爽视频| 久久久久久黄| 欧美剧在线观看| 欲求不满的岳中文字幕| www.26天天久久天堂| 亚洲欧美日韩一区二区三区在线观看| dy888夜精品国产专区| 国产三级av片| 国产精品久久久久久麻豆一区软件 | 精品成人av| 18成人在线观看| 国产九色精品| 在线不卡免费视频| 美国十次了思思久久精品导航| 欧美激情区在线播放| 成人激情五月天| **爰片久久毛片| 欧美日韩一区二区三区在线看| 三级a三级三级三级a十八发禁止| 影音先锋中文在线视频| 一区二区三区日韩精品视频| 蜜桃视频在线观看成人| a天堂中文在线观看| 久久这里只有| 久久久久一本一区二区青青蜜月| 国产精品6666| 欧美在线不卡| 97成人超碰免| 中文字幕91爱爱| 久久国产精品久久w女人spa| 国产97在线观看| 日本学生初尝黑人巨免费视频| 国产精品久久久久9999高清| 久久99精品国产99久久6尤物| 国产一级一片免费播放| 91精品国产乱码久久久久久| 揄拍成人国产精品视频| 亚洲观看黄色网| 欧美影院三区| 国产一区二区三区视频| 亚洲人人夜夜澡人人爽| 国产精品18hdxxxⅹ在线| 欧美高清hd18日本| www.com操| 你懂得影院夜精品a| 91精品国模一区二区三区| 天天干天天av| 国产香蕉久久| 亚洲国产精品电影| 欧美一区二区三区观看| 欧美第十八页| 久久全球大尺度高清视频| 精品无码一区二区三区的天堂| 亚洲全部视频| 国产免费观看久久黄| 91video| 老鸭窝91久久精品色噜噜导演| 国产欧美日韩综合精品| 一级成人免费视频| 波多野结衣中文一区| 国产又大又长又粗又黄| 综合久久2019| 欧美性猛交一区二区三区精品| 免费看黄色一级大片| 国产一区一一区高清不卡| 91国偷自产一区二区开放时间 | 91激情在线视频| 精品中文字幕在线播放| 综合国产精品| 欧美激情在线狂野欧美精品| 妺妺窝人体色www在线下载| 国内精品久久久久久久97牛牛 | 91亚洲国产| 日韩美女激情视频| 午夜影院免费视频| 99国产精品久久久久久久久久 | www.avtt| 乱人伦视频在线| 日韩一级黄色片| 精品1卡二卡三卡四卡老狼| 久久香蕉精品香蕉| 亚洲人av在线影院| 五月婷婷综合激情网| 欧美理论在线| 91亚洲精品在线| 黄色网在线看| 精品久久久视频| 亚洲一区二区三区四区五区xx| 美女一区二区在线观看| 国模极品一区二区三区| 亚洲第一页视频| 亚洲综合图片区| 国产精品少妇在线视频| 欧美一级一片| www.色综合| 在线观看不卡的av| 国产精品传媒入口麻豆| 美女扒开大腿让男人桶| 北条麻妃一区二区三区在线| 亚洲社区在线观看| 人人草在线观看| 国产成人免费在线视频| 日韩av不卡播放| 色yeye免费人成网站在线观看| 色先锋aa成人| 在线观看国产精品一区| 欧美日韩四区| 国产不卡一区二区在线观看| 成人资源www网在线最新版| 色视频欧美一区二区三区| 老头老太做爰xxx视频| 久久99精品久久久久婷婷| 韩国成人av| 亚洲国产欧美日本视频| 欧美大片在线观看一区| 国产精品69久久久久孕妇欧美| 蜜臀国产一区二区三区在线播放| 色香蕉在线观看| 中文字幕区一区二区三| 91精品国产高清久久久久久| 韩国三级在线观看久| 香蕉成人伊视频在线观看| 亚洲第一天堂久久| 欧美精品成人| 老牛影视免费一区二区| 久久人体av| 久久久久久久91| 六十路在线观看| 91精品国产福利在线观看| 国产乡下妇女做爰| 中文字幕va一区二区三区| 可以免费观看av毛片| 日韩在线精品| 国产成人涩涩涩视频在线观看| 蜜桃av噜噜一区二区三区麻豆| 五月综合激情婷婷六月色窝| 欧美18—19性高清hd4k| 国产福利一区在线| 国产一区二区视频免费在线观看| 综合色一区二区| 欧美一区二区三区精美影视| 中文字幕影音在线| www国产精品com| 日韩中文字幕综合| 亚洲成av人片观看| 超碰人人人人人人人| 日韩av一区二区三区四区| 噜噜噜噜噜久久久久久91| 写真福利精品福利在线观看| 粗暴蹂躏中文一区二区三区| 91超薄丝袜肉丝一区二区| 久久久久久日产精品| 日本在线观看a| 欧美激情在线精品一区二区三区| 97久久精品人人澡人人爽缅北| 亚洲av少妇一区二区在线观看| 色婷婷亚洲综合| 久久免费少妇高潮99精品| 成人精品高清在线| 亚洲xxxx2d动漫1| 欧美91精品| 亚洲精品在线视频观看| 国产精品一站二站| 国产精品99久久久久久久久| wwww在线观看免费视频| 久久久成人精品视频| 国产高清在线观看视频| 欧美日韩免费高清一区色橹橹| 可以免费看av的网址| 国产色婷婷亚洲99精品小说| 欧美丰满少妇人妻精品| 懂色av中文字幕一区二区三区| 亚洲理论电影在线观看| 一区二区三区在线电影| 亚洲精品日韩在线观看| 国产在线日韩精品| 成人国产精品久久久| 欧美xxxx少妇| 插插插亚洲综合网| 超碰在线最新| 日韩高清免费观看| 中文字幕永久在线观看| 色激情天天射综合网| 在线观看日本网站| 欧美性猛交xxxx乱大交3| 亚洲激情图片网| 中文字幕电影一区| 国产在线免费av| 欧美激情一区二区在线| 国产又粗又猛又爽又黄| 国产在线观看免费一区| 欧美极品欧美精品欧美| 日韩一区二区在线免费| 亚洲欧美精品| 欧美疯狂party性派对| 亚洲日本理论电影| 欧美日韩一本| 免费av在线一区二区| 免费一区二区| 日韩视频在线播放| 日韩欧美字幕| 亚洲色图都市激情| 欧美精品一区二区三区中文字幕| 91精品视频大全| 高清在线一区二区| 鬼打鬼之黄金道士1992林正英| 福利欧美精品在线| 久久综合婷婷综合| jizzjizz欧美69巨大| 综合一区中文字幕| 自拍视频一区| 99超碰麻豆| 国产在线播放精品| 欧美国产二区| 好吊妞视频这里有精品| 久久久久久久久久码影片| 国产欧美日韩在线一区二区| 人人妻人人澡人人爽精品欧美一区| 欧美日韩亚洲一区在线观看| 91成人在线观看喷潮教学| 一本精品一区二区三区| 青青青青在线视频| 久久久久国产精品一区二区| 欧美成年人视频在线观看| 国产成人精品一区二区三区四区| 国产熟女高潮一区二区三区| 欧美国产日韩精品免费观看| h色网站在线观看| 午夜精品成人在线视频| 中文字幕在线观看1| 日韩精品一区二区三区视频播放| 青青草视频在线免费观看| 日韩精品一区二区三区视频| 手机在线不卡av| 中文字幕一区日韩电影| 成人欧美一区| 欧美成人激情视频| 国产人成网在线播放va免费| 性欧美长视频免费观看不卡| h1515四虎成人| 精品免费二区三区三区高中清不卡| 精品毛片免费观看| 欧美一级视频在线播放| 蜜桃91丨九色丨蝌蚪91桃色| 日韩av无码一区二区三区不卡| 国产91精品一区二区| 中文字幕免费视频| 亚洲主播在线观看| 老熟妇一区二区三区啪啪| 精品1区2区在线观看| 亚洲国产精品久久久久久6q| 亚洲天堂av在线免费观看| 亚洲妇熟xxxx妇色黄| 国产经典一区二区| 加勒比视频一区| 成人在线免费观看网址| 蜜桃视频在线观看一区| 国产偷人妻精品一区| 一区二区三区在线影院| 欧美日韩在线视频播放| 亚洲激情中文字幕| 日本aa在线| 91免费电影网站| 久久麻豆精品| 999香蕉视频| 91免费视频大全| 亚洲一区二区自偷自拍| 亚洲高清一区二区三区| 中文字幕免费在线观看视频| 91精品国产欧美日韩| 麻豆传媒视频在线| 久久久久久97| 国产成人久久精品一区二区三区| 日本不卡一区二区三区在线观看| 精品动漫一区| 五月天婷婷激情视频| 91蜜桃视频在线| 国产无套在线观看| 精品少妇一区二区三区| 91精品久久久久久粉嫩| 4444kk亚洲人成电影在线| 久久99国产精品久久99大师| 97中文字幕在线| 国产a级毛片一区| 九九视频免费观看| 精品日韩一区二区| 日本在线视频www鲁啊鲁| 亚洲一区二区三区毛片 | 成人看片免费| 成人网在线免费观看| 久久国产小视频| www.色就是色.com| 综合网在线视频| 99久久久久久久| 欧美福利在线观看| 欧美电影在线观看免费| 久久久久久久久久久99| 99久久综合99久久综合网站| 特级西西444www大精品视频免费看| 日韩av在线免费看| 日韩大尺度黄色| 亚洲高清不卡一区| 国产一区二区不卡| 久久精品99国产精| 亚洲精品av在线| www.成人影院| 成人蜜桃视频| 精品二区视频| 成人影视免费观看| 一区二区国产盗摄色噜噜| www.五月激情| 深夜福利一区二区| 女海盗2成人h版中文字幕| 久久久www免费人成黑人精品| 老司机午夜精品视频在线观看| 卡一卡二卡三在线观看| 亚洲免费av在线| 日本黄色中文字幕| 深夜福利一区二区| 6080成人| 欧美日韩亚洲一二三| 国产精品国产馆在线真实露脸| 99精品免费观看| 38少妇精品导航| 成人在线一区| 亚洲熟妇一区二区| 色婷婷精品久久二区二区蜜臂av| 成人资源www网在线最新版| 99久re热视频这里只有精品6| 亚洲精品一级| 国产91在线播放九色| 精品国产乱码久久久久久久久| 在线亚洲人成| 狠狠干视频网站| 久久婷婷久久一区二区三区| 国产精品视频一二区| 日韩一区二区三区xxxx| 粉嫩久久久久久久极品|