精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

200多行代碼,超低成本復現DeepSeek R1「Aha Moment」!復旦大學開源

人工智能 新聞
DeepSeek-R1-zero 經過強化學習實現了大模型頓悟時刻的自發涌現,引發了大量對其方案的解讀與復現工作。

本文是復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊的最新研究成果,他們用簡潔的代碼高效復現了 R1-zero 的自發反思能力。

在關于 DeepSeek 的文章中,我們會多次聽到「Aha Moment」這個詞。它指的是模型在訓練過程中經歷的一種頓悟時刻,表現為模型突然展現出類似人類的自我反思和策略調整能力。

DeepSeek 論文中提到的 Aha Moment。

DeepSeek-R1-zero 經過強化學習實現了大模型頓悟時刻的自發涌現,引發了大量對其方案的解讀與復現工作。

其中,基于 GRPO( Group Relative Policy Optimization)強化學習方案尤其受到關注。業界先后開源了多個基于 GRPO 算法的 R1-zero 復現項目。然而,這些復現項目嚴重依賴一些復雜代碼框架,有著較高的代碼實現復雜度,對部署環境存在較高依賴,資源利用率不高,代碼可讀性與可維護性仍存在改進空間。

對此,復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊基于 GRPO 算法思想高效復現了 R1-zero 自發反思能力。目前,該項目(Simple-GRPO)的第一版代碼實現已經開源并提交 Github。

代碼地址:https://github.com/lsdefine/simple_GRPO。

該項目相對于現有開源的 R1-zero 復現具有以下優勢:

代碼簡潔,依賴簡單,只需要 200 多行;

資源消耗低,通過模型解耦與分離進一步降低算力需求,該項目支持在一張 A800 (80G) 加一張 3090 (24G) 完成 7B 模型的訓練。根據 AutoDL 平臺計費標準,一張 A800 (80G) 5.98 元 / 時,一張 3090 (24G) 1.32 元 / 時。以項目作者經驗,模型在這樣的算力平臺下,訓練 1h 模型就能出現 aha moment,折合人民幣 7.3 元,單次實驗成本壓縮至奶茶價格區間。

項目介紹 

本項目代碼簡單,GRPO 算法實現僅有 200 多行代碼,且僅依賴基礎的深度學習代碼庫,如 deepspeed 和 torch,而無需 ray 等復雜框架。具體實現細節如下:

① 參考模型分離

在實現過程中,參考模型(reference model)被解耦,允許其在不同的 GPU 上運行(甚至可以運行在 3090 顯卡上)。這避免了將參考模型和訓練模型放在同一個 GPU 上,防止 torch 的多進程機制創建多個副本,避免顯存浪費,并使得在 A800(80G)上訓練 7B 模型成為可能。

② 核心損失計算

損失計算公式基于 Hugging Face 的 trl 實現。

③ 訓練環境與過程

項目在 1 張 A800(80G)顯卡上用 Zero-Stage 2 做優化,使用另一張 A800(80G)顯卡進行參考模型的推理,參考模型分離使得 GRPO 的訓練更加高效。

在以上訓練環境中,Qwen2.5-3B 訓練 60 步需要 12 分 34 秒,Qwen2.5-7B 訓練 60 步需要 16 分 40 秒。其中在前 30 步優化中,Qwen2.5-7B 和 Qwen2.5-3B 的輸出內容中,均出現了「頓悟時刻」現象。示例如下:

  • Qwen2.5-3B(步驟 20)

其中文翻譯如下:

「<think> ... 要找出卡姆登畫的雞蛋比阿諾德多多少,我們從卡姆登畫的雞蛋數量中減去阿諾德畫的雞蛋數量。所以,21-28 = -7。然而,這個結果在問題的背景下沒有意義,因為卡姆登畫的雞蛋不可能比阿諾德少。讓我們重新考慮最初的解決方案步驟:我們應該驗證關于卡姆登和莎拉的雞蛋之間關系的初始假設是否正確 。... </think> <answer>-7</answer>」

  • Qwen2.5-7B(步驟 20)

其中文翻譯如下:

「<think> ... 因此,Joanne 從普通樹上摘了 350 個蘋果。但是,這似乎不對,因為總數應該是 500 個,而我們已經計算了 150 個,只剩下 350 個普通樹上的蘋果,這與總數相矛盾。讓我們重新評估一下 。... </think> <answer>350</answer>」

實驗結果 

使用 Qwen2.5-3B 和 Qwen2.5-7B 作為基礎模型,測試了模型訓練過程中正確率(左圖)和格式遵循能力(右圖)的變化情況,比較符合預期。

  • Qwen2.5-3B:

在 GSM8K 和 Math 混合數據集進行訓練,從上圖可以看出,Qwen2.5-3B 的準確率在經歷 5 步的優化后能穩定在 60% 以上,最高能達到 70% 左右;格式遵循能力在 30 步以后接近 100%.

  • Qwen2.5-7B

在 GSM8K 數據集上進行訓練,從上圖可以看出,Qwen2.5-7B 的無論是準確率還是格式遵循能力都能在三十步以內快速收斂,準確率(左圖)始終保持在 90% 以上,格式遵循能力(右圖)到達 100%.

改進方向

近期本項目將進一步推出以下方向的優化版本,敬請關注。

組內答案同質性問題

根據 GRPO 算法中的分組策略,當組內答案全部正確或全為錯誤時,獎勵函數無法有效分配差異化獎勵,強化學習將缺乏對比性的訓練信號,導致模型難以收斂。后續將在訓練過程中實時監控答案分布,對同質化的答案進行重新采樣和分組,以提供有效的對比信號。

長思維鏈(CoT)顯存占用問題

當模型生成較長的思維鏈(CoT)時,由于文本序列長度較長,顯存占用會顯著增加。對此,后續考慮拆分組別,減小批次大小,或對長序列分階段處理,以減小訓練過程中的 GPU 內存開銷,提升訓練效率。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-20 15:32:28

2025-04-03 15:46:53

2025-01-27 12:30:07

2025-07-04 09:08:00

AI模型架構

2025-02-06 18:37:46

GPUQwen2.5模型

2025-02-11 16:11:12

2025-02-07 13:10:06

2025-04-02 09:00:00

模型開源AI

2010-09-16 18:44:17

Coremail

2025-03-03 08:17:00

DeepSeek模型數據

2025-04-27 09:00:00

模型視頻生成

2025-05-09 08:55:00

2025-02-03 00:00:55

DeepSeekRAG系統

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-02-12 12:12:59

2011-01-21 15:10:42

日立JP1復旦大學IT運維管理課程

2025-02-20 11:12:11

2022-06-30 08:55:15

DDoSWAF網絡攻擊
點贊
收藏

51CTO技術棧公眾號

日本欧美一区二区三区乱码| 日韩免费一级| 久久久三级国产网站| 4444欧美成人kkkk| xxx在线播放| 亚洲第一会所001| 1区2区3区精品视频| 成人羞羞视频免费| 神马久久久久久久| 天堂美国久久| 日韩电影视频免费| 日本肉体xxxx裸体xxx免费| av片在线观看网站| 91丨九色丨尤物| 国产精品久久久久一区二区| 国模无码国产精品视频| 神马日本精品| 日韩欧美一级精品久久| 91激情视频在线| 国产亚av手机在线观看| 国产精品久久久久久久午夜片| 高清不卡日本v二区在线| 国产真人无遮挡作爱免费视频| 亚洲国产精品综合久久久 | 国产日韩三级| 欧美日韩中文字幕一区| 欧美 丝袜 自拍 制服 另类| 看女生喷水的网站在线观看| 久久午夜电影网| 成人羞羞视频免费| 国产巨乳在线观看| 日韩—二三区免费观看av| 欧美激情奇米色| 69夜色精品国产69乱| 国产精品手机在线播放| 亚洲国产精品久久91精品| www.51色.com| 国产精品蜜月aⅴ在线| 色综合久久中文字幕综合网| 日韩精品综合在线| 成人免费在线| 亚洲欧美日韩久久| 一区二区不卡在线| 国产视频网址在线| 久久精品无码一区二区三区| 久久国产精品高清| 深爱激情五月婷婷| 福利一区福利二区| 99re在线观看| 国产成人精品一区二三区四区五区 | 欧美成人午夜激情| 91香蕉国产视频| 成人在线丰满少妇av| 亚洲人成电影网| 国产精品815.cc红桃| 视频福利一区| 亚洲欧美日韩精品久久| 欧美无人区码suv| 蜜臀av一区| 日韩av中文字幕在线| 日韩精品人妻中文字幕有码| 欧美国产极品| 日韩电影在线观看中文字幕| 成人性生活免费看| 精品在线网站观看| 日韩黄色在线免费观看| 精品人妻一区二区三区香蕉| 亚洲丝袜美腿一区| 一区二区三区在线播放欧美| 手机av在线不卡| 欧美独立站高清久久| 久久精品国产亚洲精品| 日韩女优一区二区| 伊人成年综合电影网| 18久久久久久| 成人毛片一区二区三区| 久久精品二区亚洲w码| 91精品久久久久久久久不口人| 国产一区二区三区三州| 国产精品亚洲专一区二区三区| 成人资源视频网站免费| 人操人视频在线观看| 99精品一区二区三区| 日韩欧美精品在线不卡| 国产精品实拍| 亚洲丶国产丶欧美一区二区三区| 日韩在线综合网| 国产精品专区免费| 欧美日韩激情在线| 岛国精品一区二区三区| 亚洲婷婷伊人| 丝袜美腿精品国产二区| 男女性高潮免费网站| 国产精品视频| 成人精品在线观看| 亚洲精品一区二区三区四区| 久久久久9999亚洲精品| 亚洲色图都市激情| 理论不卡电影大全神| 欧美日韩aaaaaa| 香蕉视频污视频| 久久一区二区三区喷水| 97在线看免费观看视频在线观看| 一区二区三区在线免费观看视频| 国产成人99久久亚洲综合精品| 欧洲国产精品| 五月天激情在线| 欧洲中文字幕精品| 污污免费在线观看| 99视频精品全部免费在线视频| 性欧美在线看片a免费观看| 夜夜狠狠擅视频| 99国产精品久| 欧美少妇在线观看| 精品欧美日韩精品| 亚洲国产成人精品电影| 国产午夜手机精彩视频| 老色鬼久久亚洲一区二区| 成人国产1314www色视频| av网站大全在线观看| 午夜欧美大尺度福利影院在线看| 国产福利精品一区二区三区| 国产欧美日韩免费观看| 欧美精品videofree1080p| 亚洲熟女乱色一区二区三区久久久| aaa欧美色吧激情视频| 国产在线无码精品| 欧美美女被草| 国产亚洲欧洲高清| 久久午夜免费视频| 国产91色综合久久免费分享| 宅男在线精品国产免费观看| 国产韩日精品| 国产一区二区三区在线视频| 国产又色又爽又黄的| 成人夜色视频网站在线观看| 中文字幕色呦呦| 日韩成人免费av| 中文欧美日本在线资源| 无码免费一区二区三区| 99精品视频在线观看| 日韩中字在线观看| 成功精品影院| 久久久免费精品| 亚洲美女福利视频| 一二三四区精品视频| 亚洲国产综合av| 影音先锋成人在线电影| 91久久久久久国产精品| 国产91在线视频蝌蚪| 69堂精品视频| 欧美精品乱码视频一二专区| 丁香天五香天堂综合| 免费高清一区二区三区| 丁香五月缴情综合网| 欧美激情一级二级| 人妻一区二区三区| 婷婷成人综合网| 波多野结衣福利| 久久久久一区| 欧美中文娱乐网| 黄色精品视频| 久久五月天色综合| 精品国产无码AV| 亚洲va天堂va国产va久| 亚洲av成人无码一二三在线观看| 国产精品一卡| 先锋影音一区二区三区| jizzyou欧美16| 欧美刺激性大交免费视频| 亚洲福利在线观看视频| 午夜一区二区三区视频| 国产一区二区三区四区五区六区| 美女网站视频久久| 久久天天东北熟女毛茸茸| 成人av动漫| 日本不卡高字幕在线2019| 97电影在线看视频| 制服丝袜日韩国产| 国产一国产二国产三| www激情久久| 日韩av.com| 国产在线成人| 国内一区二区在线视频观看| 午夜精品成人av| 日韩在线中文视频| 丰满人妻一区二区三区四区53| 福利一区视频在线观看| 亚洲毛片亚洲毛片亚洲毛片| 国产激情一区二区三区桃花岛亚洲| 亚洲 自拍 另类小说综合图区 | 亚洲不卡一卡2卡三卡4卡5卡精品| 欧美成人免费电影| 美女性感视频久久久| 天天综合网在线观看| 欧美乱熟臀69xxxxxx| 日本三级视频在线| 中文字幕巨乱亚洲| 稀缺小u女呦精品呦| 美女免费视频一区二区| 国产 欧美 日韩 一区| 成人精品亚洲| 精品国产免费久久久久久尖叫| 欧美日韩免费电影| 久久久久久伊人| 欧美r级在线| 亚洲日韩中文字幕在线播放| www.黄色片| 欧美日韩你懂的| 91玉足脚交嫩脚丫在线播放| 亚洲精选视频免费看| 偷拍夫妻性生活| 成人午夜碰碰视频| 日韩高清第一页| 久久久久网站| 男人日女人下面视频| 午夜欧美视频| 国产精品h视频| 青青一区二区三区| 精品在线不卡| 风间由美性色一区二区三区四区| 国产伦精品一区二区三区精品视频| 蜜桃av.网站在线观看| 欧美高清第一页| 黄色网址免费在线观看| 亚洲天堂影视av| 午夜18视频在线观看| 亚洲电影第1页| 国产富婆一级全黄大片| 欧美美女一区二区在线观看| 国产女主播喷水视频在线观看| 香蕉成人伊视频在线观看| 麻豆疯狂做受xxxx高潮视频| 亚洲日本欧美天堂| 欧美亚洲色综久久精品国产| 久久久久久久久久美女| 美女又爽又黄免费| 北岛玲一区二区三区四区| 中国男女全黄大片| 国产乱码字幕精品高清av| 亚洲一区二区三区观看| 美国欧美日韩国产在线播放| 亚洲天堂av线| 青椒成人免费视频| 熟妇人妻无乱码中文字幕真矢织江| 亚洲综合不卡| 黑森林福利视频导航| 午夜一区不卡| 色一情一乱一伦一区二区三区日本| 麻豆成人精品| www欧美激情| 蜜桃视频一区二区三区在线观看| a在线观看免费视频| 青青草国产成人99久久| 亚洲天堂国产视频| 国精产品一区一区三区mba桃花| 日韩成人av免费| 狠狠色狠狠色综合日日91app| 日本在线观看视频一区| 国产乱理伦片在线观看夜一区| 9191在线视频| 成人18精品视频| 日韩人妻一区二区三区| 久久久久99精品国产片| 自拍偷拍你懂的| 亚洲免费观看高清完整版在线观看| 欧产日产国产v| 性做久久久久久免费观看 | 性高湖久久久久久久久| 日本一本二本在线观看| 美女视频黄久久| 国产精品欧美性爱| 91丝袜美腿高跟国产极品老师| 亚洲黄色小说视频| 自拍偷在线精品自拍偷无码专区| www青青草原| 欧美日韩中文字幕日韩欧美| wwwwww在线观看| 欧美一级二级三级蜜桃| 天堂av资源在线| 在线观看91久久久久久| h视频在线免费观看| 91黑丝高跟在线| 丰满少妇一区| 成人资源视频网站免费| 深夜福利久久| 69精品丰满人妻无码视频a片| 国产精品夜夜夜| 亚洲av毛片在线观看| 久久一留热品黄| 亚洲一区电影在线观看| 婷婷丁香激情综合| 91亚洲国产成人久久精品麻豆 | 日本少妇xxxx软件| 久久婷婷久久一区二区三区| 亚洲波多野结衣| 欧美日韩亚洲天堂| 国产又黄又爽视频| 日韩精品一二三四区| 老司机av在线免费看| 26uuu久久噜噜噜噜| 久久久久久亚洲精品美女| 欧美不卡在线一区二区三区| 亚洲精品网址| 久久精品免费网站| zzijzzij亚洲日本少妇熟睡| 中文国语毛片高清视频| 黑丝美女久久久| 精品人妻少妇嫩草av无码专区| 亚洲无限av看| 僵尸再翻生在线观看免费国语| 91视频国产高清| 国产精选一区| 欧美二区在线视频| 国产精品 日产精品 欧美精品| 日本女人性生活视频| 一本一道波多野结衣一区二区| 蜜臀av在线观看| 九九热精品在线| 99视频这里有精品| 日韩精品久久久免费观看| 亚洲人成毛片在线播放女女| xxxx国产视频| 亚洲色图另类专区| 糖心vlog精品一区二区| 亚洲欧美中文在线视频| heyzo高清国产精品| 999热视频| 欧美a级在线| 国产一级免费大片| 国产精品日日摸夜夜摸av| 日韩黄色片网站| 亚洲人成网站777色婷婷| 美女搞黄视频在线观看| 精品日本一区二区| 亚洲日韩视频| 国产精品成人无码专区| 亚洲午夜电影在线| 亚洲奶汁xxxx哺乳期| 欧美巨大黑人极品精男| 国产亚洲久久| 99久久久精品视频| 国产成人欧美日韩在线电影| 91高清免费观看| 51精品秘密在线观看| 国产精品剧情| 92国产精品久久久久首页| 91精品啪在线观看国产81旧版| 亚洲涩涩在线观看| 亚洲日本一区二区三区| 国产成人精品a视频| 欧美精品videofree1080p| 波多野结衣欧美| www国产精品内射老熟女| 91蝌蚪国产九色| 蜜臀精品一区二区三区| 亚洲日韩第一页| 香蕉成人在线| www.国产二区| 99在线热播精品免费| 99精品人妻国产毛片| 在线成人免费网站| 欧美午夜三级| 黄色一级大片免费| 成人av电影在线网| 69亚洲精品久久久蜜桃小说| 最近免费中文字幕视频2019| 亚洲伦理网站| 久草免费福利在线| 久久综合久久综合久久| 中文字幕乱码在线观看| 久久影院中文字幕| 麻豆一区二区| 男女视频在线看| 一区二区日韩电影| 欧美人体大胆444www| 成人美女av在线直播| 亚洲国产综合在线看不卡| 一区二区三区四区免费| 91精品国产一区二区三区| 国产三线在线| 日韩伦理一区二区三区av在线| 国产一区二区三区蝌蚪| 日韩 欧美 综合| 最近2019年好看中文字幕视频| 亚洲精品福利| 成人黄色一区二区| 又紧又大又爽精品一区二区| 日本v片在线免费观看| 91香蕉国产在线观看| 国产视频亚洲| av激情在线观看| 亚洲欧美在线一区| 警花av一区二区三区| 欧美激情国产精品日韩| 亚洲激情综合网| 搞黄视频在线观看| 高清一区二区三区视频| 美洲天堂一区二卡三卡四卡视频| 国产一级久久久|