精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4500美元驗證強化學習「魔力」,1.5B模型也能超越o1預覽版,模型、數據、代碼全開源

人工智能 新聞
DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強化學習中的無限潛力,也證明了高效訓練策略的重要性。團隊希望通過開源數據集、代碼和訓練日志,推動 RL 在 LLM 推理中的廣泛應用。

Deepseek-R1 的卓越表現引發了廣泛關注,但其訓練方法始終未曾公開。雖然 Deepseek 的模型已開源,但其訓練方法、數據和腳本等關鍵信息仍未對外披露。

根據 Deepseek 公布的信息,許多人認為,只有訓練更大規模的模型,才能真正發揮強化學習(RL)的威力。然而,訓練大模型需要龐大的計算資源,讓開源社區望而卻步。目前的工作(如 TinyZero)僅在簡單任務上復現了所謂的 “Aha moment”,或者僅提供訓練基礎設施和數據(如 OpenR)。

一個由伯克利團隊領銜的研究小組提出了一個大膽的想法:能否用僅 1.5B 參數的小模型,以低成本復現 Deepseek 的訓練秘方?他們發現,簡單復現 Deepseek-R1 的訓練方法需要巨大成本,即使在最小的模型上也需要數十萬美元。但通過一系列訓練技巧,團隊成功將成本大幅降低,最終僅用 4500 美元,就在一個 1.5B 參數的模型上復現了 Deepseek 的關鍵訓練方法。

他們的成果 ——DeepScaleR-1.5B-Preview,基于 Deepseek-R1-Distilled-Qwen-1.5B 模型,通過強化學習(RL)微調,實現了驚人的 43.1% Pass@1 準確率,提升了 14.3%,并在 AIME 2024 競賽中超越了 O1-Preview。

這一成果不僅打破了 “大模型才能強大” 的固有認知,更展示了 RL 在小型模型中的無限可能。

更重要的是,伯克利團隊開源了所有的訓練秘方,包括模型、數據、訓練代碼和訓練日志,為推動 LLM 強化學習訓練的普及邁出了重要一步。


  • 博客地址:https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
  • 項目地址:https://github.com/agentica-project/deepscaler
  • 項目網站:https://agentica-project.com/
  • Hugging Face 模型:https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
  • Hugging Face 數據集:https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
  • Wandb 訓練日志:https://wandb.ai/mluo/deepscaler-1.5b?nw=nwusermluo

這項研究一經公布,受到網友廣泛好評,有網友表示:「DeepScaleR-1.5B-Preview 正在撼動人工智能領域。」

「DeepScaleR 開創了 AI 擴展的新時代。」

「開源界又贏了一局。」

還有人盛贊:「這才是研究者想要的東西。」

1. 小模型的反擊:DeepScaleR 的秘密

挑戰 RL 的極限

強化學習一直被視為大模型的 “專屬武器”,高昂的計算成本讓很多人望而卻步。研究團隊發現,假如直接復現 Deepseek-R1 的結果 (32K 上下文長度,8000 訓練步數),即使在一個 1.5B 的小模型上,需要的 A100 GPU 時長高達 70,000 小時。但研究團隊并未退縮,他們提出了一種巧妙的策略,讓 RL 的訓練成本降低至常規方法的 5%,最終只用了 3800 A100 GPU 小時和 4500 美元,就在 1.5B 的模型上訓練出了一個超越 OpenAI o1-preview 的模型,DeepScaleR 的秘密,在于提出了一個迭代式上下文擴展的訓練策略。

迭代式上下文擴展:小步快跑,突破瓶頸

在 RL 訓練中,上下文窗口的選擇至關重要。選擇一個比較長的上下文會導致訓練變慢,而選擇一個短的上下文則可能導致模型沒有足夠的上下文去思考困難的問題。

研究團隊在訓練前進行了先驗測試,發現錯誤答案的平均長度是正確答案的 3 倍。這表明,如果直接在大窗口上進行訓練,不僅訓練速度慢,效果也可能受限,因為有效訓練的字符(token) 數量較少。

基于這個發現,因此他們采用了迭代式上下文擴展策略:

  • 8K 上下文窗口:模型先在較短的上下文中簡化自己的推理,精進推理技巧。
  • 擴展至 16K & 24K:逐步加大窗口,讓模型適應更復雜的數學推理任務。

這種策略證明是有效的 —— 在第一輪 8K 上下文訓練后,模型的平均回答長度從 9000 字符降至 3000 字符,而 AIME 測試集上的正確率提高了 5%。隨著上下文窗口擴展至 16K 和 24K,模型更簡潔的回答方式使訓練時間至少提升了兩倍。

數據集:四萬道數學難題的試煉

團隊精心構建了一套高質量的數學訓練集,包括:

  • AIME(1984-2023)
  • AMC(2023 年前)
  • Omni-MATH & Still 數據集

數據篩選的關鍵步驟:

  • 答案提取:利用 gemini-1.5-pro-002 自動提取標準答案。
  • 去重:采用 sentence-transformers/all-MiniLM-L6-v2 進行語義去重,避免數據污染。
  • 過濾不可評分題目:確保訓練數據的高質量,使模型能夠專注于可驗證的答案。

獎勵函數:精準激勵模型進步

傳統的 RL 訓練往往使用過程獎勵模型(PRM),但容易導致 “獎勵濫用”,即模型學會取巧而非真正優化推理能力。為了解決這一問題,研究團隊選擇了跟 Deepseek-R1 一樣的結果獎勵模型(ORM),嚴格按照答案正確性和格式進行評分,確保模型真正提升推理能力。

2. 實驗結果:數據不會說謊

在多項數學競賽基準測試中,DeepScaleR-1.5B-Preview 展現了驚人的實力:

關鍵突破點:

  • DeepScaleR 在 AIME 2024 上超越 O1-Preview,證明了 RL 在小模型上的可行性。
  • 在所有測試集中,DeepScaleR 的平均表現遠超基礎模型,展現了強化學習的巨大潛力。

3. 關鍵發現:為什么 DeepScaleR 能成功?

(1)RL 并非大模型專屬,小模型同樣能崛起

DeepScaleR 的成功打破了強化學習只能用于大模型的迷思。研究團隊通過高質量的 SFT 數據,讓 1.5B 小模型的 AIME 準確率從 28.9% 提升至 43.1%,證明了小模型也能通過 RL 實現飛躍

(2)迭代式上下文擴展:比暴力訓練更高效

直接在 24K 上下文窗口中進行強化學習,效果遠不如逐步擴展。先學短推理,再擴展長推理,可以讓模型更穩定地適應復雜任務,同時減少訓練成本。

4. 結論:RL 的新紀元

DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強化學習中的無限潛力,也證明了高效訓練策略的重要性。團隊希望通過開源數據集、代碼和訓練日志,推動 RL 在 LLM 推理中的廣泛應用。

下一步,他們計劃在更大規模的模型上復現這一策略,并邀請社區共同探索 RL 的新可能。

或許,下一個挑戰 OpenAI 的模型,就藏在這樣一個小小的實驗之中。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-11 16:17:42

2024-12-09 12:10:07

2024-09-13 06:32:25

2025-11-14 09:31:41

2025-01-21 10:10:56

2025-02-03 14:17:27

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-02-12 12:04:54

2024-11-05 14:20:00

AI模型

2024-07-22 07:10:00

小模型機器學習蘋果

2024-09-18 09:17:00

OpenAI模型開源

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-19 15:00:00

模型開源

2024-11-25 17:23:10

2025-04-15 09:19:00

模型AI數據

2025-09-28 15:35:32

AI模型強化學習

2025-07-22 10:22:02

2025-01-10 12:58:37

2024-09-24 11:01:03

2025-02-19 13:50:00

明星編程軟件
點贊
收藏

51CTO技術棧公眾號

免费一级欧美在线大片| 免费人成在线观看播放视频| 亚洲在线黄色| 久久精品国产69国产精品亚洲 | 在线免费观看的av| 91玉足脚交白嫩脚丫在线播放| 欧洲亚洲女同hd| 欧美精品久久久久久久久46p| 国产精东传媒成人av电影| 色先锋资源久久综合| 日韩视频 中文字幕| 毛片在线播放网站| 国产成人8x视频一区二区| 欧美尤物巨大精品爽| 91高清免费看| 九九精品久久| 精品国产乱码久久久久久久| 五月婷婷六月丁香激情| 麻豆成全视频免费观看在线看| 国产精品久久影院| 久久婷婷开心| 精品人妻久久久久一区二区三区| 久久伊人亚洲| 国模gogo一区二区大胆私拍| 波兰性xxxxx极品hd| 欧洲vs亚洲vs国产| 欧美一激情一区二区三区| 午夜免费一区二区| 中文不卡1区2区3区| 亚洲综合清纯丝袜自拍| 亚洲欧美综合一区| 久久久资源网| 91亚洲午夜精品久久久久久| 99在线热播| 国产欧美第一页| 美女国产一区二区| 国产va免费精品高清在线观看| 国产精彩视频在线| 欧美 亚欧 日韩视频在线| 中文字幕日韩av综合精品| 公侵犯人妻一区二区三区| 蜜桃久久久久| 亚洲成人精品视频| 国产成人av片| 欧美激情三级| 日韩一区二区在线免费观看| 午夜av中文字幕| jizz免费一区二区三区| 欧美性大战xxxxx久久久| 日本黄网站免费| 2022成人影院| 色先锋久久av资源部| 成人在线免费播放视频| 欧美二三四区| 在线亚洲一区二区| 五月婷婷狠狠操| 成人在线视频播放| 欧美网站大全在线观看| 宅男噜噜噜66国产免费观看| av在线日韩| 欧美日免费三级在线| 天天色综合社区| 日本午夜免费一区二区| 欧美精品黑人性xxxx| 精产国品一区二区三区| 嗯用力啊快一点好舒服小柔久久| 精品国产人成亚洲区| 手机免费看av片| 亚洲人成亚洲精品| 这里只有精品视频在线| 精品在线观看一区| 亚洲一级淫片| 国内精品在线一区| 性色av免费观看| 青青草一区二区三区| 成人a免费视频| 午夜久久久久久久久久| 99久久伊人网影院| 日韩av高清| 福利在线视频网站| 亚洲国产va精品久久久不卡综合| 免费一级特黄特色毛片久久看| 一区二区三区四区日本视频| 欧美亚日韩国产aⅴ精品中极品| 九九九九九国产| 91精品啪在线观看国产手机| 亚洲美女www午夜| 性生交大片免费全黄| 欧美日韩视频一区二区三区| 欧美综合在线第二页| 中文字幕日韩国产| 成人中文字幕在线| 日本日本精品二区免费| 黄色免费网站在线观看| 亚洲国产sm捆绑调教视频 | 精品国产人成亚洲区| 国产肥白大熟妇bbbb视频| 91综合视频| 性视频1819p久久| 中文字幕 日韩有码| 国产成人亚洲综合a∨婷婷图片| 免费观看成人高| 成人在线视频亚洲| 91久久精品一区二区三| 无码人妻少妇色欲av一区二区| 香蕉视频一区| 欧美老女人在线视频| 婷婷激情五月综合| 国产成人免费在线| 亚洲欧美成人一区| 国产精品一二三产区| 制服丝袜中文字幕一区| 亚洲码无人客一区二区三区| 精品91视频| 国产欧美久久一区二区| 性xxxx视频播放免费| 亚洲美女偷拍久久| 久久99爱视频| 国产精品亚洲二区| 97香蕉超级碰碰久久免费软件| 91极品身材尤物theporn| 久久亚洲欧美国产精品乐播| 全黄性性激高免费视频| 国产午夜精品一区在线观看| 在线日韩av观看| 亚洲欧美偷拍视频| 99久久精品久久久久久清纯| 成人在线免费高清视频| 91精品福利观看| 日日骚久久av| 男人天堂视频在线| 久久亚洲欧美国产精品乐播| 精品无码一区二区三区在线| av毛片精品| 欧美黄色性视频| 亚洲av综合色区无码一二三区| 中文字幕一区二区不卡| 欧美大尺度做爰床戏| 国产欧美日韩在线一区二区| 欧美专区日韩视频| 日韩有码电影| 欧美性生交xxxxxdddd| 国产在线不卡av| 一本久久综合| 久久久久久a亚洲欧洲aⅴ| 超碰在线公开| 日韩av综合网| 台湾佬中文在线| 久久综合九色综合97婷婷女人| 欧美二区在线视频| 窝窝社区一区二区| 青青草原一区二区| 久草福利在线| 欧美日韩一卡二卡三卡| 亚洲怡红院在线观看| 六月丁香婷婷色狠狠久久| 一区二区三区四区欧美日韩| 伊人久久综合网另类网站| 久久久国产91| 亚洲精品911| 精品日本高清在线播放| 日韩一区二区a片免费观看| 日韩成人午夜精品| 国产又爽又黄ai换脸| 亚洲视频三区| 欧美一级黄色网| aⅴ在线视频男人的天堂| 欧美猛男男办公室激情| 欧美日韩一级大片| 久久一区二区三区国产精品| 亚洲老女人av| 黄色av成人| 女同一区二区| 91成人短视频在线观看| 午夜精品久久久久久久男人的天堂| 性插视频在线观看| 欧美性猛交xxxxxx富婆| 免费视频一二三区| 久久亚洲精华国产精华液| 国产又黄又猛的视频| 亚洲国产专区校园欧美| 日韩精品成人一区二区在线观看| 粉嫩一区二区三区在线观看| 高清欧美性猛交xxxx黑人猛交| 欧美日本韩国一区二区| 欧美一区二区高清| 国产精品999在线观看| 中文字幕不卡在线观看| 无码人妻一区二区三区在线| 久久久噜噜噜| 狠狠精品干练久久久无码中文字幕| 牲欧美videos精品| 成人a级免费视频| 亚洲精品中文字幕| 麻豆国产精品va在线观看不卡| 天天干,天天操,天天射| 欧美日韩国产免费一区二区 | 一区免费视频| 婷婷五月色综合| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 欧美日韩你懂的| 欧美亚韩一区二区三区| 亚洲视频一区二区在线| 爱爱免费小视频| 国产精品18久久久久久vr| 久久久久久久久久福利| 国产精品国码视频| 亚洲一区二区三区加勒比| 同性恋视频一区| 国产98在线|日韩| 欧美激情三区| 欧美诱惑福利视频| 日韩精品亚洲人成在线观看| 中文字幕免费国产精品| 日韩电影免费| 亚洲精品在线观看视频| 国产情侣在线播放| 欧美日本一道本| 波多野结衣黄色| 粉嫩av一区二区三区免费野| 久久久久久福利| 伊人一区二区三区| 91麻豆精品成人一区二区| 国产精品无人区| 波多野在线播放| 久久伊人蜜桃av一区二区| 精品无码国产一区二区三区51安| 国产精品影视在线| 一级做a爱视频| 精品一区二区三区视频 | 人妻 日韩精品 中文字幕| 亚洲午夜激情网页| 免费三片在线播放| 亚洲影视资源网| 国产一级特黄毛片| 亚洲国产精品久久人人爱| 久久久久久久极品内射| 亚洲综合在线五月| 欧美极品视频在线观看| 一区二区三区四区激情| 老女人性淫交视频| 亚洲综合在线观看视频| 久久久综合久久久| 亚洲成在人线免费| 日韩欧美亚洲一区二区三区| 精品国产乱码久久久久久天美| 国产无遮挡又黄又爽| 午夜av一区二区三区| www..com国产| 欧美香蕉大胸在线视频观看 | www成人免费观看| 韩国日本不卡在线| 69久成人做爰电影| 国产精品久久久久久久久久新婚 | www.成人av| 美女网站色精品尤物极品姐弟| 精品国产一区二区三区麻豆免费观看完整版| 亚洲精品一二三**| 国产精品一码二码三码在线| 麻豆一区一区三区四区| 另类小说综合网| 欧美午夜精彩| 欧美日韩视频免费在线观看| 欧美日韩影院| 男人揉女人奶房视频60分| 欧美一级专区| www.污污视频| 岛国精品一区二区| 欧洲美一区二区三区亚洲| 国产精品欧美经典| 欧美三级免费看| 国产亚洲激情视频在线| 精品一区在线| 91久久久一线二线三线品牌| 91精品国产自产在线丝袜啪| 国产伦精品一区二区三区高清 | 国产欧美日韩精品一区二区三区 | 亚洲第一成年人网站| 欧美精品一区二区在线观看| 欧美一区二区三区少妇| 久久精品国产亚洲精品| 国产美女情趣调教h一区二区| 97超级碰碰碰| 在线欧美激情| 精品欧美国产| 国产精品久久久乱弄| 欧美,日韩,国产在线| 免费美女久久99| 波多野结衣办公室双飞| 国产欧美日韩在线视频| 欧美久久久久久久久久久久| 色婷婷激情久久| 国产免费无遮挡| 亚洲美女在线观看| 影音先锋中文在线视频| 国产精品久久久亚洲| 中文字幕日韩在线| 亚洲欧美影院| 免费永久网站黄欧美| 久久无码人妻一区二区三区| 久久久精品国产免大香伊 | 色香蕉成人二区免费| www.国产.com| 在线视频一区二区| 99爱在线视频| 成人国产精品日本在线| 免费短视频成人日韩| 女人帮男人橹视频播放| 久草中文综合在线| 久操视频免费看| 亚洲成人在线免费| 国产熟女一区二区三区四区| 在线电影中文日韩| 在线观看福利电影| 国产成人成网站在线播放青青 | 国产精品一区二区免费在线观看| 韩国一区二区三区| 五月婷婷欧美激情| 色噜噜狠狠色综合欧洲selulu| 亚洲精品一区二区三区四区| xvideos国产精品| 99久久亚洲国产日韩美女| 久久久精品动漫| 亚洲第一毛片| 亚洲中文字幕无码一区| 亚洲宅男天堂在线观看无病毒| 一二区在线观看| 中文字幕一区电影| 成人国产精品入口免费视频| 日本公妇乱淫免费视频一区三区| 国产精品久久久久久模特| 国产伦精品一区三区精东| 亚洲综合在线第一页| 亚洲爆乳无码一区二区三区| 久久亚洲一区二区三区四区五区高 | 女优一区二区三区| 91黄色小网站| 久久精品免费在线观看| 黄色片中文字幕| 亚洲视频日韩精品| 国产经典一区| 午夜精品区一区二区三| 日本va欧美va欧美va精品| 亚洲第一综合网| 欧美三级三级三级爽爽爽| 日韩伦理在线观看| 国产综合在线观看视频| 天天影视综合| 超碰人人cao| 亚洲一区二区三区美女| 日韩中文字幕影院| 91精品国产高清久久久久久久久| 欧洲精品一区| 看欧美ab黄色大片视频免费| 国产精品久久久久久久岛一牛影视| 亚洲天堂中文在线| 欧美成人精品在线观看| 视频一区日韩| 精品视频在线观看一区| 2024国产精品视频| 国产天堂第一区| 精品国产美女在线| av不卡一区| 欧美 国产 小说 另类| 亚洲国产成人在线| 精品久久无码中文字幕| 91成品人片a无限观看| 国产永久精品大片wwwapp| 手机版av在线| 亚洲宅男天堂在线观看无病毒| 天堂在线观看av| 国产精品精品久久久| 欧美一区二区三区久久精品| 精品人妻一区二区三区日产| 日本韩国视频一区二区| 国产黄大片在线观看画质优化| av一区二区三区在线观看| 亚洲欧美清纯在线制服| 影音先锋男人看片资源| 精品国产在天天线2019| 黄瓜视频成人app免费| 中文字幕乱码一区二区三区| 成人黄色网址在线观看| 在线免费一区二区| 欧美激情网友自拍| 精品一区二区三区的国产在线观看| 涩多多在线观看| 日韩欧美第一页| 国产盗摄在线观看| 欧美日韩免费观看一区| 国产精品一区二区三区四区| www.毛片.com| 欧美成人亚洲成人| 精品国产一区二区三区小蝌蚪| 韩国黄色一级片| 欧美日韩一二三| 91精品产国品一二三产区| 国产欧美自拍视频| 国产视频一区二区在线| www.精品久久|