精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

360智腦開(kāi)源Light-R1!1000美元數(shù)學(xué)上首次從零超越DeepSeek-R1-Distill

人工智能 開(kāi)源
360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練,在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。

2025 年 3 月 4 日,360 智腦開(kāi)源了 Light-R1-32B 模型,以及全部訓(xùn)練數(shù)據(jù)、代碼。僅需 12 臺(tái) H800 上 6 小時(shí)即可訓(xùn)練完成,從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 出發(fā),僅使用 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù)訓(xùn)練,得到 Light-R1-32B,在 AIME24 測(cè)試基準(zhǔn)中取得 76.6 分、AIME25 取得 64.6 分,在數(shù)學(xué)評(píng)測(cè)上開(kāi)源首次實(shí)現(xiàn)從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前,360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練,在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。Light-R1-32B 則不依賴(lài) DeepSeek-R1-Distill,從沒(méi)有長(zhǎng)思維鏈的模型出發(fā),在數(shù)學(xué)上從零復(fù)現(xiàn)并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開(kāi)源社區(qū)發(fā)展。

圖片

注:表中為 64 次采樣均分,較 16 次平均更穩(wěn)定;其他開(kāi)源模型截取開(kāi)源匯報(bào)的結(jié)果,若沒(méi)有則測(cè)試 64 次取均分。

  • 模型倉(cāng)庫(kù):https://huggingface.co/qihoo360/Light-R1-32B
  • 項(xiàng)目地址:https://github.com/Qihoo360/Light-R1

低成本從零超越,領(lǐng)域?qū)>?/span>

DeepSeek-R1 模型發(fā)布以來(lái),盡管許多開(kāi)源工作試圖在 72B 或更小的模型上復(fù)現(xiàn)長(zhǎng)思維鏈的 DeepSeek-R1 的性能,但至今還沒(méi)有在 AIME24 等高難度數(shù)學(xué)競(jìng)賽中達(dá)到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績(jī)。

360 智腦開(kāi)源的 Light-R1-32B 實(shí)現(xiàn)了突破,從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 開(kāi)始訓(xùn)練,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均顯著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的這套從零訓(xùn)練的方案,按 H800 租用價(jià)格估算,訓(xùn)練成本僅需 1000 美元左右。僅使用了 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù),通過(guò)兩階段的課程學(xué)習(xí) SFT 接著 DPO,即可超過(guò) DeepSeek-R1-Distill-Qwen-32B,12 臺(tái) H800 機(jī)器的訓(xùn)練時(shí)長(zhǎng)僅需 6 小時(shí)以?xún)?nèi)(約 4+0.5+0.5 小時(shí))。

雖然僅使用數(shù)學(xué)數(shù)據(jù)訓(xùn)練了模型的長(zhǎng)思維鏈能力,但在 GPQA Diamond 任務(wù)上的優(yōu)秀結(jié)果,讓我們相信 Light-R1 的訓(xùn)練方案的泛化性及有效性。相比于內(nèi)部目前正在研發(fā)的強(qiáng)化學(xué)習(xí)路線,Light-R1 的課程學(xué)習(xí) SFT+DPO 對(duì)整個(gè)訓(xùn)練流程更輕便,成本也更友好。隨著訓(xùn)練和推理技術(shù)的不斷發(fā)展,未來(lái)長(zhǎng)思維鏈模型將更加普及,Light-R1 正為低成本快速訓(xùn)練一個(gè)領(lǐng)域?qū)>评砟P吞峁┝酥匾獏⒖肌?/span>

全量開(kāi)源,簡(jiǎn)單易用

Light-R1 開(kāi)源首日即開(kāi)源全量訓(xùn)練和評(píng)測(cè)資產(chǎn):

  • Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;
  • 課程學(xué)習(xí) SFT+DPO 數(shù)據(jù)集:兩階段課程學(xué)習(xí) SFT 和 DPO 的全部數(shù)據(jù);
  • 360-LLaMA-Factory 訓(xùn)練框架:在長(zhǎng)思維鏈數(shù)據(jù) Post-Training(尤其是 DPO)上解鎖序列并行;
  • 完整評(píng)測(cè)代碼和結(jié)果:基于 DeepScaleR 的評(píng)測(cè)工具,Light-R1-32B 的原始采樣結(jié)果也在 Huggingface 模型目錄下。

Fully open at Day 1,確保可信度和可復(fù)現(xiàn)性。360 智腦也正在探索強(qiáng)化學(xué)習(xí)續(xù)訓(xùn),未來(lái)性能有望進(jìn)一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了個(gè)別特殊 token。使用 Light-R1-32B 模型時(shí),因其長(zhǎng)思維鏈能力目前僅通過(guò)數(shù)學(xué)數(shù)據(jù)訓(xùn)練,故并不會(huì)對(duì)所有用戶(hù)輸入輸出長(zhǎng)思維鏈。參照 DeepSeek 的推理建議,我們?cè)诹奶炷0逯杏簿幋a了 < think> token 強(qiáng)制其思考。建議使用較新版本的 vLLM 或 SGLang 進(jìn)行推理。

課程 SFT+DPO,穩(wěn)步提升

數(shù)據(jù)準(zhǔn)備

訓(xùn)練用的數(shù)學(xué)題來(lái)自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多個(gè)開(kāi)源的數(shù)學(xué)數(shù)據(jù)集,并對(duì) AIME、MATH、GPQA 等基準(zhǔn)測(cè)試的數(shù)據(jù)泄露去除了污染的題目。

數(shù)學(xué)題的答案抓取了 DeepSeek-R1 的結(jié)果并經(jīng)過(guò)驗(yàn)證過(guò)濾。同時(shí)使用 DeepScaleR-1.5B-Preview 進(jìn)行采樣根據(jù)回答正確率估算題目的難度分級(jí)。

圖片

課程學(xué)習(xí) SFT+DPO

基于 Qwen2.5-32B-Instruct,依次進(jìn)行 Post-Training:

  • SFT 階段 1:根據(jù)驗(yàn)證結(jié)果和難度分級(jí)初篩,得到 7 萬(wàn)條數(shù)據(jù)進(jìn)行 SFT;
  • SFT 階段 2:在 SFT 階段 1 之后,篩選出難度最大的 3 千條數(shù)據(jù),進(jìn)行 SFT;
  • DPO 階段:在 SFT 階段 2 之后,在 3 千條數(shù)據(jù)上多次采樣 Light-R1-SFT 階段 2 的回答,根據(jù)驗(yàn)證結(jié)果和 DeepSeek-R1 的回答構(gòu)建 DPO pair 對(duì),進(jìn)行 DPO,使用 DPO 原始 loss 或 NCA loss。

模型融合

最終,智腦團(tuán)隊(duì)將 SFT 階段 2、DPO 和另一個(gè) DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 團(tuán)隊(duì)的 mergekit 工具,得到 Light-R1-32B。這兩個(gè) DPO 版本在訓(xùn)練數(shù)據(jù)和超參上略有不同。

整個(gè)訓(xùn)練流程中,每一步的提升都在前文的表格中體現(xiàn)。在完全沒(méi)訓(xùn)練的科學(xué)類(lèi)題目評(píng)測(cè) GPQA 上,數(shù)學(xué)專(zhuān)項(xiàng)訓(xùn)練導(dǎo)致了部分遺忘,但 Light-R1-32B 也體現(xiàn)了較強(qiáng)的泛化性。

數(shù)據(jù)去重,助力開(kāi)源生態(tài)

基準(zhǔn)測(cè)試分?jǐn)?shù)既有其重要性,也有局限性。雖然預(yù)訓(xùn)練階段的個(gè)別基準(zhǔn)測(cè)試污染難以完全避免,但在后訓(xùn)練階段,應(yīng)當(dāng)嚴(yán)格杜絕數(shù)據(jù)污染,在訓(xùn)練集中對(duì)測(cè)試數(shù)據(jù)嚴(yán)格去重。360 智腦在研發(fā)過(guò)程中發(fā)現(xiàn),雖然開(kāi)源數(shù)據(jù)集對(duì) AIME 都沒(méi)有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通過(guò) N-gram 或純字母匹配檢測(cè),可以發(fā)現(xiàn)原題或僅更改數(shù)字的計(jì)算題。針對(duì)這種情況,Light-R1-32B 在訓(xùn)練過(guò)程中做了嚴(yán)格去重。

圖片

在開(kāi)源社區(qū)中,Light-R1-32B 是首個(gè)從零訓(xùn)練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開(kāi)源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個(gè)開(kāi)源數(shù)據(jù),使用開(kāi)源框架 360-LLaMA-Factory 訓(xùn)練,使用開(kāi)源項(xiàng)目 DeepScaleR 和 verl 評(píng)測(cè)。360 希望通過(guò) Light-R1-32B 和上周開(kāi)源的 TinyR1 等工作助力開(kāi)源生態(tài)發(fā)展,加速中國(guó) AI。

注:本文 “從零” 表示從沒(méi)有長(zhǎng)思維鏈的模型開(kāi)始訓(xùn)練

圖片

團(tuán)隊(duì)成員:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-03 14:17:27

2025-07-30 09:06:02

2025-04-21 08:42:00

模型開(kāi)源AI

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-04-23 15:23:25

AI模型代碼

2025-02-11 08:35:30

2025-11-19 08:56:42

2025-02-20 15:32:28

2025-09-08 09:06:16

2025-02-17 09:33:00

AI算法模型

2025-02-07 13:10:06

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-07-08 08:53:00

2025-03-12 13:55:05

2025-03-05 10:21:04

DeepSeekLVLM

2025-06-17 17:14:01

DeepSeekSOTA開(kāi)源

2025-03-13 11:07:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一区视频在线观看免费| 国产亚洲欧美日韩精品一区二区三区 | 美女航空一级毛片在线播放| 成人在线综合网站| 奇米影视亚洲狠狠色| 呻吟揉丰满对白91乃国产区| 亚洲天堂中文字幕在线观看| 日韩欧美在线视频观看| 在线视频福利一区| 天天干天天草天天射| 美女脱光内衣内裤视频久久网站| 欧美成人小视频| 丰满少妇一区二区| 视频亚洲一区二区| 欧美三级一区二区| 亚洲理论电影在线观看| 在线免费观看黄色av| 99re在线精品| 成人久久一区二区| 亚洲另类在线观看| 欧美日本一区| 日韩一区二区福利| 三上悠亚影音先锋| 久久综合另类图片小说| 欧美一区二区三区免费大片| www.色偷偷.com| 蜜桃视频www网站在线观看| 1000精品久久久久久久久| 欧美精品一区二区三区在线看午夜| 99久久精品无免国产免费| 狂野欧美一区| 欧美诱惑福利视频| 国产精品a成v人在线播放| 欧美在线黄色| 最近中文字幕2019免费| 超碰caoprom| 日韩国产在线不卡视频| 91精品国产综合久久蜜臀| 久久精品国产精品亚洲色婷婷| 蜜桃成人365av| 中文字幕日韩精品一区| 亚洲国产精品一区二区第一页| 四虎影院在线播放| av中文字幕不卡| 99中文视频在线| 国产三级精品在线观看| 精品一区二区在线视频| 国产精品免费一区豆花| 男操女视频网站| 视频一区二区三区在线| 国产成人精品久久| 波多野结衣爱爱| 三级一区在线视频先锋| 日韩免费在线播放| 波多野结衣在线电影| 久久一区二区三区四区五区 | 亚洲欧美日韩精品久久奇米色影视| 制服丝袜第一页在线观看| 国产精品17p| 亚洲精品动漫100p| www.久久av| 国产精品欧美在线观看| 中文字幕日本精品| 天天操天天摸天天舔| 国产精品成人一区二区不卡| 俺去了亚洲欧美日韩| 天天操天天操天天操天天操天天操| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 欧美极品另类videosde| 亚洲高清资源综合久久精品| 免费在线你懂的| 亚洲欧美色图小说| 91免费黄视频| 黄色亚洲网站| 欧美精品一二三四| 亚洲一区和二区| 偷拍精品福利视频导航| 在线观看日韩视频| 污软件在线观看| 亚洲无吗在线| 国产97在线|亚洲| 国产精品亚洲lv粉色| 国产a久久麻豆| 久久免费99精品久久久久久| 国产视频精品久久| 亚洲六月丁香色婷婷综合久久 | 三级欧美韩日大片在线看| 国产美女久久精品香蕉69| 国产草草影院ccyycom| 不卡的看片网站| 亚洲成人av动漫| 日韩av官网| 色欧美片视频在线观看在线视频| 天堂中文av在线| 国产精品国产| 中文字幕精品一区二区精品| 欧美人妻精品一区二区免费看| 国产视频一区在线观看一区免费| 国产精品免费观看在线| 粉嫩小泬无遮挡久久久久久| 久久久精品日韩欧美| 日韩最新中文字幕| 欧美成a人片在线观看久| 91精品一区二区三区久久久久久| 小毛片在线观看| 亚洲老妇激情| 日韩免费在线视频| 少妇高潮久久久| 国产精品美女一区二区三区| 日本一道本久久| 一区二区三区在线免费看 | 欧美丰满少妇xxxxx高潮对白| 91丝袜在线观看| 中文视频一区| 国产精品夜间视频香蕉| 日韩资源在线| 亚洲一二三区在线观看| 色婷婷综合在线观看| 香蕉视频一区| 午夜精品久久久久久久久久久久 | 久久精品国产99国产精品| 国产欧美亚洲日本| 在线网址91| 欧美乱妇一区二区三区不卡视频| 亚洲精品视频大全| 在线观看一区视频| 99se婷婷在线视频观看| 日本免费在线视频| 欧洲精品在线观看| 免费一级做a爰片久久毛片潮| 一本色道久久综合| 电影午夜精品一区二区三区| а√天堂官网中文在线| 色婷婷香蕉在线一区二区| 国模无码视频一区| 伊人久久亚洲影院| 国产精品一 二 三| 国产亚av手机在线观看| 精品久久久久一区二区国产| 国产大学生自拍| 国产一区二区不卡在线| 黄瓜视频免费观看在线观看www | 久久精品国产精品国产精品污| 丝袜综合欧美| 精品少妇一区二区三区在线播放 | 欧美精品午夜| 91原创国产| 在线观看中文字幕的网站| 欧美一区二区视频免费观看| 神马久久精品综合| 国产精品1区二区.| 国产成人一区二区三区别| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 欧美性猛交丰臀xxxxx网站| 国产性生活毛片| 国产情侣一区| 品久久久久久久久久96高清| 亚洲成人人体| 中文字幕日韩欧美在线视频| 中文字幕有码视频| 亚洲天堂a在线| 亚洲国产欧美91| 亚洲大片在线| 欧美二区三区在线| 成人福利一区二区| 超在线视频97| 免费a级片在线观看| 欧美午夜激情视频| 色欲狠狠躁天天躁无码中文字幕| 久久国产综合精品| 免费看日本黄色| 永久免费精品视频| 欧美中文在线观看| 天天影视久久综合| 欧美电影免费提供在线观看| 日本视频免费在线| 中日韩免费视频中文字幕| 亚洲网站在线观看| 妞干网视频在线观看| 久久精品色综合| 国产成人精品综合久久久| 日本中文在线观看| 亚洲国产成人精品女人久久久 | 欧美freesex| www.亚洲人.com| 国产综合在线播放| 在线观看日产精品| 久草国产在线观看| 国产午夜精品福利| 日本黄色大片在线观看| 久久天堂成人| a天堂资源在线观看| 国产成人1区| 91成人理论电影| 天天综合网站| 欧美人交a欧美精品| 麻豆导航在线观看| 日韩色在线观看| 特级西西444www大胆免费看| 洋洋成人永久网站入口| 国产真人做爰视频免费| 成人小视频免费观看| 手机在线看福利| 亚洲精品三级| 四虎免费在线观看视频| 竹菊久久久久久久| 福利视频久久| 电影91久久久| 国产精品入口免费视| 欧美在线一级片| 亚洲视频分类| av成人免费观看| 成人国产精选| 欧美性做爰毛片| 男女羞羞视频在线观看| 日日噜噜噜夜夜爽亚洲精品 | 成人综合激情网| 久久国产激情视频| 久久先锋影音| 国产老熟妇精品观看| 欧美精品导航| 欧美日韩亚洲国产成人| 欧美特黄一级大片| 免费看国产精品一二区视频| 999久久久精品一区二区| 国产在线98福利播放视频| 桃色一区二区| 欧美孕妇性xx| www.九色在线| 韩国美女主播一区| 羞羞电影在线观看www| zzijzzij亚洲日本成熟少妇| yourporn在线观看中文站| 亚洲欧洲午夜一线一品| 亚洲欧美日韩成人在线| 亚洲国产欧美久久| 五月婷婷在线观看视频| 亚洲国产中文字幕在线观看| 亚洲精品久久久久久久久久 | 久久久精品视频成人| 成人亚洲综合天堂| 伊人久久大香线蕉av一区二区| 欧美日韩国产综合视频| 亚洲免费视频在线观看| 精品无吗乱吗av国产爱色| 亚洲美女在线看| 国产在线日本| 这里只有精品久久| 91sp网站在线观看入口| 播播国产欧美激情| 国产美女av在线| 欧美大片免费看| jizz一区二区三区| 97婷婷大伊香蕉精品视频| 极品在线视频| 国产成人在线一区| 成人午夜亚洲| 亚洲va男人天堂| 一区二区三区在线免费看| 精品久久中出| 欧美人与物videos另类xxxxx| 欧美午夜免费| 欧美a级片视频| 日韩精品第1页| 韩国精品一区二区三区| 欧美二区在线视频| 久久综合激情| 亚洲自拍第三页| 成人丝袜高跟foot| 亚洲av成人无码久久精品| 国产精品久久久久久久久图文区 | 欧美丝袜第一区| 中文字幕+乱码+中文乱码91| 欧美丰满嫩嫩电影| 欧美 中文字幕| 亚洲网在线观看| 超碰在线无需免费| 手机在线一区二区三区| 蜜桃麻豆www久久国产精品| 成人一二三区| 成人污网站在线观看| 亚洲一区自拍| 男女污污视频网站| va亚洲va日韩不卡在线观看| av黄色在线免费观看| 亚洲精品久久久久久国产精华液| 日韩 欧美 综合| 欧美日韩不卡在线| 图片区 小说区 区 亚洲五月| 丝袜亚洲欧美日韩综合| 波多野结衣乳巨码无在线观看| 国产精品白嫩美女在线观看 | 日韩视频免费观看高清完整版在线观看 | 黄网站色视频免费观看| 玖玖精品视频| youjizz.com日本| 国产精品美女久久久久久久| 国产精品99精品| 欧美美女直播网站| 你懂得网站在线| 久久久久久12| 青娱乐极品盛宴一区二区| 久99久视频| 欧美韩日精品| 日本中文字幕高清| 91在线一区二区| 老湿机69福利| 欧美午夜在线一二页| 天堂а在线中文在线无限看推荐| 久久精品99久久久久久久久 | 色综合天天综合在线视频| 国产成人精品亚洲精品色欲| 亚洲性视频网址| 日本黄色免费在线| 99精彩视频在线观看免费| 999国产精品永久免费视频app| 欧美成人黑人猛交| av电影在线观看完整版一区二区| 在线观看美女av| 欧美中文字幕亚洲一区二区va在线| 色婷婷av一区二区三区之e本道| 乱亲女秽乱长久久久| 久久xxx视频| 欧美重口乱码一区二区| 99热精品在线观看| 妖精视频一区二区| 亚洲精品乱码久久久久久久久 | 成人在线视频首页| 天天爽天天爽天天爽| 一本大道av一区二区在线播放| 色屁屁草草影院ccyycom| 欧美日韩成人在线播放| 精品久久国产一区| 综合视频在线观看| 激情综合网激情| 波多野结衣久久久久| 欧美日韩小视频| 午夜在线视频| 成人福利在线观看| 国产精品久久久久久影院8一贰佰| 天天天干夜夜夜操| 欧美国产日本视频| 国产精品sm调教免费专区| 国产午夜精品全部视频播放| 美女18一级毛片一品久道久久综合| 久久国产欧美精品| 国产日韩一区二区三区在线| 久久亚洲AV成人无码国产野外| 五月婷婷久久综合| 午夜av免费观看| 国产精品91在线| 久久一区91| 999热精品视频| 亚洲色图在线看| www.五月婷| 97国产在线视频| 亚洲精品播放| 国产嫩草在线观看| 综合分类小说区另类春色亚洲小说欧美| 国产原创中文av| 欧美大片在线免费观看| 噜噜噜狠狠夜夜躁精品仙踪林| 九色在线视频观看| 国产网站一区二区三区| 中文字幕久久熟女蜜桃| 麻豆国产精品va在线观看不卡 | 亚欧洲精品在线视频免费观看| 日本女优在线视频一区二区| 亚洲精品自拍视频在线观看| 欧美一区二区精品久久911| 日本高清在线观看| 久久精品magnetxturnbtih| 日韩精品久久久久久| 四虎国产成人精品免费一女五男| 555www色欧美视频| av蜜臀在线| 日韩欧美在线观看强乱免费| 精品一区二区国语对白| 日本网站在线免费观看| 国产亚洲a∨片在线观看| 99精品在线免费观看| 秋霞无码一区二区| 国产精品免费久久| 欧美视频xxx| 国产欧美日韩精品丝袜高跟鞋| 欧美视频久久| 久久久视频6r| 日韩美女视频一区二区在线观看| 亚洲产国偷v产偷v自拍涩爱| 成人精品在线视频观看| 国产极品美女高潮无套嗷嗷叫酒店| 亚洲欧美综合区自拍另类| 国产精品一区二区三区www| 男女啪啪免费视频网站| 国产精品免费久久久久| 亚洲人妻一区二区| 91精品国产高清久久久久久91裸体 | 国模叶桐国产精品一区| 日韩欧美视频在线播放| 国产一级伦理片|