精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

人工智能 新聞
清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

如果有人告訴你:不用分階段做強化學習、不搞課程學習、不動態調參,只用最基礎的 RL 配方就能達到小模型數學推理能力 SOTA,你信嗎?

清華團隊用兩個 1.5B 模型給出了答案:不僅可行,還特別高效。

  • 核心發現: 單階段訓練 + 固定超參數 = SOTA 性能 + 省一半算力
  • 意外之喜: 訓練曲線平滑得像教科書,4000 步沒遇到任何 "典型問題"
  • 關鍵啟示: 充分 scale 的簡單 baseline,可能比我們想象的強大得多

圖片

圖片

  • 技術博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 開源模型:https://huggingface.co/collections/hbx/justrl
  • 評測腳本:https://github.com/thunlp/JustRL

背景:RL 訓練小模型的 "技術軍備競賽"

2025 年初,DeepSeek-R1 開源后,如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向。短短幾個月內,這個領域經歷了快速的技術演進:早期的工作嘗試超參數調優和長度控制;隨后出現了多階段漸進訓練,每個階段調整數據難度和 RL 超參數;也有方法引入了課程學習,用部分解作為提示精心設計難度梯度;最激進的做法直接將 rollout 數量提升到 512 次,用算力進行暴力探索。

圖片

近期工作用到的技術對比

這些方法都取得了不錯的效果,性能在不斷刷新。 動態采樣、KL 重置、自適應懲罰、長度控制…… 各種穩定技術和優化 trick 被逐一引入。每個新工作都在前人基礎上增加新的模塊和機制,整個訓練 pipeline 變得越來越復雜。

然而,這種復雜度的增長也帶來了困惑:這些技術真的都是必要的嗎? 當不同工作組合使用不同的技術子集時,我們很難分辨哪些是解決根本問題的,哪些只是在修補其他設計選擇帶來的副作用。更重要的是,如果 baseline 本身就不穩定,那么為了穩定它而加入的技術,可能只是在治標而非治本。

清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

于是就有了 JustRL—— 名字的意思是 "就這樣"。

方法:極簡到極致的訓練配方

JustRL 的設計哲學是 "減到不能再減"。研究者刻意避免了近期工作中常見的復雜技術,只保留了最基礎的組件。

訓練配方簡單到令人意外: 算法使用標準的 GRPO,沒有任何魔改;訓練只有一個階段,從頭到尾連續進行;超參數完全固定,不做任何動態調整;數據來自常規的數學問題集,不進行離線難度篩選、不做數據增強、不使用 dynamic sampling。

更關鍵的是,同一套超參數在兩個完全不同的起點上都有效。 第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座,這是一個相對較弱的起點(AIME 2024 準確率 29%);第二個實驗使用 OpenMath-Nemotron-1.5B,這已經是一個相當強的基座(AIME 2024 準確率 61%)。研究者沒有針對不同模型調整任何參數,在 9 個數學推理基準(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評測顯示,JustRL 達到了 1.5B 模型的最高水平。

圖片

一個關鍵問題:會不會是用了更多算力?正好相反,我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B,最終在 9 項基準上平均達到 54.87%,超越了采用 9 階段訓練的 ProRL-V2(53.08%)。更值得注意的是計算效率:JustRL 使用的總 token 預算約為 1.4E+11,僅為 ProRL-V2 的一半,為 BroRL 的五分之一。在算力 - 性能的權衡上,JustRL 達到了一個新的平衡點。

從強基座起步的 JustRL-Nemotron-1.5B 表現更加出色,平均準確率達到 64.32%,略微超過使用課程學習的 QuestA(63.81%)。關鍵的差異在于,QuestA 需要完整的推理軌跡來構建 hint,還要分階段調整提示難度;而 JustRL 只需要標準的問題與標答,不需要額外的數據工程,總 token 預算也相對較小。

整個訓練在 32 張 A800-80GB GPU 上進行,每個模型訓練約 15 天。相比一些需要多階段訓練、頻繁調參的方法,JustRL 的工程復雜度和計算開銷都顯著更低。這些結果的意義不僅在于數字本身,更在于它們揭示的一個可能性:很多時候,我們可能低估了簡單方法在充分 scale 下的潛力。

意外發現:4000 步訓練,異常平穩

也許比最終性能更令人驚訝的是訓練過程本身。研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態指標:策略熵、平均獎勵、響應長度。

策略熵始終在 1.2-1.4 范圍內健康震蕩,沒有出現向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎勵從 - 0.6 單調上升到 +0.4,雖然有噪聲但趨勢清晰,沒有長時間的 plateau 或突然的下跌;響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens,并穩定在這個范圍,這一切都是在沒有使用 overlong penalty 的情況下發生的,僅僅設置了最大 16k 的上下文長度。

圖片

JustRL-DeepSeek-1.5B 的訓練 dynamic

這與很多現有工作報告的訓練困難形成鮮明對比。

  • ProRL:"我們觀察到熵崩潰和訓練不穩定性…"
  • BroRL:"訓練到瓶頸只能加 rollout 加大探索…"
  • QuestA:"需要課程學習避免熵崩塌(簡單題)或者減緩學習效率(難任務)…"

而在 JustRL 的訓練中,這些問題都沒有出現。這給了我們一個有趣的觀察:也許在某些配置下,當 baseline 足夠簡單、訓練規模足夠充分時,一些在復雜系統中出現的穩定性問題可能就不容易發生。

一個有趣的插曲:加 "優化" 反而更差

訓練過程中,團隊嘗試了兩個 "按常理應該有幫助" 的修改。這兩個實驗的結果頗具啟發性。

第一個實驗是加入顯式的長度懲罰。 動機很直接:不少工作證明長度懲罰有效,那么添加一個懲罰項應該能讓模型輸出更簡潔,提高訓練效率。結果卻令人意外:性能從 55% 下降到 50%。深入分析發現,顯式懲罰導致了熵崩塌,熵值從 1.2-1.4 降到 0.4-0.6 ,探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略,就被迫收斂到更短的響應上。

第二個實驗是換用更寬松的驗證器。 邏輯同樣合理:減少假陰性(正確答案被誤判為錯誤)應該能提供更清晰的學習信號。但性能繼續下滑到 45%。可能的原因包括:更寬松的驗證器雖然減少了誤判,但也降低了學習信號的細粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區分;另一種可能是,嚴格的格式要求實際上在迫使模型發展更魯棒的內部推理,而寬松的驗證器消除了這種壓力。

圖片

兩組 ablation 效果

這說明什么?一方面,ablation 在接近 2k steps 的尺度上才開始分道揚鑣,意味著現有的 RL tricks ablation 可能在小規模上(幾十 / 幾百步)得到的結論不一定適合于大規模 scaling,要驗證 tricks 的作用可能長期才能看出區別;另一方面,不是說這些技術本身不好(它們在其他工作中確實有效),而是:

  • 技術的價值高度依賴于 baseline 的特性
  • 在一個穩定的 baseline 上,某些 "優化" 可能適得其反
  • 不是所有看起來合理的東西都該加

這個工作想說什么?

不是要證明 "簡單永遠最好"

  • 不是說: "復雜方法都沒用"
  • 而是說: "我們可能低估了簡單方法在充分 scale 下的潛力"
  • 不是說: "大家都做錯了"
  • 而是說: "建立清晰的簡單 baseline,能更準確地評估復雜技術的價值"
  • 不是說: "永遠別用復雜技術"
  • 而是說: "先驗證簡單方法的極限在哪,再決定是否需要復雜度"

寫在最后:關于 "夠用" 的哲學

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“

 — Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是:在不斷追求技術創新的同時,別忘了回頭看看 —— 最樸素的方法,在足夠的努力下,能做到什么程度。

也許在 RL 訓練小模型這個領域,我們一直在做加法:加階段、加調度、加采樣策略、加穩定技巧。也許現在是時候試試奧卡姆剃刀的做法:減到不能再減,看看還剩什么。JustRL 的發現是:剩下的,可能已經夠用了。

如果你正在做 RL,不妨試試:先把簡單配方訓練充分,看看它能帶你走多遠。

也許你會發現:夠用了。

也許你會發現:還不夠,但現在你知道差在哪了。

無論哪種,都是有價值的收獲。"如無必要,勿增實體"。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-02-11 16:17:42

2025-11-18 07:00:00

2025-02-25 10:20:00

2025-11-14 09:31:41

2025-04-15 09:19:00

模型AI數據

2025-04-27 08:54:00

英偉達開源模型

2025-05-16 11:03:48

2025-07-31 08:45:00

模型AI開源

2025-06-06 09:10:00

模型開源AI

2025-04-23 12:09:25

RL大模型進化

2025-09-16 10:09:00

2025-02-13 09:10:00

2025-06-23 09:14:00

2025-02-10 09:35:00

2025-01-21 10:10:56

2025-01-16 14:38:10

2025-03-03 10:17:00

模型數據生成

2025-01-10 12:58:37

點贊
收藏

51CTO技術棧公眾號

999热视频| 69视频在线播放| 亚洲少妇一区二区| 亚洲欧洲自拍| 国产精品免费网站在线观看| 亚洲综合在线做性| 国产免费av一区| 国产精品精品| 日韩电影网在线| 中文字幕 欧美日韩| 成人bbav| 日韩理论片一区二区| 国产欧美一区二区三区另类精品 | 国产精品视频中文字幕91| 亚洲一级生活片| 国产探花在线精品| 日韩精品中文字幕在线不卡尤物 | 激情综合色播激情啊| 66m—66摸成人免费视频| 国产又粗又长又硬| 亚洲精品播放| 精品国免费一区二区三区| 91人人澡人人爽人人精品| av2020不卡| 亚洲精品成人悠悠色影视| 欧美一区免费视频| 在线观看网站黄| 桃花岛tv亚洲品质| 亚洲综合一区二区三区| 亚洲视频欧美在线| 亚洲日本在线播放| 久久66热偷产精品| 国产精品com| 国产成人精品一区二三区| 在线精品国产| 精品国内自产拍在线观看| 91久久免费视频| 日本欧美韩国国产| 精品久久五月天| 女王人厕视频2ⅴk| 99久久这里有精品| 欧美日韩三级视频| 91人人澡人人爽人人精品| 成人性生活av| 色天天综合色天天久久| 欧美精品99久久| 欧美男人天堂| 欧美日韩一区二区在线播放| 无码人妻精品一区二区蜜桃网站| 免费在线看a| 国产精品成人免费在线| 先锋影音一区二区三区| 成人精品一区二区三区校园激情| 久久精品亚洲麻豆av一区二区 | 91人人澡人人爽| 试看120秒一区二区三区| 欧美丰满少妇xxxbbb| 亚洲图色中文字幕| 久久国产精品美女| 日韩亚洲欧美一区二区三区| 丰满少妇一区二区三区专区| 亚洲国产一区二区三区网站| 精品成人一区二区三区| 国产十八熟妇av成人一区| 免费看久久久| 亚洲欧美日韩一区二区三区在线| 波多野结衣一本| 日本一区二区高清不卡| 日韩一区二区三区xxxx| 亚洲综合网在线| 影音先锋日韩资源| 7m精品福利视频导航| 亚洲色成人www永久网站| 免费成人在线观看| 亚洲bt天天射| 手机看片国产1024| 久久久不卡影院| 一区二区不卡在线| 男男gaygays亚洲| 天天亚洲美女在线视频| 黄色国产小视频| 国产91精品在线| 日韩一区二区三区电影| 日韩无码精品一区二区| 亚洲欧美成人vr| 日韩一区二区av| 好吊操这里只有精品| 日韩成人av影视| 国产精华一区| 国产粉嫩一区二区三区在线观看| 亚洲女子a中天字幕| 69堂免费视频| 免费观看亚洲天堂| 亚洲欧美国产精品va在线观看| 大吊一区二区三区| 亚洲成人中文| 成人激情视频在线观看| 天天操天天操天天| 国产精品初高中害羞小美女文| 成人免费性视频| 成人免费毛片嘿嘿连载视频…| 91精品国产色综合久久久蜜香臀| 欧美无人区码suv| 天天综合网91| 日本久久久久久久久| 国产乱码精品一区二区三区精东 | 久久国产手机看片| 日本福利在线| 欧美性xxxx极品hd欧美风情| 天天色天天综合网| 要久久爱电视剧全集完整观看| 久久av资源网站| 精产国品一区二区| 国产成人99久久亚洲综合精品| 视频一区二区在线观看| 国产在线美女| 91精品国产综合久久蜜臀| 亚洲天堂久久新| 精品999网站| 亚洲一区二区三区在线免费观看| 你懂的视频在线观看| 一区二区在线观看视频| 亚洲美女爱爱视频| 国产真实有声精品录音| 久久久女人电视剧免费播放下载| 国产精品老熟女视频一区二区| 国产网站一区二区三区| 激情五月宗合网| 综合欧美亚洲| 久久亚洲国产精品| 高潮无码精品色欲av午夜福利| 91在线视频播放| 777av视频| 成人性生交大片免费看中文视频| 欧美日韩三级在线| 女尊高h男高潮呻吟| 一区福利视频| 国产精品国产精品| 久久av色综合| 精品伦理精品一区| 久久久久香蕉视频| 国产**成人网毛片九色 | 久久久久久a亚洲欧洲aⅴ| 三级网站视频在在线播放| 欧美精品色综合| 四虎地址8848| 精品午夜一区二区三区在线观看| 亚洲蜜桃av| 自拍偷拍亚洲| 久久国产色av| www.久久伊人| 亚洲一区二区av在线| 4438x全国最大成人| 欧美成人69| 99影视tv| 国产美女高潮在线观看| 日韩精品免费在线| 黄色免费av网站| 久久人人爽爽爽人久久久| 成人在线观看a| 欧美3p在线观看| 亚洲aa中文字幕| av中文字幕在线观看第一页| 日韩av在线一区| 日韩熟女一区二区| 久久奇米777| 亚洲欧美国产日韩综合| 亚洲草久电影| 国产日韩一区二区| 亚洲欧美se| 久久精品99久久久香蕉| 亚洲第一成年人网站| 亚洲国产精品人人做人人爽| 亚洲av成人无码一二三在线观看| 久久国产高清| 亚洲精品影院| www.豆豆成人网.com| 欧美亚洲激情在线| av资源网站在线观看| 91精品国产综合久久福利软件| 国产无套在线观看| 国产日产欧美一区| 欧美熟妇另类久久久久久多毛| 在线看片一区| 亚洲天堂电影网| 韩国女主播一区二区三区| 国产精品久久久av| 日日夜夜天天综合入口| 亚洲女在线观看| 超碰人人人人人人| 一本色道久久综合亚洲91| 视频国产一区二区| 97久久人人超碰| www.cao超碰| 国产精品普通话对白| 中文一区一区三区免费| 欧美成人基地| 91久久极品少妇xxxxⅹ软件 | 素人av在线| 亚洲国产精品久久| 国产一区二区波多野结衣| 亚洲成av人片一区二区梦乃 | 亚洲v日本v欧美v久久精品| 免费观看a级片| 北条麻妃一区二区三区| 国内精品久久国产| 国产亚洲欧美日韩精品一区二区三区| 欧美精品在线看| 国产中文字幕在线看| 日韩美女主播在线视频一区二区三区| 天堂网免费视频| 亚洲国产日韩av| 紧身裙女教师波多野结衣| 91偷拍与自偷拍精品| 美女日批在线观看| 麻豆精品一区二区三区| 欧美视频第一区| 国产精品草草| 青青草原网站在线观看| 成人3d精品动漫精品一二三| 久久久神马电影| av成人app永久免费| 成人伊人精品色xxxx视频| 亚洲伦乱视频| 欧美在线www| av中文在线资源库| 久久久噜久噜久久综合| 综合图区亚洲| 欧美成在线观看| 黄色网址在线免费| 日韩视频在线免费观看| 91在线导航| 在线播放日韩精品| 国产精品亚洲欧美在线播放| 色婷婷狠狠综合| 国产性猛交╳xxx乱大交| 亚洲国产精品麻豆| 五月天综合在线| 亚洲v中文字幕| 国产无人区码熟妇毛片多| 亚洲高清视频中文字幕| 精品无码免费视频| 亚洲午夜久久久久久久久电影院| 欧美日韩激情在线观看| 亚洲一区欧美一区| 久久久久久免费观看| 亚洲午夜一区二区三区| 国产亚洲成人av| 香港成人在线视频| www.日本精品| 色哟哟一区二区三区| jizz国产在线观看| 欧美影院精品一区| 一区二区三区黄| 337p亚洲精品色噜噜狠狠| 99久久久国产精品无码网爆| 日韩一区二区三区视频在线| 性一交一乱一透一a级| 欧美精品一区二区三区蜜桃 | 久久午夜a级毛片| 综合久久2019| 2019亚洲日韩新视频| 日韩欧美少妇| 91视频国产高清| 粉嫩的18在线观看极品精品| 久久99国产精品99久久| 禁果av一区二区三区| 中文字幕成人一区| 国内自拍视频一区二区三区| 亚洲美免无码中文字幕在线| 久久久噜噜噜| 国产女同无遮挡互慰高潮91| 国产乱色国产精品免费视频| 亚洲av成人无码一二三在线观看| 久久精品亚洲国产奇米99| 欧美一级特黄高清视频| 亚洲一区二区在线播放相泽| jizz国产在线观看| 日韩一区二区三区四区五区六区| 日本黄色不卡视频| 亚洲视频精品在线| caopeng在线| 欧美在线不卡区| 亚洲综合资源| 久久riav| 亚洲a一区二区三区| 欧美不卡在线播放| 久久精品99久久久| 中文文字幕文字幕高清| 中文字幕不卡一区| 久久久久无码精品国产| 欧美亚洲日本一区| 黄色aaa毛片| 日韩中文字幕不卡视频| 黄毛片在线观看| 51国偷自产一区二区三区 | av激情亚洲男人天堂| 九九九视频在线观看| 亚洲高清免费观看高清完整版在线观看 | 亚洲一区电影777| 久久这里只有精品9| 精品福利一区二区三区免费视频| 在线日本视频| 91精品国产免费久久久久久| 国产精品日本一区二区三区在线| 久久99精品国产99久久| 欧美激情综合| 在线观看免费成人av| 波多野结衣一区二区三区| 五月天免费网站| 色综合天天做天天爱| 动漫av一区二区三区| 久久久成人精品视频| 精品视频在线一区二区在线| 九九九九精品九九九九| 欧美日本二区| 第一区免费在线观看| 国产日产欧美一区二区视频| 中文字幕亚洲高清| 欧美videos中文字幕| 免费成人黄色| 国产精品入口免费视频一| 先锋影音国产精品| 福利视频免费在线观看| 国产精品一区二区果冻传媒| 国产麻豆a毛片| 欧美亚洲动漫另类| 精品成人一区二区三区免费视频| 午夜精品www| 伊人222成人综合网| 国产欧美在线看| 日韩片欧美片| 天堂网在线免费观看| 久久精品欧美一区二区三区不卡 | 欧美激情视频二区| 日韩欧美亚洲国产一区| 五月天婷婷激情网| 欧美激情在线观看视频| 日本99精品| www.99riav| 国产成a人无v码亚洲福利| 性色av无码久久一区二区三区| 555www色欧美视频| 国产精品刘玥久久一区| 成人免费在线视频网站| 久久久国产精品| 99精品视频国产| 亚洲精品中文在线| www香蕉视频| 97色在线观看免费视频| 欧美变态网站| 日韩中文字幕免费在线| 国产视频一区在线播放| 中文字幕欧美色图| 色婷婷成人综合| 亚洲精品一区二区三区在线| 婷婷无套内射影院| 久久青草国产手机看片福利盒子| 99成人精品视频| 日韩一级黄色av| 荡女精品导航| 免费黄色日本网站| 日本一区二区三区高清不卡| 一本到在线视频| 欧美国产日本高清在线 | 亚洲日本va午夜在线电影| 成人午夜视频免费观看| 99精品在线观看视频| av一级在线观看| 久久久精品免费| 国产精品丝袜在线播放| 免费日韩视频在线观看| 中文在线一区二区| www.午夜激情| 欧美一区在线直播| 欧美3p视频| 你懂的在线观看网站| 欧美影院一区二区三区| 中文字幕中文字幕在线十八区| 国产日韩精品一区观看| 日韩av电影免费观看高清完整版| xxxx日本少妇| 亚洲精品少妇网址| 99精品女人在线观看免费视频| 五月丁香综合缴情六月小说| 欧美国产乱子伦| 亚洲经典一区二区三区| 国产精品福利久久久| 欧美日韩国产探花| 亚洲精品视频久久久| 91精品国产日韩91久久久久久| 日本不良网站在线观看| 国产精品无码乱伦| 久久久久综合网| 亚洲精品国产手机| 国产精品美女久久| 精品91久久久久| 日韩视频中文字幕在线观看| 亚洲欧美日本精品| 欧美日本三级|