英偉達幫你省錢,讓大模型推理「短而精」,速度快5倍
大模型推理到底要不要「長篇大論」?過去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「長鏈思維」玩到極致:答案更準了,但代價是推理鏈越來越長、Token 消耗爆炸、響應速度驟降。
如果 scale-up 長鏈思維是通往 AGI 的路徑,那么現有思維鏈的冗長問題是我們亟待解決的。
那么,能不能讓模型「少說廢話」,既快又準?
過去的嘗試大多失敗:各種復雜的長度懲罰(Length Penalty)要么讓模型亂答,要么訓練不穩定,結果就是效率提升了,準確率卻掉了。
現在,英偉達研究院的最新研究給出了答案:關鍵不在于設計多復雜的懲罰,而在于用對強化學習優化方法。

- 論文標題:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
- 論文鏈接: https://arxiv.org/html/2510.15110v1
- 項目主頁: https://nvlabs.github.io/DLER/

DLER 來了!推理模型的「減長秘籍」
DLER 首先是細致及全面了分析了引入長度懲罰之后出現的新的強化學習訓練問題,包括:
- Reward 信號方差增大
- 「Aha Moment」詞不當處理帶來的熵塌縮
- 訓練信號過度稀疏 (剛開始訓練的時候大部分生成都超過了預設長度)
對于這些問題,DLER 提出了一套簡單卻強大的強化學習訓練配方:
- Advantage normalization with local mean and batch std:替代 GRPO,穩定訓練信號,避免因截斷懲罰帶來的高方差。
- Higher clip:提升高熵探索,防止模型「思想僵化」。
- Dynamic sampling:丟掉無效樣本,聚焦真正有價值的推理路徑。
- Truncation penalty:最簡單的「截斷懲罰」,不給超長輸出任何獎勵。
基于 DLER 這套訓練方法,得到的模型結果令人震驚。新模型產生的推理長度竟然可以減少 70% 以上,但準確率完全保持。在 AIME-24 數學基準上,DLER-Qwen-R1-7B 平均僅用 3230 Tokens 就達到 55.6% 準確率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。

DLER 不僅實現了回復問題更短的輸出,更是從另外角度增加了每 token 的智能含量。 在同樣的推理時間內,相比于傳統的推理模型只能生成一條冗長推理,DLER 模型能并行生成幾十條簡明推理,最終準確率比 DeepSeek-R1 高出近 50%。這一實驗也意味著高效推理才是 Test-time Scaling 的關鍵。
關鍵發現
DLER 的研究揭示了幾個顛覆性結論:
- 推理效率的提升,不取決于懲罰設計的復雜度,而取決于優化算法的選擇。
- 過去大家以為 RL 長度懲罰「必然掉準確率」,其實只是因為優化方法沒選對。
- 簡單的截斷懲罰 + 正確的優化器,就能讓模型學會「短而精」的思考方式。
更令人驚喜的是,DLER 不僅適用于小模型,在大模型上同樣奏效。研究團隊還提出了權重選擇性合并(magnitude-selective weight merging),解決了大模型用公開數據微調時的性能下降問題:既能恢復全部準確率,又能保持近一半的長度壓縮。
總結
這項來自 NVIDIA 的最新工作,讓我們重新認識了推理模型的未來方向。首先,推理模型不能只是一味拉長推理鏈條,而是需要更聰明、更高效地思考。其次,通過 DLER,模型能以更少的 Tokens、更短的時間,做到更高的準確率。 如果說之前的研究 ProRL 讓模型「開竅」,那么 DLER 就是幫模型「瘦身健身」,讓它們更快、更強、更實用。未來在實際部署中,DLER 無疑會成為讓推理模型真正落地的關鍵技術之一。

































