精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達(dá)笑到最后!訓(xùn)練2000步,1.5B逆襲7B巨獸,Scaling真來了

人工智能 新聞
強(qiáng)化學(xué)習(xí)可以提升LLM推理嗎?英偉達(dá)ProRL用超2000步訓(xùn)練配方給出了響亮的答案。僅15億參數(shù)模型,媲美Deepseek-R1-7B,數(shù)學(xué)、代碼等全面泛化。

強(qiáng)化學(xué)習(xí)Scaling來了!

剛剛,英偉達(dá)團(tuán)隊提出全新訓(xùn)練方法——ProRL,成功將RL擴(kuò)展到2000步。

圖片

論文鏈接:https://arxiv.org/abs/2505.24864

并且,它通過跨領(lǐng)域訓(xùn)練數(shù)據(jù),包括數(shù)學(xué)、代碼、STEM、謎題、指令遵循,實(shí)現(xiàn)了泛化能力。

圖片

基于此方法,研究團(tuán)隊訓(xùn)出的1.5B模型,性能直接媲美Deepseek-R1-7B!

這證實(shí)了,通過長時間訓(xùn)練,RL確實(shí)能解鎖全新推理能力。

圖片

這就是強(qiáng)化學(xué)習(xí)的Scaling Law:強(qiáng)化學(xué)習(xí)訓(xùn)練越長,LLM推理能力越強(qiáng)。

黃仁勛很高興,畢竟在年初他就提出了所謂的「三大AI Scaling Law」。

圖片

預(yù)訓(xùn)練Scaling Law馬上觸頂,后訓(xùn)練Scaling Law正在發(fā)力。

而強(qiáng)化學(xué)習(xí)Scaling需要更多的算力,對英偉達(dá)而言就是商機(jī)和利潤。

圖片

后訓(xùn)練拓展(Post-training scaling)利用微調(diào)(fine-tuning)、剪枝(pruning)、蒸餾(distillation)和強(qiáng)化學(xué)習(xí)等技術(shù),優(yōu)化預(yù)訓(xùn)練模型,從而提升模型的效率和任務(wù)適應(yīng)性。

這次研究的主要發(fā)現(xiàn):

  • 性能顯著提升:在數(shù)學(xué)、編程、邏輯謎題、STEM推理和指令跟隨等任務(wù)中,ProRL訓(xùn)練的模型在pass@1指標(biāo)上分別提升了14.7%、13.9%、54.8%、25.1%和18.1%。
  • 發(fā)現(xiàn)新穎解法:ProRL訓(xùn)練的模型在某些任務(wù)中表現(xiàn)出前所未有的推理路徑,甚至在基準(zhǔn)模型完全失敗的情況下也能成功解決問題,顯示出其探索新解法的能力。
  • 持續(xù)訓(xùn)練帶來持續(xù)收益:即使經(jīng)過2000多步的訓(xùn)練,模型性能仍在提升,表明長時間的RL訓(xùn)練可以不斷擴(kuò)展模型的推理邊界。

強(qiáng)化學(xué)習(xí)Scaling

只要2000步

近來,許多人質(zhì)疑RL是否真正提升模型的推理能力。甚至,有研究聲稱RL無法為基礎(chǔ)模型帶來新的推理技能。

這些觀點(diǎn)認(rèn)為,RL的效果受限,主要源自以下問題:

1. 訓(xùn)練領(lǐng)域過于狹窄:比如過度聚焦于數(shù)學(xué)等特定領(lǐng)域,導(dǎo)致模型難以泛化。

2. 訓(xùn)練時間不足:許多強(qiáng)化學(xué)習(xí)訓(xùn)練僅在數(shù)百步后就停止,遠(yuǎn)未挖掘出真正的潛力。

這些限制,讓人們誤以為RL無法突破基礎(chǔ)模型的推理邊界。但事實(shí)證明,并非如此。

英偉達(dá)這項突破性研究,帶來了振奮人心的答案:

只要將RL訓(xùn)練足夠久,AI推理能力就能實(shí)現(xiàn)質(zhì)的飛躍!

ProRL便成為了突破2000步的強(qiáng)化學(xué)習(xí)新配方,通過KL懲罰和定期參考策略重置,解決了長期以來存在的兩大難題——熵崩潰和訓(xùn)練不穩(wěn)定性。

圖片

論文中利用ProRL,作者打造了僅15億參數(shù)推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。

ProRL的核心突破在于,它讓模型能夠在新穎任務(wù)中,發(fā)現(xiàn)基礎(chǔ)模型完全無法企及的解決方案。

結(jié)果顯示,在數(shù)學(xué)、代碼、STEM、謎題和指令遵循方面,1.5B模型實(shí)現(xiàn)了超強(qiáng)泛化能力,完全不輸Deepseek-R1-7B。

另外,在許多測試中,基礎(chǔ)模型即使經(jīng)過大量采樣也完全失敗,而ProRL訓(xùn)練的模型卻能實(shí)現(xiàn)100%通過率。

尤其是,在高難度任務(wù)和域外任務(wù)上,ProRL訓(xùn)練的模型表現(xiàn)出色。這表明了推理能力真正Scaling,并內(nèi)化了超越訓(xùn)練數(shù)據(jù)的抽象推理模式。

圖片

以Codeforce任務(wù)為例,RL后模型的解法發(fā)布更加廣泛,展現(xiàn)出更高的多樣性。

而對于全新的family_relationships任務(wù),模型從幾乎全0通過率,躍升至完美準(zhǔn)確率,成功發(fā)現(xiàn)了全新的解法路徑。

接下來,一起看看ProRL方法如何實(shí)現(xiàn)的?為何2000步能帶來如此顯著變化?

關(guān)鍵在于策略優(yōu)化的底層機(jī)制:GRPO與KL正則的協(xié)同進(jìn)化,為強(qiáng)化學(xué)習(xí)注入了穩(wěn)定與多樣性。

改造GRPO

「三板斧」解決熵坍縮

在策略優(yōu)化訓(xùn)練時間較長時,主要難題是熵坍縮。

熵坍縮指的是模型輸出的概率分布在訓(xùn)練早期就變得非常集中,導(dǎo)致輸出熵迅速下降。

當(dāng)熵坍縮發(fā)生時,策略會過早地固定在少量輸出上,嚴(yán)重限制了探索性。

對于GRPO(Group Relative Policy Optimization,組相對策略優(yōu)化)這樣的RL算法來說,多樣化的輸出樣本是估算相對優(yōu)勢的基礎(chǔ),因此探索受限會使學(xué)習(xí)信號偏差,訓(xùn)練難以繼續(xù)有效推進(jìn)。

提高采樣的溫度,雖然可以延緩熵坍縮的發(fā)生,但隨著訓(xùn)練的進(jìn)行,熵仍會持續(xù)下降。

這次,研究團(tuán)隊徹底改造了GRPO方法。

與傳統(tǒng)的RL算法Proximal Policy Optimization(PPO)相比,GRPO移除了值函數(shù)模型,基于一組樣本的得分來估算基線,降低了算力需求。

GRPO的優(yōu)化目標(biāo)如下:

圖片

τ是當(dāng)前策略πθ所采樣的響應(yīng),rθ(τ)表示當(dāng)前策略與舊策略的概率比。

GRPO中的優(yōu)勢函數(shù)(advantage)不依賴于PPO的價值網(wǎng)絡(luò)(critic),而是用同一組樣本{Ri}的得分來估算基線:

圖片

DAPO的啟發(fā)

開源的DAPO算法中的幾個關(guān)鍵組件,啟發(fā)了研究團(tuán)隊解決熵坍縮問題。

圖片

論文鏈接:https://arxiv.org/abs/2503.14476

首先,DAPO引入了「解耦剪輯」機(jī)制,在PPO的目標(biāo)函數(shù)中將上下剪輯邊界視為兩個獨(dú)立的超參數(shù):

圖片

通過將?_high設(shè)置為較高值,算法鼓勵「向上剪輯」(clip-higher),即提升原本概率較低的token的生成概率,從而擴(kuò)大模型的探索范圍。

他們發(fā)現(xiàn),這種調(diào)整有助于保持輸出熵,并減少過早的模式坍縮現(xiàn)象。

此外,DAPO還采用了「動態(tài)采樣」策略,即過濾掉那些模型總是成功(準(zhǔn)確率為1)或總是失敗(準(zhǔn)確率為0)的提示語。這些示例無法提供有效的學(xué)習(xí)信號。

相反,訓(xùn)練更集中在「中等難度」的樣本上,有助于保持多樣化的學(xué)習(xí)信號,推動模型持續(xù)進(jìn)步。

顯式正則化:更強(qiáng)、更穩(wěn)定

盡管DAPO機(jī)制和調(diào)整采樣溫度可以在一定程度上減緩熵坍縮,但引入顯式正則化方法KL散度懲罰項,能夠提供更強(qiáng)、更穩(wěn)定的解決方案

具體而言,研究團(tuán)隊在當(dāng)前策略πθ和參考策略πref之間加入KL散度懲罰:

圖片

這個懲罰項不僅有助于維持策略的熵,還起到了正則化的作用,防止當(dāng)前策略過度偏離一個穩(wěn)定的參考策略,從而提升訓(xùn)練穩(wěn)定性,避免模型過擬合于某些虛假的獎勵信號。

此外,隨著訓(xùn)練推進(jìn),KL懲罰項可能在損失函數(shù)中占比過高,從而抑制策略更新的步幅。

為了解決這個問題,研究團(tuán)隊引入了一種簡單但有效的方法:參考策略重置(Reference Policy Reset)

具體做法是:定期將參考策略πref硬性重置為當(dāng)前策略πθ的最近快照,并重新初始化優(yōu)化器的狀態(tài)。

這種機(jī)制既能讓模型繼續(xù)改進(jìn),又能保留KL正則化帶來的穩(wěn)定性。在整個訓(xùn)練過程中反復(fù)應(yīng)用這種重置策略,以防模型過早收斂,同時鼓勵更長時間的有效訓(xùn)練。

全面泛化

1.5B刷新SOTA

借助穩(wěn)定的獎勵計算機(jī)制、改進(jìn)版GRPO算法以及延長的訓(xùn)練過程,在不同任務(wù)上,新模型Nemotron-Research-Reasoning-Qwen-1.5B都展現(xiàn)出強(qiáng)大的泛化能力。

圖片

項目鏈接:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

在以下領(lǐng)域,新模型均顯著優(yōu)于基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-1.5B

  • 數(shù)學(xué):提升+15.7%
  • 編程:提升+14.4%
  • STEM推理:提升+25.9%
  • 指令遵循:提升+22.0%
  • 文字邏輯謎題(Reasoning Gym):提升+54.8%

圖片

此外,在數(shù)學(xué)(+4.6%)和編程(+6.5%)兩個領(lǐng)域,新模型也超越了專門針對特定任務(wù)訓(xùn)練的領(lǐng)域?qū)S没€模型,充分體現(xiàn)了通用型強(qiáng)化學(xué)習(xí)(Prolonged RL)訓(xùn)練方法的有效性。

實(shí)驗設(shè)置

為了驗證假設(shè),研究團(tuán)隊構(gòu)建了多樣化且可驗證的訓(xùn)練數(shù)據(jù)集,共包含約13.6萬個樣本,涵蓋五個任務(wù)領(lǐng)域:數(shù)學(xué)(math)、編程(code)、理工類(STEM)、邏輯謎題(logical puzzles)和指令遵循(instruction following)。

每種任務(wù)類型都配有清晰的獎勵信號(可為二值或連續(xù)值),從而在訓(xùn)練過程中提供可靠反饋。

圖片

表4:這次研究中使用的訓(xùn)練數(shù)據(jù)概覽

為了實(shí)現(xiàn)有效的長周期強(qiáng)化學(xué)習(xí)訓(xùn)練,他們在融合的驗證集(從評估基準(zhǔn)集中抽樣)實(shí)時監(jiān)控訓(xùn)練進(jìn)展。

當(dāng)驗證集表現(xiàn)停滯或下降時,他們會對參考模型和優(yōu)化器進(jìn)行硬性重置,以恢復(fù)訓(xùn)練穩(wěn)定性,并允許策略進(jìn)一步偏離初始基礎(chǔ)模型。

在訓(xùn)練的大部分時間里,響應(yīng)長度被限制在8000個token內(nèi),保證生成結(jié)果簡潔穩(wěn)定。

在訓(xùn)練的最后階段(約200個步驟),上下文窗口token總數(shù)擴(kuò)大到16000。

研究團(tuán)隊觀察到模型能夠迅速適應(yīng),并取得了可觀的性能提升。

圖2展示了在多階段擴(kuò)展強(qiáng)化學(xué)習(xí)過程中,訓(xùn)練動態(tài)的關(guān)鍵統(tǒng)計數(shù)據(jù)。

DAPO的多項增強(qiáng)策略,結(jié)合KL散度損失,有效防止了模型出現(xiàn)熵坍縮現(xiàn)象。

盡管觀察到平均響應(yīng)長度與驗證集得分之間存在一定的正相關(guān)關(guān)系,但這一因素并非決定性,因為在某些訓(xùn)練階段,即使響應(yīng)長度沒有明顯增加,性能依然有所提升。

與此同時,驗證性能(通過pass@1和pass@16指標(biāo)衡量)持續(xù)改善,并隨著訓(xùn)練計算量的增加而穩(wěn)步提升。

圖片

下圖8展示了整個訓(xùn)練過程中KL散度的變化情況。

圖片

實(shí)驗利用開源項目reasoning-gym進(jìn)行。

項目鏈接:https://github.com/open-thought/reasoning-gym

評測結(jié)果分析

在多個領(lǐng)域?qū)?/span>DeepSeek-R1-Distill-Qwen-1.5B基礎(chǔ)模型與Nemotron-Research-Reasoning-Qwen-1.5B,研究團(tuán)隊進(jìn)行了全面對比。

新模型在所有數(shù)學(xué)推理基準(zhǔn)測試中均穩(wěn)定超越基礎(chǔ)模型,平均提升15.7%(見表1)。

在復(fù)雜數(shù)學(xué)推導(dǎo)任務(wù)中展現(xiàn)出更強(qiáng)的邏輯連貫性。

圖片

在競技編程任務(wù)(pass@1準(zhǔn)確率)中提升14.4%,尤其擅長處理算法優(yōu)化與邊界條件判斷(見表2)。

圖片

在STEM推理與指令跟隨測試中,GPQA Diamond基準(zhǔn)成績提升25.9%;IFEval指令理解任務(wù)提升22.0%(見表3左側(cè))。

在邏輯謎題(Reasoning Gym)測試中,在基礎(chǔ)模型普遍受困于格式解析與復(fù)雜子任務(wù)的場景下,獎勵分?jǐn)?shù)提升54.8%。

新模型展現(xiàn)出優(yōu)異的非結(jié)構(gòu)化問題分解能力(見表3左側(cè))。

即便與參數(shù)量更大的DeepSeek-R1-Distill-Qwen-7B相比,1.5B新模型在多數(shù)領(lǐng)域表現(xiàn)相當(dāng)甚至更優(yōu),驗證了ProRL方法的高效性。

圖片

關(guān)鍵發(fā)現(xiàn):強(qiáng)化學(xué)習(xí)訓(xùn)練不僅全面提升模型在各專業(yè)領(lǐng)域的表現(xiàn),更在基礎(chǔ)模型原本失效的任務(wù)上實(shí)現(xiàn)突破性進(jìn)展,證實(shí)了該方法對模型本質(zhì)推理能力的拓展作用。

分布外任務(wù)(OOD)泛化能力

表3(右側(cè))展示了新模型在Reasoning Gym中多個分布外(OOD)任務(wù)上的表現(xiàn)。

模型在三項OOD任務(wù)中均取得顯著提升,展現(xiàn)出強(qiáng)大的泛化能力。這表明新的訓(xùn)練方法有助于模型應(yīng)對未知挑戰(zhàn)。

與領(lǐng)域?qū)S媚P偷膶Ρ?/strong>

研究團(tuán)隊對比了Nemotron-Research-Reasoning-Qwen-1.5B與兩個專門面向某一領(lǐng)域的基準(zhǔn)模型:DeepScaleR-1.5B(數(shù)學(xué)推理)、DeepCoder-1.5B(編程任務(wù))。

下表2顯示,基于ProRL訓(xùn)練的模型具備強(qiáng)泛化能力,在:

  • 數(shù)學(xué)任務(wù)中提升+4.6%
  • 編程任務(wù)中提升+6.5%

圖片

此外,ProRL使模型能在較短響應(yīng)長度內(nèi)完成更深入的推理與優(yōu)化,相比之下,現(xiàn)有方法往往過早增加響應(yīng)長度,導(dǎo)致「過度思考」(overthinking)并生成冗長啰嗦的推理內(nèi)容。

實(shí)驗分析

這次的主要分析結(jié)論如下:

(1)強(qiáng)化學(xué)習(xí)在擴(kuò)展模型推理邊界(以pass@128衡量)方面的效果,與  基礎(chǔ)模型的初始能力  密切相關(guān)。

(2)強(qiáng)化學(xué)習(xí)確實(shí)能夠顯著擴(kuò)展模型的推理能力,尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。 

(3)強(qiáng)化學(xué)確實(shí)可以擴(kuò)展LLM推理邊界,能夠推廣到訓(xùn)練中未見的分布外任務(wù)。 

(4)新方法ProRL不僅提高了平均pass@1,還足以彌補(bǔ)訓(xùn)練中可能帶來的輸出方差增加,從而整體提升pass@k上限,推動推理能力的實(shí)質(zhì)躍升。

起點(diǎn)越弱,收益越大

這次研究的一個關(guān)鍵發(fā)現(xiàn)是:強(qiáng)化學(xué)習(xí)在擴(kuò)展模型推理邊界(以pass@128衡量)方面的效果,與基礎(chǔ)模型的初始能力密切相關(guān)。

如圖3所示,研究團(tuán)隊觀察到基礎(chǔ)模型的推理邊界越弱,其在經(jīng)過RL訓(xùn)練后的推理提升越顯著,二者呈現(xiàn)出明顯的負(fù)相關(guān)關(guān)系

具體來說:

  • 對于基礎(chǔ)模型原本表現(xiàn)較好的任務(wù)(即初始pass@128較高),RL訓(xùn)練后的推理廣度提升有限,甚至可能出現(xiàn)負(fù)增長。這表明模型更傾向于在已掌握的解法中增強(qiáng)信心,而非探索新的推理路徑,導(dǎo)致推理邊界變得更「窄」。
  • 相反,在基礎(chǔ)模型本身較弱、初始pass@128較低的領(lǐng)域中,ProRL的效果最為顯著。此時,RL不僅提高了pass@1準(zhǔn)確率,還顯著增強(qiáng)了模型在更廣泛推理路徑上的探索和成功能力。

為進(jìn)一步驗證這種現(xiàn)象,他們引入了「創(chuàng)造力指數(shù)」(creativity index),衡量基礎(chǔ)模型在每個任務(wù)中的響應(yīng)與最大規(guī)模開源預(yù)訓(xùn)練語料庫DOLMA之間的重合度。

結(jié)果表明,那些在RL訓(xùn)練后幾乎沒有提升的任務(wù),其創(chuàng)造力指數(shù)普遍較低——

尤其是一些數(shù)學(xué)和編程任務(wù)(圖中用圓圈標(biāo)出)。

這表明基礎(chǔ)模型在預(yù)訓(xùn)練期間已經(jīng)接觸過大量相似內(nèi)容,因而對這些任務(wù)「熟悉」,也更難通過RL獲得進(jìn)一步提升。

圖片

圖3:左:在基礎(chǔ)模型最初難以應(yīng)對的任務(wù)上,ProRL最能有效地擴(kuò)展模型的推理邊界。右:圓圈中標(biāo)出的那些經(jīng)過強(qiáng)化學(xué)習(xí)(RL)后收益最小的任務(wù)通常具有較低的創(chuàng)造力指數(shù)

解構(gòu)ProRL的推理邊界

他們逐一分析了各個評估基準(zhǔn)任務(wù)的訓(xùn)練表現(xiàn),并根據(jù)訓(xùn)練過程中pass@k的變化趨勢,把它們分類。

結(jié)果表明,強(qiáng)化學(xué)習(xí)確實(shí)能夠顯著擴(kuò)展模型的推理能力,尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。

具體來說:

  • 一些任務(wù)在訓(xùn)練初期就出現(xiàn)了性能飽和甚至推理能力退化的現(xiàn)象;
  • 但也有不少任務(wù)展現(xiàn)出隨著訓(xùn)練持續(xù)而不斷提升的趨勢,說明ProRL能幫助模型不斷探索并掌握更復(fù)雜的推理策略。

最顯著的例子是代碼生成任務(wù),在這一領(lǐng)域,ProRL能夠帶來持續(xù)性的性能提升。這表明,延長訓(xùn)練時間使模型有機(jī)會深入探索,并逐步內(nèi)化更復(fù)雜的推理模式。

整體來看,這些結(jié)果說明:在合適的訓(xùn)練條件下,ProRL不僅能優(yōu)化模型當(dāng)前的表現(xiàn),還能突破基礎(chǔ)模型的推理上限,推動模型在推理能力上的持續(xù)進(jìn)步。

圖片

在評估過程中發(fā)現(xiàn),ProRL對不同任務(wù)的推理邊界影響存在顯著差異,主要可分為以下三類情況:

1. 推理邊界退化(Diminished Reasoning Boundary)

在部分任務(wù)中(尤其是數(shù)學(xué)領(lǐng)域),Nemotron-Research-Reasoning-Qwen-1.5B的推理能力相比基礎(chǔ)模型有所下降或保持不變,這一現(xiàn)象也與先前研究中的觀察結(jié)果一致。

2. RL收益早期飽和(Gains Plateau with RL)

對于這一類任務(wù),RL訓(xùn)練確實(shí)提升了pass@1和pass@128,說明推理能力有所增強(qiáng)。但這種提升大多出現(xiàn)在訓(xùn)練初期。

比較中間訓(xùn)練檢查點(diǎn)與最終模型可以看出,ProRL在訓(xùn)練后期幾乎不再帶來額外收益,表明模型對這類任務(wù)的學(xué)習(xí)潛力已很快達(dá)到飽和。

3. 持續(xù)收益(Sustained Gains from ProRL)

與上述情況相反,部分任務(wù)——尤其是更復(fù)雜的任務(wù),如代碼生成——在經(jīng)過長時間ProRL訓(xùn)練后,推理能力持續(xù)提升

這些任務(wù)通常需要模型在訓(xùn)練過程中對多樣化問題進(jìn)行充分探索,才能有效泛化到測試集。在此類任務(wù)上,ProRL顯著拓展了模型的推理邊界,展現(xiàn)出延長訓(xùn)練在復(fù)雜任務(wù)上的巨大潛力。

ProRL提升分布外推理能力

ProRL如何增強(qiáng)模型在分布外(Out-of-Distribution, OOD)任務(wù)上的泛化能力?

延長強(qiáng)化學(xué)習(xí)訓(xùn)練是否能夠顯著擴(kuò)展模型的推理邊界,尤其是在面對結(jié)構(gòu)上新穎語義上具有挑戰(zhàn)性、且在初始訓(xùn)練階段未曾接觸過的任務(wù)時?

這次研究試圖單獨(dú)評估長期RL更新的作用,觀察其是否能促使模型學(xué)習(xí)到更抽象、通用的推理策略,從而在陌生任務(wù)中也能表現(xiàn)出色。這是驗證ProRL是否具備「超出經(jīng)驗學(xué)習(xí)」能力的重要指標(biāo)。

分布外(OOD)任務(wù)評估

Reasoning Gym中選取了boxnet任務(wù)進(jìn)行評估,該任務(wù)在訓(xùn)練階段從未出現(xiàn)過,用于測試模型在完全陌生任務(wù)上的泛化能力。

如圖5所示:

  • 基礎(chǔ)模型在該任務(wù)上完全無法作答,表現(xiàn)出明顯的能力缺失。
  • 相比之下,經(jīng)過ProRL訓(xùn)練的模型展現(xiàn)出明顯的解題能力,說明其推理邊界得到了實(shí)質(zhì)性的擴(kuò)展,能夠推廣到訓(xùn)練中未見的分布外任務(wù)。

圖片

進(jìn)一步對比中期RL檢查點(diǎn)最終延長訓(xùn)練后的模型,研究者發(fā)現(xiàn)隨著訓(xùn)練持續(xù),模型在boxnet上的表現(xiàn)穩(wěn)步增強(qiáng),且在所有pass@k值上均有提升。

這一結(jié)果強(qiáng)有力地支持了以下結(jié)論:ProRL不僅提升模型在已知任務(wù)上的表現(xiàn),更促使模型內(nèi)化抽象的推理模式,具備超越具體訓(xùn)練數(shù)據(jù)與任務(wù)復(fù)雜度的泛化能力。

難度提升下的泛化能力評估

研究者進(jìn)一步在graph_color任務(wù)中評估模型在不同任務(wù)難度下的表現(xiàn)。

具體做法是通過生成不同節(jié)點(diǎn)數(shù)的圖結(jié)構(gòu)問題來調(diào)節(jié)任務(wù)難度:

  • 訓(xùn)練數(shù)據(jù)僅包含10個節(jié)點(diǎn)的圖
  • 測試數(shù)據(jù)則使用更大規(guī)模的圖,以評估模型在超出訓(xùn)練分布范圍下的泛化能力

圖6展示了不同模型在各個圖規(guī)模下的表現(xiàn)(pass@1為實(shí)線,pass@128為虛線)。結(jié)果顯示:

  • 隨著圖規(guī)模增大,任務(wù)復(fù)雜度指數(shù)級上升,各模型性能均有一定下降,這是合理預(yù)期;
  • 延長ProRL訓(xùn)練的模型在所有圖規(guī)模上始終顯著優(yōu)于基礎(chǔ)模型與中間檢查點(diǎn)模型,無論是pass@1還是pass@128。

圖片

這一發(fā)現(xiàn)表明:

  • ProRL不僅提升了模型在訓(xùn)練分布內(nèi)的準(zhǔn)確率
  • 增強(qiáng)了模型對更復(fù)雜、未見任務(wù)的穩(wěn)健性與泛化能力,即便任務(wù)的結(jié)構(gòu)復(fù)雜度大大超出原始訓(xùn)練范圍,模型依然能保持較強(qiáng)表現(xiàn)。

訓(xùn)練過程中pass@1分布如何演化?

已有研究表明:

  • 提高平均pass@1(期望值)可以提升pass@k上界
  • 而更高的方差則會削弱這個上限

圖片

與已有研究中觀察到的「訓(xùn)練過程中pass@k隨時間下降」的現(xiàn)象不同,這次的實(shí)驗結(jié)果(圖1)顯示:

  • pass@1和pass@16均隨著訓(xùn)練持續(xù)而持續(xù)提升;
  • 這種趨勢重現(xiàn)了OpenAI o1的RL訓(xùn)練中報告的scaling law

ProRL方法在多個任務(wù)上帶來了顯著的性能提升。

圖7(a)和圖7(b)展示了在代碼任務(wù)邏輯謎題任務(wù)中的pass@1分布變化:

  • 訓(xùn)練初期:模型輸出的pass@1分布主要集中在零附近,且呈現(xiàn)長尾分布
  • 訓(xùn)練后期:分布明顯整體右移,表明模型在更多樣本上的首個解答成功率大幅提升

具體案例:

  • Codeforces題目:訓(xùn)練后分布更寬,準(zhǔn)確率覆蓋面顯著擴(kuò)大
  • family_relationships任務(wù):作為一個新穎的推理任務(wù),該任務(wù)最初幾乎全部為零準(zhǔn)確率,但訓(xùn)練后出現(xiàn)集中于滿分(100%)的顯著峰值,表明模型成功學(xué)會了解題思路,能夠在大多數(shù)提示下正確作答

圖片

這些明顯的分布變化由延長RL訓(xùn)練驅(qū)動,說明:

ProRL不僅提高了平均pass@1,還足以彌補(bǔ)訓(xùn)練中可能帶來的輸出方差增加,從而整體提升pass@k上限,推動推理能力的實(shí)質(zhì)躍升。

作者簡介

圖片

圖片

Mingjie Liu,現(xiàn)任英偉達(dá)研究科學(xué)家,專注于電子設(shè)計自動化(EDA)領(lǐng)域的前沿研究。

他的研究領(lǐng)域主要涵蓋:人工智能與機(jī)器學(xué)習(xí)、模擬與混合信號集成電路。

他于2022年獲得德克薩斯大學(xué)奧斯汀分校UT-Austin電子與計算機(jī)工程博士學(xué)位。

在2018年,他獲得密歇根大學(xué)電子與計算機(jī)工程碩士學(xué)位。

2012年-2016年,他就讀于北京大學(xué)微電子專業(yè)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-07 02:25:00

DeepSeek模型訓(xùn)練GRPO

2023-11-27 09:59:52

英偉達(dá)AI芯片

2024-08-20 14:01:21

2024-06-03 10:43:34

2025-02-05 23:21:32

2025-04-27 08:54:00

英偉達(dá)開源模型

2025-08-20 09:28:53

2025-06-18 08:47:00

2025-05-06 09:55:00

2011-11-24 09:51:13

LinuxMint

2024-03-18 07:01:42

2025-06-04 13:56:06

英偉達(dá)訓(xùn)練模型

2025-07-31 08:45:00

模型AI開源

2025-07-14 09:00:00

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2025-02-11 16:17:42

2012-03-22 13:36:11

iPadKindle Fire

2011-06-08 14:09:59

噴墨打印機(jī)行情

2025-07-21 09:07:00

模型訓(xùn)練視頻

2024-03-25 08:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲另类在线一区| 日韩精品午夜视频| 亚洲第一级黄色片| 1024av视频| 无码国产精品一区二区免费16 | 大桥未久一区二区| 人妻精品一区一区三区蜜桃91| 每日更新成人在线视频| 北条麻妃久久精品| 色婷婷精品久久二区二区密| 欧美艳星kaydenkross| 中文字幕亚洲区| 国产亚洲精品美女久久久m| 欧美一级淫片免费视频黄| 五月综合激情| 日韩精品视频免费专区在线播放 | 美女网站视频一区| 亚洲精品免费在线观看| 国产日韩欧美综合精品| 中文字幕一区二区人妻| 精品69视频一区二区三区Q| 亚洲美女在线看| 午夜视频在线免费看| 欧美日韩国产观看视频| 自拍视频在线观看一区二区| 欧美在线一区二区三区四区| 国产黄色片免费观看| 日本中文字幕不卡| 91av网站在线播放| 欧美黑吊大战白妞| 国产探花一区在线观看| 亚洲国产福利在线| 久久久精品视频国产| 另类中文字幕国产精品| 精品动漫一区二区三区| 国产成人三级视频| h网站在线免费观看| 丁香六月综合激情| 91在线视频九色| 日韩黄色片网站| 夜夜爽av福利精品导航| 久99久在线视频| 国产传媒免费在线观看| 青青一区二区| 精品久久久久香蕉网| 91插插插影院| 香蕉成人在线| 欧美性生活久久| 久久久久久久久久久免费视频| 欧美亚洲天堂| 亚洲午夜视频在线| 国产91在线亚洲| 91中文在线| 亚洲人成网站精品片在线观看| 日韩欧美电影一区二区| 国产精品久久久久久久龚玥菲| 97久久超碰国产精品| 国产精选在线观看91| 亚洲精品久久久久久无码色欲四季 | 五月婷婷之综合激情| 日本欧美不卡| 在线观看91视频| 午夜两性免费视频| 亚洲精品第一| 欧美一卡二卡在线| 韩国三级hd中文字幕有哪些| 日韩精品视频一区二区三区| 日韩欧美国产三级电影视频| 波多野结衣三级视频| 加勒比色综合久久久久久久久| 亚洲精品一区在线观看| 日本道中文字幕| 香蕉久久99| 亚洲另类图片色| 2017亚洲天堂| 欧美一区亚洲| 国产综合在线视频| 久久国产视频精品| 日本午夜一区二区| 成人网址在线观看| 后进极品白嫩翘臀在线视频| 91免费在线视频观看| 少妇特黄a一区二区三区| 日本高清视频在线播放| 亚洲视频在线观看三级| 久久久国内精品| 午夜伦理福利在线| 精品视频在线免费观看| 国产成人强伦免费视频网站| 久久91在线| 尤物99国产成人精品视频| 中国毛片直接看| 亚洲激情影院| 国产精品丝袜视频| 性欧美18一19性猛交| 91色婷婷久久久久合中文| 亚洲国产综合自拍| 91高清视频在线观看| 在线观看免费一区| 野战少妇38p| 精品毛片免费观看| 久久久免费精品| 中文无码av一区二区三区| 国产精品99久| 日韩久久精品一区二区三区| 手机在线免费av| 在线视频国内自拍亚洲视频| 亚洲午夜精品在线观看| 欧美午夜精彩| 性欧美亚洲xxxx乳在线观看| 这里只有精品6| 91在线视频网址| 亚洲欧美日韩综合一区| 波多野结衣视频一区二区| 在线电影欧美成精品| 国产三级国产精品| 欧美日韩精选| 成人xvideos免费视频| 神马午夜电影一区二区三区在线观看| 国产精品久久福利| 欧美牲交a欧美牲交aⅴ免费下载| 日韩精品视频在线看| 伊人伊人伊人久久| 你懂的国产在线| 成人h版在线观看| 国产一二三四区在线观看| 亚洲欧美在线成人| 日韩国产一区三区| 国产午夜小视频| 国产精品一卡二卡| 一区二区三区四区久久| 不卡亚洲精品| 夜夜嗨av一区二区三区免费区| 日本中文字幕免费观看| 国产福利一区二区三区| 中文字幕在线乱| 亚洲欧美专区| 色偷偷噜噜噜亚洲男人的天堂| 中文字幕国产在线观看| 99久久婷婷国产| 全黄性性激高免费视频| www.丝袜精品| 欧美肥臀大乳一区二区免费视频| 国产理论片在线观看| 国产精品久久久久久久第一福利| 亚洲无吗一区二区三区| 成人羞羞在线观看网站| 国产精品流白浆视频| 国产爆初菊在线观看免费视频网站| 岛国av一区二区三区| 北岛玲一区二区| 亚洲视频大全| 欧美人与性禽动交精品| 伊人久久精品一区二区三区| 国产丝袜一区二区三区| 久久99国产综合精品免费| 久久久久久久久久久久久女国产乱| 国产a级片网站| 神马午夜久久| 日韩av电影在线免费播放| 韩国福利在线| 欧美色图天堂网| 永久免费未视频| 国产精品99久久久久久似苏梦涵| 国产女教师bbwbbwbbw| 国产精品欧美大片| 2019国产精品自在线拍国产不卡| 三级在线视频| 欧美视频自拍偷拍| 永久久久久久久| 国产69精品久久久久毛片| 一女被多男玩喷潮视频| 精品理论电影在线| 91久久嫩草影院一区二区| 波多野结衣在线观看| 精品小视频在线| 亚洲天堂免费av| 亚洲一区二区四区蜜桃| 亚洲最大成人网站| 秋霞午夜av一区二区三区| 强开小嫩苞一区二区三区网站| 大型av综合网站| 国产精品激情av电影在线观看| 麻豆网站在线看| 日韩av影视在线| 在线天堂中文字幕| 18成人在线观看| 亚洲少妇18p| 久久99精品久久久久婷婷| www.国产在线视频| 日韩伦理一区| 国产精品一区二区三区免费 | 欧美午夜电影在线播放| 乱h高h女3p含苞待放| 91免费版在线| 国产5g成人5g天天爽| 一区二区黄色| 国产制服91一区二区三区制服| 影视先锋久久| 粉嫩av免费一区二区三区| 日韩国产网站| 久久久久日韩精品久久久男男| 精品亚洲综合| 在线视频国内自拍亚洲视频| 国产三级在线观看完整版| www.亚洲色图.com| 波多野结衣天堂| 亚洲精选在线| 中文视频一区视频二区视频三区 | 日韩视频免费观看高清在线视频| 欧美色图一区二区| 久久婷婷一区二区三区| 在线观看免费的av| 国产欧美不卡| 国产精品久久..4399| 久久成人综合| 久久精品aaaaaa毛片| 91精品一久久香蕉国产线看观看| 国产成人精品优优av| caoporm免费视频在线| 亚洲欧美国产精品久久久久久久| 亚洲无码久久久久| 色综合久久综合| 久久香蕉精品视频| 中文字幕欧美日韩一区| 熟女人妻在线视频| 韩国三级电影一区二区| 欧洲熟妇精品视频| 99这里有精品| av免费观看网| 狠狠综合久久av一区二区老牛| 亚洲v国产v| 另类在线视频| 99视频国产精品免费观看| 一二区成人影院电影网| 欧美与黑人午夜性猛交久久久| 黄网站在线观| 欧美另类高清videos| 日韩在线资源| 亚洲精品日韩丝袜精品| 人成在线免费视频| 亚洲精品97久久| 成人久久久精品国产乱码一区二区| 91精品国产综合久久香蕉的特点| 国产偷人爽久久久久久老妇app| 欧美日韩国产丝袜另类| 国产一级av毛片| 亚洲国产美女搞黄色| 青青草成人免费| 亚洲男人天堂av网| 538精品在线观看| 亚洲欧美自拍偷拍| 亚洲女人久久久| 91免费版在线| 国产熟妇久久777777| 久久色成人在线| 国产在线观看无码免费视频| 久久精品亚洲精品国产欧美kt∨| 强伦人妻一区二区三区| 成人午夜伦理影院| 久久久久久久久久久久国产精品| 国产成人精品www牛牛影视| 老女人性生活视频| 99天天综合性| 好吊日免费视频| 久久久91精品国产一区二区三区| 先锋影音av在线| 国产精品伦理在线| 亚洲欧美精品久久| 国产欧美综合在线| 黄色a级片在线观看| 一个色综合av| 激情五月色婷婷| 91精品1区2区| 一区二区三区精| 欧美一区二区三区免费在线看| 可以免费看毛片的网站| 日韩av在线免费播放| 欧美另类自拍| 国产午夜精品全部视频在线播放| 色影院视频在线| 欧美成人精品xxx| 丝袜综合欧美| 日韩免费在线看| 只有精品亚洲| 国产精品久久一区二区三区| 国产欧美日韩精品一区二区三区 | 国产成人精品久久二区二区91 | 在线免费观看黄色| 免费97视频在线精品国自产拍| 免费在线观看的电影网站| 7m第一福利500精品视频| 国产一区一一区高清不卡| 国产专区精品视频| 最新国产精品精品视频| 日本在线观看一区二区| 亚洲国产精品久久久久蝴蝶传媒| 97超碰人人澡| 加勒比av一区二区| 亚洲精品激情视频| 欧美国产欧美综合| 希岛爱理中文字幕| 激情成人中文字幕| 一区二区精品视频在线观看| 欧美大胆人体bbbb| 91在线直播| 国产综合在线看| 国产精品xxx| 欧美日韩大片一区二区三区| 亚洲欧美在线专区| 少妇高清精品毛片在线视频 | 亚洲乱码日产精品bd| 久久精品无码av| 日韩一区二区麻豆国产| 理论视频在线| 午夜精品久久久久久久久久久久 | 国产精品久久久久久69| 欧美绝品在线观看成人午夜影视| 天天射天天色天天干| 最近的2019中文字幕免费一页| 亚洲无线看天堂av| 成人写真视频福利网| 婷婷精品在线观看| 欧美一区二区视频在线播放| 久久精品国产999大香线蕉| 久久人人爽人人爽人人片| 亚洲乱码精品一二三四区日韩在线 | 色视频在线观看| 欧美一区二区三区四区在线| 欧美日韩午夜电影网| 亚洲精品一区二区三区蜜桃久| 久久一区中文字幕| 中文文字幕文字幕高清| 亚洲精品成人精品456| 国产毛片毛片毛片毛片毛片| 一个色综合导航| 依依综合在线| 蜜桃视频日韩| 亚洲毛片网站| 成人免费看片载| 亚洲成在人线免费| 精品人妻一区二区三区换脸明星| 中文字幕亚洲综合久久筱田步美 | 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 91丨porny丨探花| 国产成人免费在线视频| 亚洲国产精品久| 日韩一卡二卡三卡国产欧美| 日本中文字幕电影在线免费观看 | 天天操夜夜操视频| 精品无人国产偷自产在线| av资源中文在线| 蜜桃视频在线观看成人| 99精品久久久| 亚洲の无码国产の无码步美| 亚洲国产欧美日韩另类综合| 亚洲精品人妻无码| 欧美高清视频在线| 日韩精品欧美大片| 青青视频在线播放| 久久免费美女视频| 一级黄色大毛片| 久久精品成人欧美大片| 在线不卡一区| 免费在线黄网站| 北条麻妃国产九九精品视频| 99热精品免费| 亚洲精品短视频| 青青青免费在线视频| 久久久久免费网| 男女视频一区二区| 黑人狂躁日本娇小| 欧美成人综合网站| 成人观看网址| 欧美日韩视频在线一区二区观看视频 | 97久久超碰国产精品电影| 色播视频在线播放| 在线播放日韩精品| 97久久中文字幕| 91xxx视频| 成人免费毛片高清视频| 久久亚洲精品国产| 久久韩剧网电视剧| 成人av资源网址| 激情网站五月天| 亚洲女同一区二区| 日本黄色一区二区三区| 欧美综合国产精品久久丁香| 国产精品88久久久久久| 日韩大尺度视频| 色老汉一区二区三区| 在线观看的av| 国产99午夜精品一区二区三区| 日韩不卡一区二区三区| www欧美com| 精品少妇一区二区三区免费观看 | 国产一二三在线观看| 成人欧美一区二区三区黑人| 国产午夜久久| 北条麻妃在线观看视频|