監(jiān)督學(xué)習(xí)也能從錯(cuò)誤中學(xué)習(xí)反思?!清華英偉達(dá)聯(lián)合提出隱式負(fù)向策略爆炸提升數(shù)學(xué)能力
監(jiān)督學(xué)習(xí)也能像強(qiáng)化學(xué)習(xí)一樣進(jìn)行“自我反思”了。
清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎(chǔ)上通過構(gòu)造一個(gè)“隱式負(fù)向模型” 來(lái)額外利用負(fù)向數(shù)據(jù)進(jìn)行訓(xùn)練。
這并不意味著使用“差數(shù)據(jù)”進(jìn)行訓(xùn)練,而是在已知的模型計(jì)算結(jié)果前提下,通過負(fù)向數(shù)據(jù)訓(xùn)練正向模型,即“隱式負(fù)向策略(Implicit Negative Policy)”。
這一策略彌合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的差距,使得兩者性能基本持平。
△架構(gòu)圖語(yǔ)言模型在線強(qiáng)化算法光譜圖
更讓人驚訝的是,NFT損失函數(shù)梯度和GRPO在On-Policy條件下是等價(jià)的!這意味著,GRPO中人為經(jīng)驗(yàn)設(shè)置的“Group Relative Normalization”方案,可以直接通過理論推導(dǎo)自然得出。
方法:負(fù)向策略計(jì)算出正向模型
NFT定義了一個(gè)在線強(qiáng)化過程:
1.數(shù)據(jù)采樣:語(yǔ)言模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個(gè)01獎(jiǎng)勵(lì)函數(shù),把答案分為正確和錯(cuò)誤兩類,并統(tǒng)計(jì)每個(gè)問題回答準(zhǔn)確率[數(shù)學(xué)公式]。
2.隱式策略建模:利用原始模型和待訓(xùn)練正向模型,構(gòu)造一個(gè)隱式負(fù)向策略來(lái)建模負(fù)向數(shù)據(jù)。
3.策略優(yōu)化:在正確數(shù)據(jù)上,直接監(jiān)督訓(xùn)練正向策略模型;在錯(cuò)誤數(shù)據(jù)上,通過用隱式負(fù)向策略擬合建模,達(dá)到直接優(yōu)化正向策略模型的目的。

考慮這樣一個(gè)監(jiān)督學(xué)習(xí)基線:Rejection sampling Finetuning(RFT)。每一輪,研究團(tuán)隊(duì)讓模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個(gè)01獎(jiǎng)勵(lì)函數(shù),把所有模型產(chǎn)生的錯(cuò)誤答案丟棄,僅在高質(zhì)量正向數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練。RFT中,研究團(tuán)隊(duì)每一輪的訓(xùn)練目標(biāo)是:

問題關(guān)鍵在于:能否在負(fù)向數(shù)據(jù)上監(jiān)督訓(xùn)練,也同樣得到上面的“正向策略”呢?
乍看上去是不可能的,在負(fù)向數(shù)據(jù)上訓(xùn)練只能得到?jīng)]有用的“負(fù)向策略”。
然而,問題的轉(zhuǎn)折點(diǎn)在于,數(shù)據(jù)是已知模型在線采樣的,也就是正負(fù)向數(shù)據(jù)分布的和是已知的。由貝葉斯公式可知以下線性關(guān)系:

這說(shuō)明,假設(shè)真能在負(fù)向數(shù)據(jù)上學(xué)習(xí)到一個(gè)“負(fù)向策略”,可以把這個(gè)負(fù)向策略和原始生成策略結(jié)合,“計(jì)算”得出想要的正向模型。
在實(shí)際操作中,不是真的去學(xué)習(xí)一個(gè)“差模型”。研究團(tuán)隊(duì)提出“隱式負(fù)向策略”(Implicit Negative Policy),可以直接在負(fù)向數(shù)據(jù)上訓(xùn)練正向策略??捎靡韵卤磉_(dá)式來(lái)參數(shù)化隱式負(fù)向模型:

其中rq 表示模型在回答問題q時(shí)的正確率,現(xiàn)實(shí)中由于模型對(duì)一個(gè)問題會(huì)產(chǎn)生多個(gè)回答,我們可以很容易地估計(jì)rq 。這里表明隱式負(fù)向策略不是一個(gè)靜態(tài)的模型,而是基于不同難度的問題動(dòng)態(tài)構(gòu)造的。
因此,NFT損失函數(shù)就可以表達(dá)為:

對(duì)以上損失函數(shù)直接求導(dǎo),研究團(tuán)隊(duì)在嚴(yán)格On-policy條件下得到和GRPO等價(jià)的梯度表達(dá)式。
這暗示了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)或許存在深層的聯(lián)系,也直接說(shuō)明NFT是一個(gè)絕對(duì)可靠的算法,最差也是退回On-Policy訓(xùn)練和GRPO等價(jià)。
結(jié)果:監(jiān)督強(qiáng)化學(xué)習(xí)方案性能持平,負(fù)向反饋在大模型中優(yōu)勢(shì)更加明顯
NFT和當(dāng)下性能最優(yōu)的強(qiáng)化學(xué)習(xí)算法性能持平,部分場(chǎng)景下可能更有優(yōu)勢(shì)(可以在現(xiàn)有監(jiān)督學(xué)習(xí)框架基礎(chǔ)上簡(jiǎn)單實(shí)現(xiàn))。
與主流RLHF算法對(duì)比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團(tuán)隊(duì)還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負(fù)向反饋在大模型中承擔(dān)更重要的作用。

和其他已有的基于Qwen-7B zero style訓(xùn)練模型相比,NFT達(dá)到最高的數(shù)學(xué)平均成績(jī)。

作為一個(gè)純監(jiān)督學(xué)習(xí)算法,NFT不依賴任何外界數(shù)據(jù),可實(shí)現(xiàn)數(shù)學(xué)能力的大幅提升。
△架構(gòu)圖NFT在Qwen-7B(左)和32B模型(右)上性能表現(xiàn)及對(duì)比
研究團(tuán)隊(duì)還發(fā)現(xiàn)NFT算法在不損失性能條件下有利于模型熵增加,鼓勵(lì)模型充分探索。

NFT算法指出并彌合了強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的本質(zhì)差異,這暗示兩套機(jī)器學(xué)習(xí)理論存在深層聯(lián)系,可以幫助研究者重新定位、思考和放大強(qiáng)化訓(xùn)練的本質(zhì)優(yōu)勢(shì)。
項(xiàng)目網(wǎng)頁(yè): https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/
論文鏈接: https://arxiv.org/pdf/2505.18116
項(xiàng)目代碼: https://github.com/NVlabs/NFT

































