大模型刷數(shù)學(xué)題竟有害?CMU評(píng)估20+模型指出訓(xùn)練陷阱
學(xué)好數(shù)理化,走遍天下都不怕!
這一點(diǎn)這在大語(yǔ)言模型身上也不例外。
大家普遍認(rèn)同:具備更強(qiáng)數(shù)學(xué)能力的模型往往也更智能。
但,常識(shí)就是用來(lái)打破的。
最近,來(lái)自CMU的團(tuán)隊(duì)發(fā)現(xiàn),一些數(shù)學(xué)好的模型并沒(méi)有將它們的“天賦”帶到其他更加通用的領(lǐng)域。
研究發(fā)現(xiàn),只有用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型才能將數(shù)學(xué)推理技能廣泛遷移到其他任務(wù)上。而用監(jiān)督微調(diào)(SFT)訓(xùn)練的模型則表現(xiàn)出有限的遷移甚至沒(méi)有遷移。

網(wǎng)友直呼:又一個(gè)苦澀的教訓(xùn)(bitter lesson)。
這數(shù)學(xué)題,不做也罷?
很明顯,人們訓(xùn)練大模型并不只是讓它來(lái)做數(shù)學(xué)題的。
研究者之所以熱衷于提高模型的數(shù)學(xué)表現(xiàn),是因?yàn)橄M軌虬褦?shù)學(xué)那里學(xué)到的嚴(yán)密邏輯應(yīng)用到其他更廣泛的領(lǐng)域。
但在此之前,我們有必要知道,對(duì)于一個(gè)大模型,專(zhuān)門(mén)優(yōu)化數(shù)學(xué)推理(math reasoning),它在其他任務(wù)(推理任務(wù)、非推理任務(wù))上會(huì)變得更好,還是更差?
換句話(huà)說(shuō):做數(shù)學(xué)推理訓(xùn)練,會(huì)不會(huì)幫助或者損害模型在其他領(lǐng)域的能力?
為了解決這一疑問(wèn),研究評(píng)估了20多個(gè)模型在數(shù)學(xué)推理、其他推理任務(wù)(包含醫(yī)學(xué)推理、醫(yī)學(xué)推理、智能體規(guī)劃)和非推理任務(wù)(包含常識(shí)對(duì)話(huà)和遵循指令)上的表現(xiàn)。

實(shí)驗(yàn)先計(jì)算模型在每個(gè)benchmark任務(wù)上相比基線模型(Qwen3-14B-Base)的性能提升幅度,再將這個(gè)提升除以基線模型在該任務(wù)上的分?jǐn)?shù),以此得到相對(duì)提升的百分比,最后對(duì)同一組內(nèi)所有任務(wù)的相對(duì)提升求均值,得到該任務(wù)組整體的相對(duì)增益。
為了更好地定量評(píng)估這個(gè)“遷移能力”,研究還提出了遷移能力指標(biāo)(Transferability Index,TI)。

通過(guò)“其他推理”或“非推理”任務(wù)組的相對(duì)增益,分別除以數(shù)學(xué)任務(wù)組的相對(duì)增益。這樣,TI就清晰反映了數(shù)學(xué)能力的提升在多大程度上能遷移到其他領(lǐng)域。
如果TI大于0,說(shuō)明對(duì)其他任務(wù)有正遷移效應(yīng),若小于0,則意味著負(fù)遷移。

實(shí)驗(yàn)結(jié)果表明,模型的遷移能力與微調(diào)方法、模型規(guī)模以及架構(gòu)有關(guān),但其中微調(diào)方法是最關(guān)鍵的因素。
具體而言,采用RL微調(diào)的模型,在其他推理任務(wù)和非推理任務(wù)上都能持續(xù)獲得更高的遷移能力指標(biāo),而使用SFT的模型則往往在非推理任務(wù)上出現(xiàn)負(fù)遷移。
再進(jìn)一步的對(duì)照實(shí)驗(yàn)中,研究采用相同數(shù)據(jù)集和基線模型驗(yàn)證了在其他條件完全一致的情況下,純粹因?yàn)槲⒄{(diào)方式的不同,才產(chǎn)生了性能和遷移能力的顯著差異。
RL的又一次勝利
為了理解不同微調(diào)方法在遷移能力上產(chǎn)生差異的原因,研究進(jìn)一步探索了模型內(nèi)部的表征,將特定領(lǐng)域的查詢(xún)和答案分別輸入到基礎(chǔ)模型和微調(diào)模型中,并對(duì)隱藏層表示(hidden representations)進(jìn)行PCA偏移分析。
通俗來(lái)說(shuō),通過(guò)PCA偏移分析,就能夠得知模型在后訓(xùn)練階段,究竟是既保留了原有的知識(shí),又在具體領(lǐng)域變得更強(qiáng)了,還是學(xué)了新的就忘了舊的。

PAC分析表明,RL微調(diào)模型在表征空間上的偏移最小。這就意味著,相較于SFT,采用RL進(jìn)行微調(diào)的模型在提升專(zhuān)門(mén)領(lǐng)域表現(xiàn)的同時(shí),還保留了之前學(xué)習(xí)到的能力。

同樣的,Token分布偏移分析表明RL訓(xùn)練選擇性地調(diào)整了邏輯結(jié)構(gòu)詞條。而SFT會(huì)同時(shí)擾亂邏輯和不相關(guān)的詞條,從而可能損害泛化能力。

此外,RL模型在推理和非推理任務(wù)上的KL散度均顯著低于SFT模型(KL散度越高,偏移越大)。
這表明,在Token概率分布層面,RL相比SFT發(fā)生的分布偏移更小。同時(shí),RL還表現(xiàn)出更低的Token排名偏移(tokenrankshift)。
由此,相較于SFT,RL夠帶來(lái)更具體、更穩(wěn)定、更精準(zhǔn)的表征更新,從而實(shí)現(xiàn)更強(qiáng)的遷移能力與泛化性。
RL實(shí)現(xiàn)了它在LLM的又一次勝利,也預(yù)示著強(qiáng)化學(xué)習(xí)似乎是真正實(shí)現(xiàn)可遷移推理發(fā)展的關(guān)鍵。
論文地址:
https://arxiv.org/abs/2507.00432




































