大模型刷數(shù)學(xué)題竟有害？CMU評(píng)估20+模型指出訓(xùn)練陷阱

2025-07-08 09:07:00

最近，來(lái)自CMU的團(tuán)隊(duì)發(fā)現(xiàn)，一些數(shù)學(xué)好的模型并沒(méi)有將它們的“天賦”帶到其他更加通用的領(lǐng)域。

學(xué)好數(shù)理化，走遍天下都不怕！

這一點(diǎn)這在大語(yǔ)言模型身上也不例外。

大家普遍認(rèn)同：具備更強(qiáng)數(shù)學(xué)能力的模型往往也更智能。

但，常識(shí)就是用來(lái)打破的。

最近，來(lái)自CMU的團(tuán)隊(duì)發(fā)現(xiàn)，一些數(shù)學(xué)好的模型并沒(méi)有將它們的“天賦”帶到其他更加通用的領(lǐng)域。

研究發(fā)現(xiàn)，只有用強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的模型才能將數(shù)學(xué)推理技能廣泛遷移到其他任務(wù)上。而用監(jiān)督微調(diào)（SFT）訓(xùn)練的模型則表現(xiàn)出有限的遷移甚至沒(méi)有遷移。

網(wǎng)友直呼：又一個(gè)苦澀的教訓(xùn)（bitter lesson）。

這數(shù)學(xué)題，不做也罷？

很明顯，人們訓(xùn)練大模型并不只是讓它來(lái)做數(shù)學(xué)題的。

研究者之所以熱衷于提高模型的數(shù)學(xué)表現(xiàn)，是因?yàn)橄Ｍ軌虬褦?shù)學(xué)那里學(xué)到的嚴(yán)密邏輯應(yīng)用到其他更廣泛的領(lǐng)域。

但在此之前，我們有必要知道，對(duì)于一個(gè)大模型，專(zhuān)門(mén)優(yōu)化數(shù)學(xué)推理（math reasoning），它在其他任務(wù)（推理任務(wù)、非推理任務(wù)）上會(huì)變得更好，還是更差？

換句話(huà)說(shuō)：做數(shù)學(xué)推理訓(xùn)練，會(huì)不會(huì)幫助或者損害模型在其他領(lǐng)域的能力？

為了解決這一疑問(wèn)，研究評(píng)估了20多個(gè)模型在數(shù)學(xué)推理、其他推理任務(wù)（包含醫(yī)學(xué)推理、醫(yī)學(xué)推理、智能體規(guī)劃）和非推理任務(wù)（包含常識(shí)對(duì)話(huà)和遵循指令）上的表現(xiàn)。

實(shí)驗(yàn)先計(jì)算模型在每個(gè)benchmark任務(wù)上相比基線模型（Qwen3-14B-Base）的性能提升幅度，再將這個(gè)提升除以基線模型在該任務(wù)上的分?jǐn)?shù)，以此得到相對(duì)提升的百分比，最后對(duì)同一組內(nèi)所有任務(wù)的相對(duì)提升求均值，得到該任務(wù)組整體的相對(duì)增益。

為了更好地定量評(píng)估這個(gè)“遷移能力”，研究還提出了遷移能力指標(biāo)（Transferability Index，TI)。

通過(guò)“其他推理”或“非推理”任務(wù)組的相對(duì)增益，分別除以數(shù)學(xué)任務(wù)組的相對(duì)增益。這樣，TI就清晰反映了數(shù)學(xué)能力的提升在多大程度上能遷移到其他領(lǐng)域。

如果TI大于0，說(shuō)明對(duì)其他任務(wù)有正遷移效應(yīng)，若小于0，則意味著負(fù)遷移。

實(shí)驗(yàn)結(jié)果表明，模型的遷移能力與微調(diào)方法、模型規(guī)模以及架構(gòu)有關(guān)，但其中微調(diào)方法是最關(guān)鍵的因素。

具體而言，采用RL微調(diào)的模型，在其他推理任務(wù)和非推理任務(wù)上都能持續(xù)獲得更高的遷移能力指標(biāo)，而使用SFT的模型則往往在非推理任務(wù)上出現(xiàn)負(fù)遷移。

再進(jìn)一步的對(duì)照實(shí)驗(yàn)中，研究采用相同數(shù)據(jù)集和基線模型驗(yàn)證了在其他條件完全一致的情況下，純粹因?yàn)槲⒄{(diào)方式的不同，才產(chǎn)生了性能和遷移能力的顯著差異。

RL的又一次勝利

為了理解不同微調(diào)方法在遷移能力上產(chǎn)生差異的原因，研究進(jìn)一步探索了模型內(nèi)部的表征，將特定領(lǐng)域的查詢(xún)和答案分別輸入到基礎(chǔ)模型和微調(diào)模型中，并對(duì)隱藏層表示（hidden representations）進(jìn)行PCA偏移分析。

通俗來(lái)說(shuō)，通過(guò)PCA偏移分析，就能夠得知模型在后訓(xùn)練階段，究竟是既保留了原有的知識(shí)，又在具體領(lǐng)域變得更強(qiáng)了，還是學(xué)了新的就忘了舊的。

PAC分析表明，RL微調(diào)模型在表征空間上的偏移最小。這就意味著，相較于SFT，采用RL進(jìn)行微調(diào)的模型在提升專(zhuān)門(mén)領(lǐng)域表現(xiàn)的同時(shí)，還保留了之前學(xué)習(xí)到的能力。

同樣的，Token分布偏移分析表明RL訓(xùn)練選擇性地調(diào)整了邏輯結(jié)構(gòu)詞條。而SFT會(huì)同時(shí)擾亂邏輯和不相關(guān)的詞條，從而可能損害泛化能力。

此外，RL模型在推理和非推理任務(wù)上的KL散度均顯著低于SFT模型（KL散度越高，偏移越大）。

這表明，在Token概率分布層面，RL相比SFT發(fā)生的分布偏移更小。同時(shí)，RL還表現(xiàn)出更低的Token排名偏移（tokenrankshift）。

由此，相較于SFT，RL夠帶來(lái)更具體、更穩(wěn)定、更精準(zhǔn)的表征更新，從而實(shí)現(xiàn)更強(qiáng)的遷移能力與泛化性。

RL實(shí)現(xiàn)了它在LLM的又一次勝利，也預(yù)示著強(qiáng)化學(xué)習(xí)似乎是真正實(shí)現(xiàn)可遷移推理發(fā)展的關(guān)鍵。

論文地址：

https://arxiv.org/abs/2507.00432

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 模型訓(xùn)練