精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?

發布于 2025-7-11 06:36
瀏覽
0收藏

這篇文章旨在探討**數學推理能力的提升是否能泛化到其他領域?**研究發現,盡管許多LLM在數學基準測試上取得了顯著進步,但這些提升在很大程度上未能有效遷移到其他領域。通過對20多個開源推理調優模型進行評估,并對Qwen3-14B模型進行控制實驗,研究發現,基于強化學習(RL)調優的模型展現出更好的跨領域泛化能力,而基于監督微調(SFT)的模型則常常導致通用能力的遺忘。通過對潛在空間表示和token空間分布漂移的分析,揭示了SFT會導致顯著的表示和輸出漂移,而RL則能保留通用領域的結構。這表明,在推進推理模型時,需要重新思考當前的后訓練方法,特別是對SFT蒸餾數據的依賴。

一、概述

?Title:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

?URL:?? https://arxiv.org/abs/2507.00432v1??

?Authors:Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue

?Code:?? https://github.com/ReasoningTransfer/Transferability-of-LLM-Reasoning??

1.Motivation

?數學推理能力的進步是否能提高LLM的通用能力?盡管LLM在MATH和AIME等數學基準測試上取得了顯著進展,但這些進步是否能泛化到更廣泛的領域,還是僅僅是狹隘的過擬合?

?現有推理模型的能力遷移性如何?模型在數學推理方面的提升能否遷移到其他推理領域(如科學問答、代碼、智能體規劃、邏輯演繹)以及不需大量推理的任務(如對話問答、指令遵循)?

?SFT和RL對模型通用能力及潛在表示的影響?在數學數據上進行訓練時,SFT和RL這兩種不同的微調范式如何影響模型的泛化能力、內部表示和token分布,以及導致性能差異的原因是什么?

2.Methods

本文通過廣泛評估和控制實驗,發現數學推理能力在LLM中的泛化能力與微調方法密切相關。RL調優的模型在數學任務上取得進步的同時,能更好地保留和泛化通用能力,而SFT調優的模型則容易導致災難性遺忘。 進一步通過潛在空間PCA分析和token分布KL散度分析發現,RL能保持模型內部表示的穩定性和輸出的精確性,而SFT則導致顯著的表示和輸出漂移。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

詳細方法和步驟:

Q1: 實驗如何設計?:

? 基于Qwen3-14B-Base模型進行控制實驗,僅使用高質量的數學數據集進行微調。

?SFT設置:使用Qwen3-32B作為教師模型生成完整的思維鏈(CoT)推理軌跡,并采用拒絕采樣(reject sampling)選擇正確答案作為SFT的訓練目標。

?RL設置:采用標準的GRPO(Generalized Reinforcement Policy Optimization)框架,以答案正確性作為獎勵信號進行訓練,rollout=16,batch size=128。

? 確保SFT和RL從相同的數據樣本中學習,以公平比較兩種范式,數據規模為47k,來自MATH和DeepScaler的數據。

Q2: 采用了哪些數據集來評測?

數學推理,其他推理比如說代碼和agent planning,以及非推理任務比如說QA

?數學推理任務:MATH500、AIME24/25、OlympiadBench,僅包含純數學問題。

?其他推理任務:LiveCodeBench(代碼生成)、GPQA-Diamond(醫學推理)、ACPBench(智能體規劃)、HeadQA(醫療保健領域QA),包含更通用的推理問題。

?非推理任務:CoQA(對話QA)、IFEval(指令遵循)、HaluEval(事實性與幻覺區分)、MC-TACO(時間常識理解),主要包含事實性、對齊或對話問題。

? 使用準確率(accuracy)作為評估指標。

Q3: 評估metrics有哪些?

1.可遷移性指數(Transferability Index, TI)定義:

? 定義了組級別的相對增益 ,其中是組中的所有基準測試集合,和分別是模型和基準模型在基準測試 上的得分。

? TI 計算公式:,。TI 值大于0表示存在正向遷移。

2.潛在空間PCA分析:

? 對模型不同層級的隱藏狀態進行主成分分析(PCA),測量模型內部表示在訓練前后的變化

? 通過計算表示中心(PCA投影坐標的平均值)之間的歐氏距離來量化潛在空間漂移。

3.Token空間分布漂移分析:

? 計算訓練前后模型輸出token分布的KL散度,評估輸出空間的變化

? 分析token排名漂移(token rank shift),即微調后模型生成token的原始排名與基準模型排名的差異,以了解模型對特定token的偏好變化。

3 Conclusion

?相對于SFT,RL調優在數學推理能力提升的同時,能更好地保留并泛化通用能力。盡管RL調優的模型專注于數學推理,但它們在其他推理任務和非推理任務上也能保持甚至提升性能,顯著優于SFT調優的模型,后者常導致通用能力的遺忘。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

?PCA模型訓練穩定性分析分析:RL調優的模型在潛在空間(中間層的特征)中漂移更小,保持了通用領域的結構,而SFT則引起顯著的表示和輸出漂移。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

?Token分布穩定性分析:RL僅選擇性地調整任務相關的token,優化更精準,而SFT會帶來比較大的改變。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

? Case Study:RL對模型的改動比SFT也更小。說明對通用任務的影響也更小。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

4 Limitation

?控制實驗的數學數據集相對較小:控制實驗中使用的數學數據集(47K高質量數學問題)雖然足夠高質量,但相較于真實世界中用于訓練大型LLM的數據集規模仍然較小。這可能會限制研究結論在更大規模和更廣泛數據條件下的普遍適用性。

?未能完全控制所有變量:盡管在控制實驗中努力確保SFT和RL從相同數據中學習,但在實際的模型微調過程中,仍存在其他難以完全控制的變量(如GRPO和拒絕采樣在實現上的差異、超參數的選擇等),這些因素可能對結果產生一定影響,導致結論的普適性受到挑戰。

?獎勵函數的簡單性:RL模型采用的獎勵信號僅為“答案正確性”。這是一種相對簡單的獎勵函數,可能無法完全捕獲復雜推理過程中產生的中間步驟質量、解題的效率或優雅性。如果獎勵函數設計更復雜,結果可能會有所不同,但相應的RL訓練難度也會大幅增加。

?診斷方法的局限性:PCA和KL散度分析提供了對模型內部表示和輸出分布變化的洞察,但這些方法仍然是宏觀的、解釋性的工具。它們可以揭示“發生了什么”,但可能無法深入解釋“為什么會發生”以及更深層次的機制改變,尤其是在面對復雜模型行為時。

5 Future Work

?探索更復雜的RL獎勵設計:未來工作可以研究如何設計更精細、能夠捕獲推理過程質量的獎勵函數,例如基于思維鏈(CoT)步驟的中間獎勵、搜索效率獎勵等,以期在進一步提升推理能力的同時更好地保留通用能力。

?研究結合SFT和RL的混合訓練策略:考慮到SFT在某些方面(如對指令的精確遵循)仍有其優勢,可以探索SFT和RL的有效結合方式,例如先進行少量SFT以建立基礎能力,再通過RL進行精細化優化,看是否能兼顧兩者優點并克服各自的局限性。

?在更大規模和多語言數據集上驗證RL的泛化能力:將本研究的發現推廣到更大規模、更多樣化的數據集和多語言場景中,以驗證RL在不同語言和文化背景下的泛化能力,并探索其在跨文化推理任務中的表現。

?深入分析模型內部機制:運用更先進的可解釋性工具和技術,深入剖析RL和SFT這兩種微調方式如何影響LLM的神經元激活模式、信息流路徑以及知識編碼方式,從而更全面地理解它們對模型通用能力遷移性的影響。

?探索負向遷移的緩解策略:針對SFT可能導致的通用能力遺忘問題,研究具體的緩解策略,例如利用知識蒸餾、多任務學習、持續學習等技術,以避免模型在專業化訓練過程中“顧此失彼”而喪失其他重要能力。

二、總結

結論1: LLM在數學推理能力提升并非總能遷移到其他領域。 通過對20多個開源模型和受控實驗進行評估,發現許多在數學基準測試上表現強勁的模型,在其他推理和非推理任務上往往無法有效遷移其增益,甚至出現災難性遺忘。這推翻了“數學能力提升即通用能力提升”的直觀假設,強調了模型在專業化訓練后泛化能力面臨的挑戰。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

結論2: 強化學習(RL)相比監督微調(SFT)在保持LLM通用能力方面具有顯著優勢。

結論4: 在實際應用中,需要重新思考當前的LLM后訓練策略。

本文轉載自???NLP PaperWeekly???,作者:NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
蜜桃av噜噜一区| 中文字幕成人| 久久蜜臀中文字幕| 国产精品欧美亚洲777777| 特级西西人体高清大胆| 国产在线不卡一区二区三区| 亚洲一二三四在线| 欧美高清一区二区| 国产口爆吞精一区二区| 亚洲激情不卡| 日韩一级黄色av| 美女被艹视频网站| 成年男女免费视频网站不卡| 中文字幕电影一区| 丁香婷婷久久久综合精品国产| 丰满人妻老熟妇伦人精品| 婷婷久久一区| 日韩精品在线免费观看| www.com污| 一区二区三区电影大全| 国产色一区二区| 国产高清在线精品一区二区三区| 国产精品免费精品一区| 午夜精品av| 这里只有精品在线观看| 日本三级日本三级日本三级极| 成人午夜亚洲| 欧美三级免费观看| 亚洲一区高清| 国产尤物视频在线| 99re热这里只有精品免费视频 | 亚洲精品一区三区三区在线观看| 成人欧美一区二区三区白人| 日韩国产在线一区| 天堂成人在线观看| 国产精品综合一区二区三区| 国产精品高潮呻吟久久av野狼| 久久高清免费视频| 欧美日韩福利| 久久国产精品电影| 东京热无码av男人的天堂| 亚洲大片精品免费| 亚洲精品美女视频| 超碰caoprom| 9l亚洲国产成人精品一区二三| 欧美日韩在线电影| av免费在线播放网站| 日本三级一区| 午夜av电影一区| 无码粉嫩虎白一线天在线观看 | 亚洲人成小说网站色在线| 色噜噜狠狠色综合网| 日韩三级电影网| 91亚洲精品久久久蜜桃网站| 国产精选一区二区| 亚洲成人第一区| 国产成人精品免费一区二区| 成人一区二区在线| 黄色一级a毛片| 成人av电影在线| 国产综合 伊人色| 亚洲色图 校园春色| 91在线丨porny丨国产| 国产一区在线免费| 日韩黄色影片| 亚洲国产精品成人综合色在线婷婷 | 国产真人做爰毛片视频直播| 爱情岛论坛亚洲品质自拍视频网站 | 亚洲精品第一页| 国产精品一级黄片| 色婷婷久久久| 亚洲香蕉成视频在线观看| 国产美女免费网站| 欧美国产一区二区三区激情无套| 精品国产美女在线| caoporn91| 在线国产精品一区| 51久久精品夜色国产麻豆| 亚洲天堂男人av| 美国欧美日韩国产在线播放| 成人激情电影一区二区| 性色av蜜臀av| 91网站在线播放| 亚洲精品二区| 欧美videos另类精品| 午夜av电影一区| 国产精品久久久毛片| 成人永久在线| 亚洲精品videossex少妇| 日韩人妻无码精品综合区| 天天久久综合| 91av视频在线| 亚洲专区第一页| 成人网在线免费视频| 鲁丝一区二区三区免费| 色网站在线看| 婷婷夜色潮精品综合在线| 国产三级日本三级在线播放 | 国产自产精品| 免费看a在线观看| 午夜精品久久久久久久99水蜜桃| 亚洲精品一二三四五区| 亚洲精品v亚洲精品v日韩精品| 亚洲精品久久久一区二区三区| 先锋影音av在线| 欧美日韩福利| 国产精品视频网| 天天色天天操天天射| 中文字幕亚洲精品在线观看| av7777777| 免费一区二区三区在线视频| 亚洲少妇中文在线| 国产精品第56页| 激情五月婷婷综合| 六月婷婷久久| 超碰在线中文字幕| 欧美丰满美乳xxx高潮www| 精品黑人一区二区三区观看时间| 一区二区三区午夜视频| 国产99视频在线观看| 亚洲高清视频在线播放| 国产精品黄色在线观看| aa免费在线观看| 超碰精品在线| 久久综合色影院| 丁香社区五月天| www.激情成人| www.欧美黄色| 在线不卡一区| 中文字幕在线日韩| 区一区二在线观看| 99久久国产综合精品色伊| ijzzijzzij亚洲大全| 欧美与亚洲与日本直播| 国产偷国产偷亚洲清高网站| 国产精品成人国产乱| 国产精品中文字幕日韩精品| 亚洲欧美日韩精品综合在线观看| 九九热线视频只有这里最精品| 精品国产乱子伦一区| 爱爱视频免费在线观看| 久久精品久久精品| 午夜欧美一区二区三区免费观看| 成人软件在线观看| 亚洲精品丝袜日韩| 91午夜精品亚洲一区二区三区| 99国产欧美久久久精品| 9久久9毛片又大又硬又粗| av毛片精品| 欧美精品18videos性欧美| 国产精品一区二区av白丝下载 | 日本熟女一区二区| 成人动漫一区二区在线| 怡红院av亚洲一区二区三区h| 国产乱人伦精品一区| 久久久中文字幕| 六月婷婷中文字幕| 偷窥少妇高潮呻吟av久久免费| 亚洲精品国产成人av在线| 日韩午夜免费| 欧美大香线蕉线伊人久久| 欲香欲色天天天综合和网| 日韩av网站在线| 久久久久久91亚洲精品中文字幕| 91麻豆精品在线观看| 成人观看免费完整观看| 不卡日本视频| 成人免费黄色网| 超碰公开在线| 精品福利二区三区| 欧美特黄aaaaaa| 国产日本亚洲高清| 91看片破解版| 欧美精品首页| 精品一区二区久久久久久久网站| 另类专区亚洲| 久久精品国产久精国产思思| 精品美女www爽爽爽视频| 午夜精品一区在线观看| 亚洲一区二区三区日韩| 久久99深爱久久99精品| 成人精品视频在线播放| 少妇精品久久久| 91免费人成网站在线观看18| 超碰资源在线| 色偷偷综合社区| 韩国av永久免费| 在线观看视频一区| 草视频在线观看| 久久亚洲综合色一区二区三区| 久久久久久久久久久久91| 欧美日韩亚洲一区三区| 欧美亚洲精品日韩| 久久久久久亚洲精品美女| 欧美一级电影在线| 快射av在线播放一区| 亚洲精品wwwww| 国产欧美一区二区三区视频在线观看| 午夜精品影院在线观看| 99热在线观看精品| 99re成人在线| www.国产福利| 香蕉久久夜色精品| 加勒比海盗1在线观看免费国语版| 秋霞蜜臀av久久电影网免费| 成人a级免费视频| 超碰aⅴ人人做人人爽欧美| 久久久国产影院| 欧美xxx.com| 日韩精品专区在线影院观看| www.久久视频| 亚洲成av人片www| 成人无码精品1区2区3区免费看| av在线播放一区二区三区| 91女神在线观看| 久久综合九色| 成人毛片一区二区| 午夜精品毛片| 亚洲v欧美v另类v综合v日韩v| 美女一区二区在线观看| 亚洲一区二区三区久久| 精品美女一区| 国产91在线播放| 绿色成人影院| 欧美第一黄色网| 最新超碰在线| 久久精品国产电影| 午夜激情在线观看| 伊人精品在线观看| 国内精品一区视频| 精品亚洲一区二区三区四区五区| 亚洲第一色网站| 欧美一区二区在线播放| 亚洲中文字幕在线一区| 欧美日韩中文字幕精品| 亚洲乱码国产乱码精品| 精品久久久久久中文字幕一区奶水| 天天干中文字幕| 亚洲人精品午夜| 久久精品黄色片| 亚洲天堂2014| 国产精品免费人成网站酒店| 国产精品色婷婷久久58| 91成人精品一区二区| 国产清纯在线一区二区www| 久久精品国产亚洲av久| 26uuu亚洲综合色| 日韩av一二区| 久久久久久久综合日本| www.中文字幕av| 久久精品一区二区| 美女洗澡无遮挡| 欧美激情一区在线观看| 摸摸摸bbb毛毛毛片| 欧美国产精品一区| 强制高潮抽搐sm调教高h| 中文字幕视频一区| 欧美三级在线免费观看| 亚洲在线免费播放| 日本一本高清视频| 欧美视频不卡中文| 国产一级片av| 欧美日韩一区二区在线观看视频| 一级片视频免费| 欧美一级黄色大片| 国产综合无码一区二区色蜜蜜| 亚洲国产精品嫩草影院久久| 欧美成人免费| 日韩一中文字幕| 婷婷色在线资源| 69视频在线免费观看| 国产精品极品美女在线观看| 国产精品爽黄69天堂a| 国模大尺度视频一区二区| 成人欧美视频在线| 亚欧洲精品视频在线观看| 亚洲蜜桃av| 午夜精品电影| 99久久激情视频| 国精产品一区一区三区mba视频| 夜夜爽久久精品91| 久久伊99综合婷婷久久伊| 免费黄色在线网址| 亚洲一区中文在线| 狠狠人妻久久久久久| 欧美妇女性影城| 无码国产伦一区二区三区视频| 中文字幕久热精品视频在线| 污片在线免费观看| 国产精品高清在线观看| 麻豆一区在线| 欧美日韩亚洲一区二区三区四区| 久久综合电影| 91九色在线观看视频| 久久电影网站中文字幕 | 国产欧美一区二区三区在线看蜜臀 | 亚洲av无码一区二区三区dv| 亚洲美女激情视频| 成人影欧美片| 日本精品视频在线| 欧美国产亚洲精品| 色播亚洲婷婷| 日韩视频一区| 97免费公开视频| 欧美韩日一区二区三区| 精品无码黑人又粗又大又长| 欧美日韩精品免费| 色视频在线观看免费| 欧美人成在线视频| 成人看片毛片免费播放器| 激情视频一区二区| 亚洲影视一区| 欧美婷婷精品激情| 91美女片黄在线观看91美女| 精品无码av在线| 91精品国产高清一区二区三区| 青青草视频在线免费观看| 欧美黑人xxxx| 欧洲大片精品免费永久看nba| 少妇免费毛片久久久久久久久| 亚洲美女黄网| 自拍偷拍激情视频| 18成人在线视频| 亚洲视屏在线观看| 亚洲乱码国产乱码精品精| 女囚岛在线观看| 91黄在线观看| 先锋资源久久| 五月天视频在线观看| 国产色爱av资源综合区| 毛片基地在线观看| 亚洲国产精品成人va在线观看| 羞羞的网站在线观看| 成人a免费视频| 色综合久久网| 中文字幕66页| 国产精品黄色在线观看| 中文字幕第99页| 在线观看国产精品91| 成人看片在线观看| 日本视频一区二区在线观看| 亚洲少妇自拍| 中文乱码人妻一区二区三区视频| 亚洲福利视频一区二区| 国精品人妻无码一区二区三区喝尿| 欧美精品免费在线| 日韩在线成人| www.日本三级| 99国产一区二区三精品乱码| 91香蕉在线视频| 亚洲精品mp4| 免费观看欧美大片| 欧美精品一区二区视频 | 亚洲一区二区三区视频在线| 午夜精品一二三区| 久久久综合免费视频| 日韩av字幕| 免费观看成人在线视频| 欧美高清一级片在线观看| 少妇无套内谢久久久久| 日韩中文字幕第一页| 高清一区二区| 欧美视频在线观看视频| 丁香六月综合激情| 99久热在线精品996热是什么| 精品亚洲一区二区| 99久久er| 草草草视频在线观看| 岛国一区二区三区| 日本道在线观看| 亚洲人成电影网站| 日韩一区中文| av无码久久久久久不卡网站| 2023国产一二三区日本精品2022| 超碰在线观看91| 久久精品国产成人精品| 国产精品极品在线观看| 免费在线观看毛片网站| 国产精品毛片大码女人| av无码精品一区二区三区宅噜噜| 久久久中精品2020中文| 精品视频久久| 四虎1515hh.com| 欧美日韩免费网站| 一区二区三区视频在线观看视频| 粉嫩精品一区二区三区在线观看| 午夜在线精品偷拍| 国产激情无码一区二区三区| 亚洲第一精品自拍| 国产精品天堂蜜av在线播放| 999一区二区三区| 国产欧美日本一区二区三区| 精品免费久久久| 国产精品99久久久久久www| 欧美黄色aaaa| 亚洲第一综合网| 精品动漫一区二区三区在线观看| 91精品韩国| 少妇人妻大乳在线视频| 国产精品毛片无遮挡高清|