精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型刷數(shù)學(xué)題竟有害?CMU評(píng)估20+模型指出訓(xùn)練陷阱

人工智能 新聞
最近,來(lái)自CMU的團(tuán)隊(duì)發(fā)現(xiàn),一些數(shù)學(xué)好的模型并沒(méi)有將它們的“天賦”帶到其他更加通用的領(lǐng)域。

學(xué)好數(shù)理化,走遍天下都不怕!

這一點(diǎn)這在大語(yǔ)言模型身上也不例外。

大家普遍認(rèn)同:具備更強(qiáng)數(shù)學(xué)能力的模型往往也更智能。

但,常識(shí)就是用來(lái)打破的。

最近,來(lái)自CMU的團(tuán)隊(duì)發(fā)現(xiàn),一些數(shù)學(xué)好的模型并沒(méi)有將它們的“天賦”帶到其他更加通用的領(lǐng)域。

研究發(fā)現(xiàn),只有用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型才能將數(shù)學(xué)推理技能廣泛遷移到其他任務(wù)上。而用監(jiān)督微調(diào)(SFT)訓(xùn)練的模型則表現(xiàn)出有限的遷移甚至沒(méi)有遷移。

圖片

網(wǎng)友直呼:又一個(gè)苦澀的教訓(xùn)(bitter lesson)

這數(shù)學(xué)題,不做也罷?

很明顯,人們訓(xùn)練大模型并不只是讓它來(lái)做數(shù)學(xué)題的。

研究者之所以熱衷于提高模型的數(shù)學(xué)表現(xiàn),是因?yàn)橄M軌虬褦?shù)學(xué)那里學(xué)到的嚴(yán)密邏輯應(yīng)用到其他更廣泛的領(lǐng)域。

但在此之前,我們有必要知道,對(duì)于一個(gè)大模型,專(zhuān)門(mén)優(yōu)化數(shù)學(xué)推理(math reasoning),它在其他任務(wù)(推理任務(wù)、非推理任務(wù))上會(huì)變得更好,還是更差?

換句話(huà)說(shuō):做數(shù)學(xué)推理訓(xùn)練,會(huì)不會(huì)幫助或者損害模型在其他領(lǐng)域的能力?

為了解決這一疑問(wèn),研究評(píng)估了20多個(gè)模型在數(shù)學(xué)推理、其他推理任務(wù)(包含醫(yī)學(xué)推理、醫(yī)學(xué)推理、智能體規(guī)劃)和非推理任務(wù)(包含常識(shí)對(duì)話(huà)和遵循指令)上的表現(xiàn)。

圖片

實(shí)驗(yàn)先計(jì)算模型在每個(gè)benchmark任務(wù)上相比基線模型(Qwen3-14B-Base)的性能提升幅度,再將這個(gè)提升除以基線模型在該任務(wù)上的分?jǐn)?shù),以此得到相對(duì)提升的百分比,最后對(duì)同一組內(nèi)所有任務(wù)的相對(duì)提升求均值,得到該任務(wù)組整體的相對(duì)增益。

為了更好地定量評(píng)估這個(gè)“遷移能力”,研究還提出了遷移能力指標(biāo)(Transferability Index,TI)。

圖片

通過(guò)“其他推理”或“非推理”任務(wù)組的相對(duì)增益,分別除以數(shù)學(xué)任務(wù)組的相對(duì)增益。這樣,TI就清晰反映了數(shù)學(xué)能力的提升在多大程度上能遷移到其他領(lǐng)域。

如果TI大于0,說(shuō)明對(duì)其他任務(wù)有正遷移效應(yīng),若小于0,則意味著負(fù)遷移。

圖片

實(shí)驗(yàn)結(jié)果表明,模型的遷移能力與微調(diào)方法、模型規(guī)模以及架構(gòu)有關(guān),但其中微調(diào)方法是最關(guān)鍵的因素

具體而言,采用RL微調(diào)的模型,在其他推理任務(wù)和非推理任務(wù)上都能持續(xù)獲得更高的遷移能力指標(biāo),而使用SFT的模型則往往在非推理任務(wù)上出現(xiàn)負(fù)遷移。

再進(jìn)一步的對(duì)照實(shí)驗(yàn)中,研究采用相同數(shù)據(jù)集和基線模型驗(yàn)證了在其他條件完全一致的情況下,純粹因?yàn)槲⒄{(diào)方式的不同,才產(chǎn)生了性能和遷移能力的顯著差異。

RL的又一次勝利

為了理解不同微調(diào)方法在遷移能力上產(chǎn)生差異的原因,研究進(jìn)一步探索了模型內(nèi)部的表征,將特定領(lǐng)域的查詢(xún)和答案分別輸入到基礎(chǔ)模型和微調(diào)模型中,并對(duì)隱藏層表示(hidden representations)進(jìn)行PCA偏移分析。

通俗來(lái)說(shuō),通過(guò)PCA偏移分析,就能夠得知模型在后訓(xùn)練階段,究竟是既保留了原有的知識(shí),又在具體領(lǐng)域變得更強(qiáng)了,還是學(xué)了新的就忘了舊的。

圖片

PAC分析表明,RL微調(diào)模型在表征空間上的偏移最小。這就意味著,相較于SFT,采用RL進(jìn)行微調(diào)的模型在提升專(zhuān)門(mén)領(lǐng)域表現(xiàn)的同時(shí),還保留了之前學(xué)習(xí)到的能力。

圖片

同樣的,Token分布偏移分析表明RL訓(xùn)練選擇性地調(diào)整了邏輯結(jié)構(gòu)詞條。而SFT會(huì)同時(shí)擾亂邏輯和不相關(guān)的詞條,從而可能損害泛化能力。

圖片

此外,RL模型在推理和非推理任務(wù)上的KL散度均顯著低于SFT模型(KL散度越高,偏移越大)。

這表明,在Token概率分布層面,RL相比SFT發(fā)生的分布偏移更小。同時(shí),RL還表現(xiàn)出更低的Token排名偏移(tokenrankshift)。

由此,相較于SFT,RL夠帶來(lái)更具體、更穩(wěn)定、更精準(zhǔn)的表征更新,從而實(shí)現(xiàn)更強(qiáng)的遷移能力與泛化性。

RL實(shí)現(xiàn)了它在LLM的又一次勝利,也預(yù)示著強(qiáng)化學(xué)習(xí)似乎是真正實(shí)現(xiàn)可遷移推理發(fā)展的關(guān)鍵

論文地址:

https://arxiv.org/abs/2507.00432

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-05-23 08:47:00

2023-10-11 12:32:53

AI模型

2021-11-08 10:01:04

AI 數(shù)據(jù)語(yǔ)言模型

2024-06-18 14:01:17

2023-12-05 13:28:00

AI模型

2024-09-27 10:31:22

2024-08-09 14:48:00

2024-07-04 15:28:11

2024-06-17 12:39:37

2025-10-11 10:04:00

2025-04-03 02:25:00

2023-01-05 09:33:37

視覺(jué)模型訓(xùn)練

2024-11-04 00:24:56

2023-06-24 19:59:40

2024-11-26 09:33:44

2022-05-30 15:44:33

模型訓(xùn)練GAN

2024-12-26 00:46:25

機(jī)器學(xué)習(xí)LoRA訓(xùn)練

2020-05-19 13:31:15

技術(shù)經(jīng)理,知識(shí)地圖

2024-02-04 09:31:44

大語(yǔ)言模型

2023-11-09 10:41:41

大模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久久久久久久美女| 精品1区2区3区4区| 69av一区二区三区| 国产免费一区二区视频| 国产午夜精品一区理论片| 久久99久久久欧美国产| 久久久久久久影院| 日本成人免费视频| www国产精品| 欧美亚洲一区二区在线观看| 国产人妻互换一区二区| 青青青草网站免费视频在线观看| 六月婷婷色综合| 97精品视频在线播放| 狂野欧美性猛交| 卡一精品卡二卡三网站乱码| 欧美另类高清zo欧美| 国产免费黄色av| 成人黄色网址| 中文一区二区完整视频在线观看| 精品网站在线看| 91免费视频播放| 久久av一区| 久久久免费观看| 三级在线观看免费大全| 在线成人动漫av| 精品国产凹凸成av人导航| 日本在线播放一区二区| 悠悠资源网亚洲青| 一区二区三区四区五区视频在线观看| 色综合666| 亚洲av片一区二区三区| 国产凹凸在线观看一区二区| 国产伦精品免费视频| 伦av综合一区| 99精品福利视频| 色综合五月天导航| 中国毛片直接看| 日韩激情在线| 在线视频欧美性高潮| 国产ts丝袜人妖系列视频| 日韩中文字幕视频网| 在线成人高清不卡| 日日碰狠狠躁久久躁婷婷| a√中文在线观看| 亚洲女性喷水在线观看一区| 一区二区不卡在线视频 午夜欧美不卡'| 深夜福利在线视频| 91一区二区在线观看| 国产一区二区在线网站| 天堂中文字幕av| 成人av网站免费观看| 国产精品一区二区免费| 农村少妇久久久久久久| 成人亚洲一区二区一| 粉嫩av免费一区二区三区| www.国产麻豆| 成人一区二区视频| 国产在线观看一区| 香蕉视频国产在线| 久久久久久久电影| 日韩亚洲视频在线| 三区四区电影在线观看| 《视频一区视频二区| 超碰成人在线免费观看| 成年人黄视频在线观看| 一区二区三区精品在线| 男女啪啪免费视频网站| 亚洲妇女成熟| 欧美影院精品一区| 午夜视频你懂的| 精品视频在线播放一区二区三区| 91精品国产一区二区| 久久久久亚洲av无码网站| 一区二区精彩视频| 日韩极品精品视频免费观看| 99re久久精品国产| 欧美久久精品一级c片| 精品国产欧美一区二区五十路| 国产黄色小视频网站| 激情欧美日韩一区| 日本欧美中文字幕| 国产精品无码一区二区桃花视频 | 136福利精品导航| 精品国产乱码久久久久久影片| 亚洲一区二区三区四区五区六区| 久久99免费视频| 久热99视频在线观看| 国产精彩视频在线| 美女网站色91| 91手机在线播放| 国内精品在线视频| 亚洲人成网站色在线观看| 日韩欧美不卡在线| 国产a亚洲精品| 精品99999| 国产又粗又硬视频| 激情综合视频| 成人激情视频在线| 免费播放片a高清在线观看| 国产精品狼人久久影院观看方式| 美女扒开大腿让男人桶| 国产精品原创视频| 日韩久久免费电影| 劲爆欧美第一页| 日韩精彩视频在线观看| 国产99午夜精品一区二区三区| 国内在线精品| 香蕉av福利精品导航| 天天爽天天爽夜夜爽| 国产伦乱精品| 久久精品一偷一偷国产| 狠狠人妻久久久久久| 国产成人午夜电影网| 少妇特黄a一区二区三区| 国产激情视频在线看| 91.com视频| 欧美老女人性生活视频| 国产一区二区三区久久| 岛国视频一区免费观看| 免费不卡视频| 欧美三级在线视频| 受虐m奴xxx在线观看| 一区视频在线看| 亚洲自拍av在线| 在线看av的网址| 91国在线观看| 好吊视频在线观看| 免播放器亚洲| 久久久久久99| 国产理论在线| 亚洲成人黄色在线观看| 久久久久久久久久久久久久免费看| 蜜臀av一区二区在线免费观看 | 亚洲天堂免费| 91精品美女在线| 在线视频自拍| 欧美午夜一区二区| 制服 丝袜 综合 日韩 欧美| 国产农村妇女精品一二区| 国产精品区二区三区日本| 伊人春色在线观看| 日韩视频一区二区在线观看| 看免费黄色录像| 国产美女娇喘av呻吟久久| 中文字幕久久综合| 国产精品高清一区二区| 久久精品成人一区二区三区| 91精品人妻一区二区三区果冻| 欧美激情综合网| 日本三级黄色网址| 久久理论电影| 成人亚洲欧美一区二区三区| 国内外激情在线| 欧美一区二区三区色| www.99re7| 成人中文字幕电影| 亚洲自偷自拍熟女另类| 精品大片一区二区| 国产精品亚洲欧美导航| 麻豆传媒免费在线观看| 日韩一区二区三区av| www.5588.com毛片| 懂色av一区二区三区蜜臀| 欧美久久在线观看| 亚洲制服一区| 91精品免费看| 国产网红在线观看| 国产偷亚洲偷欧美偷精品| 成人h动漫精品一区二区下载| 国产网红主播福利一区二区| 911福利视频| 亚洲午夜激情在线| 鲁鲁狠狠狠7777一区二区| 性欧美freehd18| 久久天天躁狠狠躁夜夜爽蜜月| 国产尤物视频在线观看| 午夜精品视频一区| www久久久久久久| 国产精品小仙女| 日本精品免费在线观看| 成人免费电影网址| 91精品国产一区二区三区动漫| av电影院在线看| 在线看福利67194| av官网在线观看| 色婷婷综合久久久中文字幕| 99久久精品久久亚洲精品| 丁香啪啪综合成人亚洲小说 | 免费高清在线一区| 男人添女人荫蒂免费视频| 国产乱码精品一区二区三区四区| 国产色综合天天综合网 | 亚洲国产另类精品专区| 91精品人妻一区二区| 黄页视频在线91| 国产精品国产亚洲精品看不卡| 欧美日韩在线网站| 国产精品10p综合二区| 在线日本欧美| 91精品国产乱码久久久久久蜜臀| 在线观看完整版免费| 亚洲国内精品视频| 国产男男gay体育生白袜| 精品色蜜蜜精品视频在线观看| 潘金莲一级黄色片| 2020国产精品久久精品美国| 国产在线视频三区| 日韩高清不卡一区二区三区| 成人免费观看在线| 五月精品视频| 日韩女优中文字幕| 欧美调教在线| 成人永久免费| 伊人久久一区| 国产精品ⅴa在线观看h| av不卡高清| 色综合久久久888| 日本高清中文字幕在线| 亚洲色图13p| 少妇喷水在线观看| 精品久久免费看| 国产草草影院ccyycom| 欧美日韩久久一区| 成人一级免费视频| 狠狠爱在线视频一区| 久久一二三四区| 亚洲免费观看高清完整版在线观看 | 日本三日本三级少妇三级66| 久久综合电影| 日本一区二区三区免费看| 少妇高潮一区二区三区| 好吊色欧美一区二区三区| 91久久精品无嫩草影院| 91最新在线免费观看| 久久人人视频| 国产精品入口免费视频一| 亚洲伦理影院| 国产成人高潮免费观看精品| 在线看片福利| 日本一区二区不卡| 欧美xx视频| 日本欧美国产在线| 日韩一区精品| 国产美女精品视频| 亚洲国产伊人| 91最新在线免费观看| 日本一区影院| 国产精品久久久久av福利动漫| 伊人精品综合| 狠狠色综合网站久久久久久久| 国产乱论精品| 欧美日韩另类丝袜其他| 国产午夜一区| 亚洲精品自在在线观看| 91精品国产福利在线观看麻豆| 一区视频二区视频| 自由日本语亚洲人高潮| 黄色a级片免费看| 亚洲欧洲一区| 国产精品少妇在线视频| 丝袜美腿高跟呻吟高潮一区| 91蝌蚪视频在线观看| 久久精品久久精品| 亚洲制服在线观看| 成人av电影免费观看| 欲求不满的岳中文字幕| 久久久久久免费网| 免费精品在线视频| 亚洲综合另类小说| 日韩少妇裸体做爰视频| 91国内精品野花午夜精品| 中文字幕精品一区二区精| 91精品国产综合久久精品麻豆 | av在线免费不卡| 国产精品三级在线观看无码| 欧美国产一区在线| 波多野结衣爱爱视频| 亚洲高清视频的网址| aaaaaa毛片| 91精品啪在线观看国产60岁| www.热久久| 亚洲人精选亚洲人成在线| 欧美激情办公室videoshd| 欧美疯狂性受xxxxx另类| 理论片午夜视频在线观看| 国产日韩视频在线观看| 成人精品毛片| 亚洲精品高清视频| 国内精品久久久久国产盗摄免费观看完整版| 免费看又黄又无码的网站| 久久国产精品99久久人人澡| 亚洲啪av永久无码精品放毛片| 欧美国产乱子伦 | 好操啊在线观看免费视频| 97精品一区二区三区| 激情小说亚洲| 激情伦成人综合小说| 91麻豆精品国产91久久久平台| 日本手机在线视频| 蜜桃视频在线观看一区| 国产原创剧情av| 国产精品久久久久久久久动漫| 五月天综合在线| 欧美挠脚心视频网站| 亚洲 精品 综合 精品 自拍| 乱亲女秽乱长久久久| 中文字幕av一区二区三区佐山爱| aaa级精品久久久国产片| 国产伦精品一区二区三区视频| 欧美国产视频一区| 美国毛片一区二区| 黄瓜视频污在线观看| 一级特黄大欧美久久久| 亚洲图片欧美在线| 亚洲精品自在久久| 色呦呦在线视频| 国产欧美日韩中文字幕在线| 亚洲瘦老头同性70tv| 97干在线视频| 国产精品123区| a级黄色免费视频| 色综合久久久网| 亚洲人午夜射精精品日韩| 欧美丰满老妇厨房牲生活| 成人亚洲免费| 亚洲国产精品日韩| 水野朝阳av一区二区三区| 国产精品九九九九九| 午夜精品久久久久影视| 国产香蕉在线观看| 欧美理论片在线观看| 9999在线精品视频| 在线看成人av电影| 奇米777欧美一区二区| 免费黄色片网站| 91国内精品野花午夜精品| 免费在线视频一级不卡| 欧美伊久线香蕉线新在线| 欧美顶级毛片在线播放| 久久久久久www| av高清不卡在线| 五月婷婷中文字幕| 日韩大陆毛片av| 成人性生活视频| 免费av一区二区三区| 久久午夜激情| 成人在线观看免费高清| 欧美亚洲国产一区在线观看网站| 久久av少妇| 国产精品一区二区女厕厕| 波多野结衣在线观看一区二区| 日本熟妇人妻中出| 国产精品福利在线播放| 亚洲熟妇无码久久精品| 搡老女人一区二区三区视频tv| 24小时成人在线视频| 只有这里有精品| 国产a区久久久| 欧美亚韩一区二区三区| 亚洲男人天堂2019| 91精品美女| 糖心vlog在线免费观看| 粉嫩嫩av羞羞动漫久久久| 国产午夜精品无码一区二区| 日韩av影视在线| 粉嫩一区二区| 亚洲精品视频一二三| 国产精品综合网| 日韩特黄一级片| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 成人av资源网站| 午夜影院免费在线观看| 这里精品视频免费| 久久丁香四色| 国产精品宾馆在线精品酒店| 国产精品区一区二区三区| av综合在线观看| 97视频免费观看| 第四色成人网| 精人妻一区二区三区| 色综合久久综合中文综合网| 精品国产99久久久久久| 国模精品一区二区三区| 日韩高清不卡在线| 久久精品www人人爽人人| 亚洲视频精品在线| 国产一区二区av在线| 欧美大片在线播放| 国产精品三级av在线播放| 蜜桃视频在线观看www| 国产精品精品久久久久久| 国内在线观看一区二区三区| 成人免费网站黄| 精品久久久久一区二区国产| 日韩三区免费| 日韩精品在线中文字幕| 国产精品伦理在线| 午夜视频福利在线| 91香蕉嫩草影院入口|