精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這些大神在Meta的論文看一篇少一篇了

人工智能 新聞
這次他帶領(lǐng)團(tuán)隊(duì)把目光投向了大模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象:為什么RL訓(xùn)練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

離開Meta的大佬們,留下作品還在陸續(xù)發(fā)表,今天輪到田淵棟。

這次他帶領(lǐng)團(tuán)隊(duì)把目光投向了大模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象:為什么RL訓(xùn)練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

論文剖析了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)的訓(xùn)練動(dòng)態(tài),戳破了一個(gè)誤區(qū),參數(shù)更新的稀疏只是表面現(xiàn)象,背后是RLVR有個(gè)固定的優(yōu)化偏好。

對(duì)于同一個(gè)預(yù)訓(xùn)練模型來說,無(wú)論用什么數(shù)據(jù)集和RL算法,RLVR只盯著同一小部分參數(shù)修改。

團(tuán)隊(duì)還提出了一個(gè)全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數(shù)更新是怎么定位至特定參數(shù)區(qū)域的。

三門理論:RL參數(shù)更新的內(nèi)在機(jī)制

像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規(guī)模RLVR訓(xùn)練獲得數(shù)學(xué)和編程能力的大幅增強(qiáng)。

按理說,如此巨大的能力提升應(yīng)該伴隨著大量參數(shù)的改變,但最近的研究卻發(fā)現(xiàn),RL訓(xùn)練產(chǎn)生的參數(shù)更新是稀疏的,而監(jiān)督微調(diào)(SFT)的參數(shù)更新是密集的。

這種高收益、低變化的悖論引發(fā)了Meta團(tuán)隊(duì)的關(guān)注。

他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內(nèi)的多個(gè)開源模型,這些模型經(jīng)過超過3000步的長(zhǎng)時(shí)間RL訓(xùn)練,涵蓋數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多樣化任務(wù)。

通過設(shè)計(jì)一種bfloat16精度感知的探測(cè)方法,研究團(tuán)隊(duì)準(zhǔn)確測(cè)量了參數(shù)更新的稀疏度。結(jié)果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達(dá)36%到92%,相差了一個(gè)數(shù)量級(jí)。

但更重要的發(fā)現(xiàn)是,這種稀疏性只是表面現(xiàn)象,背后隱藏著一個(gè)更深層的機(jī)制:模型條件優(yōu)化偏差(model-conditioned optimization bias)。

為了解釋這種獨(dú)特的訓(xùn)練行為,研究團(tuán)隊(duì)提出了三門理論,解釋了RL更新是如何被約束、引導(dǎo)和過濾的。

第一門:KL錨定(KL Anchor)。

RLVR的核心是 “試錯(cuò)學(xué)習(xí)”,但他次更新不會(huì)讓模型的輸出風(fēng)格太偏離(比如原來模型說話簡(jiǎn)潔,不能越學(xué)習(xí)越啰嗦)。

這個(gè)機(jī)制背后原理是,在線策略梯度更新會(huì)在每一步施加策略KL界限。

即使在沒有顯式KL正則項(xiàng)的DAPO算法中,比例裁剪技巧仍然會(huì)施加O(ε2)的KL界限。這種錨定效應(yīng)確保了每步相對(duì)于當(dāng)前策略的漂移很小,進(jìn)而限制了參數(shù)的移動(dòng)范圍。

第二門:模型幾何(Model Geometry)。

預(yù)訓(xùn)練模型擁有高度結(jié)構(gòu)化的幾何特性,比如模型里負(fù)責(zé)核心邏輯的參數(shù),對(duì)應(yīng)高曲率區(qū)域,改動(dòng)起來影響大,但容易不穩(wěn)定。

在KL約束下,RL更新傾向于保持模型的原始權(quán)重結(jié)構(gòu),自然偏向于優(yōu)化景觀中的低曲率方向。

反觀SFT,因?yàn)樾薷母咔蕝^(qū)域容易接近標(biāo)準(zhǔn)答案,但改多了會(huì)把模型原有的能力框架 打亂,反而不利于復(fù)雜推理。

第三門:精度過濾(Precision)。

bfloat16的有限精度充當(dāng)了一個(gè)透鏡,隱藏了在RL不愿施加大改變區(qū)域的微小更新。

由于bfloat16只有7位尾數(shù),小于單位最低位(ULP)閾值的變化無(wú)法表示。如果RL持續(xù)更新路由到特定參數(shù)子集,存儲(chǔ)的值就不會(huì)改變,結(jié)果就表現(xiàn)為稀疏性。

如果換成更高精度(比如 float32),會(huì)發(fā)現(xiàn)更多參數(shù)改動(dòng)。

論文做了很多實(shí)驗(yàn)驗(yàn)證上面的邏輯,確認(rèn)了RLVR和SFT在參數(shù)空間中的優(yōu)化區(qū)域完全不同。

通過分析奇異值分解(SVD)重構(gòu)后的主成分權(quán)重,團(tuán)隊(duì)發(fā)現(xiàn)RL更新與主成分權(quán)重的重疊度始終低于隨機(jī)水平,表明RL有強(qiáng)烈的傾向避開這些權(quán)重。相反,RL更新與低幅度權(quán)重顯示出超隨機(jī)的重疊,這是因?yàn)樗鼈儗?duì)微小更新的阻力較低。

以及因果性驗(yàn)證實(shí)驗(yàn),團(tuán)隊(duì)通過正交旋轉(zhuǎn)和頭部置換故意”擾亂”Qwen3-4B-Base模型特定層的幾何結(jié)構(gòu)。結(jié)果顯示,在被干預(yù)的層中,更新重疊度降至隨機(jī)水平,而在未觸及的層中保持較高,這證明預(yù)訓(xùn)練模型的幾何結(jié)構(gòu)是優(yōu)化偏差的來源。

在光譜分析方面,RLVR檢查點(diǎn)在頂部主成分內(nèi)表現(xiàn)出明顯穩(wěn)定的譜:跨層的主子空間旋轉(zhuǎn)一致較小,譜漂移最小。奇異值曲線幾乎與基礎(chǔ)模型相同。相比之下,SFT在相同指標(biāo)上引起了顯著更大的旋轉(zhuǎn)和明顯的漂移。

對(duì)參數(shù)高效微調(diào)方法的啟示

這項(xiàng)研究不僅解釋了觀察到的現(xiàn)象,還為RL訓(xùn)練算法的設(shè)計(jì)提供了指導(dǎo)。

團(tuán)隊(duì)的發(fā)現(xiàn)表明,許多SFT時(shí)代的參數(shù)高效微調(diào)(PEFT)方法,特別是通過稀疏或低秩先驗(yàn)與主方向?qū)R的方法,在RLVR中的遷移效果很差。

在稀疏微調(diào)實(shí)驗(yàn)中,僅更新主成分權(quán)重(SFT偏好的方向)會(huì)產(chǎn)生最差的優(yōu)化軌跡,KL曲線上升緩慢,顯示出過度干預(yù)和退化的訓(xùn)練動(dòng)態(tài)。

相反,更新非主成分、低幅度權(quán)重恰好符合理論預(yù)測(cè)的離主成分區(qū)域,能夠緊密跟蹤密集RLVR軌跡。

對(duì)于最近流行的LoRA變體,研究發(fā)現(xiàn)主成分定向的PiSSA并沒有比標(biāo)準(zhǔn)LoRA帶來額外收益。

在用于匹配全參數(shù)性能的較高學(xué)習(xí)率下,PiSSA經(jīng)常變得不穩(wěn)定并提前崩潰。這是因?yàn)樵赑iSSA中擴(kuò)大學(xué)習(xí)率會(huì)強(qiáng)制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向于避免的方向。

論文地址:https://arxiv.org/abs/2511.08567

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-11-14 08:37:14

2021-07-12 06:11:14

SkyWalking 儀表板UI篇

2022-01-02 08:43:46

Python

2022-10-26 07:39:36

MVCC數(shù)據(jù)庫(kù)RR

2022-12-19 08:14:30

注解開發(fā)配置

2021-05-20 06:57:16

RabbitMQ開源消息

2022-02-07 11:01:23

ZooKeeper

2023-04-20 08:00:00

ES搜索引擎MySQL

2021-09-15 19:05:16

數(shù)據(jù)開源項(xiàng)目

2022-12-16 09:20:11

ChatGPTAI

2022-06-30 22:53:18

數(shù)據(jù)結(jié)構(gòu)算法

2021-08-01 07:19:16

語(yǔ)言OpenrestyNginx

2021-08-11 07:02:21

npm包管理器工具

2021-08-16 15:18:20

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-09-16 11:32:19

組合總和

2021-07-06 08:59:18

抽象工廠模式

2023-11-28 08:29:31

Rust內(nèi)存布局

2023-01-03 08:31:54

Spring讀取器配置

2020-10-09 08:15:11

JsBridge

2021-06-16 08:28:25

unary 方法函數(shù)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美网站免费| 中文字幕人妻丝袜乱一区三区| 99re8这里有精品热视频免费| 亚洲精品视频在线观看网站| 91黄色国产视频| 日本三级黄色大片| 精品在线观看入口| 欧美日韩日日摸| 麻豆一区二区三区在线观看| 99热这里只有精品66| 激情综合久久| 亚洲欧洲av一区二区| 制服丝袜综合网| 在线观看小视频| 99久精品国产| 国产精品白嫩美女在线观看| 国产麻豆a毛片| 大奶在线精品| 欧美最猛黑人xxxxx猛交| 少妇精品久久久久久久久久| 国产欧美熟妇另类久久久| 国内精品久久久久久久97牛牛| 亚洲国产精品成人一区二区| 午夜两性免费视频| 91www在线| 国产精品久久久久天堂| 99电影网电视剧在线观看| 欧美一二三区视频| 四虎国产精品免费观看| 日韩av在线精品| 羞羞的视频在线| av色综合久久天堂av色综合在| 成人精品电影在线观看| 国产日产久久高清欧美一区| 日韩免费av片| 999国产精品视频| 国产视频在线一区二区| 亚洲一区二区三区四区精品| 成人欧美magnet| 中文字幕日韩一区二区| 玛丽玛丽电影原版免费观看1977 | 日韩免费毛片视频| av电影在线观看| 91在线视频官网| 91久久大香伊蕉在人线| 二区视频在线观看| 精品91视频| 久久福利网址导航| 奇米网一区二区| 伊人精品一区| 日韩成人中文字幕在线观看| 精品无码av一区二区三区不卡| 国产精品美女午夜爽爽| 色婷婷综合久久久久中文一区二区| 一区二区三区我不卡| 暖暖视频在线免费观看| 成人美女视频在线观看18| 成人黄色午夜影院| 探花国产精品一区二区| 久久欧美肥婆一二区| 高清欧美电影在线| 久久久精品视频在线| 国产精品久久久久久麻豆一区软件 | 亚洲国产99精品国自产| 永久看看免费大片| 日日夜夜一区| 欧美日韩国产经典色站一区二区三区| 成人黄色片视频| 成人影院大全| 亚洲国产美国国产综合一区二区| 在线观看成人免费| 爆操欧美美女| 亚洲色图20p| 夜夜春亚洲嫩草影视日日摸夜夜添夜 | 免费成人在线网站| 成人观看高清在线观看免费| 国产免费黄色片| 不卡高清视频专区| 欧洲一区二区在线| 91xxx在线观看| 亚洲乱码日产精品bd | 日韩激情中文字幕| 国产男人精品视频| www.天堂在线| 久久亚洲精品国产精品紫薇| 日韩精品极品视频在线观看免费| 欧美69xxx| 午夜电影网亚洲视频| 免费观看成人网| 久久三级中文| 亚洲精品自在久久| 中文字幕观看av| 日韩午夜在线| 国产精品永久免费观看| 丰满人妻一区二区三区无码av | 青娱乐国产91| 国产黄大片在线观看画质优化| 五月综合激情日本mⅴ| 久久九九国产视频| 97一区二区国产好的精华液| 亚洲男人天堂2023| 国语对白在线播放| 视频一区二区国产| 超碰97人人人人人蜜桃| 精品无人乱码| 亚洲国产一区视频| 亚洲一级片网站| 欧美午夜寂寞| 欧美日韩xxxxx| 中文字幕日韩经典| 99久久精品国产麻豆演员表| 手机成人av在线| jk漫画禁漫成人入口| 日韩欧美中文一区二区| 国产jjizz一区二区三区视频| 欧美激情1区2区3区| 国产成人精品av| 手机看片一区二区| 亚洲欧美色综合| 啊啊啊国产视频| 日韩最新在线| 欧美激情欧美狂野欧美精品| 一级黄色片视频| 国产亚洲一本大道中文在线| 国产中文字幕乱人伦在线观看| 成人在线观看免费播放| 亚洲精品在线视频| 亚洲精品在线观看av| 精品一二三四在线| 亚洲一区综合| 亚洲四虎影院| 亚洲女人被黑人巨大进入| 五月婷婷一区二区| 国产一区二区精品久久91| 偷拍视频一区二区| 国产v综合v| 亚洲人成五月天| 色av性av丰满av| 久久亚洲免费视频| 国产xxxxx在线观看| 日本精品影院| 欧美在线视频a| 四虎影视2018在线播放alocalhost| 亚洲一区二区三区免费视频| 中文字幕久久久久久久| 天天天综合网| 91精品啪在线观看麻豆免费| 三区四区在线视频| 欧美日韩国产在线观看| 国产调教在线观看| 丝袜美腿一区二区三区| 成人三级视频在线观看一区二区| 五月香视频在线观看| 欧美日韩高清一区二区不卡| 国产第一页精品| 激情欧美日韩一区二区| 一本久道久久综合| www.成人| 久久免费视频这里只有精品| 成人免费观看在线视频| 午夜久久久久久| 亚洲国产欧美视频| 日韩精品国产精品| 伊人久久99| 日韩一区二区三区高清在线观看| 欧美另类在线观看| 人妻偷人精品一区二区三区| 午夜电影一区二区三区| 国产一级久久久久毛片精品| 男男成人高潮片免费网站| 中文字幕欧美日韩一区二区| 欧美二区观看| 国产综合在线看| 激情小视频在线观看| 欧美三级日韩三级| 国产精品白嫩白嫩大学美女| 99久久精品免费| 国产成人精品视频ⅴa片软件竹菊| 日韩av在线中文字幕| 91在线观看免费观看 | 久久久久亚洲av无码专区首jn| 伊人蜜桃色噜噜激情综合| 欧美精品久久久| 96sao精品免费视频观看| 午夜精品久久久久久久99黑人| 欧美婷婷久久五月精品三区| 欧美精品欧美精品系列| 久久亚洲av午夜福利精品一区| 91亚洲男人天堂| 日本中文字幕观看| 亚洲免费黄色| 亚洲人成77777| 国产精品毛片久久久| 国产精品久久久一区| 182tv在线播放| 国产婷婷成人久久av免费高清 | 国产手机视频精品| 国产视频一区二区三区四区五区| 午夜精品久久久久久久99樱桃| 一二三四在线观看视频| 成人毛片视频在线观看| 亚洲欧美日本一区二区三区| 亚洲二区在线| 一区二区在线观看网站| 色吊丝一区二区| 亚洲va电影大全| 国产v综合v| 96精品视频在线| 亚洲精品白浆| 中文字幕在线观看亚洲| 无码精品一区二区三区在线| 欧美乱妇23p| 免费观看日批视频| 亚洲国产成人tv| chinese全程对白| 久久精品男人天堂av| 亚洲高清无码久久| 国产呦萝稀缺另类资源| 成人性生生活性生交12| 亚洲免费在线| a级免费在线观看| 亚洲人成免费网站| 亚洲免费久久| 国模吧精品视频| 欧美大香线蕉线伊人久久国产精品| 亚洲码欧美码一区二区三区| 国产精品香蕉在线观看| 成人勉费视频| 日本aⅴ大伊香蕉精品视频| 色呦呦在线视频| 九九综合九九综合| 免费av在线播放| 日韩在线观看免费高清| 精品亚洲综合| 国产亚洲精品美女| 国产精品一区二区三区四区色| 日韩av在线免费看| 日日躁夜夜躁白天躁晚上躁91| 日韩欧美国产小视频| 99久久精品国产色欲| 欧美美女黄视频| 亚洲在线精品视频| 欧美日韩一区二区在线视频| 欧美三级网站在线观看| 日本乱码高清不卡字幕| aaa在线视频| 91极品视觉盛宴| 黄色污污视频软件| 在线观看av一区二区| 免费黄色一级大片| 欧美视频在线不卡| 中文字幕一区二区人妻| 欧美日韩精品一区二区天天拍小说| 波多野结衣av无码| 欧美探花视频资源| 亚洲一区二区人妻| 欧美精品久久久久久久多人混战 | 精品久久久久香蕉网| 成人免费视频国产免费麻豆| 亚洲成人激情视频| 四虎精品在永久在线观看| 亚洲视频在线观看免费| 日本高清视频在线播放| 欧美成年人视频| 98色花堂精品视频在线观看| 国产91对白在线播放| 日韩av免费| 91亚洲国产精品| xvideos.蜜桃一区二区| 欧美二区在线| 色喇叭免费久久综合网| 久久久天堂国产精品| 亚洲高清成人| 色婷婷综合久久久久中文字幕 | 国产在线视频欧美| 一区二区网站| 欧美日韩一区在线观看视频| 欧洲杯什么时候开赛| 9l视频自拍9l视频自拍| 国产欧美一区二区色老头 | av亚洲一区| 亚洲伊人一本大道中文字幕| 国内自拍欧美| 亚洲欧洲久久| 在线播放一区| 污网站免费在线| 成人一二三区视频| 国产肥白大熟妇bbbb视频| 亚洲免费观看高清完整版在线 | 欧美精品日韩在线| 亚洲欧美区自拍先锋| 日韩免费视频一区二区视频在线观看 | 日本黄网站色大片免费观看| 在线亚洲一区| 97人人模人人爽人人澡| 久久中文娱乐网| 国产十六处破外女视频| 日韩欧美在线中文字幕| a级片在线视频| 亚洲天堂网站在线观看视频| 影音先锋中文在线视频| 国产精品白嫩初高中害羞小美女| 亚洲一区二区三区四区电影| 日韩精品不卡| 国产日韩欧美高清免费| 欧洲美女亚洲激情| 久久精品男人的天堂| 日韩免费黄色片| 日韩一区二区在线观看视频| 国产特黄在线| 91黄色8090| 亚洲一区 二区| 影音先锋亚洲视频| 日本欧美加勒比视频| 亚洲成人av免费在线观看| 一区二区三区不卡在线观看| 在线观看免费高清视频| 亚洲男人天堂2019| 51精品视频| 69堂成人精品视频免费| 久久国产成人精品| 茄子视频成人免费观看| 不卡视频在线看| 青娱乐国产在线视频| 555夜色666亚洲国产免| 99re热久久这里只有精品34| 91av视频在线| 精品国产一区二区三区成人影院 | 好吊色欧美一区二区三区视频| 99久久激情| 亚欧激情乱码久久久久久久久| 久久婷婷国产综合国色天香| 日韩欧美国产亚洲| 精品国产一区二区三区忘忧草| 超碰在线观看免费版| 国产日韩欧美一二三区| gogogo高清在线观看一区二区| 免费在线观看日韩视频| 91丨porny丨中文| 精品欧美一区二区三区免费观看| 亚洲国产成人久久综合一区| heyzo高清国产精品| 国产传媒一区二区三区| 尹人成人综合网| 欧美熟妇精品一区二区蜜桃视频 | www精品久久| www.激情成人| 精品国产一区二区三区四| 亚洲精品一二区| 午夜欧美巨大性欧美巨大| 欧美日韩一区在线观看视频| 久久综合影视| 国产性猛交xx乱| 欧美另类z0zxhd电影| 看黄网站在线| 成人片在线免费看| 一本久道综合久久精品| 国产精品无码一区二区三区| 91国内精品野花午夜精品| 成人p站proumb入口| 国产一区视频在线播放| 一区二区三区在线电影| xxxxwww一片| 精品久久久久久久久久久久久 | 97xxxxx| 国产免费观看久久| 国产精品毛片久久久久久久av| 久久天堂av综合合色| 9l视频自拍九色9l视频成人| 极品美女扒开粉嫩小泬| 久久久777精品电影网影网| 在线观看免费视频一区| 久久成人在线视频| 卡通动漫精品一区二区三区| 国产成人综合一区| 日韩一区在线播放| 免费av网站观看| 国产精品1区2区在线观看 | 久久国产亚洲精品无码| 国产日产精品一区| 国产农村老头老太视频| 8x拔播拔播x8国产精品| 日韩欧美视频专区| 亚洲美女精品视频| 欧美性受xxxx| 久久大胆人体| 亚洲国产精品日韩| 国产999精品久久| 天天综合久久综合| 久久久人成影片一区二区三区| 国内精品视频在线观看| 久久黄色一级视频| 色婷婷综合激情| 黄污视频在线观看| 亚洲国产精品一区二区第一页| 国产91在线观看丝袜| 久久国产香蕉视频| 97人人模人人爽人人喊中文字| 色777狠狠狠综合伊人| 亚洲av无码一区二区三区观看 |