精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

監(jiān)督學(xué)習(xí)也能從錯(cuò)誤中學(xué)習(xí)反思?!清華英偉達(dá)聯(lián)合提出隱式負(fù)向策略爆炸提升數(shù)學(xué)能力

人工智能 新聞
清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎(chǔ)上通過構(gòu)造一個(gè)“隱式負(fù)向模型” 來(lái)額外利用負(fù)向數(shù)據(jù)進(jìn)行訓(xùn)練。

監(jiān)督學(xué)習(xí)也能像強(qiáng)化學(xué)習(xí)一樣進(jìn)行“自我反思”了。

清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎(chǔ)上通過構(gòu)造一個(gè)“隱式負(fù)向模型” 來(lái)額外利用負(fù)向數(shù)據(jù)進(jìn)行訓(xùn)練。

這并不意味著使用“差數(shù)據(jù)”進(jìn)行訓(xùn)練,而是在已知的模型計(jì)算結(jié)果前提下,通過負(fù)向數(shù)據(jù)訓(xùn)練正向模型,即“隱式負(fù)向策略(Implicit Negative Policy)”。

這一策略彌合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的差距,使得兩者性能基本持平。

圖片

△架構(gòu)圖語(yǔ)言模型在線強(qiáng)化算法光譜圖

更讓人驚訝的是,NFT損失函數(shù)梯度和GRPO在On-Policy條件下是等價(jià)的!這意味著,GRPO中人為經(jīng)驗(yàn)設(shè)置的“Group Relative Normalization”方案,可以直接通過理論推導(dǎo)自然得出。

方法:負(fù)向策略計(jì)算出正向模型

NFT定義了一個(gè)在線強(qiáng)化過程:

1.數(shù)據(jù)采樣:語(yǔ)言模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個(gè)01獎(jiǎng)勵(lì)函數(shù),把答案分為正確和錯(cuò)誤兩類,并統(tǒng)計(jì)每個(gè)問題回答準(zhǔn)確率[數(shù)學(xué)公式]。

2.隱式策略建模:利用原始模型和待訓(xùn)練正向模型,構(gòu)造一個(gè)隱式負(fù)向策略來(lái)建模負(fù)向數(shù)據(jù)。

3.策略優(yōu)化:在正確數(shù)據(jù)上,直接監(jiān)督訓(xùn)練正向策略模型;在錯(cuò)誤數(shù)據(jù)上,通過用隱式負(fù)向策略擬合建模,達(dá)到直接優(yōu)化正向策略模型的目的。

圖片

考慮這樣一個(gè)監(jiān)督學(xué)習(xí)基線:Rejection sampling Finetuning(RFT)。每一輪,研究團(tuán)隊(duì)讓模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個(gè)01獎(jiǎng)勵(lì)函數(shù),把所有模型產(chǎn)生的錯(cuò)誤答案丟棄,僅在高質(zhì)量正向數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練。RFT中,研究團(tuán)隊(duì)每一輪的訓(xùn)練目標(biāo)是:

圖片

問題關(guān)鍵在于:能否在負(fù)向數(shù)據(jù)上監(jiān)督訓(xùn)練,也同樣得到上面的“正向策略”呢?

乍看上去是不可能的,在負(fù)向數(shù)據(jù)上訓(xùn)練只能得到?jīng)]有用的“負(fù)向策略”。

然而,問題的轉(zhuǎn)折點(diǎn)在于,數(shù)據(jù)是已知模型在線采樣的,也就是正負(fù)向數(shù)據(jù)分布的和是已知的。由貝葉斯公式可知以下線性關(guān)系:

圖片

這說(shuō)明,假設(shè)真能在負(fù)向數(shù)據(jù)上學(xué)習(xí)到一個(gè)“負(fù)向策略”,可以把這個(gè)負(fù)向策略和原始生成策略結(jié)合,“計(jì)算”得出想要的正向模型。

在實(shí)際操作中,不是真的去學(xué)習(xí)一個(gè)“差模型”。研究團(tuán)隊(duì)提出“隱式負(fù)向策略”(Implicit Negative Policy),可以直接在負(fù)向數(shù)據(jù)上訓(xùn)練正向策略??捎靡韵卤磉_(dá)式來(lái)參數(shù)化隱式負(fù)向模型:

圖片

其中r表示模型在回答問題q時(shí)的正確率,現(xiàn)實(shí)中由于模型對(duì)一個(gè)問題會(huì)產(chǎn)生多個(gè)回答,我們可以很容易地估計(jì)r。這里表明隱式負(fù)向策略不是一個(gè)靜態(tài)的模型,而是基于不同難度的問題動(dòng)態(tài)構(gòu)造的。

因此,NFT損失函數(shù)就可以表達(dá)為:

圖片

對(duì)以上損失函數(shù)直接求導(dǎo),研究團(tuán)隊(duì)在嚴(yán)格On-policy條件下得到和GRPO等價(jià)的梯度表達(dá)式。

這暗示了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)或許存在深層的聯(lián)系,也直接說(shuō)明NFT是一個(gè)絕對(duì)可靠的算法,最差也是退回On-Policy訓(xùn)練和GRPO等價(jià)。

結(jié)果:監(jiān)督強(qiáng)化學(xué)習(xí)方案性能持平,負(fù)向反饋在大模型中優(yōu)勢(shì)更加明顯

NFT和當(dāng)下性能最優(yōu)的強(qiáng)化學(xué)習(xí)算法性能持平,部分場(chǎng)景下可能更有優(yōu)勢(shì)(可以在現(xiàn)有監(jiān)督學(xué)習(xí)框架基礎(chǔ)上簡(jiǎn)單實(shí)現(xiàn))。

與主流RLHF算法對(duì)比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團(tuán)隊(duì)還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負(fù)向反饋在大模型中承擔(dān)更重要的作用。

圖片

和其他已有的基于Qwen-7B zero style訓(xùn)練模型相比,NFT達(dá)到最高的數(shù)學(xué)平均成績(jī)。

圖片

作為一個(gè)純監(jiān)督學(xué)習(xí)算法,NFT不依賴任何外界數(shù)據(jù),可實(shí)現(xiàn)數(shù)學(xué)能力的大幅提升。

圖片

△架構(gòu)圖NFT在Qwen-7B(左)和32B模型(右)上性能表現(xiàn)及對(duì)比

研究團(tuán)隊(duì)還發(fā)現(xiàn)NFT算法在不損失性能條件下有利于模型熵增加,鼓勵(lì)模型充分探索。

圖片

NFT算法指出并彌合了強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的本質(zhì)差異,這暗示兩套機(jī)器學(xué)習(xí)理論存在深層聯(lián)系,可以幫助研究者重新定位、思考和放大強(qiáng)化訓(xùn)練的本質(zhì)優(yōu)勢(shì)。

項(xiàng)目網(wǎng)頁(yè): https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

論文鏈接: https://arxiv.org/pdf/2505.18116

項(xiàng)目代碼: https://github.com/NVlabs/NFT

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2022-10-21 15:02:36

DeepFake技術(shù)

2021-12-31 14:11:20

框架AI開發(fā)

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2015-10-12 10:37:42

學(xué)習(xí)算法檢測(cè)

2019-10-14 10:40:03

機(jī)器學(xué)習(xí)人工智能非監(jiān)督學(xué)習(xí)

2023-12-01 16:27:05

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2022-03-25 10:13:05

自動(dòng)駕駛監(jiān)督學(xué)習(xí)數(shù)據(jù)集

2023-11-15 18:40:27

半監(jiān)督學(xué)習(xí)人工智能

2022-02-15 09:04:44

機(jī)器學(xué)習(xí)人工智能監(jiān)督學(xué)習(xí)

2022-06-14 07:07:57

網(wǎng)絡(luò)威脅無(wú)監(jiān)督數(shù)據(jù)泄露

2025-07-09 07:52:59

2023-11-28 12:12:46

機(jī)器學(xué)習(xí)算法

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2025-06-25 08:59:49

AI數(shù)據(jù)模型

2021-07-07 17:19:07

人工智能代碼開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

2一3sex性hd| 青青成人在线| 国产熟女一区二区| 日韩不卡免费高清视频| 成人一区在线看| 91av视频在线免费观看| av男人的天堂av| 亚洲精品中文字幕| 国产女人水真多18毛片18精品视频 | 中文在线不卡视频| 青青青在线视频免费观看| 久草免费在线观看| 成人黄色网址在线观看| 国产成人综合精品| 国产又黄又粗又猛又爽的| 久久久精品区| 欧美视频不卡中文| 在线国产99| 婷婷av一区二区三区| 日本视频一区二区三区| 欧美日产国产成人免费图片| 91av在线免费| 在线欧美激情| 精品福利免费观看| 中文字幕人成一区| 天堂av在线播放| 精品一区二区三区久久久| 九九热r在线视频精品| 日韩精品卡通动漫网站| 四虎地址8848精品| 婷婷国产在线综合| 99亚洲精品视频| 日本波多野结衣在线| 亚洲少妇一区| 九九热精品视频在线播放| 波多野结衣片子| 亚洲国产aⅴ精品一区二区| 色婷婷av一区二区三区软件| www国产无套内射com| 国产福利在线看| 波多野结衣视频一区| 成人激情av在线| 国产精品视频123| 国产精品久久| xxx一区二区| mm131美女视频| 精品一区二区三区中文字幕视频| 日韩欧美在线视频观看| 2018国产在线| 亚洲色图美国十次| 中文字幕一区在线| 日韩精品一区二区三区四区五区 | 福利小视频在线| 中文字幕在线一区| 日韩免费电影一区二区三区| 蜜桃91麻豆精品一二三区| 免费黄色在线| 国产精品对白| 在线不卡a资源高清| 日日橹狠狠爱欧美超碰| 中文在线免费| 国产精品高潮呻吟| 欧美精品二区三区四区免费看视频| 国产精选久久久| 免费精品99久久国产综合精品| 天堂电影一区| 国产三级三级三级精品8ⅰ区| 国产伦精品一区二区三区免费视频| 91成年人视频| 美女一区二区久久| 88xx成人精品| 日韩三级免费看| 99国产精品久久久久久久 | 久久久美女艺术照精彩视频福利播放| 国产精品吹潮在线观看| 国产成人免费观看视频| 一区免费在线| 97久久久免费福利网址| 久久久.www| 欧美91视频| 欧美日韩xxx| 欧美日韩三级在线观看| 亚洲最新色图| 欧美国产日本高清在线| 欧美精品xxxxx| 亚洲激情精品| 日av在线播放中文不卡| 亚洲成熟少妇视频在线观看| 天堂av在线一区| 国产成人一区二区| 少妇一级淫片日本| 老汉av免费一区二区三区| 国产日韩视频在线观看| 国产欧美日韩成人| 国产精品18久久久久久久久久久久| 国产美女搞久久| 国产乱子伦精品无码码专区| 国产精品自拍av| 国产成人精品福利一区二区三区| 日本波多野结衣在线| 久久久美女毛片| www.午夜色| 国产白丝在线观看| 色偷偷一区二区三区| 2025韩国理伦片在线观看| 人人九九精品视频| 亚洲韩国欧洲国产日产av | 丁香六月综合激情| 久久亚洲综合网| 男人的天堂在线| 国产精品看片你懂得| 男人c女人视频| 天天综合av| 欧美三级日韩三级国产三级| 在线观看av免费观看| 激情av综合| 中文字幕欧美精品日韩中文字幕| 特级片在线观看| 免费一区视频| 92国产精品久久久久首页| 日韩性xxxx| 中文欧美字幕免费| 男人插女人视频在线观看| 91精品xxx在线观看| 日韩视频一区二区三区在线播放 | 亚洲黄色高清| 国产精品自拍网| 手机看片一区二区三区| 久久精品午夜| 亚洲japanese制服美女| 日本电影一区二区在线观看| 亚洲精品国产一区二区精华液 | 亚洲欧洲韩国日本视频| 亚洲精品自拍偷拍| 精品久久蜜桃| 欧美成人二区| 欧美亚洲自拍偷拍| 中文精品在线观看| 亚洲看片一区| 国产日韩欧美精品| 丰乳肥臀在线| 精品乱人伦一区二区三区| 美女网站视频色| 日韩电影网1区2区| 蜜桃传媒视频麻豆一区| 免费在线小视频| 日韩福利视频在线观看| 国产精品成人久久| 99久久精品国产一区二区三区| 成人国产在线看| 欧美影院视频| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产伦精品一区二区三区四区 | 日本午夜在线观看| 欧美a级理论片| 亚洲精品免费在线看| 国产精品久久久久久吹潮| 中文日韩电影网站| 91麻豆一区二区| 亚洲视频在线一区| 久久久国产精品久久久| 色噜噜在线播放| 亚洲影视一区| 91亚洲精品一区| 亚洲第一图区| 精品成人一区二区三区| 国产无遮无挡120秒| 97久久超碰精品国产| 久久久久久久久久久久久国产精品| 色爱av综合网| 国产精品成人v| 欧美激情办公室videoshd| 91精品国产入口| 久久这里只有精品国产| 91伊人久久大香线蕉| 99久久久无码国产精品6| 精品久久综合| 91日本在线观看| 国产在线xxx| 亚洲精品综合精品自拍| 中文字字幕在线中文乱码| 亚洲欧美日韩小说| 手机在线看片日韩| 日韩高清国产一区在线| 青青草免费在线视频观看| 成午夜精品一区二区三区软件| 69av在线视频| 日本www在线观看| 亚洲成人黄色网| 国产99免费视频| 亚洲欧美日韩久久精品| 亚洲第九十七页| 精品一区二区三区视频| 免费看一级大黄情大片| 色综合色综合| 国产综合欧美在线看| 四虎影视精品永久在线观看| 久久久久久网址| 91社区在线| 亚洲国产精品资源| 91精品国自产| 黑人与娇小精品av专区| 欧美亚洲日本在线| a级高清视频欧美日韩| 亚洲a级黄色片| 免费看亚洲片| 国产精品久久久久久久乖乖| 日韩啪啪电影网| 蜜桃91精品入口| 亚洲国产高清在线观看| 国产91免费观看| 3344国产永久在线观看视频| 久久天天躁狠狠躁夜夜av| 日韩电影网址| 欧美videos中文字幕| 中文字幕av网站| 欧美日韩在线另类| 久久久久久久九九九九| 中文字幕亚洲一区二区av在线 | 久久蜜桃一区二区| 美女流白浆视频| 久久精品国产精品亚洲精品| 波多野结衣家庭教师视频| 亚洲无毛电影| 91国在线高清视频| 久久福利综合| 人偷久久久久久久偷女厕| 国偷自产av一区二区三区| 亚洲综合日韩在线| 国产亚洲精品精品国产亚洲综合| 欧美亚洲视频在线观看| 超清av在线| 久久99久久亚洲国产| 黄色在线论坛| 久久天天躁夜夜躁狠狠躁2022| 成年人在线看| 国产午夜精品免费一区二区三区 | 99re在线精品| 国产视频精品视频| 国产精品亚洲一区二区三区妖精| 亚洲精品午夜在线观看| 琪琪一区二区三区| 午夜精品在线免费观看| 丝袜脚交一区二区| 欧美精品一区二区三区免费播放| 亚洲综合激情| 99福利在线观看| 久久xxxx精品视频| 欧美黄网站在线观看| 亚洲在线成人| 欧美性猛交久久久乱大交小说| 欧美一级网站| 男女啪啪网站视频| 日韩成人免费看| 三级a三级三级三级a十八发禁止| 日韩国产一区二| 另类小说第一页| 美女诱惑一区二区| 午夜一级免费视频| 国产jizzjizz一区二区| 日本一级大毛片a一| 不卡的电视剧免费网站有什么| 亚洲欧美色图视频| 国产欧美日韩综合精品一区二区| 又嫩又硬又黄又爽的视频| 国产精品久久久久久久久久免费看 | 国产精品视频123| 在线一区二区三区四区五区| 最新在线中文字幕| 欧美一区二区视频在线观看2022| 亚洲AV无码一区二区三区性 | 精品久久久久一区二区三区| 亚洲天堂男人天堂| 老司机在线视频二区| 久久99国产精品自在自在app| 成人三级高清视频在线看| 国产91色在线|免| 成人在线分类| 国产综合av一区二区三区| 欧美理论视频| 国产一二三四区在线观看| 亚洲福利国产| 色片在线免费观看| 国产福利一区二区三区视频| 欧美精品欧美极品欧美激情| 国产精品视频线看| 国产一级做a爰片在线看免费| 91久久精品网| www.四虎在线观看| 亚洲最大中文字幕| 欧美精品videossex少妇| 日韩**中文字幕毛片| 精品三级久久久| 久久久综合香蕉尹人综合网| 亚洲啊v在线观看| 青青草视频在线免费播放| 喷水一区二区三区| 在线精品一区二区三区| 中文字幕中文乱码欧美一区二区 | 国产中文字幕一区二区| 国产精品天美传媒| 免费毛片一区二区三区| 欧美日韩高清一区二区三区| 香蕉久久一区二区三区| 久久久av免费| 欧美韩国亚洲| 国产一区国产精品| 一区二区三区在线| 色七七在线观看| 成人高清视频在线| 久久爱一区二区| 色八戒一区二区三区| 不卡av中文字幕| xxxxx成人.com| 澳门av一区二区三区| 韩国一区二区三区美女美女秀| 久久久久久久久国产一区| 992kp快乐看片永久免费网址| av在线一区二区| 久热这里有精品| 欧美挠脚心视频网站| 黄色av网址在线免费观看| 97视频在线观看免费| 日韩在线精品强乱中文字幕| 在线国产99| 男人的j进女人的j一区| 成人国产精品久久久网站| 天天色天天操综合| 丰满肉肉bbwwbbww| 欧美国产亚洲精品久久久8v| 高清精品久久| 自拍偷拍一区二区三区| 麻豆免费看一区二区三区| 青娱乐国产视频| 一本一本大道香蕉久在线精品| 五月天婷婷在线观看| 国产综合在线视频| 涩涩屋成人免费视频软件| 香蕉视频免费版| 激情综合色综合久久| 奇米网一区二区| 69xxxx欧美| 久久久久久国产三级电影| 高清精品久久| 国产精品一二三在线观看| 精品在线一区二区| 美女视频久久久| 91精品在线免费观看| 成人在线播放| av色综合网| 在线观看不卡| 91视频啊啊啊| 欧美日韩国产在线看| 丝袜视频国产在线播放| 欧美在线中文字幕| 国产精品羞羞答答在线观看 | 欧美91看片特黄aaaa| 久久久久久久久久久久久久一区| 午夜在线视频一区二区区别| 强伦人妻一区二区三区| 91久久国产最好的精华液| 成人一区二区不卡免费| 国产日韩在线观看av| 牛夜精品久久久久久久99黑人| 日批免费观看视频| 午夜精品在线看| 免费人成在线观看网站| 国产精品久久视频| 午夜久久免费观看| 香蕉视频1024| 精品福利樱桃av导航| 国产毛片av在线| 国内外成人免费激情在线视频网站| 日本成人中文| 自拍偷拍21p| 亚洲一区二区三区四区在线观看 | 久久人人爽人人爽人人片av不| 免费高清在线观看免费| 国产精品久久久久影院亚瑟| 亚洲成人777777| 欧美在线观看日本一区| 日韩在线看片| 日本美女视频网站| 91官网在线免费观看| a黄色片在线观看| 精品国产一二| 紧缚捆绑精品一区二区| 伊人久久综合视频| 日韩在线精品一区| 国产成人夜色高潮福利影视| 日本免费观看网站| 亚洲最色的网站| 成人在线免费视频| 国产精品久久久久久久天堂第1集| 久久不射中文字幕| 久久r这里只有精品| 亚洲图片欧洲图片av| 中文一区二区三区四区| 中文字幕第36页| 亚洲v精品v日韩v欧美v专区|