精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型訓(xùn)練或無需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪

人工智能 新聞
來自北大的研究人員通過在訓(xùn)練數(shù)據(jù)中刻意添加隨機(jī)亂碼進(jìn)行驗(yàn)證。他們?cè)噲D測(cè)試模型在性能受損前能承受多少”壞數(shù)據(jù)”。

傳統(tǒng)的大語(yǔ)言模型訓(xùn)練需要依賴”純凈數(shù)據(jù)”——那些經(jīng)過仔細(xì)篩選、符合標(biāo)準(zhǔn)語(yǔ)法且邏輯嚴(yán)密的文本。但如果這種嚴(yán)格的數(shù)據(jù)過濾,并不像我們想象中那般重要呢?

這就像教孩子學(xué)語(yǔ)言:傳統(tǒng)觀點(diǎn)認(rèn)為他們應(yīng)該只聽語(yǔ)法完美的標(biāo)準(zhǔn)發(fā)音。但現(xiàn)實(shí)情況是,孩童恰恰是在接觸俚語(yǔ)、語(yǔ)法錯(cuò)誤和背景噪音的過程中,依然能夠掌握語(yǔ)言能力。

來自北大的研究人員通過在訓(xùn)練數(shù)據(jù)中刻意添加隨機(jī)亂碼進(jìn)行驗(yàn)證。他們?cè)噲D測(cè)試模型在性能受損前能承受多少”壞數(shù)據(jù)”。

實(shí)驗(yàn)結(jié)果表明,即便面對(duì)高達(dá)20%的”垃圾數(shù)據(jù)”,訓(xùn)練依然可以正常進(jìn)行,且Next-token Prediction (NTP) loss受到的影響不足1%!他們不僅揭示了噪聲與模型性能的復(fù)雜關(guān)系,還提出了一種創(chuàng)新的“局部梯度匹配”方法,讓模型在噪聲環(huán)境中依然保持強(qiáng)勁表現(xiàn)。

是什么:隨機(jī)噪音會(huì)有什么影響?

研究者利用OpenWebText數(shù)據(jù)集,訓(xùn)練了多個(gè)GPT-2相同架構(gòu)和參數(shù)量的語(yǔ)言模型。他們首先生成了一串范圍在0到50256(GPT-2 tokenizer的大小)的整數(shù),其中每個(gè)數(shù)都遵循0到50256的均勻分布。這樣是為了模擬由于解碼錯(cuò)誤或網(wǎng)頁(yè)崩潰導(dǎo)致的隨機(jī)亂碼經(jīng)過tokenizer之后的結(jié)果。之后,研究團(tuán)隊(duì)向OpenWebText中注入占比1%-20%的隨機(jī)噪聲,正常進(jìn)行Next-token Prediction的預(yù)訓(xùn)練。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)反直覺現(xiàn)象:盡管NTP loss受到噪音的影響有些微提升,但是增加幅度遠(yuǎn)小于噪音占比。即使20%的數(shù)據(jù)被污染,模型的下一個(gè)詞預(yù)測(cè)損失僅上升約1%。

更令人驚訝的是,在arXiv和Wikipedia語(yǔ)料測(cè)試中,含噪模型甚至展現(xiàn)出更低的NTP loss。

這些反常現(xiàn)象的出現(xiàn)引發(fā)了研究團(tuán)隊(duì)的思考。他們想要知道這種現(xiàn)象出現(xiàn)的背后原因。

為什么:理論角度分析隨機(jī)噪音

遵照之前的理論工作,研究團(tuán)隊(duì)把NTP過程建模成在 (給定前綴, 下一token) 的聯(lián)合概率分布上的分類任務(wù)。用P^c表示干凈分布,P^n表示噪音分布,作者指出,我們真正關(guān)心的不是模型在噪音P^n上的損失,而是在噪音分布上訓(xùn)練出來的模型 h 與最優(yōu)模型 h* 在干凈分布P^c上的 NTP loss 差距。

為了給出證明,研究團(tuán)隊(duì)首先注意到,在隨機(jī)亂碼中找到一段有意義文本的概率極低。用數(shù)學(xué)語(yǔ)言來描述,這意味著干凈分布P^c和噪音分布P^n的支撐集(support set)的交集可以認(rèn)為是空集。

基于這條假設(shè),研究團(tuán)隊(duì)成功證明,當(dāng)噪音占比 α 足夠小時(shí),P^n的存在不改變 NTP loss的全局最小值。哪怕 α 足夠大,噪音對(duì)損失函數(shù)帶來的影響也遠(yuǎn)小于其占比。

由于Assumption 1并不只在隨機(jī)噪音時(shí)成立,因此結(jié)論可以推廣到其他情況。最直接的場(chǎng)景便是多語(yǔ)言模型的訓(xùn)練。顯然,在一種語(yǔ)言(英語(yǔ))看來,另一種語(yǔ)言(漢語(yǔ))就是隨機(jī)亂碼,他們之間的token彼此是不重合的,兩者對(duì)應(yīng)的分布自然沒有交集,也就滿足了Assumption 1。因此,Proposition 1表明,在多語(yǔ)言數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,單個(gè)語(yǔ)言的性能不會(huì)受到太大的影響。這就解釋了多語(yǔ)言模型的成功。此外,Proposition 1還可以解釋為什么在充滿背景噪音的數(shù)據(jù)集上訓(xùn)練的音頻模型可以成功。

為了進(jìn)一步檢驗(yàn)上述理論,研究團(tuán)隊(duì)還隨機(jī)生成了先驗(yàn)分布服從高斯分布的隨機(jī)噪音。由于高斯分布有規(guī)律可循,這種噪音對(duì)應(yīng)的NTP loss更低。按照Proposition 1的結(jié)論,更低NTP loss的噪音P^n對(duì)模型性能的影響更小。實(shí)驗(yàn)結(jié)果驗(yàn)證了這一預(yù)言,也就證明了Proposition 1的正確性。

怎么做:如何彌補(bǔ)隨機(jī)噪音的影響

盡管預(yù)訓(xùn)練損失變化微弱,下游任務(wù)卻暴露出隱患。實(shí)驗(yàn)顯示,在高斯噪音上訓(xùn)練的模型,盡管其相比隨機(jī)噪音對(duì)應(yīng)模型的NTP loss更低,但在文本分類下游任務(wù)中的準(zhǔn)確率卻下降高達(dá)1.5%。這種“損失-性能解耦”現(xiàn)象表明,預(yù)訓(xùn)練指標(biāo)NTP loss無法全面反映模型的實(shí)際能力。研究者指出,噪聲會(huì)扭曲特征空間的梯度分布,導(dǎo)致微調(diào)時(shí)模型對(duì)細(xì)微擾動(dòng)過于敏感。

針對(duì)這一挑戰(zhàn),團(tuán)隊(duì)提出了一種即插即用的解決方案——局部梯度匹配損失(LGM)。具體來說,由于在下游任務(wù)應(yīng)用大模型時(shí)幾乎不會(huì)從頭預(yù)訓(xùn)練,研究團(tuán)隊(duì)在黑盒模型的假設(shè)下提出了LGM這一微調(diào)方法。其無需訪問模型參數(shù),而是通過向特征添加高斯噪聲并約束原始/擾動(dòng)特征的梯度差異,直接增強(qiáng)分類頭的抗噪能力。其核心思想在于:迫使模型在特征擾動(dòng)下保持決策一致性,從而彌合噪聲導(dǎo)致的特征偏移。對(duì)于黑盒模型提取的特征 t,首先添加一定程度高斯擾動(dòng)得到 \hat{t},然后將分類頭關(guān)于t和 \hat{t} 的梯度差作為損失函數(shù)

實(shí)驗(yàn)部分,團(tuán)隊(duì)在8個(gè)自然語(yǔ)言理解和14個(gè)視覺分類數(shù)據(jù)集上驗(yàn)證了模型性能。

對(duì)于受到噪音影響的模型,LGM可以顯著增強(qiáng)性能。

出乎意料的是,當(dāng)把LGM用在干凈模型(如Llama-3、ViT-L)上時(shí),下游任務(wù)準(zhǔn)確率仍可提升1%-3%。


為了解釋LGM的成功,研究團(tuán)隊(duì)從 Sharpness-Aware Minimization的角度,證明了LGM損失和損失函數(shù)的光滑程度、對(duì)輸入的敏感程度有緊密關(guān)系:

啟示與展望:數(shù)據(jù)清洗的新思考

這項(xiàng)研究為大規(guī)模預(yù)訓(xùn)練提供了全新視角:

  • 效率革命:適度保留隨機(jī)噪聲可降低數(shù)據(jù)清洗成本,尤其對(duì)資源有限的團(tuán)隊(duì)意義重大
  • 理論擴(kuò)展:理論框架可用于解釋多語(yǔ)言模型的成功,還可用于其他模態(tài)
  • 數(shù)據(jù)增強(qiáng):可控噪聲注入或成新型正則化手段,提升模型泛化能力

當(dāng)然,研究也存在局限:實(shí)驗(yàn)僅基于GPT-2規(guī)模模型,超大規(guī)模模型(如GPT-4)的噪聲耐受性仍需驗(yàn)證。團(tuán)隊(duì)計(jì)劃進(jìn)一步探索噪聲類型與模型容量的動(dòng)態(tài)關(guān)系,以及LGM在其他模態(tài)中的應(yīng)用。

論文地址:https://arxiv.org/abs/2502.06604

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法

2024-09-03 14:10:00

模型測(cè)試

2023-07-06 08:00:00

機(jī)器學(xué)習(xí)擴(kuò)散模型Midjourney

2023-09-06 13:34:31

2025-03-03 09:16:00

Meta模型預(yù)測(cè)

2023-05-26 00:43:08

2025-02-06 07:26:35

2025-03-17 12:55:18

2023-07-04 10:11:28

數(shù)據(jù)模型

2023-10-29 22:38:59

2023-09-10 10:51:22

算法結(jié)構(gòu)

2024-04-08 12:18:57

訓(xùn)練AI

2025-09-08 08:50:00

AI模型訓(xùn)練

2023-03-03 13:06:34

大腦分層預(yù)測(cè)

2023-05-15 09:43:49

模型數(shù)據(jù)

2024-02-07 12:13:03

AI模型

2025-06-16 03:00:00

2024-01-15 16:41:00

模型數(shù)據(jù)

2025-07-29 09:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91亚洲精品久久久久久久久久久久| 精品sm在线观看| 日本特级黄色大片| av手机免费看| 丝袜诱惑亚洲看片 | 91电影在线播放| 精品一区二区三区免费| 91极品视频在线| 永久免费看片视频教学| 岛国成人av| 欧美日韩精品专区| 日本一本中文字幕| 高清在线观看av| 成人亚洲精品久久久久软件| 国产精品视频免费观看www| 久久综合成人网| 精品一区二区三区的国产在线观看| 91精品国产全国免费观看| 波多野结衣家庭教师在线播放| 性开放的欧美大片| 久久一区二区三区四区| 91国产在线播放| 中文无码av一区二区三区| 亚洲高清不卡| 欧美伦理91i| 香蕉久久久久久久| 久久av中文| 亚洲激情国产精品| 亚洲欧美日韩中文字幕在线观看| 亚洲精品一区三区三区在线观看| 偷拍与自拍一区| a级网站在线观看| 888av在线| www久久精品| 精品国产一区二区三| 精品黑人一区二区三区国语馆| 日本女人一区二区三区| …久久精品99久久香蕉国产| 国产真人真事毛片| 正在播放日韩欧美一页| 久久精品久久久久| 懂色av粉嫩av浪潮av| 国产一区二区三区四区五区| 国产视频在线观看一区二区| 中文字幕人妻一区| 成人福利一区| 精品久久久影院| 三级黄色片免费观看| 亚洲电影有码| 欧美色成人综合| 亚洲国产精品三区| 99riav视频一区二区| 日本精品一级二级| 99视频在线免费| 日本欧美不卡| 欧美日韩在线观看一区二区 | 经典三级在线一区| 成人激情视频网| 国产乱淫a∨片免费视频| 九九热在线视频观看这里只有精品| 国产精品美女免费| 中文区中文字幕免费看| 韩国一区二区在线观看| 亚洲一区制服诱惑| 免费国产羞羞网站视频| 99国产麻豆精品| 农村寡妇一区二区三区| 国产在线视频网| 国产欧美一区视频| 91免费网站视频| 免费污视频在线| 性做久久久久久久久| 午夜精品久久久久久久无码| 日韩高清中文字幕一区二区| 欧美日韩一区不卡| 中文字幕在线视频一区二区| 哺乳一区二区三区中文视频| 亚洲精品天天看| 男人天堂资源网| 最新国产精品久久久| 午夜精品一区二区三区av| 伊人久久综合视频| 日本91福利区| 99re在线视频观看| 四虎成人免费在线| 国产精品久久久久久久久图文区| 色哺乳xxxxhd奶水米仓惠香| 川上优av中文字幕一区二区| 欧美午夜宅男影院| 欧美日韩一区二区区别是什么 | 在线亚洲美日韩| 俄罗斯一级**毛片在线播放| 色菇凉天天综合网| 特黄特色免费视频| 国产麻豆一区二区三区精品视频| 超碰97人人做人人爱少妇| 亚洲精品1区2区3区| 久久精品国产在热久久| 黄色一区三区| 在线看黄色av| 婷婷中文字幕综合| 久久久久久久久久一区| 丝袜美腿综合| 九九九热精品免费视频观看网站| 中文在线第一页| 国产黄人亚洲片| 日韩亚洲欧美精品| 高清毛片在线观看| 欧美一级片在线观看| 国产精品无码久久久久一区二区| 久久久久午夜电影| 国产ts一区二区| 蜜臀久久精品久久久久| 中文字幕在线不卡一区| 久章草在线视频| 国产+成+人+亚洲欧洲在线| 在线观看精品国产视频| 天天操天天爽天天干| 国产在线国偷精品产拍免费yy| 欧美视频小说| ****av在线网毛片| 日韩一区二区免费高清| 波多野结衣家庭教师在线观看| 国产偷自视频区视频一区二区| 91亚洲一区精品| 9191在线观看| 欧洲av一区二区嗯嗯嗯啊| 久久偷拍免费视频| 激情久久综合| dy888夜精品国产专区| 免费av在线网站| 欧美伊人精品成人久久综合97| 中文字幕在线播放一区| 黄色亚洲免费| 99久久精品免费看国产一区二区三区| 天堂中文а√在线| 91黄色免费看| 性猛交ⅹxxx富婆video | 日韩在线观看| 国产suv精品一区二区| 色视频在线观看免费| 天天亚洲美女在线视频| 成人在线视频免费播放| 欧美日韩一区自拍| 成人综合色站| 1234区中文字幕在线观看| 亚洲аv电影天堂网| 久久免费少妇高潮99精品| 国产精品夜夜爽| 大西瓜av在线| 亚洲精品观看| 亚州成人av在线| 神马久久精品| 欧美午夜性色大片在线观看| 亚洲av无码一区二区二三区| 模特精品在线| 亚洲精品高清国产一线久久| 欧美视频免费看| 久久久91精品国产| 亚洲AV无码精品色毛片浪潮| 亚洲国产精品麻豆| avtt香蕉久久| 视频在线在亚洲| 杨幂一区欧美专区| 欧美1区2区3| 久久久免费观看视频| 亚洲欧美日韩综合在线| 一本大道久久a久久综合婷婷| 四虎国产精品成人免费入口| 蜜桃av一区二区| 视色,视色影院,视色影库,视色网| 精品中文字幕一区二区三区| 久久免费视频在线| 欧美日韩国产中文字幕在线| 欧美性videosxxxxx| 青青草原在线免费观看视频| 波多野洁衣一区| 国产成人av影视| 国产精品毛片久久| 国产一区二区在线观看免费播放| 成人av免费电影网站| 日韩一区二区精品视频| 丰满肉肉bbwwbbww| 在线观看视频欧美| 男女免费视频网站| 久久久久久毛片| 天天久久综合网| 日韩图片一区| 在线观看一区二区三区三州| 国产精品15p| 国产精品偷伦视频免费观看国产 | 成人中文视频| 不卡视频一区二区三区| 欧美电影网址| 精品自在线视频| 奇米影视888狠狠狠777不卡| 这里是久久伊人| 在线观看 亚洲| 一区二区三区在线观看欧美| 特级西西www444人体聚色| 国产一区二区三区精品视频| 黄色片久久久久| 欧美不卡在线| 一区二区三区四区五区精品 | 视频一区二区在线观看| 亚洲专区**| 成人国产精品免费视频| 国产高清不卡| 国模极品一区二区三区| 午夜激情在线观看| 亚洲欧美精品一区二区| 不卡的日韩av| 欧美精品在线观看播放| 草莓视频18免费观看| 亚洲不卡av一区二区三区| 日韩在线视频网址| 国产色产综合产在线视频| 中文字幕三级电影| 国产精品原创巨作av| 亚洲欧美视频二区| 日韩中文字幕91| 国产日产欧美视频| 尤物网精品视频| 4444亚洲人成无码网在线观看| 日韩电影一区| 日本一区免费看| 亚洲电影一级片| 九九九九九精品| 欧美男男freegayvideosroom| 国产91一区二区三区| 日韩亚洲国产免费| 国产美女91呻吟求| 国产原创一区| 国产精品男人爽免费视频1| 大胆人体一区二区| 欧美一二三视频| 天堂在线中文网官网| 97热在线精品视频在线观看| 成人福利电影| 91国偷自产一区二区三区的观看方式| 欧美黑人猛交的在线视频| 久久精品夜夜夜夜夜久久| 久久bbxx| 久久亚洲精品一区| gogo在线高清视频| 色综合91久久精品中文字幕| 50度灰在线| 久久免费少妇高潮久久精品99| 啪啪免费视频一区| 欧美黑人一级爽快片淫片高清| 在线免费观看的av| 久久久久久久久久久免费| 99热99re6国产在线播放| 97成人超碰免| 国产精品av一区二区三区 | 日韩在线视频线视频免费网站| 在线观看美女网站大全免费| 日韩中文字幕在线| av毛片在线播放| 欧美激情亚洲综合一区| а√天堂8资源中文在线| 欧美资源在线观看| 国产黄色一区| 成人自拍爱视频| 一区二区美女| 亚洲欧洲三级| 欧美成人精品| 欧美女人性生活视频| 蜜臀久久99精品久久久久宅男 | 99久久综合国产精品| b站大片免费直播| 国产精品免费视频网站| 国产盗摄x88av| 精品露脸国产偷人在视频| 精品乱码一区内射人妻无码| 91精品在线观看入口| 黄色av网站免费在线观看| 亚洲男人天堂古典| 老司机99精品99| 2020久久国产精品| 四虎国产精品永久在线国在线| 99re在线| 精品国产一区二区三区小蝌蚪| 樱空桃在线播放| 国产欧美日韩综合一区在线播放| 天天操天天爽天天射| 国产乱码精品1区2区3区| 国产精品九九九九九| 1024成人网| 综合网在线观看| 欧美一级片免费看| 激情福利在线| 国内偷自视频区视频综合| 成人看片在线观看| 高清视频在线观看一区| 成人激情电影在线| 人妻久久久一区二区三区| 久久99久久精品| 国产黄色三级网站| 亚洲精品免费在线观看| 成年人午夜视频| 欧美一区二区网站| 国产精品久久一区二区三区不卡 | 中国一级免费毛片| 欧美日韩国产美女| 理论视频在线| 国自在线精品视频| 久久一级大片| 午夜一区二区三区| 国产日韩一区| 免费观看污网站| 自拍偷拍国产亚洲| 国产精品高清无码| 日韩高清有码在线| 黄页在线观看免费| 91在线播放国产| 波多野结衣一区| 男人亚洲天堂网| 不卡在线观看av| 美女毛片在线观看| 91精品国产91久久久久久一区二区| 国产系列在线观看| 清纯唯美亚洲综合| 欧美在线关看| 国产一区二区片| 国产精品一区一区| 亚洲AV成人无码网站天堂久久| 色婷婷av一区二区| 亚洲色图欧美视频| 992tv成人免费视频| 国产乱人伦丫前精品视频| 91精品国产吴梦梦| 国内精品免费**视频| 免费精品在线视频| 欧美日韩三级一区| 91在线高清| 国产精品国产亚洲伊人久久| 亚洲深夜福利在线观看| 免费日韩视频在线观看| 久久久久久电影| 黄色片中文字幕| 亚洲午夜精品久久久久久性色 | 亚洲大胆人体av| 国产高清在线a视频大全| 国产精品12| 亚洲日本国产| 中文乱码人妻一区二区三区视频| 午夜视频一区二区| 香蕉久久一区二区三区| 欧美一级在线播放| 自拍视频一区| 污色网站在线观看| 一区在线中文字幕| a天堂在线观看视频| 久久免费视频在线| 欧美人与物videos另类xxxxx| 成人在线观看黄| 国产精品欧美久久久久无广告| 一级黄色免费片| 久精品免费视频| 看全色黄大色大片免费久久久| 免费成人午夜视频| 国产色一区二区| 99久久精品国产一区色| 久久久久久久久久久av| 免费欧美一区| 成人亚洲免费视频| 亚洲国产精品久久一线不卡| 你懂的免费在线观看| 国产精品成人v| 亚洲成av人电影| 色哟哟视频在线| 欧美优质美女网站| 日韩少妇视频| 日本精品二区| 国产乱码精品一区二区三区五月婷| 中文在线观看免费网站| 亚洲色图综合网| 欧美久久亚洲| 欧美激情国产精品日韩| 亚洲欧美日韩人成在线播放| 高h放荡受浪受bl| 国产精品久久久久久久久久新婚 | 中文字幕不卡的av| www.污视频| 国产精品草莓在线免费观看| 午夜国产精品视频免费体验区| a视频免费观看| 欧美人成免费网站| 日韩av一卡| 黄色片免费在线观看视频| 久久久美女艺术照精彩视频福利播放| 亚洲网站免费观看| 国模视频一区二区三区| 首页国产精品| 免费观看av网站| 日韩欧美激情一区| 国产精品蜜月aⅴ在线| 欧美深夜福利视频| 亚洲日本在线天堂|