精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練

發布于 2024-4-2 12:02
瀏覽
0收藏

隨著生成模型(如 ChatGPT、擴散模型)飛速發展,一方面,生成數據質量越來越高,到了以假亂真的程度;另一方面,隨著模型越來越大,也使得人類世界的真實數據即將枯竭。


面對這一處境,一個近期的研究熱度是,能否利用生成模型生成的假數據來輔助學習?學界對此也產生了許多爭論:到底是可以左腳踩右腳(bootsrap)地實現 weak-to-strong 的不斷提升,還是像雞生蛋、蛋生雞一樣,只不過是徒勞無功?


在近期 ICLR 2024 工作中,北大王奕森團隊針對這一「數據擴充」(Data Inflation)問題展開了深入研究。


他們針對對比學習(如 SimCLR、DINO、CLIP)這一常見的自監督學習場景,從理論和實驗兩方面分析了生成數據對于表示學習能力的影響。為了控制變量,他們保證生成模型和表示學習都只能使用同一個(無監督)真實數據集進行訓練,避免了擴充數據本身帶來的收益。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

論文題目:

Do Generated Data Always Help Contrastive Learning?

論文鏈接:

??https://arxiv.org/abs/2403.12448??

代碼鏈接:

??https://github.com/PKU-ML/adainf??


他們發現,在這種情況下,生成數據并不總是對表示學習有幫助,在很多情況下甚至有害。比如,將 DDPM 的數據直接加入 CIFAR-10 訓練,反而導致分類準確率下降超過 1%(前人工作 [1] 也有類似發現:用生成數據擴充 ImageNet 后 ResNet-50 的分類準確率下降了 2.69%)。進一步分析表明,有兩個關鍵因素影響了生成數據的收益:


1. 真實數據和生成數據的比例。從人的角度來看,生成數據似乎以假亂真,但對于模型訓練而言并非如此。他們發現,真實數據與生成數據的混合比例在 10:1 附近時達到最優,也就是說,1 個真實數據的「訓練價值」約等于 10 個生成數據。這側面說明了二者的差異。


2. 訓練策略的設計。他們發現,在使用生成數據進行訓練時,如果維持原有的訓練參數,則模型幾乎沒有提升。相反,如果隨著數據集的擴充,而相應降低模型訓練所使用的數據增廣的強度,則可以獲得顯著提升。


針對這兩個核心觀察,本文還從自監督理論出發,解釋了他們內在的產生原因,并進而分析了數據量、數據質量與數據增廣強度之間的權衡取舍。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖1 (a): 數據擴充流程 ;(b): 不同擴充策略下的對比學習性能



ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

真實數據比生成數據的「訓練價值」

數據擴充最直觀的一個影響因素是生成數據的質量問題。下圖 2(a)表明,生成數據質量越高,對比學習的下游泛化能力越好,但遺憾的是即使是目前的 SOTA 生成模型 STF,也只讓模型的 Linear Accuracy(在特征上應用線性分類器的分類準確率)比此前僅上升 0.02%。


由于真實圖片包含更豐富、準確的信息,因此擴充后的數據集中真實數據和生成數據的地位不應該相同。本文研究通過在混合時對真實數據復制 N 倍的方式,對真實數據和生成數據進行重加權(Reweighting)。


圖 2(b)表明,混合比例在 10:1 時達到最優(weak augmentation)。本文進一步從理論上分析了重加權的作用,在此不做展開。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖2 (a) 生成數據質量對對比學習的影響; (b) 數據重賦權對對比學習的影響


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

數據增廣與數據擴充,如何權衡?

在對比學習中,數據增強(Data Augmentation)的選取至關重要。通常來說,自監督學習需要使用較強的數據增強(如裁切、掩碼等)來學習的數據表示。為了區分,本文將生成數據視為數據擴充(Data Inflation),二者的區別是,數據擴充是擴大原始數據集的大小,而數據增廣是對每個原始樣本,在訓練過程中進行隨機增強。


直觀上看,數據擴充和數據增廣都會提升數據多樣性但數據增廣可能會改變圖像的語義信息(下圖 3),因此當數據擴充提供了足夠的數據時,便可以減弱數據增廣從而減小因圖像語義信息的改變帶來的誤差。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖3. 數據增強可能改變圖片的語義信息


文中構造了四個不同規模的數據集:CIFAR-10、Half CIFAR-10(CIFAR-10 的一半)、CIFAR-10+10 萬張生成圖片、CIFAR-10+100 萬張生成圖片,通過改變 random resized crop(RRC)來反應不同的數據增廣強度。


下圖 4 中表明最優數據增廣強度隨著數據規模的增大而減小(Half CIFAR-10:0.02,CIFAR-10:0.08,CIFAR-10+0.1M:0.20,CIFAR-10+1M:0.30)。因此當進行數據擴充時,數據增廣強度需要減弱。也就是說,只有當二者搭配得當,才能充分發揮生成數據的作用。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖4. 數據量和數據增廣強度的關系



ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

基于增廣圖的理論理解

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 數據擴充后的下游泛化誤差上界


為了進一步刻畫數據擴充和數據增廣之間的關系,本文從圖的角度來建模對比學習:將數據增強產生的每個樣本視為圖 上的節點,并定義同一樣本產生的數據增廣樣本之間存在一條邊,這樣便在樣本空間構建了一個圖,稱為增廣圖(Augmentation Graph)[2,3]。


這是理解自監督學習的經典理論之一,根據這一建模,對比學習的下游泛化誤差上界可表示為

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區,其中ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區表示由于數據增強造成的標簽錯誤(labeling error),

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區表示增廣圖拉普拉斯矩陣的第ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區小的特征值,用于反應圖的連通性。


數據擴充和數據增廣對ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

的影響:

  • 數據擴充不會改變標簽錯誤ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區,但可以提升圖的連通性(ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區增大)(下圖 5 (a))。
  • 數據增廣數據增廣強度增加,會使得 labeling errorICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區增大(圖 5 (b)),但同時使不同樣本之間的交疊部分增加,即增廣圖的連通性增強(ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區增大)(圖 5 (c))。


因此當數據擴充提升數據規模從而提供了足夠的圖的連通性時,為了進一步減小下游泛化誤差,可以減弱數據增廣強度從而使得 減小。反之數據規模比較小時,則需要更強的數據增強去獲得更好的圖的連通性。也就是說,數據擴充和數據增強在對比學習中存在互補作用,當數據擴充后,對應的最優數據增廣強度減小(圖 5(d))。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖 5 數據擴充和數據增廣對 labeling error ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區和圖ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區的連通性的影響


基于以上的理解,論文提出自適應的數據擴充 Adaptive Inflation(AdaInf),根據生成數據的質量、大小,動態調整對比學習算法。其中,最重要的兩個指導原則是 1)真實數據和生成數據需賦予不同權重,生成數據質量越差權重應該越小;2)數據量增大后,應該減弱數據增廣強度,減少數據增強的負面作用。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

實驗結果

本文主要考慮生成數據的規模遠大于真實數據的應用場景。為了在計算能力有限的情況下分析這一場景,作者主要考慮 CIFAR 數據集,因為可以在該數據集上采樣大量圖片。


以 CIFAR-10 為例,其中包含 5 萬真實訓練樣本,作者利用生成模型(GAN 或擴散模型)為它們添加 100 萬生成數據。以 10:1 的比例混合之后,作者將 CIFAR 數據集的總規模擴充到 150 萬。為了公平比較,本文保證全訓練過程中,生成模型也只能獲取 5 萬無監督數據。作者采用 SimCLR 作為默認方法并保持默認參數。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 表1. 不同模型和不同數據集下的對比學習線性探測性能


本文在圖像識別任務上表 1 表明,AdaInf 在不同的對比學習模型和不同數據集上的性能顯著好于沒有數據擴充(No Inflation)或者直接進行數據擴充(Vanilla Inflation)。

僅使用基礎的 SimCLR 方法,AdaInf 就可以將 ResNet-18 上的自監督性能從 91.56 提升到 93.42,超越了大部分「魔改」的自監督學習方法,達到 Sota 水平。這進一步驗證了「數據為王」的規律,展示了 scaling 的潛力


消融實驗:本文在下表 2 (a)中研究了 AdaInf 的組成部分:生成數據、數據重賦權、數據弱增廣。結果表明三者的重要性為數據弱增廣 > 數據重賦權 > 生成數據。這反映了數據擴充和數據增廣之間的相互作用對于對比學習的影響很大。


應用場景:作者進一步發現, AdaInf 可以很好地應用的數據缺乏的場景下。如表 2 (b)所示,當 CIFAR-10 每個類僅有 500 個樣本時,AdaInf 可以獲得更明顯的提升。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 表2 (a) 消融實驗 (b) 數據匱乏場景下的應用


更多文章細節,請參考原文。

 

本文轉自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/3iHewRj_IIgor_SIedbWjA?

收藏
回復
舉報
回復
相關推薦
国产日本欧洲亚洲| 日本中文一区二区三区| 亚洲精品国产精品乱码不99按摩 | 欧美日韩国产一二三| 潘金莲一级淫片aaaaa免费看| 亚洲av无码一区二区三区性色| 99综合视频| 日韩小视频在线| 一出一进一爽一粗一大视频| 国产国产一区| 无吗不卡中文字幕| 天天综合中文字幕| 久久av少妇| 成人网在线免费视频| 国产精品视频网站| 国产超碰人人爽人人做人人爱| 国产精品久久久久久麻豆一区软件| 亚洲国产精品福利| 999在线精品视频| 卡通欧美亚洲| 精品久久久久久久中文字幕| 女女同性女同一区二区三区按摩| 国产在线小视频| 99久久久精品免费观看国产蜜| 亚洲bt欧美bt日本bt| 中文字幕乱伦视频| 久久精品一区二区三区中文字幕| 欧美精品免费看| 午夜三级在线观看| 日韩av自拍| 精品亚洲男同gayvideo网站| 国产情侣久久久久aⅴ免费| 日韩免费va| 福利视频第一区| av在线免费观看国产| 男人天堂久久久| 日本一区免费视频| 欧美日韩精品免费在线观看视频| 四虎永久在线精品免费网址| 国产激情一区二区三区四区 | 欧美专区视频| 日韩一区二区三区av| 日本高清久久久| 欧美成人免费全部网站| 欧美日韩一本到| 一区二区三区 欧美| 久久sese| 欧美性大战久久久| 在线免费视频a| 精品视频在线一区二区在线| 狠狠躁夜夜躁人人爽天天天天97 | 欧美aaaaa成人免费观看视频| 国产va免费精品高清在线| 亚洲 欧美 日韩 综合| 99精品国产在热久久下载| 国内精品久久久久影院优| 黄页网站免费观看| 亚洲第一伊人| 51精品国产黑色丝袜高跟鞋| 97免费在线观看视频| 亚洲精选久久| 日产精品久久久一区二区福利| 欧美精品韩国精品| 日韩有码一区二区三区| 国产精品老女人精品视频| 97人人爽人人爽人人爽| 国产一区二区伦理片| 97se在线视频| 免费看黄色一级视频| av在线不卡观看免费观看| 久久艳妇乳肉豪妇荡乳av| 美女毛片在线看| 国产精品美女久久久久久久网站| 26uuu成人| 538在线精品| 在线免费观看日本一区| 亚洲精品永久视频| 北条麻妃一区二区三区在线观看 | 在线观看一区视频| 青青草99啪国产免费| 又污又黄的网站| 国产黑丝在线一区二区三区| 国外成人在线视频网站| 成人免费一区二区三区视频网站| 亚洲欧美在线aaa| 日韩欧美国产综合在线| 欧美日韩视频免费观看| 欧美一级免费观看| 黄色正能量网站| 久久国产影院| 午夜精品在线观看| 亚洲香蕉在线视频| 成人sese在线| 一区二区视频在线免费| 高清毛片在线观看| 欧美日韩国产综合视频在线观看| 亚洲少妇一区二区| 成人情趣视频网站| 97在线免费观看| 国产伦精品一区二区三区四区 | 999福利在线视频| 欧美亚洲动漫制服丝袜| 日本性生活一级片| 99精品全国免费观看视频软件| 国外成人在线视频| 一级特黄特色的免费大片视频| 成人精品视频.| 一区二区三区四区五区视频| 天堂8中文在线最新版在线| 6080亚洲精品一区二区| 无码少妇精品一区二区免费动态| 伊人久久大香线蕉综合四虎小说| 日本亚洲精品在线观看| 少妇一区二区三区四区| 亚洲精品你懂的| 1024av视频| 97成人在线| 久久综合久久美利坚合众国| 国产91av在线播放| 91看片淫黄大片一级| 日韩精品一区二区免费| 国产亚洲观看| www.日韩欧美| 中文字幕一区2区3区| 久久天天做天天爱综合色| 成人免费在线网| 精品国产不卡一区二区| 色婷婷综合久久久久| 欧美一级淫片免费视频黄| 99久久久精品免费观看国产蜜| 日韩国产在线一区| 二区三区不卡| 亚洲欧美国产一本综合首页| 国产女同在线观看| 99re成人在线| 777精品久无码人妻蜜桃| 日韩综合一区二区三区| 欧美国产日韩一区二区在线观看| 国产女人高潮时对白| 亚洲色图一区二区| 中文字幕一区二区在线观看视频 | 欧美一区二区三区红桃小说| 久久人人爽人人爽人人片av高请| 日韩国产亚洲欧美| 久久精品网站免费观看| 日韩 欧美 高清| 久久av综合| 日韩免费在线免费观看| 成人精品一区二区三区校园激情| 色婷婷综合久久久久中文一区二区 | 日本少妇在线观看| 成人av资源站| 大肉大捧一进一出好爽视频| 日韩在线影视| 国产www精品| 在线日本中文字幕| 制服视频三区第一页精品| 一区二区成人免费视频| 粉嫩欧美一区二区三区高清影视| 婷婷五月综合缴情在线视频| 奇米777国产一区国产二区| 欧美一区二区色| 高清日韩av电影| 欧美精品日韩精品| 欧美日韩在线视频免费| 成人动漫中文字幕| 成人午夜激情av| 亚洲情侣在线| 精品视频在线观看| 国产精品xxx| 欧美老女人性生活| 日本一二三区在线视频| 欧美性大战久久久久久久| 日韩一级片大全| 成人国产亚洲欧美成人综合网 | 影音欧美亚洲| 国产精品极品在线观看| 日本欧美一二三区| a视频在线免费看| 日韩av在线直播| 亚洲综合视频在线播放| 亚洲一区中文在线| 91成年人网站| 国产精品18久久久久久久久| 91九色在线观看视频| 99视频精品全国免费| 国产欧美日韩在线播放| 日韩电影精品| 97激碰免费视频| 日本中文字幕视频在线| 亚洲激情视频在线观看| 91成人国产综合久久精品| 亚洲成精国产精品女| 日本激情视频一区二区三区| 成人h动漫精品一区二| 中日韩av在线播放| 久久成人国产| 亚洲色欲久久久综合网东京热| 精品久久久久久久久久久下田| 97se视频在线观看| 久久亚洲资源中文字| 91国偷自产一区二区三区的观看方式| 天堂资源在线中文| 欧美精品一区视频| 一级片在线观看视频| 欧美性生交大片免费| 亚洲不卡的av| 久久这里都是精品| 精品人妻一区二区三| 奇米综合一区二区三区精品视频| 99在线免费视频观看| 欧美超碰在线| 日本在线免费观看一区| 欧美巨大xxxx| 国产精品一 二 三| 久久久久久爱| 成人有码在线视频| 日本a人精品| 国产精品第8页| 自拍网站在线观看| 欧美一区二区三区精品电影| 超碰在线最新网址| 欧美激情第一页xxx| 精品国产99久久久久久| 最新国产成人av网站网址麻豆| 韩国中文字幕2020精品| 亚洲精品成a人在线观看| 成 人 黄 色 片 在线播放| 欧美另类变人与禽xxxxx| 最近中文字幕免费观看| 色av综合在线| 国产午夜无码视频在线观看| 色中色一区二区| 亚洲天堂av片| 丰满岳妇乱一区二区三区| 日韩欧美激情视频| 无吗不卡中文字幕| 一级免费在线观看| 欧美日韩精品在线| 日韩 国产 在线| 黑人巨大精品欧美一区二区| 国产精品一区二区6| 日韩欧美成人区| 狠狠人妻久久久久久综合| 色综合久久综合网| 国产suv精品一区二区33| 色94色欧美sute亚洲线路一久 | 亚洲午夜精品一区二区| 久久一区二区三区电影| 一区二区三区四区视频在线| 婷婷丁香综合| 97中文字幕在线| 妖精视频成人观看www| 黑人糟蹋人妻hd中文字幕| 麻豆精品网站| 日本人视频jizz页码69| 国内一区二区在线| 国产ts在线观看| 91在线国产观看| av永久免费观看| 亚洲品质自拍视频| 日韩精品在线不卡| 在线观看亚洲专区| 97人妻一区二区精品免费视频| 欧美一区二区福利视频| 少妇高潮一区二区三区69| 亚洲欧美激情一区| 嫩草香蕉在线91一二三区| 欧美福利小视频| 成人美女视频| 国产日本欧美在线观看| 8848成人影院| 日本高清视频一区二区三区| 午夜影院欧美| 老太脱裤子让老头玩xxxxx| 视频一区二区三区在线| 亚洲天堂伊人网| 99精品视频中文字幕| 激情高潮到大叫狂喷水| 亚洲国产综合视频在线观看| 国产熟妇一区二区三区四区| 欧美巨大另类极品videosbest | 中文字幕不卡av| 特级毛片在线| 国产成人精品日本亚洲| 国产精品亚洲一区二区在线观看| 极品校花啪啪激情久久| 日韩欧美中文| 日本福利视频在线| 精品亚洲porn| 国产精品亚洲无码| 亚洲午夜成aⅴ人片| 中文字幕视频免费观看| 亚洲黄一区二区| av大大超碰在线| 国产精品大陆在线观看| 福利电影一区| 一区二区三区av在线| 国产日韩亚洲| 久久国产劲爆∧v内射| 国产精品久久久久久久久搜平片| 中文字幕一区二区三区手机版| 777色狠狠一区二区三区| 色哟哟在线观看| 欧美黑人巨大xxx极品| 亚洲精品大全| 日韩中文字幕一区| 亚洲伦伦在线| 欧美一级大片免费看| 国产精品你懂的在线欣赏| www.中文字幕在线观看| 欧美精品一区二区三区很污很色的| 婷婷在线视频| 国产精品久久久久久久一区探花| 精品人人人人| 日韩精品在线视频免费观看| 精品在线免费观看| 中文字幕在线观看免费高清| 好吊成人免视频| 四虎免费在线观看| 97视频免费看| 黄色欧美网站| 人妻少妇精品无码专区二区| 国产成人免费av在线| 九九热最新地址| 91精品婷婷国产综合久久性色| yjizz视频网站在线播放| 欧美在线激情视频| 最新精品国偷自产在线| 缅甸午夜性猛交xxxx| 成人久久18免费网站麻豆 | 麻豆网站在线| 国产久一一精品| 久久中文字幕二区| 高潮一区二区三区| 最近日韩中文字幕| 最新在线中文字幕| 最好看的2019的中文字幕视频| 高清在线一区| 一区二区三区电影| aaa大片在线观看| www.色综合| 宅男噜噜噜66国产精品免费| 日韩午夜视频在线观看| 久久婷婷影院| 亚洲自拍偷拍一区二区| 欧美日韩免费区域视频在线观看| 亚洲产国偷v产偷v自拍涩爱| 九色91av视频| 国产精品x8x8一区二区| 日本www在线视频| 2020国产精品自拍| 免费观看日批视频| 在线视频亚洲欧美| 激情综合五月| 国产玉足脚交久久欧美| 99久久久免费精品国产一区二区| 黄色在线视频网址| 在线播放日韩av| 精品一区二区三区免费看| 成人免费看片'免费看| 99久久久国产精品| 免费精品一区二区| 另类视频在线观看| 91大神精品| 能看的毛片网站| 一区免费观看视频| 黄色成人一级片| 国产成人精品综合| 亚洲大全视频| 日本五十肥熟交尾| 欧美日韩中文国产| 日韩伦理电影网站| 欧美连裤袜在线视频| 久久99国产精品久久99果冻传媒| 日韩成人毛片视频| 亚洲跨种族黑人xxx| 日日夜夜亚洲精品| 日本午夜激情视频| 国产精品乱人伦中文| 国产91免费在线观看| 国产精品igao视频| 欧美va亚洲va日韩∨a综合色| 日本少妇xxxx| 91 com成人网| 成人香蕉视频| 伊人网在线免费| 久久毛片高清国产| av中文在线观看| 国产精品aaaa| 韩日视频一区| 久久久久久久久福利| 精品国产一区a| 国产成人精选| 免费在线观看的av网站| 亚洲欧美另类在线| 国产系列电影在线播放网址| 成人欧美一区二区三区在线观看 | 欧美一区二区少妇| 亚洲aa中文字幕|