精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文解讀合成數(shù)據(jù)在機器學習技術下的表現(xiàn)

大數(shù)據(jù) 數(shù)據(jù)分析
本文將通過介紹兩個分布模型,并運用它們到合成數(shù)據(jù)過程中,來分析合成數(shù)據(jù)在不同機器學習技術下的表現(xiàn)。

[[241101]]

作者:Eric Le Fort

編譯:蔣雨暢 盧苗苗

想法

相比于數(shù)量有限的“有機”數(shù)據(jù),我將分析、測評合成數(shù)據(jù)是否能實現(xiàn)改進。

動機

我對合成數(shù)據(jù)的有效性持懷疑態(tài)度——預測模型只能與用于訓練數(shù)據(jù)的數(shù)據(jù)集一樣好。這種懷疑論點燃了我內(nèi)心的想法,即通過客觀調(diào)查來研究這些直覺。

需具備的知識

本文的讀者應該處于對機器學習相關理論理解的中間水平,并且應該已經(jīng)熟悉以下主題以便充分理解本文:

  • 基本統(tǒng)計知識,例如“標準差”一詞的含義
  • 熟悉神經(jīng)網(wǎng)絡,SVM和決策樹(如果您只熟悉其中的一個或兩個,那可能就行了)
  • 了解基本的機器學習術語,例如“訓練/測試/驗證集”的含義

合成數(shù)據(jù)的背景

生成合成數(shù)據(jù)的兩種常用方法是:

  • 根據(jù)某些分布或分布集合繪制值
  • 個體為本模型的建模

在這項研究中,我們將檢查***類。為了鞏固這個想法,讓我們從一個例子開始吧!

想象一下,在只考慮大小和體重的情況下,你試圖確定一只動物是老鼠,青蛙還是鴿子。但你只有一個數(shù)據(jù)集,每種動物只有兩個數(shù)據(jù)。因此不幸的是,我們無法用如此小的數(shù)據(jù)集訓練出好的模型!

這個問題的答案是通過估計這些特征的分布來合成更多數(shù)據(jù)。讓我們從青蛙的例子開始

參考這篇維基百科的文章(只考慮成年青蛙):https://en.wikipedia.org/wiki/Common_frog

***個特征,即它們的平均長度(7.5cm±1.5cm),可以通過從正態(tài)分布中繪制平均值為7.5且標準偏差為1.5的值來生成。類似的技術可用于預測它們的重量。

然而,我們所掌握的信息并不包括其體重的典型范圍,只知道平均值為22.7克。一個想法是使用10%(2.27g)的任意標準偏差。不幸的是,這只是純粹猜測的結果,因此很可能不準確。

鑒于與其特征相關信息的可獲得性,和基于這些特征來區(qū)分物種的容易程度,這可能足以培養(yǎng)良好的模型。但是,當您遷移到具有更多特征和區(qū)別更細微的陌生系統(tǒng)時,合成有用的數(shù)據(jù)變得更加困難。

數(shù)據(jù)

該分析使用與上面討論的類比相同的想法。我們將創(chuàng)建一些具有10個特征的數(shù)據(jù)集。這些數(shù)據(jù)集將包含兩個不同的分類類別,每個類別的樣本數(shù)相同。

“有機”數(shù)據(jù)

每個類別將遵循其中每個特征的某種正態(tài)分布。例如,對于***種特征:***個類別樣本的平均值為1500,標準差為360;第二個類別樣本的平均值為1300,標準差為290。其余特征的分布如下:

“有機”數(shù)據(jù)

該表非常密集,但可以總結為:

  • 有四個特征在兩類之間幾乎無法區(qū)分,
  • 有四個特征具有明顯的重疊,但在某些情況下應該可以區(qū)分,并且
  • 有兩個特征只有一些重疊,通常是可區(qū)分的。

創(chuàng)建兩個這樣的數(shù)據(jù)集,一個1000樣本的數(shù)據(jù)集將保留為驗證集,另一個1000樣本的數(shù)據(jù)集可用于訓練/測試。

這會創(chuàng)建一個數(shù)據(jù)集,使分類變得足夠強大。

合成數(shù)據(jù)

現(xiàn)在事情開始變得有趣了!合成數(shù)據(jù)將遵循兩個自定義分布中的其中一個。***個我稱之為“ Spikes Distribution”。此分布僅允許合成特征采用少數(shù)具有每個值的特定概率的離散值。例如,如果原始分布的平均值為3且標準差為1,則尖峰(spike)可能出現(xiàn)在2(27%),3(46%)和4(27%)。

第二個自定義分布我稱之為“ Plateaus Distribution”。這種分布只是分段均勻分布。使用平臺中心的正態(tài)分布概率推導出平穩(wěn)點的概率。您可以使用任意數(shù)量的尖峰或平臺,當添加更多時,分布將更接近正態(tài)分布。

為了清楚說明這兩個分布,可以參考下圖:

(注:尖峰分布圖不是概率密度函數(shù))

在這個問題中,合成數(shù)據(jù)的過程將成為一個非常重要的假設,它有利于使合成數(shù)據(jù)更接近于“有機”數(shù)據(jù)。該假設是每個特征/類別對的真實平均值和標準差是已知的。實際上,如果合成數(shù)據(jù)與這些值相差太遠,則會嚴重影響訓練模型的準確性。

好的,但為什么要使用這些分布?他們?nèi)绾畏从超F(xiàn)實?

我很高興你問這個問題!在有限的數(shù)據(jù)集中,您可能會注意到,對于某個類別,某個特征只會占用少量值。想象一下這些值是:

  1. (50,75,54,49,24,58,49,64,43,36) 

或者如果我們可以對這列進行排序:

  1. (24,36,43,49,49,50,54,58,64,75) 

為了生成此特征的數(shù)據(jù),您可以將其拆分為三個部分,其中***部分將是最小的20%,中間的60%將是第二部分,第三部分將是***的20%。然后使用這三個部分,您可以計算它們的平均值和標準差:分別為(30,6.0),(50.5,4.6)和(69.5,5.5)。如果標準差相當?shù)停热绱蠹s為相應均值的10%或更小,則可以將該均值視為該部分的尖峰值。否則,您可以將該部分視為一個平臺,其寬度是該部分標準差的兩倍,并以該部分的平均值作為中心。

或者,換句話說,他們在模擬不***的數(shù)據(jù)合成方面做得不錯。

我將使用這些分布創(chuàng)建兩個800樣本數(shù)據(jù)集 - 一個使用尖峰,另一個使用平臺。四個不同的數(shù)據(jù)集將用于訓練模型,以便比較每個數(shù)據(jù)集的有用性:

  • 完整 (Full) - 完整的1000個樣本有機數(shù)據(jù)集(用于了解上限)
  • 真實 (Real) - 只有20%的樣本有機數(shù)據(jù)集(模擬情況而不添加合成數(shù)據(jù))
  • 尖峰(Spike) - “真實”數(shù)據(jù)集與尖峰數(shù)據(jù)集相結合(1000個樣本)
  • 平臺(Plateaus) - “真實”數(shù)據(jù)集與平臺數(shù)據(jù)集相結合(1000個樣本)

現(xiàn)在開始令人興奮的部分!

訓練

為了測試每個數(shù)據(jù)集的強度,我將采用三種不同的機器學習技術:多層感知器(MLP),支持向量機(SVM)和決策樹(Decision Trees)。為了幫助訓練,由于某些特征的幅度比其他特征大得多,因此利用特征縮放來規(guī)范化數(shù)據(jù)。使用網(wǎng)格搜索調(diào)整各種模型的超參數(shù),以***化到達***的超參數(shù)集的概率。

總之,我在8個不同的數(shù)據(jù)集上訓練了24種不同的模型,以便了解合成數(shù)據(jù)對學習效果的影響。

相關代碼在這里:https://github.com/EricLeFort/DataGen

結果

經(jīng)過幾個小時調(diào)整超參數(shù)并記錄下精度測量結果后,出現(xiàn)了一些反直覺的結果!完整的結果集可以在下表中找到:

☟多層感知器(MLP)

多層感知器(MLP)

☟支持向量機(SVM)

支持向量機(SVM)

☟決策樹(Decision Trees)

在這些表中,“Spike 9”或“Plateau 9”是指分布和使用的尖峰/平臺的數(shù)量。單元格中的值是使用相應的訓練/測試數(shù)據(jù)對模型進行訓練/測試,并用驗證集驗證后的的最終精度。還要記住,“完整”(Full)類別應該是準確性的理論上限,“真實”(Rea;)類別是我們在沒有合成數(shù)據(jù)的情況下可以實現(xiàn)的基線。

一個重要的注意事項是,(幾乎)每次試驗的訓練/測試準確度都明顯高于驗證準確度。例如,盡管MLP在Spike-5上得分為97.7%,但在同一試驗的訓練/測試數(shù)據(jù)上分別得分為100%和99%。當在現(xiàn)實世界中使用時,這可能導致模型有效性的過高估計。

完整的這些測量可以在GitHub找到:https://github.com/EricLeFort/DataGen

讓我們仔細看看這些結果。

首先,讓我們看一下模型間的趨勢(即在所有機器學習技術類型中的合成數(shù)據(jù)集類型的影響)。似乎增加更多尖峰/平臺并不一定有助于學習。你可以看到在3對 5時尖峰/平臺之間的一般改善,但是當看到5對9時,則要么變平或稍微傾斜。

對我來說,這似乎是違反直覺的。隨著更多尖峰/平臺的增加,我預計會看到幾乎持續(xù)的改善,因為這會導致分布更類似于用于合成數(shù)據(jù)的正態(tài)分布。

現(xiàn)在,讓我們看一下模型內(nèi)的趨勢(即各種合成數(shù)據(jù)集對特定機器學習技術的影響)。對于MLP來說,尖峰或平臺是否會帶來更好的性能似乎缺少規(guī)律。對于SVM,尖峰和平臺似乎表現(xiàn)得同樣好。然而,對于決策樹而言,平臺是一個明顯的贏家。

總的來說,在使用合成數(shù)據(jù)集時,始終能觀察到明顯的改進!

以后的工作

需要注意的一個重要因素是,本文的結果雖然在某些方面有用,但仍然具有相當?shù)耐茰y性。因此,仍需要多角度的分析以便安全地做出任何明確的結論。

這里所做的一個假設是每個類別只有一個“類型”,但在現(xiàn)實世界中并不總是如此。例如,杜賓犬和吉娃娃都是狗,但它們的重量分布看起來非常不同。

此外,這基本上只是一種類型的數(shù)據(jù)集。應該考慮的另一個方面是嘗試類似的實驗,除了具有不同維度的特征空間的數(shù)據(jù)集。這可能意味著有15個特征而不是10個或模擬圖像的數(shù)據(jù)集。

相關報道:https://www.codementor.io/ericlefort/my-thoughts-on-synthetic-data-kq719a5ss

【本文是51CTO專欄機構大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)

2022-08-11 08:00:00

機器學習合成數(shù)據(jù)深度學習

2020-11-08 13:33:05

機器學習數(shù)據(jù)中毒人工智能

2018-11-16 09:08:35

2024-04-26 14:18:43

機器學習人工智能

2023-05-11 15:24:12

2024-12-23 14:46:24

2017-10-24 11:19:16

深度學習機器學習數(shù)據(jù)

2018-10-18 11:00:50

人工智能機器學習模型偏差

2023-01-14 07:55:03

2022-11-17 11:48:51

自動駕駛算法

2018-08-08 16:08:45

深度學習機器學習NLP

2023-05-09 10:28:27

2021-10-11 10:19:48

Javascript 高階函數(shù)前端

2023-10-24 11:44:21

2022-01-06 07:45:44

機器學習算法思路

2022-08-11 13:49:37

機器學習技術

2021-09-02 10:24:54

JavaScript前端語言

2023-02-23 07:46:48

學習模型數(shù)據(jù)倉庫

2022-08-18 09:00:00

自動駕駛合成控制邁阿密
點贊
收藏

51CTO技術棧公眾號

波多野结衣一本| 欧美日韩激情四射| 在线亚洲欧美日韩| 亚洲精品国产偷自在线观看| 日韩美女一区二区三区四区| 欧美成人三级在线视频| shkd中文字幕久久在线观看| 国产在线精品国自产拍免费| 97国产精品视频| 国产精品久久免费观看| 伊人久久影院| 欧美色网一区二区| 国产午夜福利100集发布| 在线毛片网站| 久久日韩精品一区二区五区| 91在线精品视频| 中文字幕精品无码一区二区| 亚州av乱码久久精品蜜桃| 亚洲精品国精品久久99热一| 日韩av一卡二卡三卡| 涩涩网在线视频| 亚洲九九爱视频| 天堂√在线观看一区二区 | 欧美少妇性性性| 99久久久精品视频| jizz亚洲| 久久蜜桃av一区二区天堂 | 亚洲国产精品久久人人爱| 亚洲不卡一卡2卡三卡4卡5卡精品| 99在线精品视频免费观看20| 秋霞午夜av一区二区三区| 97不卡在线视频| 免费一级全黄少妇性色生活片| 日本一二区不卡| 亚洲美女中文字幕| 成人性生活免费看| 日韩中文字幕在线一区| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 99热自拍偷拍| 白浆在线视频| 亚洲午夜在线观看视频在线| japanese在线播放| 伦xxxx在线| 国产精品久久久久婷婷二区次| 欧美大陆一区二区| 色一情一乱一乱一区91av| 国产成人av一区二区三区在线| 成人午夜激情网| 91 中文字幕| 精品一区二区在线视频| 国产精自产拍久久久久久| 亚洲国产精品无码久久久| 国产手机视频一区二区| 97色在线视频| 超碰超碰超碰超碰| 男女精品网站| 国产成人精品久久久| 99精品在线播放| 久久精品二区三区| 国产成人精品免费久久久久| 美女黄页在线观看| 男人的天堂亚洲一区| 国产精品久久网| 亚洲天堂avav| 国产真实乱偷精品视频免| 91在线免费看网站| 国产99对白在线播放| 国产成人午夜99999| 福利精品视频| 午夜视频福利在线观看| 久久久噜噜噜久久人人看| 欧美在线日韩精品| 在线观看h片| 中文字幕五月欧美| www.日本在线视频| 精精国产xxx在线视频app| 欧美日韩性视频| 亚洲高清在线免费观看| 欧美一级做a| 欧美α欧美αv大片| 私密视频在线观看| 成人高清电影网站| 久久高清视频免费| 日韩黄色三级视频| 日韩在线播放一区二区| 亚洲一区二区三区乱码aⅴ蜜桃女| www.色婷婷.com| xnxx国产精品| 91制片厂免费观看| 九色porny丨国产首页在线| 色女孩综合影院| 亚洲精品在线网址| 妖精一区二区三区精品视频 | 精品视频一区二区三区四区| 国产中文字幕在线| 一区二区高清免费观看影视大全| 国产原创popny丨九色| 国产精品久久久久77777丨| 日韩欧美国产午夜精品| 超碰97人人干| 午夜亚洲福利| 国产精品久久久久免费a∨大胸| 韩国av永久免费| 国产蜜臀97一区二区三区| 欧美 亚洲 视频| 日韩一区二区三区在线免费观看| 精品免费一区二区三区| 久久亚洲无码视频| 欧美三区美女| 国产中文欧美精品| 午夜福利一区二区三区| 亚洲色大成网站www久久九九| 欧美日韩黄色一级片| 精品国产一级| 一区二区欧美在线| 影音先锋亚洲天堂| 国产精品一区一区三区| 日本午夜一区二区三区| 1区2区3区在线| 欧美一区二区三区爱爱| 自拍偷拍你懂的| 免费永久网站黄欧美| 不卡视频一区二区三区| 91精彩在线视频| 色综合久久久久综合99| 亚洲最大视频网| 香蕉久久网站| 国产日韩欧美成人| 国产人成在线观看| 精品久久久久久久大神国产| 黄色av电影网站| 欧美激情日韩| 亚洲综合精品伊人久久| 欧美一区二区三区| 欧美性一区二区| 一区二区黄色片| 亚洲欧美视频| 精品一区二区三区免费毛片| wwww亚洲| 精品国产精品网麻豆系列| 精品一区在线观看视频| 精品影视av免费| 在线免费观看成人| 激情欧美一区二区三区黑长吊| 亚洲天堂色网站| 无码人妻精品一区二区三区9厂| 91首页免费视频| 凹凸国产熟女精品视频| 亚洲最好看的视频| 国产成人精品久久二区二区| 国产黄在线观看免费观看不卡| 色妞www精品视频| 一级特黄曰皮片视频| 日本欧洲一区二区| 一区二区三区观看| 国产亚洲精aa在线看| 美女视频久久黄| 亚洲AV午夜精品| 五月激情六月综合| 成人网站免费观看| 玖玖玖国产精品| 日韩精品伦理第一区| 国产精品4hu.www| 久久精品国产69国产精品亚洲| www.亚洲欧美| 亚洲3atv精品一区二区三区| 免费成人深夜夜行p站| 久久久久99| 亚洲一区美女| 亚洲五码在线| 欧美亚洲第一页| www.91在线| 日韩视频不卡中文| 亚洲精品午夜国产va久久成人| 久久伊99综合婷婷久久伊| 日本www高清视频| 天堂网在线观看国产精品| 国产福利久久精品| 欧美动物xxx| 色偷偷综合社区| 亚洲精品国产片| 欧美日韩亚洲国产一区| 任我爽在线视频| 国产成人av网站| 欧美激情国产精品日韩| 国产精品x453.com| 国产伦精品一区二区三区四区视频 | 欧美r级电影| 国产精品一区二区三区在线| 3d性欧美动漫精品xxxx软件| 久热99视频在线观看| 免费国产精品视频| 欧美性感一区二区三区| 欧美精品一区二区成人| 久久毛片高清国产| 91丨porny丨九色| 久久免费高清| 青青草视频在线视频| 国产日产精品一区二区三区四区的观看方式 | 国外视频精品毛片| 91精品国产综合久久久久久豆腐| 精品国产网站在线观看| 国产成人精品亚洲| 亚洲国产综合人成综合网站| 欧美亚洲色综久久精品国产| 粉嫩绯色av一区二区在线观看| 无需播放器的av| 亚洲激情偷拍| 97精品国产97久久久久久粉红| 天海翼精品一区二区三区| 成人激情视频在线观看| 国产精品专区免费| 欧美贵妇videos办公室| 777电影在线观看| 精品性高朝久久久久久久| 精品毛片一区二区三区| 在线观看国产日韩| 国偷自拍第113页| 亚洲精品老司机| 我不卡一区二区| 99久久久免费精品国产一区二区| 97人人模人人爽人人澡| 美女任你摸久久| 韩国一区二区av| 国产日韩1区| 日本阿v视频在线观看| 91精品推荐| www.午夜色| 9999国产精品| 一本久道久久综合| 成人综合久久| 日韩精品欧美一区二区三区| 国产a久久精品一区二区三区| 精品日本一区二区三区在线观看| 99精品中文字幕在线不卡| 亚洲自拍在线观看| 亚洲欧洲专区| 91久久精品美女高潮| 欧美一级做一级爱a做片性| 国产精品黄视频| 日韩中文视频| 国产精品三级美女白浆呻吟| 日韩高清不卡| 国产精品久久久久久av下载红粉| 日本精品裸体写真集在线观看| 日韩免费在线视频| 欧洲一级精品| 国产精品视频久| 国产成人午夜性a一级毛片| 国产精品十八以下禁看| jizz亚洲女人高潮大叫| 国产精品久久久久久久久久99| 精品三区视频| 国产在线观看精品| www一区二区三区| 亚洲综合日韩中文字幕v在线| 综合成人在线| 精品欧美国产| 不卡一区2区| 日本三日本三级少妇三级66| 欧美日韩一区二区高清| 国产主播自拍av| 性高湖久久久久久久久| 婷婷丁香激情网| 国产在线观看免费一区| 欧美成人精品一区二区综合免费| 白白色亚洲国产精品| 久久精品无码一区| 国产精品传媒入口麻豆| 欧美黑人一级片| 婷婷久久综合九色综合绿巨人| 性色av免费观看| 欧美麻豆精品久久久久久| 精品黑人一区二区三区在线观看| 亚洲精品理论电影| 成人18在线| 欧美乱妇40p| 高潮一区二区| 51成人做爰www免费看网站| 欧美天堂影院| 亚洲精品一区二区毛豆| 午夜欧美理论片| 六月丁香婷婷在线| 精品一区二区三区免费| 亚洲久久久久久| 中文字幕中文字幕一区二区| 日本午夜精品理论片a级app发布| 色猫猫国产区一区二在线视频| 国产一区二区自拍视频| 亚洲国产精品人人爽夜夜爽| 中文字幕在线播放| 性色av一区二区三区免费 | 99re在线观看| 欧美影院三区| 无码 制服 丝袜 国产 另类| 另类人妖一区二区av| 在线免费看黄色片| 国产精品的网站| 欧美亚洲精品天堂| 欧美一区二区成人6969| 精品99又大又爽又硬少妇毛片| 欧美老妇交乱视频| 精品视频在线一区二区在线| 国产91视觉| 天天天综合网| 天天天干夜夜夜操| 99视频一区二区| 草视频在线观看| 欧美性猛交xxxxxxxx| 日韩精品视频在线观看一区二区三区| 久热精品视频在线观看| 播放一区二区| 欧美高清视频一区| 亚洲美女色禁图| 搡的我好爽在线观看免费视频| 国产日产精品1区| 日本网站免费观看| 日韩午夜激情电影| 日本韩国在线视频爽| 国产mv免费观看入口亚洲| 黄色美女久久久| 成人在线免费高清视频| 久久99国产精品麻豆| 婷婷色一区二区三区| 岛国精品视频在线播放| 狠狠综合久久av一区二区| 欧美成人全部免费| www.成人| 麻豆中文字幕在线观看| 久久97超碰色| 精品丰满少妇一区二区三区| 欧美调教femdomvk| 国产午夜在线观看| 国产成人avxxxxx在线看| 在线看成人短视频| 日本a级片免费观看| 97超碰欧美中文字幕| 日本免费一二三区| 精品国产免费人成电影在线观看四季| caoporm免费视频在线| 成人福利网站在线观看| 国产精品传媒精东影业在线| 久久黄色片网站| 亚洲欧美自拍偷拍色图| 99久久精品日本一区二区免费 | 精品一区二区三区蜜桃| www.97视频| 欧美一二三区精品| 麻豆视频在线免费观看| 成人网欧美在线视频| 一区二区三区在线电影| 亚洲精品久久久久久| 一二三四区精品视频| 隣の若妻さん波多野结衣| 午夜精品在线观看| 亚洲桃色综合影院| 欧美性猛交xxx乱久交| 国产精品色呦呦| 国产欧美第一页| 久久青草福利网站| 免费成人av| 在线免费av播放| 亚洲精品视频在线看| 天天摸夜夜添狠狠添婷婷| 欧美综合第一页| 成人影院天天5g天天爽无毒影院| 欧美丝袜在线观看| 亚洲最色的网站| 头脑特工队2免费完整版在线观看| 国产精品草莓在线免费观看| 日本不卡电影| 中国男女全黄大片| 欧美日韩综合视频网址| 97视频精彩视频在线观看| 91九色在线观看| 亚洲一区欧美二区| 国产精品久久久免费看| 日韩欧美视频一区| 在线一区av| 看全色黄大色大片| 91网站在线观看视频| 97在线视频人妻无码| 97免费中文视频在线观看| 日韩欧美一区二区三区免费看| 原创真实夫妻啪啪av| 一本一道久久a久久精品综合蜜臀| 夜级特黄日本大片_在线| 国产精品一区免费观看| 裸体在线国模精品偷拍| 日韩美女黄色片| 日韩中文综合网| 色狼人综合干| 日本一二三区在线| 欧洲人成人精品| 欧美日韩色网| 亚洲高清123| 91香蕉国产在线观看软件| 国产乱淫片视频| 国产精品成人免费电影| 在线观看的日韩av|