精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據缺失的坑,無監督學習這樣幫你補了

大數據
無監督學習(UL)有很多沒開發的潛力。它是一門從“未標記”數據中推導一個函數來描述其隱藏結構的藝術。但首先,從數據中找到其結構是什么意思呢?

無監督學習(UL)有很多沒開發的潛力。它是一門從“未標記”數據中推導一個函數來描述其隱藏結構的藝術。但首先,從數據中找到其結構是什么意思呢? 讓我們來看以下兩個例子:

數據缺失的坑,無監督學習這樣幫你補了

Blobs

氣泡狀分布:這個簡單。任何人看到這張圖都會認為它是由三個不同的簇組成的。如果你對統計學非常熟悉,你可能還會猜想它由三個隱藏的高斯分布構成。對一個新的數據樣本,查看它的位置,人們就能推斷出它屬于哪一簇。

數據缺失的坑,無監督學習這樣幫你補了

Wavy hi

波浪分布:這個就有難度了。它有明確的結構,但我怎么教計算機提取出這一結構呢?為了讓你更好地理解這個問題,想象一下我找來1000人,問他們在這張圖中看到了幾個簇。結果很可能是這樣,回答2的人最多,也有人回答3、4,甚至1!

所以說對數據的結構,連人都無法達成共識,那怎么可能教計算機學會呢?這里的癥結在于,對于什么是簇,或者廣義地說什么是“結構”,沒有統一的定義。人們可以研究一下日常生活的某個方面,看它有沒有結構,但這也會根據環境或其中涉及的人的變化而變化。

很多著名的無監督學習算法,比如層次聚類,K-Means,混合高斯模型或隱馬爾可夫模型,對同一問題可能得到不同的答案,依我拙見,對于找結構問題,沒有所謂更好的或更正確的普適方法(真的嗎?又是沒有免費的午餐定理?)

那么讓我們動手探索吧——

聚類方法

  • K-Means(scikit learn)
  • 模糊K-Means(scikit fuzzy)
  • 混合高斯模型(scikit learn)

用K-Means算法產生簇通常被稱為“硬劃分”,因為對一個樣本和一個簇,只有屬于和不屬于兩種關系。K-Means的改進版模糊K-Means算法是“軟劃分”或“模糊”,因為一個樣本對每個簇都有隸屬度。基于這些隸屬度來更新簇的質心。

混合高斯模型https://github.com/abriosi/gmm-mml

這個包是論文Unsupervised learning of finite mixture models(有限混合模型的無監督學習)中提出的方法,用一個算法實現估計和模型選擇。

數據集

1. 占有率檢測:

這是一個沒有缺失值的時間序列數據集,因此要人為刻意地進行空缺數據補全。

這一數據集相對較小,有20560個樣本和7個特征,其中一個模型預測變量為是否占有。(二元分類問題)。

2. Sberbank俄羅斯房價市場數據集:

這也是一個時序數據集,來自數月前結束的Kaggle競賽。

將訓練數據與俄羅斯宏觀經濟和金融部門的數據合并后,得到30471個樣本,389個特征,其中一個是要預測的價格(回歸問題)。

它有93列有缺失數據,有些NaNs(非指定類型數據)占比很大(> 90%)。

3.子宮頸癌(危險因素)數據集:

這一數據集有858個樣本和32個特征,4個目標變量(不同醫學測試指標的二元輸出)取眾數轉化成1個目標變量。

它有26個特征有空缺值,有些NaNs(非指定類型數據)占比很大(> 90%)。

數據缺失值補全過程

先刪去訓練集和測試集中所有含有缺失數據的特征。利用留下的特征,對訓練集應用聚類算法,并預測兩組中每個樣本的簇。加上刪去的列,計算按照簇分組后每個特征的平均值(或均值,如果是定性的話)。所以現在我們有了每個簇未補全時的特征的平均值。

數據缺失的坑,無監督學習這樣幫你補了

“普通”和加權補全方法:

  • 這里“普通補全”指的是每個樣本都用以計算其所屬簇的平均值/眾數。
  • 加權方法則用樣本對每個簇的“歸屬度”。比如,在混合高斯模型(GMM)中,歸屬度是樣本屬于各個簇的可能性,在K-Means方法中,歸屬度基于樣本與各個簇的質心的距離。

評分方法

  • 除標準化之外,幾乎沒對數據集做任何處理。
  • 對于時間序列數據集,從***個樣本算起對時間標記排序,在占有率檢測數據集中轉化成按秒計數,同理在俄羅斯房價市場數據集中按天計數。
  • 完成插補后,用XGBoost在測試集進行評分。用負對數損失和均方誤差作為評分度量。

得到簇的數目

最初考慮了“肘”或者說“膝”方法。當簇的數量取值在一定范圍內時,畫出不同聚簇方法的得分并從圖中尋找肘部。

數據缺失的坑,無監督學習這樣幫你補了

比如,上圖的肘部在8到12之間。缺點是這種方法需要人的參與來選擇肘部,而實際應用上應該自動。但自動選擇肘部效果并不理想,因此可以考慮一種新方法。

通過交叉驗證,得到了一種比較有效但計算成本昂貴的方法。它是怎么工作的呢?首先選擇一個分類器,然后對于一系列質心數目,進行無監督插補,并用該分類器進行K-fold交叉驗證。***選擇在交叉驗證中表現更好的質心數目。

結果

在條形圖中,用紅線標記平均值插補的分數,以便進行比較。

占有率檢測數據集:

誠如之前提到的,這個數據集并沒有缺失數據,所以只能模擬補缺行為。

對將要補缺的數據特征和樣本應當謹慎挑選。不僅特別選擇了數據特征,而且對是否選擇樣本設定了概率。如果概率為0.5,有50%的機會該樣本將被丟棄。由于每次填補缺失值的樣本選擇都不同,我們將每三輪不同樣本補缺的評分結果取均值,***再對所有結果取均值。

數據缺失的坑,無監督學習這樣幫你補了

數據缺失的坑,無監督學習這樣幫你補了

 

\

房產市場數據集:

由于該數據集的數據量過大,怎樣在有限的內存中完成聚類分析值得研究一番。我們放棄了使用全量數據做歸類計算的打算,隨機抽取了適合電腦內存的樣本數據量(本次測試我選用了5000條記錄)。

在原始數據集中使用隨機抽樣的方法抽取樣本,也盡量保持了數據的時間結構。樣本的數據量越大,反映的時間結構越準確。

數據缺失的坑,無監督學習這樣幫你補了

子宮頸癌數據集:

數據缺失的坑,無監督學習這樣幫你補了

結果分析

根據結果,在數據分群的基礎上選擇補缺方式的表現比一般方法要好。

對于占有率檢測數據集,表現最優的是GMM_MML分類算法,而對于房產市場數據和宮頸癌數據集,K_Means聚類算法更好。我們并沒有對房產市場數據使用GMM_MML算法,因為它包含太多特征,而協方差的計算對于多特征數據比多樣本量數據更加困難。

在增加占有率檢測數據集的缺失數據后,整體上可以觀測到,無監督的補缺方法比均值補缺表現要好。因此,當數據集有缺失值占比較高時,先探索數據結構再補缺方法反而形成一種優勢。

大家會注意到,當使用檢測數據集的缺失數據特征從2個增加到4個,且用于聚類的特征數量減少時,無監督補缺方法比均值補缺表現稍好。這種反常的現象可能是由于特定的數據集和選擇的特征造成的。

同時,自然的,當缺失數據占比增加時,評分與基線分數的差距越來越大。

在三種K_Means算法中,普通型表現優于其他兩種。這種算法每次迭代的計算量也最小,是較佳選擇。

基于GMM方法的表現優于K-Means算法,這一現象十分合理,因為K-Means算法是GMM算法在歐式距離計算上的啟發式算法。歐式距離能有效測量低維數據,但在高維空間上,其含義開始失真。如想了解更多信息,請看這里(https://stats.stackexchange.com/questions/99171/why-is-euclidean-distance-not-a-good-metric-in-high-dimensions/)。GMM算法是基于樣本所屬概率密度函數的可能性,能更好的衡量高維空間距離。

結論

盡管基于聚類的缺失值補充算法沒有明顯高過其他算法的優勝者,我們還是建議選擇基于GMM的算法。

想找到模型混合的較佳數量,使用交叉驗證法會更好。盡管AIC準則和BIC準則需要大量計算,他們可以用于檢測模型混合數量的范圍。較佳數量會令準則值達到最小。

計算協方差矩陣有很多方法。這里介紹兩種最常使用的:

數據缺失的坑,無監督學習這樣幫你補了

  • 對角協方差:每個部分都有自己的對角矩陣。
  • 全協方差:這種協方差用于統計檢測。每個部分有自己的廣義協方差矩陣。

數據集中如果特征維度太多,使用GMM算法計算協方差矩陣,可能因為樣本量不足計算錯誤,也可能因為使用全量數據耗時太久。因此建議使用對角協方差,更加平衡模型大小和計算質量。

如果數據量大大超過內存容量,應當從訓練集中生成隨機樣本做聚類分析。

均值補缺的表現沒有比基于聚類補缺方法差很多,因此也可以考慮使用。

后續工作

數據整理也可以嘗試新方法:不再丟棄有缺失數據的特征,可以用均值或中位數填補缺失值,對修改后的數據集使用聚類分析。補缺可以在每個樣本被標記后完成。

Finite Mixture Models (McLachlan和Peel著)這本書中提到NEC和ICL都是很好的方法。

也有更多無監督方法值得研究檢測,例如,不同距離度量方法下的分級聚類。當然,普適的方法可能并不存在,畢竟沒有免費的午餐。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2023-11-23 15:54:01

人工智能監督學習無監督學習

2020-04-28 17:26:04

監督學習無監督學習機器學習

2017-06-12 14:04:45

深度學習人工智能

2022-06-14 07:07:57

網絡威脅無監督數據泄露

2019-03-29 14:10:35

無監督學習機器學習人工智能

2017-10-09 23:21:08

無監督學習機器學習人工智能

2023-11-28 12:03:46

人工智能無監督學習算法

2018-07-11 08:45:19

機械硬盤機器學習

2022-05-13 11:05:00

網絡威脅無監督學習網絡攻擊

2020-08-16 11:34:43

人工智能機器學習技術

2020-08-14 11:00:44

機器學習人工智能機器人

2019-10-14 10:40:03

機器學習人工智能非監督學習

2015-10-12 10:37:42

學習算法檢測

2023-11-13 15:01:28

機器學習

2024-08-16 08:15:02

2022-07-17 15:46:24

機器學習無監督學習算法

2017-09-11 09:20:14

機器學習無監督學習聚類

2017-08-29 14:30:34

2020-11-11 09:00:00

機器學習技術人工智能

2022-05-17 16:38:40

數據訓練
點贊
收藏

51CTO技術棧公眾號

在线观看视频一区二区欧美日韩 | 欧美在线观看视频免费| 中文字幕亚洲乱码| 国产在线激情| 丁香激情综合五月| 亚洲一二三在线| 亚洲视频第二页| av男人的天堂在线观看| 欧美国产亚洲另类动漫| 亚洲综合中文字幕在线| 国产精品免费精品一区| 婷婷综合五月| 亚洲精品一区中文| 日韩精品在线播放视频| 欧美动物xxx| 亚洲一区二区三区美女| 日本在线免费观看一区| 性一交一乱一精一晶| 日韩成人dvd| 欧美成人午夜激情在线| 波多野结衣片子| 99这里只有精品视频| 欧美色大人视频| 久久久久久久久久久视频| 美女写真理伦片在线看| 久久久久九九视频| 精品一区在线播放| www.四虎在线观看| 精品在线观看视频| 国产精品扒开腿做爽爽爽男男| 国产黄色片在线免费观看| 精品国产中文字幕第一页| 精品国产成人在线影院| 欧美日韩理论片| 国产亚洲人成a在线v网站| 一本大道久久a久久精品综合| 国产欧美精品aaaaaa片| 9色在线视频网站| 久久精品一区二区三区四区| 黑人另类av| 国模无码一区二区三区| 国产成人在线网站| 97人人模人人爽视频一区二区| 亚洲无码久久久久| 丝袜国产日韩另类美女| 欧美中文字幕精品| 亚洲欧美精品一区二区三区| 亚洲精选一区| 98精品国产高清在线xxxx天堂| 久久久久久久久久一区二区三区| 91精品国产福利在线观看麻豆| 中文字幕亚洲欧美日韩高清 | 日韩欧美中文字幕电影| 精品国产一区二区三区久久久蜜月| 亚洲自拍第三页| 97精品资源在线观看| 欧美高清www午色夜在线视频| www.cao超碰| 高清不卡一区| 日韩女优视频免费观看| 美女伦理水蜜桃4| 国产拍在线视频| 亚洲成a人v欧美综合天堂下载| 日本阿v视频在线观看| 国产丝袜在线播放| 动漫精品一区二区| 国产又猛又黄的视频| 成人国产综合| 制服.丝袜.亚洲.另类.中文| 在线观看网站黄| 美女一区二区在线观看| 亚洲免费视频在线观看| 国产熟女一区二区| 亚洲国产老妈| 久久久爽爽爽美女图片| 五月婷婷色丁香| 蜜臀av性久久久久av蜜臀妖精| 成人中文字幕在线观看| 国产成人三级在线观看视频| 91蜜桃婷婷狠狠久久综合9色| 日本亚洲导航| 蜜桃视频网站在线观看| 亚洲va欧美va人人爽午夜| 人妻熟女一二三区夜夜爱| а√天堂资源国产精品| 欧美变态口味重另类| 黄色性生活一级片| 日韩一区欧美| 国语自产精品视频在线看一大j8| 探花视频在线观看| 国产乱对白刺激视频不卡| 国产日韩欧美精品| 1024国产在线| 五月天视频一区| 国产情侣av自拍| 亚洲国产高清在线观看| 亚洲精品在线看| 免费看一级大片| 老鸭窝毛片一区二区三区| 国产精品一区二区三区成人| 秋霞av鲁丝片一区二区| 国产精品青草综合久久久久99| 欧美 亚洲 视频| 欧美专区福利免费| 精品美女在线播放| 天堂av网手机版| 国产精品一二| 97久久精品午夜一区二区| 天堂91在线| 亚洲综合免费观看高清完整版在线 | 欧美日韩亚洲综合| 日韩 中文字幕| 一本到12不卡视频在线dvd| 2019中文字幕在线观看| a级片免费视频| 国产精品色哟哟| 国产 福利 在线| 在线综合色站| 久久久精品日本| 中文字幕在线日本| 95精品视频在线| 奇米777四色影视在线看| 精品成人av| 亚洲美腿欧美激情另类| 麻豆一区二区三区精品视频| 久久99久久99| 亚洲欧洲日韩精品| 精品成人av| 亚洲午夜av久久乱码| 亚洲第一在线播放| www.一区二区| 免费看欧美黑人毛片| 国产一区二区三区亚洲综合| 自拍视频国产精品| 天天干天天插天天射| 久久蜜桃av一区二区天堂| 日本手机在线视频| 成人性生交大片免费看96| 日韩在线激情视频| 中文字幕av无码一区二区三区| 91看片淫黄大片一级在线观看| 国产美女在线一区| 视频精品二区| 欧美激情免费视频| 亚洲毛片在线播放| 亚洲午夜精品网| 中国特级黄色大片| 亚洲区一区二| 久久五月天婷婷| 毛片无码国产| 国产亚洲在线播放| 日韩乱码一区二区三区| 国产丝袜在线精品| 亚洲欧洲一区二区在线观看| 日本免费久久| 在线精品播放av| 一本一道人人妻人人妻αv| 国产精品国产三级国产| 久久6免费视频| 欧美日本亚洲韩国国产| 国产精品 日韩| 日本乱码一区二区三区不卡| 日韩精品在线免费观看视频| 国产亚洲欧美日韩高清| 国产精品污网站| 久久久久久久久久毛片| 国产精品vip| 看高清中日韩色视频| 欧美暴力调教| 久久好看免费视频| 懂色av一区二区三区四区| 狠狠色狠色综合曰曰| 四虎国产精品成人免费入口| 久久成人综合网| 999一区二区三区| 台湾亚洲精品一区二区tv| 国产精品黄页免费高清在线观看| 午夜视频成人| 精品国产自在久精品国产| 91九色丨porny丨肉丝| 欧美韩国日本一区| 无码人妻久久一区二区三区蜜桃| 亚洲一区二区伦理| 欧美亚洲视频一区| 精品精品国产三级a∨在线| 久久久久久一区二区三区| 国产精品一级伦理| 欧美一级二级三级蜜桃| 国产在线观看黄色| 亚洲欧美日韩国产手机在线 | 中文字幕综合网| 麻豆精品国产传媒av| 青青草精品视频| 岛国大片在线播放| 日韩激情在线| 韩日午夜在线资源一区二区| 免费日韩成人| 欧美在线一区二区视频| mm1313亚洲国产精品美女| 亚洲欧美国产精品va在线观看| 国产精品人人妻人人爽| 一本色道久久综合亚洲91| 免费人成在线观看| 欧美国产一区二区| 四虎永久免费影院| 国产精品中文字幕日韩精品| 一区二区三区国产免费| 亚洲精品日韩久久| 老司机午夜网站| 成人精品久久| 一区在线视频| 欧美亚洲国产一区在线观看网站| 国产欧美日韩精品在线观看| 天堂av电影在线观看| 91精品黄色片免费大全| 久久国产视频一区| 亚洲一区二区免费视频| 国产视频123区| 91在线云播放| 中国男女全黄大片| 久久精品国产99| 国产成人综合一区| 在线成人黄色| 日产精品久久久久久久蜜臀| 日韩免费久久| 日韩av电影在线观看| 欧美色图婷婷| 国产精品乱子乱xxxx| 豆花视频一区| 国产色综合天天综合网 | 国产一区丝袜| 亚洲激情中文字幕| 国产福利资源在线| 91精品国产综合久久香蕉麻豆 | 奇米精品一区二区三区在线观看一| 欧洲精品一区二区三区久久| 欧美 日韩 国产一区二区在线视频| 五月天综合网| av小次郎在线| 国产一区国产精品| 免费在线观看污污视频| 久久久久久久久久久久久久免费看| 日本午夜在线视频| 一区二区三区在线视频观看| www.xx日本| 国产精品欧美一区喷水| 亚洲一区二区三区日韩| 久久精品夜色噜噜亚洲aⅴ| aaaaa一级片| 久久欧美中文字幕| 无码熟妇人妻av| 久久老女人爱爱| 欧美老熟妇乱大交xxxxx| 337p粉嫩大胆色噜噜噜噜亚洲| 欧美大片免费播放器| 久久亚洲私人国产精品va媚药| 国内精品久久99人妻无码| 91美女视频网站| 亚洲精品视频久久久| 91免费在线看| 久久视频精品在线观看| 国产精品久久久久影院色老大| 啪啪一区二区三区| 亚洲男人的天堂av| 久草网在线观看| 午夜久久久久久久久| 国语对白永久免费| 欧美性感美女h网站在线观看免费| 91精品国产高清一区二区三密臀| 一本久久精品一区二区| 曰批又黄又爽免费视频| 9191成人精品久久| 丁香六月色婷婷| 亚洲女人被黑人巨大进入| h网站视频在线观看| 欧美成人一区在线| 伊人网在线播放| 国产日韩精品综合网站| 中文无码日韩欧| 欧美精品123| 婷婷综合在线| 久久精品国产sm调教网站演员| 久久精品日产第一区二区| 亚洲a级黄色片| 成人在线视频一区| 手机看片福利视频| 亚洲黄色免费电影| 成人免费毛片视频| 欧美一级黄色片| 五月激情六月婷婷| 深夜福利一区二区| 国产精品偷拍| 国产精品丝袜视频| 激情视频极品美女日韩| 日韩高清av电影| 欧美特黄一区| 久热精品在线观看视频| av在线播放一区二区三区| 黄色一级片一级片| 婷婷开心久久网| 国产精品乱码久久久| 日韩精品中文字幕在线观看| 欧美激情免费| 欧洲成人在线视频| 亚洲三级av| 亚洲精品高清视频| 国产精品久久久久9999高清| 三级av免费看| 中文字幕巨乱亚洲| 久久久精品免费看| 日韩一级黄色大片| www.久久热.com| 57pao精品| y111111国产精品久久久| 亚洲高清在线播放| 免费看亚洲片| 男人的天堂影院| 亚洲精品网站在线观看| 又污又黄的网站| 亚洲视频自拍偷拍| 超碰成人av| 成人h视频在线观看| 久久精品高清| 91视频免费版污| 91在线精品秘密一区二区| 麻豆changesxxx国产| 欧美日韩黄色一区二区| 日本成人一区二区三区| 高清一区二区三区四区五区| 欧美电影院免费观看| 国产精品美女在线播放| 美洲天堂一区二卡三卡四卡视频| 亚洲码无人客一区二区三区| 婷婷成人综合网| 日本免费一区视频| 欧美精品久久久久a| 亚洲乱码一区| 欧美在线观看视频免费| 国产成人在线视频网址| 欧美国产在线看| 日韩一区二区免费在线观看| 国产黄a三级三级三级av在线看| 国产精品吴梦梦| 欧美三级情趣内衣| 在线视频日韩一区| 国产亚洲欧美在线| 亚洲天堂视频在线播放| 国产香蕉精品视频一区二区三区| www.com.cn成人| 欧美精品免费观看二区| 久久综合图片| 国产精品美女高潮无套 | 日日夜夜综合网| 精品无人国产偷自产在线| 亚洲最大网站| 日韩国产高清一区| 久久99精品网久久| 538任你躁在线精品视频网站| 日韩久久久久久| 国产美女情趣调教h一区二区| 精品免费视频123区| 男女精品视频| 1024手机在线观看你懂的| 欧美午夜在线观看| 黄网站免费在线观看| 91免费版黄色| 国产日韩高清一区二区三区在线| av网站免费在线播放| 欧美综合久久久| 国产高清一区二区三区视频 | 在线免费观看日本欧美爱情大片| 亚洲一区二区三区三州| 精品国产乱码久久久久酒店| 美州a亚洲一视本频v色道| 国产在线精品播放| 亚洲成人直播| 欧美大波大乳巨大乳| 5858s免费视频成人| av今日在线| 偷拍视频一区二区| 国产精品一级片| 国产精品suv一区| 久久国产一区二区三区| 久久香蕉精品香蕉| 日本一二区免费| 亚洲h动漫在线| 日本在线观看| 国产美女在线精品免费观看| 日韩国产欧美三级| 久久久www成人免费毛片| 亚洲丝袜一区在线| 日本精品一区二区三区在线观看视频| 欧美日韩性生活片| 18涩涩午夜精品.www| 亚洲三区在线播放| 91久久精品视频| 久久久噜噜噜久久狠狠50岁| 九九热国产精品视频| 在线视频国产日韩| 精品国内亚洲2022精品成人|