精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一個可以進行機器學習特征選擇的Python工具

新聞 人工智能
特征選擇 是在數據集中尋找和選擇最有用的特征的過程,是 機器學習 pipeline中的一個關鍵步驟。不必要的特征降低了訓練速度,降低了模型的可解釋性,最重要的是,降低了測試集的泛化性能。

 [[392070]]

特征選擇 是在數據集中尋找和選擇最有用的特征的過程,是 機器學習 pipeline中的一個關鍵步驟。不必要的特征降低了訓練速度,降低了模型的可解釋性,最重要的是,降低了測試集的泛化性能。

我發現自己一遍又一遍地為機器學習問題應用特別的特征選擇方法,這讓我感到沮喪,于是我在 Python 中構建了一個特征選擇類可在GitHub上找到。 FeatureSelector包括一些最常見的特征選擇方法:

  1. 缺失值百分比高的特征
  2. 共線性(高相關性)的特征
  3. 在基于樹的模型中零重要性的特征
  4. 低重要性的特征
  5. 具有單一唯一值的特征

在本文中,我們將在一個樣例機器學習數據集上使用 FeatureSelector。我們將看到它如何允許我們快速實現這些方法,從而實現更有效的工作流。

完整的代碼可在GitHub上獲得,我鼓勵任何貢獻。 Feature Selector正在開發中,并將根據社區的需要不斷改進!

樣例數據集

在本例中,我們將使用Kaggle上的Home Credit Default Risk machine learning competition數據。(要開始競賽,請參見本文)。整個數據集可下載,這里我們將使用一個例子來演示。

 

樣例數據,TARGET是分類的標簽

這個比賽是一個監督分類問題,這是一個很好的數據集,因為它有許多缺失的值,許多高度相關(共線)的特征,和一些不相關的特征,這對機器學習模型沒有幫助。

創建實例

要創建 FeatureSelector類的實例,我們需要傳入一個結構化數據集,其中包含行和列中的特征。我們可以使用一些只有特征的方法,但是基于重要性的方法也需要訓練標簽。由于我們有一個監督分類任務,我們將使用一組特征和一組標簽。

(確保在與feature_selector.py相同的目錄中運行這個腳本)

方法

特征選擇器有五種方法來查找要刪除的特征。我們可以訪問任何已識別的特征并手動從數據中刪除它們,或者使用特征選擇器中的“remove”函數。

在這里,我們將詳細介紹每種識別方法,并展示如何同時運行所有5種方法。 FeatureSelector還具有一些繪圖功能,因為可視化檢查數據是機器學習的關鍵組件。

缺失值

查找要刪除的特征的第一種方法很簡單:看看哪些特征的缺失值的比例大于某個閾值。下面的調用標識了缺失值超過60%的特征。

  1. fs.identify_missing(missing_threshold = 0.6
  2. 17 features with greater than 0.60 missing values. 

我們可以看到dataframe中每一列缺失值的比例:

  1. fs.missing_stats.head() 

要查看要刪除的特征,我們訪問 FeatureSelector的 ops屬性,這是一個Python字典,值為特征列表。

  1. missing_features = fs.ops['missing'
  2. missing_features[:5
  3. ['OWN_CAR_AGE',  
  4. 'YEARS_BUILD_AVG',  
  5. 'COMMONAREA_AVG',  
  6. 'FLOORSMIN_AVG'
  7. 'LIVINGAPARTMENTS_AVG'

最后,我們繪制了所有特征缺失值的分布圖:

  1. fs.plot_missing() 

共線性的特征

共線性特征是彼此高度相關的特征。在機器學習中,由于方差大、模型可解釋性差,導致測試集泛化性能下降。

方法 identify_collinear根據指定的相關系數值查找共線特征。對于每一對相關的特征,它識別出要刪除的特征之一(因為我們只需要刪除一個):

  1. fs.identify_collinear(correlation_threshold = 0.98
  2. 21 features with a correlation magnitude greater than 0.98

我們可以用關聯做出一個清晰的可視化,那就是熱圖。這顯示了在閾值以上至少有一個相關性特征的所有特征:

  1. fs.plot_collinear() 

如前所述,我們可以訪問將要刪除的相關特征的整個列表,或者查看dataframe中高度相關的特征對。

  1. # list of collinear features to remove 
  2. collinear_features = fs.ops['collinear'
  3. # dataframe of collinear features 
  4. fs.record_collinear.head() 

如果我們想要研究我們的數據集,我們還可以通過將 plot_all=True傳遞給調用來繪制數據中所有關聯的圖表:

零重要性特征

前兩種方法可以應用于任何結構化數據集,并且是確定性的——對于給定的閾值,每次結果都是相同的。下一種方法只適用于有監督的機器學習問題,在這種問題中,我們有訓練模型的標簽,并且是不確定的。 identify_zero_importance函數根據梯度提升機(GBM)學習模型查找不重要的特征。

使用基于樹的機器學習模型,例如增強集成,我們可以找到特征重要性。重要性的絕對值沒有相對值重要,相對值可以用來確定任務的最相關的特征。我們還可以通過刪除零重要性的特征來進行特征選擇。在基于樹的模型中,不使用零重要性的特征來分割任何節點,因此我們可以在不影響模型性能的情況下刪除它們。

FeatureSelector使用LightGBM庫中的梯度提升機查找特征重要性。為了減少方差,將GBM的10次訓練的特征重要性計算平均值。此外,使用帶有驗證集的early stop(可以選擇關閉驗證集)對模型進行訓練,以防止對訓練數據的過擬合。

下面的代碼調用該方法,提取零重要性特征:

我們傳入的參數如下:

任務:對應問題的“分類”或“回歸”

eval_metric:用于早期停止的指標(如果禁用了早期停止,則沒有必要使用該指標)

n_iteration:訓練次數,用來對特征重要性取平均

early ly_stop:是否使用early stop來訓練模型

這次我們得到了兩個帶有 plot_feature_importances的圖:

  1. # plot the feature importances 
  2. fs.plot_feature_importances(threshold = 0.99, plot_n = 12
  3. 124 features required for 0.99 of cumulative importance 

在左邊,我們有 plot_n最重要的特征(按照歸一化重要性繪制,總和為1),在右邊,我們有相對于特征數量的累積重要性。垂直線是在累積重要性的“閾值”處繪制的,在本例中是99%。

對于基于重要性的方法,有兩個注意事項值得記住:

  • 梯度提升機的訓練是隨機的,這意味著每次運行模型時特征輸入都會發生變化

這應該不會產生重大影響(最重要的特征不會突然變得最不重要),但是它會改變一些特征的順序。它還可以影響識別的零重要性特征的數量。如果特征的重要性每次都發生變化,不要感到驚訝!

  • 為了訓練機器學習模型,首先對特征進行“獨熱編碼”。這意味著一些重要性為0的特征可能是在建模過程中添加的獨熱編碼特征。

當我們到達特征刪除階段時,有一個選項可以刪除任何添加的獨熱編碼特征。然而,如果我們在特征選擇之后進行機器學習,我們還是要對特征進行一次獨熱編碼!

低重要性特征

下一個方法建立在零重要性函數的基礎上,利用模型的特征輸入進行進一步的選擇。函數 identify_low_importance查找對總重要性沒什么貢獻的最低重要性的特征。

例如,下面的調用找到了最不重要的特征,這些特征對于99%的總重要性是不需要的:

  1. fs.identify_low_importance(cumulative_importance = 0.99
  2. 123 features required for cumulative importance of 0.99 after one hot encoding. 
  3. 116 features do not contribute to cumulative importance of 0.99

基于累積重要性圖和這些信息,梯度提升機認為許多特征與學習無關。同樣,這種方法的結果將在每次訓練運行時發生變化。

要查看dataframe中的所有重要特征:

  1. fs.feature_importances.head(10

low_importance方法借鑒了使用主成分分析(PCA)的一種方法,這種方法通常只保留需要保留一定百分比的方差(如95%)的PC。占總重要性的百分比是基于相同的思想。

基于特征重要性的方法只有在我們使用基于樹的模型進行預測時才真正適用。除了隨機性之外,基于重要性的方法是一種黑盒方法,因為我們不知道為什么模型認為這些特征是無關的。如果使用這些方法,請多次運行它們以查看結果的變化,也許還可以創建具有不同參數的多個數據集進行測試!

單一唯一值的特征

最后一個方法是相當基本的:找到任何只有一個惟一值的列。只有一個惟一值的特征對機器學習沒有用處,因為這個特征的方差為零。例如,基于樹的模型永遠不能對只有一個值的特征進行分割(因為沒有分組來劃分觀察結果)。

這里沒有參數選擇,不像其他方法:

  1. fs.identify_single_unique() 
  2. 4 features with a single unique value. 

我們可以繪制每個類別中唯一值的數量直方圖:

  1. fs.plot_unique() 

需要記住的一點是,在默認情況下計算panda中的惟一值之前先刪除 NaNs 。

去除特征

一旦我們確定了要丟棄的特征,我們有兩個選項來刪除它們。所有要刪除的特征都存儲在 FeatureSelector的 ops字典中,我們可以使用列表手動刪除特征。另一個選項是使用“remove”內置函數。

對于這個方法,我們傳入用于刪除特征的 方法。如果我們想使用所有實現的方法,我們只需傳入 methods=’all’。

  1. # Remove the features from all methods (returns a df) 
  2. train_removed = fs.remove(methods = 'all'
  3. ['missing''single_unique''collinear''zero_importance''low_importance'] methods have been run 
  4.  
  5. Removed 140 features. 

此方法返回一個刪除了特征的dataframe。還可以刪除機器學習過程中創建的獨熱編碼特征:

  1. train_removed_all = fs.remove(methods = 'all', keep_one_hot=False) 
  2. Removed 187 features including one-hot features. 

在繼續操作之前,檢查將被刪除的特征可能是一個好主意!原始數據集存儲在 FeatureSelector的 data 屬性中作為備份!

一次運行所有方法

我們可以使用 identify_all而不是單獨使用這些方法。這需要每個方法的參數字典:

請注意,由于我們重新運行了模型,總特征的數量將發生變化。然后可以調用“remove”函數來刪除這些特征。

總結

在訓練機器學習模型之前,Feature Selector類實現了幾個常見的刪除特征的操作。它提供了識別要刪除的特征以及可視化功能。方法可以單獨運行,也可以一次全部運行,以實現高效的工作流。

missing、 collinear和 single_unique方法是確定的,而基于特征重要性的方法將隨著每次運行而改變。特征選擇,就像機器學習領域,很大程度上是經驗主義的,需要測試多個組合來找到最佳答案。在pipeline中嘗試幾種配置是最佳實踐,特征選擇器提供了一種快速評估特征選擇參數的方法。

 

責任編輯:張燕妮 來源: 數據分析網
相關推薦

2021-04-01 22:19:54

機器學習模型數據

2021-03-26 15:55:17

Python 開發編程語言

2024-04-10 12:39:08

機器學習python

2022-10-08 12:06:52

機器學習特征選擇

2022-02-16 07:00:00

機器學習特征選擇過濾法

2025-01-20 09:21:00

2024-12-26 00:34:47

2020-10-14 14:18:33

機器學習機器學習架構人工智能

2024-05-30 16:37:29

2019-08-01 15:40:31

Python機器學習編程語言

2022-03-01 20:41:00

機器學習特征人工智能

2022-02-13 00:27:34

機器學習數字隱私技術

2018-12-17 09:10:52

機器學習TensorFlow容器

2022-06-09 09:14:31

機器學習PythonJava

2022-06-05 21:16:08

機器學習Python

2021-11-02 08:00:00

機器學習API技術

2025-01-21 08:11:24

2017-10-24 06:32:01

機器學習特征選擇模型訓練

2021-05-10 16:41:19

機器學習人工智能IT

2025-07-31 01:22:00

點贊
收藏

51CTO技術棧公眾號

欧美人交a欧美精品| 欧美理论片在线| 欧美一级日本a级v片| 国产男人搡女人免费视频| 欧美丰满老妇| 亚洲第一精品电影| 欧美成人黄色网址| 国产盗摄在线观看| av成人动漫在线观看| 国产精品视频中文字幕91| 精品爆乳一区二区三区无码av| 精品无人区一区二区| 欧美午夜影院一区| 日韩精品一区二区在线视频| 九色在线观看| 国产成人在线观看免费网站| 国产精品福利片| 国产午夜精品无码| 久久中文视频| 日韩电影中文字幕一区| 国产九九九视频| 日韩一区二区三区在线免费观看 | 色99中文字幕| 成人午夜福利视频| 麻豆国产精品一区二区三区| 97在线精品视频| 永久av免费网站| 欧美男男gaytwinkfreevideos| 91精品在线麻豆| 一级特黄性色生活片| gogo高清在线播放免费| 最新久久zyz资源站| 欧美日韩高清在线一区| 成 人 黄 色 片 在线播放| 日韩电影在线看| 992tv在线成人免费观看| 日本少妇高清视频| 成人3d精品动漫精品一二三| 精品在线小视频| 日本美女视频网站| 精品国模一区二区三区欧美| 欧美色手机在线观看| 国产福利视频在线播放| 538在线视频| 一区二区国产视频| 裸体大乳女做爰69| 日本在线天堂| 久久―日本道色综合久久| 国产一区二区三区奇米久涩| 亚洲精品久久久久久动漫器材一区 | 欧美日韩三区| 日韩一区视频在线| 老司机精品免费视频| 精品国产网站| 在线播放日韩欧美| 微拍福利一区二区| 鲁大师精品99久久久| 337p日本欧洲亚洲大胆色噜噜| 91aaa精品| 96视频在线观看欧美| 欧美三级在线播放| 粉色视频免费看| 高清久久一区| 日韩亚洲欧美在线| 久久久久亚洲av无码专区首jn| 日韩三级精品| 亚洲аv电影天堂网| 国产性生活毛片| 丝袜久久网站| 揄拍成人国产精品视频| 青青青视频在线播放| 国产精品99久久| 欧美老妇交乱视频| 成年人免费看毛片| 久久精品女人天堂| 国产精品偷伦一区二区| 一级特黄aaa大片| 狠狠色综合色综合网络| 91在线观看网站| 无码国产色欲xxxx视频| 久久九九久精品国产免费直播| 日韩免费三级| 18视频免费网址在线观看| 亚洲欧美日韩国产手机在线 | 亚洲妇熟xxxx妇色黄| 亚洲一区在线视频| a√天堂在线观看| 高清亚洲高清| 精品黑人一区二区三区久久| 成人精品在线观看视频| 全球成人免费直播| 久久99亚洲热视| 一级片视频在线观看| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲自拍欧美色图| 蜜桃视频在线观看网站| 亚洲人成小说网站色在线| a天堂资源在线观看| 裤袜国产欧美精品一区| 欧美剧情电影在线观看完整版免费励志电影 | 国产精品揄拍100视频| av资源久久| 欧美劲爆第一页| 国产午夜无码视频在线观看| 国产精品18久久久久久vr| 久久本道综合色狠狠五月| av在线电影院| 午夜婷婷国产麻豆精品| 黄色免费网址大全| 99国产精品久久一区二区三区| 亚洲欧美日韩综合| 国产又黄又爽又无遮挡| 久久国产日本精品| 99免费在线视频观看| 国产中文字幕在线播放| 亚洲国产精品久久艾草纯爱| 永久免费的av网站| 色综合www| 欧美激情一区二区三区在线视频观看| 丰满人妻一区二区三区四区| www.66久久| 成人在线观看毛片| 91国内外精品自在线播放| 亚洲国产高清高潮精品美女| 欧美成人777| 久久精品国产99国产| 欧美1o一11sex性hdhd| 欧美人与禽猛交乱配| 8v天堂国产在线一区二区| 美女久久久久久久久久| 亚洲久久视频| 国产精品乱码一区二区三区| 性欧美猛交videos| 在线综合视频播放| 长河落日免费高清观看| 三级在线观看一区二区| 久久精品一区二区三区不卡免费视频| missav|免费高清av在线看| 欧美一区二区三区影视| 影音先锋男人资源在线观看| 美女免费视频一区| 色综合视频二区偷拍在线| av日韩亚洲| 精品爽片免费看久久| 日韩av一区二区在线播放| 成人性生交大片免费看视频在线| 国产91porn| 精品一区二区三区中文字幕视频| 久久精品国产96久久久香蕉| 国产一区二区三区中文字幕| 国产精品免费人成网站| 色婷婷成人在线| 93在线视频精品免费观看| 国产免费一区二区三区在线能观看 | 国产亚洲精品va在线观看| 在线观看 亚洲| 久久精品亚洲麻豆av一区二区| www.av毛片| 欧美黑人做爰爽爽爽| 96精品视频在线| 青青草视频在线免费观看| 色综合久久久久综合99| 国产三级短视频| 黄页视频在线91| 午夜久久久久久久久久久| 国产专区精品| 久久久久久尹人网香蕉| 五月婷在线视频| 日本韩国一区二区三区| 日本视频在线免费| 国产呦精品一区二区三区网站| 中文字幕第50页| 国产suv精品一区| 日韩美女福利视频| 在线观看完整版免费| 91精选在线观看| 国产在线视频你懂的| 91老师国产黑色丝袜在线| 天堂社区在线视频| 午夜精品电影| 欧美xxxx黑人又粗又长密月 | 久久精品日韩欧美| 午夜精品一区二区三区在线观看| av在线成人| 性欧美xxxx交| 超碰免费在线| 精品国产3级a| 波多野结衣一本一道| |精品福利一区二区三区| 一级黄色片毛片| 日本不卡中文字幕| 日本a在线天堂| 国产99精品| 91原创国产| 成人日韩在线观看| 久久久久久中文字幕| 国产视频精品久久| 日韩精品在线看片z| 秋霞av一区二区三区| 亚洲精品久久7777| 国产精品天天干| 丁香天五香天堂综合| 亚洲精品一二三四五区| 伊人影院久久| 亚洲综合五月天| 中文字幕精品影院| 99精品99久久久久久宅男| 亚洲电影有码| 97色伦亚洲国产| 性欧美video高清bbw| 一区二区三区无码高清视频| 黄色三级网站在线观看| 欧美日韩亚洲综合一区| 亚洲天堂av片| 伊人夜夜躁av伊人久久| 长河落日免费高清观看| 久久久久久久久久久电影| 中文字幕视频观看| 精品一区二区免费看| 超碰97人人射妻| 亚洲经典视频在线观看| 最新av在线免费观看| 成人激情诱惑| 欧美日韩精品久久久免费观看| 超碰成人福利| dy888夜精品国产专区| 亚洲伊人伊成久久人综合网| 国产成人精品国内自产拍免费看| 成人三级小说| 欧美麻豆久久久久久中文 | 久久久女人电视剧免费播放下载| 日韩三级影院| 一区二区三区www| 毛片在线播放网址| 精品视频在线播放| 深夜影院在线观看| 亚洲精品美女在线| 神宫寺奈绪一区二区三区| 日韩欧美国产综合| 国产99对白在线播放| 91精品国产色综合久久ai换脸| 在线观看视频二区| 欧美日韩精品三区| 一级特黄aaa大片在线观看| 欧美日韩三级视频| 在线观看中文字幕码| 欧美三级电影在线观看| 国产精品传媒在线观看| 欧美性大战久久久| 中文字幕日韩经典| 欧美日韩在线不卡| 亚洲影院一区二区三区| 欧美日韩国产高清一区二区三区 | 日本一区二区网站| 天天亚洲美女在线视频| 午夜精品久久久久久久久久久久久蜜桃 | 日韩国产在线一| 妺妺窝人体色www在线小说| 亚洲免费黄色| 黑人糟蹋人妻hd中文字幕 | 亚洲国产精品综合小说图片区| 久久久国产成人| 香蕉久久一区二区不卡无毒影院| 好吊操这里只有精品| 日韩欧美精品网址| 国产精品成人久久久| 777亚洲妇女| 午夜精品久久久久久久第一页按摩| 日韩精品一区二区三区中文精品| 黄色av中文字幕| 亚洲图片欧美日产| 日本中文字幕视频在线| 欧美日本精品在线| 涩涩在线视频| 国产精品色悠悠| 大胆人体色综合| 中国黄色一级视频| 555夜色666亚洲国产免| 午夜精品一区二区三| 日韩不卡中文字幕| 国产黄色在线| 不卡av日日日| 无遮挡爽大片在线观看视频| 国产精品美女久久久免费| 精品伊人久久| 欧美污视频久久久| 亚洲第一偷拍| 日本不卡在线观看视频| 久久成人麻豆午夜电影| 国产免费一区二区三区最新6| 久久精品网站免费观看| √天堂中文官网8在线| 欧美小视频在线观看| 国产精品亚洲lv粉色| 日韩精品中文在线观看| 成人黄视频在线观看| 欧美在线视频免费播放| 激情不卡一区二区三区视频在线| 久久影院理伦片| 欧美在线免费| 最新中文字幕免费视频| 国产成人福利片| 少妇一级黄色片| 狠狠躁夜夜躁人人躁婷婷91| 一区二区三区黄| 亚洲精品国产免费| 久操视频在线播放| 奇米一区二区三区四区久久| 精品一区二区三区视频在线播放 | 亚洲女性喷水在线观看一区| 日韩久久中文字幕| 日韩欧美亚洲国产另类| 91在线直播| 日本三级韩国三级久久| 草草视频在线一区二区| 中文字幕黄色大片| 日韩综合小视频| 精品无码在线视频| 一片黄亚洲嫩模| 国产又粗又猛又爽| 一道本无吗dⅴd在线播放一区| sm久久捆绑调教精品一区| 92看片淫黄大片欧美看国产片 | 欧美在线观看视频免费| 免费精品视频最新在线| 亚洲av综合一区二区| 午夜视频久久久久久| 午夜精品久久久久久久爽| 久久五月天综合| 欧美日韩免费电影| 日韩一区二区三区资源| 国产精品日韩| 精品视频站长推荐| 一区二区三区免费在线观看| 国产又粗又大又爽视频| 中文字幕欧美视频在线| 国精产品一区二区三区有限公司| 久久久久久国产精品免费免费| 亚洲大黄网站| 天堂www中文在线资源| 亚洲成在线观看| 全部免费毛片在线播放一个| 欧美激情综合色综合啪啪五月| 日本在线成人| 日本人妻伦在线中文字幕| 国产精品911| 欧美人与禽zozzo禽性配| 日韩一区二区免费在线观看| 尤物yw193can在线观看| 91精品国产91久久久久青草| 午夜精品电影| yy1111111| 欧美性猛交xxxx免费看漫画| 欧美成人免费| 国产精品成人免费电影| 日韩免费一区| 在线免费黄色网| 一区二区理论电影在线观看| 欧美性猛交 xxxx| 91sa在线看| 经典一区二区| 亚洲一区日韩精品| 亚洲蜜臀av乱码久久精品| 亚洲成人精品女人久久久| 欧美激情手机在线视频| 日本在线中文字幕一区| 国产a级片免费观看| 国产精品蜜臀av| 国产人妻精品一区二区三| 久久久久久高潮国产精品视| 奇米影视777在线欧美电影观看| 国产黄色特级片| 亚洲欧洲美洲综合色网| 日韩在线视频第一页| 国产福利成人在线| 久久精品国内一区二区三区水蜜桃| 一级全黄裸体片| 91久久精品一区二区二区| 精品国产99久久久久久| 国产欧美亚洲日本| 99精品热6080yy久久| 欧美a在线播放| 欧美成人精品高清在线播放| 成人av观看| 国产精品久久成人免费观看| 99re热视频这里只精品| 亚洲国产精品无码久久久| 超薄丝袜一区二区| 亚洲春色h网| 久久久九九九热| 一本色道亚洲精品aⅴ| 99在线播放| 少妇特黄a一区二区三区| 国产91综合一区在线观看| 天天射天天干天天| 欧美老肥婆性猛交视频| 精品久久电影| 精品视频站长推荐| 91精品欧美久久久久久动漫 | www.av欧美|