精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這些“秘密武器”,讓你輕松躋身Kaggle前2%

企業(yè)動態(tài)
本文中,我們會利用featexp來進行特征探索。我們將使用來自Kaggle競賽“違約者預(yù)測”的數(shù)據(jù)集,競賽的任務(wù)是基于已有的數(shù)據(jù)預(yù)測債務(wù)違約者。

[[250901]]

大數(shù)據(jù)文摘出品

編譯:Conrad、Hope、云舟

Kaggle的比賽真的好玩到令人上癮。在享受比賽的過程中,如果比賽成績能夠名列前茅那就非常棒了~~~

一位名叫Abhay Pawar的小哥開發(fā)了一些特征工程和機器學(xué)習(xí)建模的標(biāo)準(zhǔn)方法。這些簡單而強大的技術(shù)幫助他在Instacart Market Basket Analysis競賽中取得了前2%的成績。

下文是他以***人稱為小伙伴們分享他的技術(shù)經(jīng)驗。希望對你有所幫助。enjoy!

要構(gòu)建數(shù)值型連續(xù)變量的監(jiān)督學(xué)習(xí)模型,最重要的方面之一就是好好理解特征。觀察一個模型的部分依賴圖有助于理解模型的輸出是如何隨著每個特征變化而改變的。

但是,繪制的圖形是基于訓(xùn)練好的模型構(gòu)建的,這會引發(fā)一些問題。而如果我們直接用未經(jīng)學(xué)習(xí)的訓(xùn)練數(shù)據(jù)去作圖,我們就能更好理解這些數(shù)據(jù)的深層含義。因為這樣做能幫助我們進行:

  • 特征理解
  • 識別嘈雜特征(這是最有趣的!)
  • 特征工程
  • 特征重要性
  • 特征調(diào)試
  • 泄漏檢測與理解
  • 模型監(jiān)控

為了方便大家使用,我把這些方法用Python做了一個包,叫做featexp。本文中,我們會利用它來進行特征探索。我們將使用來自Kaggle競賽“違約者預(yù)測”的數(shù)據(jù)集,競賽的任務(wù)是基于已有的數(shù)據(jù)預(yù)測債務(wù)違約者。

  • featexp:https://github.com/abhayspawar/featexp
  • Home Credit Default Risk:https://www.kaggle.com/c/home-credit-default-risk/

特征理解

如果因變量 (分析目標(biāo)) 是二分類數(shù)據(jù),散點圖就不太好用了,因為所有點不是0就是1。針對連續(xù)型變量,數(shù)據(jù)點太多的話,會讓人很難理解目標(biāo)和特征之間的關(guān)系。但是,用featexp可以做出更加友好的圖像。讓我們試一下吧!

Featexp可以把一個數(shù)字特征,分成很多個樣本量相等的區(qū)間(X軸)。然后,計算出目標(biāo)的平均值 (Mean),并繪制出左上方的圖像。在這里,平均值代表違約率。圖像告訴我們,年紀(jì) (DAYS_BIRTH) 越大的人,違約率越低。

這非常合理的,因為年輕人通常更可能違約。這些圖能夠幫助我們理解客戶的特征,以及這些特征是如何影響模型的。右上方的圖像表示每個區(qū)間內(nèi)的客戶數(shù)量。

識別嘈雜特征

嘈雜特征容易造成過擬合,分辨噪音一點也不容易。在featexp里,你可以跑一下測試集或者驗證集,然后對比訓(xùn)練集和測試集的特征趨勢,從而找出嘈雜的特征。

訓(xùn)練集和測試集特征趨勢的對比

為了衡量噪音影響程度,featexp會計算兩個指標(biāo):

  • 趨勢相關(guān)性 (從測試?yán)L圖中可見) :如果一個特征在訓(xùn)練集和測試集里面表現(xiàn)出來的趨勢不一樣,就有可能導(dǎo)致過擬合。這是因為,模型從測試集里學(xué)到的一些東西,在驗證集中不適用。趨勢相關(guān)性可以告訴我們訓(xùn)練集和測試集趨勢的相似度,以及每個區(qū)間的平均值。上面這個例子中,兩個數(shù)據(jù)集的相關(guān)性達到了99%。看起來噪音不是很嚴(yán)重!
  • 趨勢變化:有時候,趨勢會發(fā)生突然變化和反復(fù)變化。這可能就參入噪音了,但也有可能是特定區(qū)間內(nèi)有其他獨特的特征對其產(chǎn)生了影響。如果出現(xiàn)這種情況,這個區(qū)間的違約率就沒辦法和其他區(qū)間直接對比了。

下面這個特征,就是嘈雜特征,訓(xùn)練集和測試集沒有相同的趨勢:兩者相關(guān)性只有85%。有時候,可以選擇丟掉這樣的特征。

嘈雜特征的例子

拋棄相關(guān)性低的特征,這種做法在特征非常多、特征之間又充滿相關(guān)性的情況下比較適用。這樣可以減少過擬合,避免信息丟失。不過,別把太多重要的特征都丟掉了;否則模型的預(yù)測效果可能會大打折扣。同時,你也不能用重要性來評價特征是否嘈雜,因為有些特征既非常重要,又嘈雜得不得了。

用與訓(xùn)練集不同時間段的數(shù)據(jù)來做測試集可能會比較好。這樣就能看出來數(shù)據(jù)是不是隨時間變化的了。

Featexp里有一個 get_trend_stats() 函數(shù),可以返回一個數(shù)據(jù)框 (Dataframe) ,顯示趨勢相關(guān)性和趨勢變化。

嘈雜特征的例子

get_trend_stats()返回的數(shù)據(jù)框

現(xiàn)在,可以試著去丟棄一些趨勢相關(guān)性弱的特征了,看看預(yù)測效果是否有提高。

用趨勢相關(guān)性進行不同特征選擇得到的的AUC值

用趨勢相關(guān)性進行不同特征選擇得到的的AUC值

我們可以看到,丟棄特征的相關(guān)性閾值越高,排行榜(LB)上的AUC越高。只要注意不要丟棄重要特征,AUC可以提升到0.74。有趣的是,測試集的AUC并沒有像排行榜的AUC變化那么大。完整代碼可以在featexp_demo記事本里面找到。

featexp_demo:

https://github.com/abhayspawar/featexp/blob/master/featexp_demo.ipynb

特征工程

通過查看這些圖表獲得的見解,有助于我們創(chuàng)建更好的特征。只需更好地了解數(shù)據(jù),就可以實現(xiàn)更好的特征工程。除此之外,它還可以幫助你改良現(xiàn)有特征。下面來看另一個特征EXT_SOURCE_1:

EXT_SOURCE_1的特征與目標(biāo)圖

EXT_SOURCE_1的特征與目標(biāo)圖

具有較高EXT_SOURCE_1值的客戶違約率較低。但是,***個區(qū)間(違約率約8%)不遵循這個特征趨勢(上升并下降)。它只有-99.985左右的負(fù)值且人群數(shù)量較多。這可能意味著這些是特殊值,因此不遵循特征趨勢。幸運的是,非線性模型在學(xué)習(xí)這種關(guān)系時不會有問題。但是,對于像Logistic回歸這樣的線性模型,如果需要對特殊值和控制進行插值,就需要考慮特征分布,而不是簡單地使用特征的均值進行插補。

特征重要性

Featexp還可以幫助衡量特征的重要性。DAYS_BIRTH和EXT_SOURCE_1都有很好的趨勢。但是,EXT_SOURCE_1的人群集中在特殊值區(qū)間中,這表明它可能不如DAYS_BIRTH那么重要?;赬GBoost模型來衡量特征重要性,發(fā)現(xiàn)DAYS_BIRTH實際上比EXT_SOURCE_1更重要。

特征調(diào)試

查看Featexp的圖表,可以幫助你通過以下兩項操作來發(fā)現(xiàn)復(fù)雜特征工程代碼中的錯誤:

零方差特征只展現(xiàn)一個區(qū)間

零方差特征只展現(xiàn)一個區(qū)間

  • 檢查特征的人群分布是否正確。由于一些疏忽,我遇到過多次類似上面這樣的極端情況。
  • 在查看這些圖之前,我總是會先做假設(shè),假設(shè)特征趨勢會是什么樣子的。如果特征趨勢看起來不符合預(yù)期,可能暗示著存在某些問題。實際上,這個驗證趨勢假設(shè)的過程使機器學(xué)習(xí)模型更有趣了!

泄漏檢測

從目標(biāo)到特征的數(shù)據(jù)泄漏會導(dǎo)致過擬合。泄露的特征具有很高的特征重要性。要理解為什么在特征中會發(fā)生泄漏是很困難的,查看featexp圖像可以幫助理解這一問題。

在“Nulls”區(qū)間的特征違約率為0%,同時,在其他所有區(qū)間中的違約率為100%。顯然,這是泄漏的極端情況。只有當(dāng)客戶違約時,此特征才有價值。基于此特征,可能是因為一個故障,或者因為這個特征在違約者中很常見。了解泄漏特征的問題所在能讓你更快地進行調(diào)試。

理解為什么特征會泄漏

理解為什么特征會泄漏 

模型監(jiān)控

由于featexp可計算兩個數(shù)據(jù)集之間的趨勢相關(guān)性,因此它可以很容易地利用于模型監(jiān)控。每次我們重新訓(xùn)練模型時,都可以將新的訓(xùn)練數(shù)據(jù)與測試好的訓(xùn)練數(shù)據(jù)(通常是***次構(gòu)建模型時的訓(xùn)練數(shù)據(jù))進行比較。趨勢相關(guān)性可以幫助你監(jiān)控特征信息與目標(biāo)的關(guān)系是否發(fā)生了變化。

這些簡單的步驟總能幫助我在Kaggle或者實際工作中構(gòu)建更好的模型。用featexp,花15分鐘去觀察那些圖像,是十分有價值的:它會帶你一步步看清黑箱里的世界。

還有什么其他方法可以幫助我們對特征進行探索嗎?如果你有更棒的想法,歡迎發(fā)郵件跟我交流abhayspawar@gmail.com。感謝你的閱讀!

相關(guān)報道:

https://towardsdatascience.com/my-secret-sauce-to-be-in-top-2-of-a-kaggle-competition-57cff0677d3c

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2013-10-16 09:28:14

亞馬遜AWSSDN

2024-07-11 08:34:48

2013-10-16 09:33:36

亞馬遜AWSSDN

2014-01-07 10:46:39

2011-08-11 17:05:26

2023-07-26 00:20:20

Java 8數(shù)組方式

2023-07-24 08:20:11

StreamJava方式

2023-11-29 07:04:19

Git工作效率

2025-08-01 08:28:46

Kotlin代碼冒號

2015-06-08 09:50:07

Android M谷歌

2019-11-27 10:38:37

數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備工具

2022-02-11 10:47:17

CIOIT團隊企業(yè)

2025-05-14 00:01:10

RxJS異步編程響應(yīng)式

2009-07-28 10:36:58

云計算Google秘密武器

2023-05-08 14:54:00

AI任務(wù)HuggingGPT

2019-11-27 10:40:34

數(shù)據(jù)工具CIO

2015-03-30 16:58:05

秘密武器華為

2009-10-29 09:21:42

數(shù)據(jù)中心完美的十四大秘

2025-08-27 01:00:00

DSPyAI開發(fā)

2020-07-25 18:04:21

Windows 10Windows勒索病毒
點贊
收藏

51CTO技術(shù)棧公眾號

欧美性受xxxx黑人猛交| 欧美色xxxx| 99久久99久久| 三级网站在线播放| 99久久夜色精品国产亚洲1000部| 日韩一级高清毛片| 人妻有码中文字幕| 国产黄色在线免费观看| 成人av电影在线播放| 2020久久国产精品| 潘金莲一级黄色片| 欧美三级电影在线| 在线播放91灌醉迷j高跟美女 | 91丨九色丨国产在线| 日韩黄色精品视频| 欧美残忍xxxx极端| 亚洲精品大尺度| 国产成人强伦免费视频网站| 国产精品迅雷| 亚洲国产wwwccc36天堂| 伊人情人网综合| 免费国产在线视频| 成人看片黄a免费看在线| 国产精品久久久久影院日本| 国产性70yerg老太| 五月天久久网站| 国产亚洲精品久久久久久牛牛 | 九色porny91| 超级白嫩亚洲国产第一| 国产精品第四页| 日本午夜精品电影| 一区二区免费av| 国产精品乱码久久久| 亚洲精品裸体| 麻豆乱码国产一区二区三区| 美女扒开腿免费视频| www.国产.com| 久久久精品日韩| 高清亚洲成在人网站天堂| 97se亚洲国产综合自在线不卡| 91高清视频在线免费观看| 国产又粗又硬又长又爽| 欧美aⅴ在线观看| 久久久久久国产精品免费无遮挡| 91理论电影在线观看| 国产成人精品一区二区三区福利| 亚洲中文字幕在线观看| 久久久噜噜噜| 国产精品原创巨作av| 亚洲精品在线观看网站| 欧美一级特黄a| 国产午夜精品无码| 午夜av在线播放| 亚洲国产精品av| 久久久久久久久久久一区| 亚洲av少妇一区二区在线观看| 久久精品久久综合| 国产精品麻豆va在线播放| 亚洲av成人片色在线观看高潮| 无码精品人妻一区二区三区影院 | 欧美一级欧美一级| 黄色的视频在线观看| 夜夜嗨av一区二区三区网页| 人人妻人人澡人人爽欧美一区| 影音先锋男人资源在线| 久久久免费人体| 色视频成人在线观看免| 精品久久久噜噜噜噜久久图片 | 深夜福利在线观看直播| 成人激情小说乱人伦| 亚洲最大av网站| 丰满人妻熟女aⅴ一区| 成人黄色国产精品网站大全在线免费观看 | 爽爽爽爽爽爽爽成人免费观看| 中文天堂资源在线| 91亚洲国产成人久久精品| 麻豆一区二区在线观看| 久久久久久久伊人| 免费视频一区二区三区在线观看| 国产精品久久久久久久久男| 国产模特av私拍大尺度| 成人性视频免费网站| 免费中文日韩| 欧美性天天影视| 亚洲线精品一区二区三区| 青青草成人免费在线视频| 免费毛片在线看片免费丝瓜视频 | 日韩一区av在线| 免费在线观看av网址| 亚洲精品免费观看| 国产精品私拍pans大尺度在线 | 国产偷国产偷亚洲清高网站| 久久久久无码精品国产sm果冻| 小小影院久久| 2019中文字幕在线免费观看| 一级做a爱片性色毛片| 成人avav影音| 在线免费观看成人网| 1234区中文字幕在线观看| 日本乱码高清不卡字幕| 伊人五月天婷婷| 色橹橹欧美在线观看视频高清| 日韩中文字幕av| 国产无精乱码一区二区三区| 久久中文欧美| 国产女人水真多18毛片18精品 | 久久免费国产视频| 中文字幕观看在线| 99久久精品免费看国产免费软件| 亚洲日本japanese丝袜| 毛片在线网站| 日韩美女视频在线| 国产成人免费观看网站| 亚洲区第一页| 999热视频| 99re热久久这里只有精品34| 天天免费综合色| 超级砰砰砰97免费观看最新一期| 国内亚洲精品| 欧美精品电影免费在线观看| 国产精品国产av| 国产亚洲欧洲一区高清在线观看| av在线播放亚洲| 国产一区一区| 久久精品国产亚洲精品2020| 国产情侣免费视频| 2021中文字幕一区亚洲| 蜜臀精品一区二区| 国产精品亚洲欧美一级在线 | 高清在线视频不卡| 欧美一区午夜精品| 色www亚洲国产阿娇yao| 久久国产精品99国产| 激情五月综合色婷婷一区二区 | 日本乱人伦aⅴ精品| 三级男人添奶爽爽爽视频| 综合久久一区| 成人淫片在线看| 在线激情免费视频| 色八戒一区二区三区| 中文字幕免费在线播放| 欧美性久久久| 国产精品9999久久久久仙踪林| jizzjizz亚洲| 欧美变态tickling挠脚心| 欧美做爰爽爽爽爽爽爽| 国产一区二区调教| 成人在线免费观看网址| 久久久久久爱| 欧美国产一区二区三区| 草草视频在线播放| 亚洲国产欧美在线| 亚洲精品激情视频| 99av国产精品欲麻豆| 国产一区免费观看| 天天免费亚洲黑人免费| 亚洲视频一区二区| 中文字幕av片| 日韩一区在线看| 97人人模人人爽人人澡| 欧美日韩四区| 久久精品综合一区| 456亚洲精品成人影院| 亚洲天堂第一页| 一级特黄aaa| 亚洲一区二区美女| 激情综合丁香五月| 丝袜美腿成人在线| 伊人久久大香线蕉成人综合网| www.久久99| 国模视频一区二区三区| 天天操天天干天天操| 色偷偷成人一区二区三区91| 69xxx免费| 国产成人在线免费| 成年人观看网站| 久久国产小视频| 国产高清一区视频| 另类激情视频| 久久久国产精彩视频美女艺术照福利| 成人av无码一区二区三区| 天天综合天天综合色| 日本二区在线观看| 国产精品亚洲成人| 日本精品免费在线观看| 欧美freesextv| 国产一区在线观| 日韩黄色三级在线观看| 欧美激情图片区| 国产鲁鲁视频在线观看免费| 日韩亚洲欧美中文三级| 免费黄色网址在线| 亚洲色图欧美在线| 精品夜夜澡人妻无码av| 韩国三级电影一区二区| av7777777| 婷婷综合五月| 欧美日韩国产三区| 亚洲综合色婷婷在线观看| 国产成人精品在线播放| 色帝国亚洲欧美在线| 国产亚洲欧洲高清| 欧美天堂在线视频| 欧美日韩国产系列| 亚洲免费在线观看av| 亚洲女同ⅹxx女同tv| 这里只有久久精品| 成人禁用看黄a在线| 男女视频在线观看网站| 玖玖在线精品| 黄色av网址在线播放| 一本精品一区二区三区| 视频一区二区三| 校花撩起jk露出白色内裤国产精品| 91亚洲精品久久久| ww久久综合久中文字幕| 4p变态网欧美系列| 好久没做在线观看| 久久视频中文字幕| 91在线播放网站| 亚洲美女www午夜| 人妻无码一区二区三区久久99| 欧美肥胖老妇做爰| 亚洲午夜无码久久久久| 色综合久久久久网| 国产精品视频久久久久久久| 亚洲一区二区精品视频| 国产成人无码aa精品一区| 国产精品久久久久久久久久久免费看 | 欧美亚韩一区二区三区| 亚洲欧美国产高清| 911国产在线| 国产精品毛片久久久久久| 亚洲自拍偷拍一区二区| 91在线云播放| 亚洲av无码一区二区三区网址 | 成av人片在线观看www| 欧美成人一二三| 成人在线视频亚洲| 久久亚洲影音av资源网| 国产黄色在线网站| 欧美成人午夜激情在线| 国产欧美久久久久久久久| 神马久久桃色视频| 欧美日韩欧美| 久久伊人精品天天| av片在线观看永久免费| 久久国产精品99国产精| 18网站在线观看| 欧美激情国内偷拍| av成人影院在线| 欧美中文字幕视频在线观看| 天堂av中文在线观看| 青青草精品毛片| julia一区二区三区中文字幕| 国产精品久久久久久久久久尿| 欧美成人app| 成人久久久久久| 91国内精品| 久久久久天天天天| 国产中文精品久高清在线不| 亚洲国内在线| 一区二区三区在线观看免费| 日本黄色片一级片| 国产精品五区| 日韩一区二区三区不卡视频| 精品一区精品二区高清| 少妇高潮一69aⅹ| 99久久综合精品| 国产熟女一区二区| 国产精品久久久久久久久动漫| 成年人午夜剧场| 五月激情综合网| 日韩av免费播放| 欧美一区二区成人| 婷婷久久久久久| 最近2019中文免费高清视频观看www99| 青青青青在线| 69av视频在线播放| 成人在线免费| 成人片在线免费看| 国产99久久精品一区二区300| 中文字幕精品—区二区日日骚| 欧美精品激情| 蜜臀久久99精品久久久酒店新书| 麻豆视频一区二区| 乱码一区二区三区| 久久久www成人免费毛片麻豆 | 一本色道久久综合一区| 无码少妇一区二区三区芒果| 国产一区二区三区四区在线观看| 西西大胆午夜视频| 国产精品婷婷午夜在线观看| 国语对白一区二区| 欧美三级韩国三级日本一级| 国产 日韩 欧美 综合| 一区二区在线免费视频| 国产99re66在线视频| 国产精品亚洲视频在线观看| 九九热播视频在线精品6| 在线电影看在线一区二区三区| 99在线精品免费视频九九视| 午夜大片在线观看| 久久久亚洲欧洲日产国码αv| 高h视频免费观看| 欧美亚洲一区三区| 亚州精品国产精品乱码不99按摩| 日韩中文字幕在线视频播放| 中文av在线全新| av色综合网| 91高清一区| 奇米影视四色在线| 久久久综合视频| 国产无遮挡裸体免费视频| 欧美日韩精品福利| 男女污污视频在线观看| 国产69精品久久久久9| 9999精品| 亚洲自拍偷拍二区| 美女精品一区| 国产伦精品一区二区三区妓女| 亚洲一区免费视频| 国产黄色一级大片| 久久人人爽人人爽人人片亚洲| 日本精品在线中文字幕| 久久综合中文色婷婷| 亚洲美女啪啪| 精品1卡二卡三卡四卡老狼| 亚洲精品欧美专区| 国产一区二区网站| 日韩中文在线视频| 男人天堂久久| 亚洲一区三区| 男人操女人的视频在线观看欧美| 18禁裸乳无遮挡啪啪无码免费| 亚洲福中文字幕伊人影院| www.av导航| 九九久久国产精品| 国内精品国产三级国产aⅴ久| 日韩毛片免费视频一级特黄| 欧美日韩三区四区| 亚洲另类黄色| 图片区偷拍区小说区| 亚洲理论在线观看| 国产精品热久久| 波霸ol色综合久久| 久久老司机精品视频| 欧美日韩激情在线| 91网在线播放| 国产中文欧美精品| 91中文字幕精品永久在线| 鲁一鲁一鲁一鲁一av| 中国av一区二区三区| 又骚又黄的视频| 色琪琪综合男人的天堂aⅴ视频| 国产福利91精品一区二区| 视频一区二区精品| 精品在线免费视频| 欧美成人免费看| 亚洲成人xxx| 亚洲欧洲自拍| 视频三区二区一区| 国内精品伊人久久久久影院对白| 极品魔鬼身材女神啪啪精品| 日韩写真欧美这视频| 3344国产永久在线观看视频| 九九九九九精品| 视频一区视频二区中文字幕| 少妇愉情理伦三级| 在线成人av网站| 草美女在线观看| 欧美日韩国产精品一区二区| 麻豆国产精品视频| 欧美三级日本三级| 日韩电影在线观看中文字幕| 午夜无码国产理论在线| 永久域名在线精品| 国产成人精品免费看| 精品成人av一区二区在线播放| 一区二区三区在线播放欧美| 狂野欧美xxxx韩国少妇| 黄色一级视频在线播放| 国产日韩欧美高清| 精品国产av鲁一鲁一区| 欧美一级免费看| 亚洲成av人片乱码色午夜| 视频免费在线观看| 欧美色成人综合| 欧美人与性动交α欧美精品济南到 | 免费看成人av| 激情国产一区二区| 狠狠躁夜夜躁人人爽天天高潮| 亚洲人精品午夜在线观看| crdy在线观看欧美| 18禁男女爽爽爽午夜网站免费| 国产精品久久久久久久久晋中| 色欲av永久无码精品无码蜜桃 | 久久天天躁狠狠躁夜夜躁| 老牛国内精品亚洲成av人片| 欧美成人手机在线视频|