精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據分析常用的18個概念,終于有人講明白了!

大數據 數據分析
大多數情況下,數據分析的過程必須包括數據探索的過程。下面給大家介紹一下 數據分析常用的18個概念,一起來看一下吧。

[ 導讀 ]大多數情況下,數據分析的過程必須包括數據探索的過程。數據探索可以有兩個層面的理解:

  •  一是僅利用一些工具,對數據的特征進行查看;
  •  二是根據數據特征,感知數據價值,以決定是否需要對別的字段進行探索,或者決定如何加工這些字段以發揮數據分析的價值。字段的選取既需要技術手段的支撐,也需要數據分析者的經驗和對解決問題的深入理解。

[[278527]]

01 數值類型

在進行數據分析時,往往需要明確每個字段的數據類型。數據類型代表了數據的業務含義,分為3個類型:

1. 區間型數據(Interval)

數值型數據的取值都是數值類型,其大小代表了對象的狀態。比如,年收入的取值,其大小代表了其收入狀態。

2. 分類型數據(Categorical)

分類型數據的每一個取值都代表了一個類別,如性別,兩個取值代表了兩個群體。

3. 序數型數據(Ordinal)

和分類型數據非常相似,每個取值代表了不同的類別。但是,序數型的數據還有另外一層含義就是每個取值是有大小之分的。比如,如果將年收入劃分為3個檔次:高、中、低,則不同的取值既有類別之分,也有大小之分。

如果不了解字段的實際業務含義,數據分析人員可能會出現數據類型判斷失誤。比如字段的取值為“1”“2”“3”等,并不意味著是一個數值類型,它的業務含義還可以是一個分類型的字段,“1”“2”“3”分別代表了一個類別,其大小沒有任何含義。所以,充分了解字段的含義是很重要的。

很多的數據分析工具會根據數據中的字段的實際取值,做出類型的自動判斷:如字符型的數據,一般都認定為分類型數據;如某個字段的所有取值只有“1”“2”“3”,則判斷其為分類型變量,然后經過用戶的再次判斷,其很可能是序數型變量。

不同的數據類型,在算法進行模型訓練時,處理和對待的方式是不同的。區間型數據是直接進行計算的;分類型數據是先將其轉換為稀疏矩陣:每一個類別是一個新的字段,然后根據其取值“1”“0”進行計算。

在很多場景下,人們習慣將分類型數據和序數型數據統稱為分類型數據,即數據類型可以是兩個:數值型數據(區間型數據)和分類型數據(分類型數據和序數型數據)。

[[278528]]

02 連續型數據的探索

連續型數據的探索,其關注點主要是通過統計指標來反映其分布和特點。典型的統計指標有以下幾個:

4. 缺失值

取值為空的值即為缺失值。缺失值比例是確定該字段是否可用的重要指標。一般情況下,如果缺失率超過50%,則該字段就完全不可用。

在很多情況下,我們需要區別對待null和0的關系。Null為缺失值,0是有效值。這個區別很重要,要小心區別對待。例如,某客戶在銀行內的某賬戶余額為null,意味著該客戶可能沒有該賬戶。但是如果將null改為0,則是說用戶有該賬戶,且賬戶余額為零。

5. 均值(Mean)

顧名思義,均值即平均值。其大小反映了整體的水平。一個數學平均成績是95分的班級,肯定比平均成績是80分的班級的數學能力要好。

6. 最大值和最小值

最大值和最小值即每個數據集中的最大數和最小數。

7. 方差

方差反映各個取值距平均值的離散程度。雖然有時兩組數據的平均值大小可能是相同的,但是各個觀察量的離散程度卻很少能相同。方差取值越大,說明離散程度越大。比如,平均成績是80分的班級,其方差很小,說明這個班級的數學能力比較平均:沒有多少過高的成績,也沒有多少過低的成績。

8. 標準差

標準差是方差的開方,其含義與方差類似。

9. 中位數(Median)

中位數是將排序后的數據集分為兩個數據集,這兩個數據集分別是取值高的數據集和取值低的數據集。比如,數據集{3,4,5,7,8}的中位數是5,在5之下和5之上分別是取值低和取值高的數據集。數據集{2,4,5,7}的中位數應當是(4 + 5)/2=4.5。

10. 眾數(Mode)

眾數是數據集中出現頻率最高的數據。眾數最常用的場景是分類型數據的統計,但是其也反映了數值型數據的“明顯集中趨勢點的數值”。

均值、中位數、眾數的計算方式各有不同,假設有一組數據:

1,2,2,3,4,7,9

  •  均值:(1 + 2 + 2 + 3 + 4 + 7 + 9)/7=4
  •  中位數:3
  •  眾數:2

11. 四分位數(Quartile)

四分位數,即用三個序號將已經排序過的數據等分為四份,如表2-2所示。

表2-2 四分位的例子

第二四分位數(Q2)的取值和中位數的取值是相同的。

12. 四分位距(Interquartile Range,IQR) 

四分位距通過第三四分位數和第一四分位數的差值來計算,即IQR=Q3-Q1。針對上表,其IQR=61-34=27。

四分位距是進行離群值判別的一個重要統計指標。一般情況下,極端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。著名的箱形圖就是借助四分位數和四分位距的概念來畫的,如圖2-1所示。

圖2-1 箱形圖及IQR

箱形圖中的上下兩條橫線,有可能是離群值分界點(Q3 + 1.5×IQR或Q1-1.5×IQR),也有可能是最大值或最小值。這完全取決于最大值和最小值是否在分界點之內。

13. 偏斜度(Skewness)

偏斜度是關于表現數據分布的對稱性的指標。如果其值是0,則代表一個對稱性的分布;若其值是正值,代表分布的峰值偏左;若其值是負值,代表分布的峰值偏右。在圖2-2中給出了偏斜度的示例。

圖2-2 Skewness的含義

Skewness的絕對值(不論是正值還是負值)如果大于1是個很明顯的信號,你的數據分布有明顯的不對稱性。很多數據分析的算法都是基于數據的分布是類似于正態分布的鐘型分布,并且數據都是在均值的周圍分布。如果Skewness的絕對值過大,則是另一個信號:你要小心地使用那些算法!

不同的偏斜度下,均值、中位數、眾數的取值是有很大不同的:

圖2-3 眾數、均值及中位數在不同分布下的比較

由圖2-3可見,在數據取值范圍相同的情況下,中位數是相同的。但是均值和眾數卻有很大的不同。所以,除了偏斜度指標可以直接反映分布特征外,還可以通過中位數和均值的差異來判斷分布的偏斜情況。

  •  中位數<均值:偏左分布
  •  中位數、均值相差無幾:對稱分布
  •  中位數>均值:偏右分布

14. 峰態(Kurtosis)

標準正態分布的峰態的值是3,但是在很多數據分析工具中對峰態值減去3,使得:0代表是正態分布;正值代表數據分布有個尖尖的峰值,高于正態分布的峰值;負值代表數據有個平緩的峰值,且低于正態分布的峰值。

峰態指標的主要作用是體現數值分布的尾巴厚度,尖峰對應著厚尾,即Kurtosis大于0時,意味著有一個厚尾巴。尖峰厚尾也就是說,在峰值附近取值較集中,但在非峰值附近取值較分散。圖2-4所示為一個峰態的例子。

圖2-4 峰態的例子

在連續型數據的探索中,需要重點關注的指標首先是缺失率,然后是均值、中位數等指標,這些指標能幫助數據分析者對數據的特征有很好的了解。偏斜度是另外一個非常重要的指標,但其絕對值接近1或大于1時,必須對其進行log轉換才能使用,否則該指標的價值將大打折扣。

Python Pandas中DataFrame的describe方法默認只統計連續性字段的最大值、最小值、均值、標準差、四分位數,如果想獲取其他的特征值,需要調用相應的函數來獲得。下面是一段示例代碼,其運行結果通過表2-4來展示。 

  1. List_of_series = [bank.var().rename('方差'),  
  2.                   bank.median().rename('中位數'),  
  3.                   bank.skew().rename('偏斜度'),  
  4.                   bank.kurt().rename('峰態')]  
  5. df = pd.DataFrame(list_of_series)  
  6. mode = bank.mode(numeric_only=True).rename({0: '眾數'})  
  7. pd.concat([df, mode]) 

▲表2-4 連續型變量數據探索示例代碼的運行結果

03 分類型數據的探索

分類型數據的探索主要是從分類的分布等方面進行考察。常見的統計指標有以下幾個:

15. 缺失值

缺失值永遠是需要關心的指標,不論是連續型數據,還是分類型數據。過多的缺失值,會使得指標失去意義。

16. 類別個數

依據分類型數據中類別的個數,可以對指標是否可用有一個大致的判斷。例如,從業務角度來看,某指標應當有6個類別,但實際樣本中只出現了5個類別,則需要重新考慮樣本的質量。再如,某個分類型變量只有一個類別時,對數據分析是完全不可用的。

17. 類別中個體數量

在大多數情況下,如果某些類別中個體數量太少,如只有1%的比例,可以認為該類別是個離群值。關于分類型變量離群值的研究比較多,但是如果脫離業務來談分類型變量的離群值,是不妥當的。

不平衡數據就是一個典型的與業務有關的例子。比如,從業務角度來看,購買黃金的客戶只占銀行全量客戶的很小的一個部分,如果采取簡單隨機抽樣的方式,“是否購買”列的值將只有極少的“是”的取值。

但是,不能將“是”直接判斷為離群值,反而“是”有極其重要的業務含義。所以,數據分析者需要靈活地認識和對待類別中個體數量的問題。

18. 眾數

和連續型數據的含義一樣,眾數是數據集中出現頻率最高的數據。比如,針對某個分類型取值A、B、C、D中C的出現次數最多,則C就是眾數。

以下是一段分類型變量數據探索示例代碼,其運行結果通過表2-5來展示。 

  1. bank.describe(include=[np.object]) 

表2-5 分類型變量數據探索示例代碼的運行結果

應用Python Pandas的相關函數能夠非常容易得到分類型變量的探索結果,表2-5所示就是數據探索示例代碼的運行結果。 

 

責任編輯:龐桂玉 來源: THU數據派
相關推薦

2021-12-03 18:25:56

數據指標本質

2022-04-27 18:25:02

數據采集維度

2021-09-03 18:38:13

數據湖數據倉庫

2020-10-08 11:24:04

數據分析技術IT

2021-02-28 12:47:27

數據分析科學技術

2022-05-01 22:09:27

數據模型大數據

2021-06-29 11:21:41

數據安全網絡安全黑客

2020-11-30 08:34:44

大數據數據分析技術

2022-04-12 18:29:41

元數據系統架構

2022-04-22 11:26:55

數據管理架構

2022-01-05 18:27:44

數據挖掘工具

2021-06-13 12:03:46

SaaS軟件即服務

2022-03-27 20:32:28

Knative容器事件模型

2021-10-09 00:02:04

DevOps敏捷開發

2025-05-29 01:00:00

數據架構大數據數據湖

2022-11-01 18:21:14

數據埋點SDK

2021-12-07 18:24:26

數據安全

2025-07-30 04:44:00

數據跨境流動

2022-05-09 20:23:51

數據采集

2022-04-18 07:37:30

數據信息知識
點贊
收藏

51CTO技術棧公眾號

日韩欧美一区中文| 日本一区二区三区在线不卡| 久久精品久久久久久| 91热视频在线观看| 草莓视频丝瓜在线观看丝瓜18| 成人亚洲精品久久久久软件| 91av免费观看91av精品在线| 亚洲黄色小说视频| 亚洲国产精选| 午夜欧美视频在线观看| 欧洲亚洲一区二区三区四区五区| 中文字幕日韩三级| 一区二区电影| 亚洲国产成人久久综合一区| 激情综合网俺也去| 九七电影韩国女主播在线观看| 国产成人av电影免费在线观看| 欧美亚洲一区在线| 看黄色录像一级片| 久久精品国产亚洲5555| 欧美四级电影网| 欧美h视频在线观看| 日本黄色一区二区三区| 水野朝阳av一区二区三区| xvideos成人免费中文版| 日韩中文一区二区三区| 亚洲国产一区视频| 久久婷婷国产| 精品3atv在线视频| 麻豆精品视频在线| 久久久久国产精品www| 精品人妻少妇嫩草av无码| 91精品国产经典在线观看| 亚洲一区二区精品3399| 亚洲精品成人三区| 亚洲 欧美 激情 小说 另类| 久久99这里只有精品| 97精品免费视频| 波兰性xxxxx极品hd| 秋霞在线一区| 欧美变态口味重另类| 日韩欧美大尺度| 国产精品久久久久久久av大片 | 国产成人啪免费观看软件| 日本一区二区三区四区视频| 久久精品国产亚洲av高清色欲| 精品久久中文| 日韩av最新在线观看| 伊人免费视频二| 主播大秀视频在线观看一区二区| 夜夜亚洲天天久久| 久久99国产精品一区| av免费观看一区二区| 97精品久久久久中文字幕| 亚洲自拍偷拍第一页| 国产亚洲久一区二区| 美女爽到呻吟久久久久| 韩国三级电影久久久久久| 欧美久久久久久久久久久久| 久久一区二区中文字幕| 在线精品高清中文字幕| 亚洲av无码国产精品麻豆天美 | 国产精品视频福利| 国产suv精品一区二区69| 精一区二区三区| 国产精品日韩在线播放| 无码人妻久久一区二区三区| 香蕉久久国产| 91精品国产一区| 国产乡下妇女做爰毛片| 国产一在线精品一区在线观看| 色综合久久久久久中文网| 日韩在线中文字幕视频| 欧美喷水视频| 久久久亚洲精选| 国产亚洲欧美精品久久久www | 欲香欲色天天天综合和网| 午夜不卡av在线| heyzo国产| 性欧美超级视频| 欧美视频免费在线观看| 日本成人在线免费视频| 欧美日韩不卡| 欧美喷潮久久久xxxxx| 91网址在线观看精品| 99re8这里有精品热视频免费| 精品国产一区二区三区忘忧草| 精品999在线| 印度午夜性春猛xxx交| 日韩美女毛片| 亚洲夜晚福利在线观看| 国产精品久久国产精麻豆96堂| 五月综合激情| 欧美激情精品久久久久久免费印度 | 韩国无码一区二区三区精品| 国产videos久久| 色婷婷综合久久久久| 欧美成人三级在线观看| 99亚洲精品| 国产精品日韩在线播放| 午夜精品久久久久久久第一页按摩 | 成人h版在线观看| 欧美一区二区福利| 国产写真视频在线观看| 粉嫩老牛aⅴ一区二区三区| 国产91成人video| 久久精品五月天| 九一久久久久久| 国产高清精品一区二区三区| 蜜桃成人在线视频| 亚洲欧美日韩成人高清在线一区| 青青青免费在线| 日本精品另类| 精品成人一区二区三区四区| 黄色片网站免费| 国产精品av久久久久久麻豆网| 欧洲精品在线视频| 国产suv一区二区| 国产日韩欧美综合在线| 日本福利视频网站| 123成人网| 亚洲国产精品专区久久| 激情五月激情综合| 香蕉精品999视频一区二区| **亚洲第一综合导航网站| 你懂得在线网址| 一区二区国产盗摄色噜噜| 一区二区在线播放视频| silk一区二区三区精品视频| 日韩视频免费大全中文字幕| 日韩一级在线视频| 成人app下载| 国产在线拍揄自揄拍无码| 欧美最新精品| 日韩精品在线视频美女| 激情五月婷婷在线| 久久99久久久久| 欧美日本国产精品| 看黄在线观看| 日韩三级电影网址| 亚洲波多野结衣| 日本中文字幕一区| 日本高清不卡三区| 色戒汤唯在线观看| 亚洲黄色www| 精品少妇久久久久久888优播| 激情综合网最新| 亚洲免费视频一区| 黑人巨大精品| 亚洲成人久久一区| 国产午夜视频在线播放| 国产成人在线视频免费播放| 国产一区一区三区| 先锋影音网一区二区| 色哟哟入口国产精品| 久草视频在线免费| 久久久av毛片精品| www日韩在线观看| 国产在线观看91一区二区三区| 911国产网站尤物在线观看| 天天干视频在线| 午夜精品久久久久久久| 欲求不满的岳中文字幕| 亚洲色诱最新| 麻豆av一区二区三区| 中文字幕高清在线播放| 亚洲视频在线免费看| 无码免费一区二区三区| 国产色91在线| 欧美午夜性生活| 欧美精选视频在线观看| 91精品国产综合久久香蕉的用户体验 | 一区二区三区在线免费看| 日韩中文字幕在线看| 97精品人妻一区二区三区在线| 中文字幕视频一区| 天天色天天干天天色| 欧美日韩一区二区三区四区在线观看| av成人免费观看| 免费v片在线观看| 亚洲天堂av综合网| 97成人在线观看| 曰韩精品一区二区| 国产草草浮力影院| 日本中文字幕一区二区视频 | 亚洲 激情 在线| 91久久电影| 国产精品三区四区| 日韩av一级| 精品综合久久久久久97| 视频二区在线观看| 欧美三日本三级三级在线播放| 日本 欧美 国产| 成人一区二区三区视频| 久久久久久久久久久久久国产精品| 成人影视亚洲图片在线| 国产精品播放| 欧美精品高清| 欧美高清性猛交| 日本精品专区| 这里只有精品99re| 日韩 欧美 亚洲| 国产精品天干天干在观线| 三上悠亚 电影| 久久三级福利| 在线观看福利一区| 爱爱视频免费在线观看| 伊人久久综合| 日本在线成人一区二区| 日韩精品一区二区三区中文| 欧美在线精品免播放器视频| 黄色网页在线看| 亚洲级视频在线观看免费1级| 久草热在线观看| 一区二区三区欧美日| 欧美黄色激情视频| 懂色av中文一区二区三区| 91激情视频在线| 99热在线精品观看| 黄色免费高清视频| 亚洲精品456| 亚洲综合色激情五月| 中文在线8资源库| 欧美日本啪啪无遮挡网站| 国产精品毛片一区二区三区四区| 欧美成人精精品一区二区频| 在线观看毛片网站| 欧美日韩精品二区| 黄色在线观看免费| 国产精品二区一区二区aⅴ污介绍| 喷水视频在线观看| 国产精品18久久久久久久网站| 激情五月亚洲色图| 中文国产一区| 亚洲乱码日产精品bd在线观看| 菠萝蜜一区二区| 久久资源av| 欧美激情极品| 波多野结衣久草一区| 亚洲ww精品| 国产精品久久久久国产a级| 在线观看网站免费入口在线观看国内| 久久91亚洲人成电影网站 | 成人免费看黄yyy456| 91插插插影院| 麻豆免费看一区二区三区| 可以免费观看av毛片| 国产欧美激情| 2018国产在线| 精品999日本| 欧美黄网在线观看| 欧美日本三区| 欧洲精品视频在线| 先锋资源久久| 一区二区三区在线视频看| 日韩一区二区在线| 亚洲亚洲精品三区日韩精品在线视频| 凹凸成人精品亚洲精品密奴| 视频一区视频二区视频三区高| 欧美欧美黄在线二区| 欧美日韩一区二区三区在线观看免| 日韩大片在线免费观看| 精品视频一区二区| 小说区图片区色综合区| 欧美性jizz18性欧美| 色一情一交一乱一区二区三区 | 91精品免费久久久久久久久| 欧美激情三区| 91精品久久久久久久| 国产亚洲久久| 91久久精品www人人做人人爽| 欧美中文高清| 国产伦精品一区二区三区视频黑人 | 伊人精品久久| 国产日韩欧美综合精品| 欧美爱爱网站| 日本精品国语自产拍在线观看| 精品香蕉视频| 正在播放精油久久| 欧美福利一区| 可以在线看的av网站| 国产精品呻吟| 杨幂毛片午夜性生毛片 | a级片在线播放| 精品国产乱码久久久久久牛牛 | 最新av电影网站| 亚洲精品乱码久久久久久 | 国产91绿帽单男绿奴| 亚洲国产成人精品一区二区| 黄色在线网站| 久久精品国产亚洲一区二区 | 精品一区二区男人吃奶| 欧美极品视频一区二区三区| 日韩毛片视频| 精品视频在线观看一区二区| 亚洲一区成人| 性欧美在线视频| www.激情成人| youjizz亚洲女人| 亚洲综合色婷婷| 久久久久久在线观看| 欧美精品tushy高清| 视频二区在线观看| 俺去啦;欧美日韩| 暧暧视频在线免费观看| 国产精品青青在线观看爽香蕉| 免费一级欧美在线大片| 欧美日韩一区二区三区在线视频| 亚洲欧美在线专区| www.国产区| 岛国精品在线观看| 337人体粉嫩噜噜噜| 五月天国产精品| 在线播放亚洲精品| 日韩精品视频免费专区在线播放 | 欧美xxxx综合视频| 色网在线免费观看| 亚洲va电影大全| 加勒比久久综合| 国产精品www在线观看| 久草这里只有精品视频| 丰满圆润老女人hd| 亚洲中国最大av网站| 一本到在线视频| 亚洲美女视频网站| 日韩激情美女| 国产主播喷水一区二区| 一区二区三区日本久久久 | 国产日韩在线视频| 欧美人与拘性视交免费看| www.日本三级| 久久成人18免费观看| 中文字幕国产专区| 精品女同一区二区三区在线播放| 国产视频手机在线观看| 在线日韩日本国产亚洲| 蜜桃在线视频| 国产精品日韩欧美一区二区三区| 中文字幕免费一区二区三区| 色噜噜狠狠一区二区| 久久精品亚洲麻豆av一区二区| 色婷婷在线观看视频| 精品精品欲导航| 黄色网页网址在线免费| 国产精品久久久久久久久久新婚| 日日天天久久| 日本熟妇人妻xxxx| 国产成人三级在线观看| 曰本女人与公拘交酡| 欧美精品一二三| 在线免费av网站| 国产精品久久久久91| 精品国产精品| youjizzxxxx18| 国产午夜精品一区二区| 特级毛片www| 亚洲欧美另类人妖| 新版的欧美在线视频| 就去色蜜桃综合| 国产精品入口| 在线免费观看麻豆| 在线观看日产精品| av在线电影观看| 国产精品热视频| 99久久亚洲精品蜜臀| 蜜臀一区二区三区精品免费视频| 国产精品久久久久婷婷 | 日韩三级.com| 黑人另类精品××××性爽| 国产精品久久7| 亚洲国产日韩欧美一区二区三区| 在线天堂www在线国语对白| 亚洲国产精品自拍| 亚洲av成人无码久久精品老人 | 婷婷视频一区二区三区| 国产尤物av一区二区三区| 成人动漫在线一区| 国产午夜在线播放| 亚洲乱码国产乱码精品精| av免费在线一区| 亚洲欧洲一区二区在线观看| 国产一区二区伦理片| 清纯粉嫩极品夜夜嗨av| 亚洲国产欧美精品| av在线日韩| 伊人久久大香线蕉成人综合网| 国产高清不卡二三区| 日韩成人一区二区三区| 亚洲欧美日本精品| 9999精品免费视频| 东北少妇不带套对白| 久久久午夜精品| 亚洲天堂一二三| 欧美高清视频免费观看| 最新国产一区| 岛国毛片在线播放| 亚洲午夜免费电影| 国产乱理伦片a级在线观看| 91理论片午午论夜理片久久| 亚洲高清自拍|