精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

探索性數據分析(EDA)之數據可視化案例:附數據集和源碼

大數據 數據分析
在這篇文章中,我們使用數據可視化在數據集上做了一系列的實驗和測試,基于各個變量對數據集做了一些分析,比如單變量分析和可視化(條形圖、餅圖、折線圖、直方圖);熱力圖可看作是雙變量分析,因為它呈現了兩兩變量之間的相關性。

Python 提供了一組豐富的庫,使我們能夠快速有效地創建可視化。在使用 Python 進行探索性數據分析過程中有幾種常用的可視化類型,包括:

  • 條形圖(Bar charts):用于顯示不同類別之間的比較。
  • 折線圖(Line charts):用于顯示一段時間內或不同類別之間的趨勢。
  • 餅狀圖(Pie charts):用于顯示不同類別的比例或百分比。
  • 直方圖(Histograms):用于顯示單個變量的分布。
  • 熱力圖(Heatmaps):用于顯示不同變量之間的相關性。
  • 散點圖(Scatter plots):用于表示兩個連續變量之間的關系。
  • 箱形圖(Box plots):用于顯示變量的分布和識別異常值。

使用 Python 創建數據可視化的一般步驟如下:

  1. 理解業務問題:這一步很重要,因為這關系到最后我們能否獲得正確的可視化結果。
  2. 導入必要的庫:如 Pandas, Seaborn, Matplotlib, Plotly。
  3. 加載數據集:加載需要分析和可視化的數據集。
  4. 數據清理和預處理:通過刪除缺失值、重復值和異常值來對數據進行清洗和預處理。另外,將分類數據轉換為數值數據。
  5. 統計匯總:計算描述性統計數據,如平均值、中位數、眾數、標準差和相關系數,以便了解變量之間的關系。
  6. 數據可視化和解釋:創建可視化來理解數據中的分布、關系和模式。然后解釋可視化,從而獲得關于數據的啟發性見解和結論。

1. 理解業務問題

心血管疾病是全球人員死亡的主要原因。據世界衛生組織(WHO)統計,每年約有1790萬人死于心臟病,其中85%的死亡是由心臟病發作和中風引起的。

在本文中,我們將探索心臟病發病數據集(獲取方式見文末),利用 Python 為探索性數據分析創建數據可視化。

該數據集包含患者的各種變量數據,如年齡、性別、血壓、膽固醇水平以及是否患有心臟病。我們的目標是根據患者的醫療屬性來預測他們是否有心臟病發病的風險。

2. 加載必要的庫

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

3. 加載數據集

heart = pd.read_csv('datasets/heart.csv')

現在我們已經加載了數據,讓我們看一下 DataFrame 的前幾行,對數據有一個基本的了解。

heart.head()

圖片圖片

我們一起來看看每列的含義:

  • age:患者年齡
  • sex:患者性別
  • cp:胸痛類型(0-典型心絞痛;1-非典型心絞痛;2-非心絞痛;3-無癥狀)
  • trbps:靜息血壓(單位:毫米汞柱)
  • chol:膽固醇量(毫克/分)
  • fbs:空腹血糖 > 120 mg/dl(1-true;0-false)
  • restecg:靜息心電圖結果

0:正常

1:ST-T波異常(T 波反轉和/或 ST 波升高或下降 > 0.05 mV)

2:根據埃斯蒂斯標準顯示可能或明確的左心室肥厚

  • thalachh:達到的最大心率
  • exng:運動誘發心絞痛(1-是;0-否)
  • oldpeak:前一個峰值
  • slp:斜率
  • caa:主要血管數量(0-3)
  • thall:貧血率
  • output:目標變量(0-更低的心臟病發病率;1-更高的心臟病發病率)

我們可以看到,數據集包含14列,包括目標列(output),它表示患者是否會心臟病發病。現在我們開始創建可視化。

4. 數據清洗和預處理

數據清洗的目的是為后面的分析和可視化做準備。比如檢測缺失值:

heart.isnull().sum().sort_values(ascending=False).head(11)

圖片圖片

從輸出中可以看出,該數據集中不存在缺失值。接下來,我們檢測重復行:

heart.duplicated().sum()

輸出:

1

我們直接刪除重復值:

heart.drop_duplicates(keep='first', inplace=True)

輸出:

0

到此,我們的清洗工作結束。接下來我們將會計算一些統計匯總信息。

5. 統計匯總信息

heart.describe().T

圖片圖片

從上面的統計信息摘要中我們可以得到的主要推論是,對于大多數列,其平均值與中位數相似(1/2百分位:50%)。

6. 數據可視化及解釋

6.1 基于性別的數據可視化

條形圖:

df = pd.crosstab(heart['output'], heart['sex'])

sns.set_style('white')

df.plot(kind='bar',
        figsize=(6, 6),
        color=['#c64343', '#e1d3c1'])
plt.title('Heart Attack Risk vs Sex ', fnotallow=16)
plt.xlabel('0 = Lower Risk                    1 = Higher Risk', fnotallow=16)
plt.ylabel('Amount', fnotallow=16)
plt.legend(['Femal', 'Male'], fnotallow=14)
plt.xticks(rotatinotallow=0)

圖片圖片

餅圖:

heart2 = heart.copy()
sex_mapping = {0: 'Female', 1: 'Male'}
heart2['sex'] = heart2['sex'].map(sex_mapping)

fig = px.pie(heart2,
             names='sex',
             template='presentation',
             hole=0.6,
             color_discrete_sequence=['#e1d3c1', '#c64343'])

# layout
fig.update_layout(title_text='Gender Distribution',
                  title_x=0.5,
                  fnotallow=dict(size=18),
                  autosize=False,
                  width=500,
                  height=500,
                  showlegend=False)

fig.add_annotation(dict(x=0.5, y=0.5, align='center',
                        xref='paper', yref='paper',
                        showarrow=False, font_size=22,
                        text="<span style='font-size: 26px; color=#555; font-family: Arial'>Gender<br></span>"))

fig.update_traces(textpositinotallow='outside', textinfo='percent+label', rotatinotallow=20)
fig.show()

圖片圖片

解釋:男性患心臟病的風險比女性更高。

6.2 基于年齡的數據可視化

柱狀圖:

plt.figure(figsize=(14, 8))
sns.set(font_scale=1.2)
sns.set_style('white')

sns.countplot(x=heart['age'], palette='Reds')
plt.title('Count of Patients Age', fnotallow=20)
plt.xlabel('Age', fnotallow=16)
plt.ylabel('Count', fnotallow=16)
plt.show()

圖片圖片

直方圖+核密度圖:

sns.set(font_scale=1.3)

plt.figure(figsize=(8, 6))
sns.set_style('white')
sns.histplot(x=heart['age'], color='red', kde=True)

plt.title('Distribution of Patients Age', fnotallow=20)
plt.xlabel('Age', fnotallow=16)
plt.ylabel('Density', fnotallow=16)
plt.show()

圖片圖片

解釋:大多數患者年齡在50-60歲之間,其中58歲的患者人數最多。

6.3 基于膽固醇水平的數據可視化

直方圖+核密度圖:

sns.set(font_scale=1.3)
sns.set_style('white')
plt.figure(figsize=(8, 6))

sns.histplot(x=heart[heart['output']==0]['chol'], color='blue', kde=True)
sns.histplot(x=heart[heart['output']==1]['chol'], color='red', kde=True)
plt.title('Heart Attack Risk vs Cholesterol', fnotallow=20)
plt.xlabel('Cholesterol Level', fnotallow=16)
plt.ylabel('Density', fnotallow=16)
plt.legend(['Lower Risk', 'Higher Risk'], fnotallow=14)
plt.show()

圖片圖片

折線圖:

plt.figure(figsize=(8, 6))

sns.lineplot(y='chol', x='age', data=heart, color='red')
plt.title('Cholesterol with Age', fnotallow=20)
plt.xlabel('Age', fnotallow=16)
plt.ylabel('Cholesterol Level', fnotallow=16)
plt.show()

圖片圖片

解釋:

  • 大多數患者的膽固醇水平在200-300之間。
  • 隨著年齡的增長,體內的膽固醇水平很有可能增加。

6.4 基于胸痛類型的數據可視化

heart3 = heart.copy()
cp_mapping = {0: 'Typical angina', 1: 'Atypical angina', 
              2: 'Non-anginal pain', 3: 'Asymptomatic'}
heart3['cp'] = heart3['cp'].map(cp_mapping)
df = pd.crosstab(heart3['cp'], heart3['output'])

# Make the crosstab more visual
sns.set(font_scale=1.3)
sns.set_style('white')

df.plot(kind='bar', 
        figsize=(11, 7), 
        color=['#e1d3c1', '#c64343'])
plt.title('Heart Attack Risk vs. Chest Pain Type', fnotallow=20)
plt.xlabel('Chest Pain types', fnotallow=16)
plt.ylabel('Amount', fnotallow=16)
plt.legend(['Lower Risk', 'Higher Risk'], fnotallow=14)
plt.xticks(rotatinotallow=0)

圖片圖片

解釋:

  • 大多數患者為典型心絞痛類型。
  • 非心絞痛患者心臟病發病的風險更高。

6.5 基于相關性的數據可視化

plt.figure(figsize=(12, 10))
sns.set(font_scale=0.9)

sns.heatmap(heart.corr(), annot=True, cmap='Reds')
plt.title('Correlation Between Variables', size=15)
plt.show()

圖片圖片

解釋:

通過熱力圖我們可以看出以下變量之間存在強相關性:

  • 胸痛類型(cp)和目標變量(output)
  • 達到的最大心率(thalachh)和目標變量(output)
  • 斜率(slp)和目標變量(output)

同時,我們也可以看出以下變量之間存在弱相關性:

  • 前一個峰值(oldpeak)和目標變量(output)
  • 主要血管數量(caa)和目標變量(output)
  • 運動誘發心絞痛(exng)和目標變量(output)

7. 結論

在這篇文章中,我們使用數據可視化在數據集上做了一系列的實驗和測試,基于各個變量對數據集做了一些分析,比如單變量分析和可視化(條形圖、餅圖、折線圖、直方圖);熱力圖可看作是雙變量分析,因為它呈現了兩兩變量之間的相關性。

探索性分析(EDA)和數據可視化的主要目的是在做任何假設之前幫助我們更好的理解數據,它們能夠讓我們對數據分布、匯總統計、變量和異常值之間的關系有一個直觀的理解。通過可視化,能夠得出一些有價值的洞見,達到輔助策略決策的目的。

責任編輯:武曉燕 來源: 自由學習屋
相關推薦

2020-05-13 11:32:28

數據分析數值分析

2023-05-11 13:39:39

EDA數據分析

2020-10-28 18:28:12

Pandas數據分析GUI

2022-11-11 11:35:14

2023-12-22 09:14:48

EDA數據分析探索性數據分析

2017-04-25 18:35:47

硅谷數據科學家數據分析

2023-12-25 15:51:07

探索性數據分析數據可視化

2024-07-30 12:10:22

2024-06-12 11:57:51

2024-05-21 13:33:49

2018-03-06 11:02:43

數據可視化標配

2017-01-12 17:28:59

數據分析數據可視化可視化

2018-03-24 21:38:54

Python數據庫數據可視化

2016-10-11 15:32:26

探索性大數據

2017-03-09 09:54:13

分析數據可視化

2018-12-03 16:50:23

數據可視化數據分析薪水

2020-10-22 08:52:52

Python數據集可視化

2020-08-18 13:30:01

Python命令數據分析

2012-09-04 09:20:26

測試軟件測試探索測試

2023-11-06 10:04:51

Go語言大數據
點贊
收藏

51CTO技術棧公眾號

日韩av在线网页| 日韩欧美在线免费| 97se国产在线视频| 日韩av在线电影| 国产区精品区| 欧美日韩国产乱码电影| 久久久天堂国产精品| 亚洲av成人精品毛片| 久久精品国产精品亚洲综合| 欧美极品少妇xxxxx| av电影网站在线观看| 日韩精品一区二区三区中文| 91电影在线观看| 国产成人一区二区三区别| 久久这里精品| 国产成人免费网站| 国产精品一区电影| 国产亚洲精品女人久久久久久| 国产精品密蕾丝视频下载| 日韩午夜av一区| 青青青在线视频免费观看| 黄页网站大全在线免费观看| 国产精品美女一区二区三区| 国产日韩一区二区三区| 一级特黄色大片| 另类国产ts人妖高潮视频| 欧美日韩爱爱视频| 最新日韩免费视频| 奇米狠狠一区二区三区| 精品伦理精品一区| 亚洲涩涩在线观看| 欧美日韩亚洲国产| 午夜精品在线看| 最新精品视频| 高h视频在线| a级高清视频欧美日韩| 91精品啪aⅴ在线观看国产| 国产精品xxxxxx| 久久精品伊人| 日本亚洲欧洲色α| 五月婷婷中文字幕| 激情久久久久久| 欧美福利小视频| 欧美亚洲日本在线| 99国产精品免费视频观看| 亚洲香蕉成视频在线观看| 免费看黄色aaaaaa 片| 亚洲日本va午夜在线电影| 在线电影院国产精品| 能看的毛片网站| 自拍偷拍亚洲视频| 日韩欧美国产一区二区| 97国产精东麻豆人妻电影| 92久久精品| 午夜伦理一区二区| 男人添女人下部高潮视频在观看 | 日韩的一区二区| 免费啪视频在线观看| 久久免费福利| 日韩欧美黄色影院| 中文字幕视频观看| 国产乱人伦丫前精品视频| 欧美一级国产精品| av影片在线播放| 中文字幕日韩高清在线| 欧美大肚乱孕交hd孕妇| 熟女人妻一区二区三区免费看| 免费观看性欧美大片无片| 欧美一区二区人人喊爽| 潘金莲一级淫片aaaaa| 国产精品sss在线观看av| 亚洲缚视频在线观看| 亚洲天堂久久新| 超碰成人久久| 欧美成人亚洲成人日韩成人| 国产精品白嫩白嫩大学美女| 国一区二区在线观看| 57pao精品| 小泽玛利亚一区二区三区视频| 美女一区二区久久| 国产高清自拍一区| 欧洲综合视频| 亚洲欧美在线视频| 久久艹国产精品| 免费电影日韩网站| 91精品免费在线| 国产伦精品一区三区精东| 免费萌白酱国产一区二区三区| 亚洲精品小视频| 久久一级免费视频| 国产精品啊啊啊| 国产成人97精品免费看片| 国产精品久久久久久久久久久久久久久久久久 | 99国产欧美另类久久久精品| 欧美极品视频一区二区三区| av网站在线播放| 伊人色综合久久天天| www国产黄色| av日韩久久| 亚洲国产另类久久精品| 国产亚洲精品精品精品| 国产精品草草| 国产精品视频99| 国产综合在线播放| 亚洲国产精品99久久久久久久久| 9色视频在线观看| 午夜无码国产理论在线| 精品福利一二区| 九九热免费在线| 亚洲免费精品| 亚洲r级在线观看| 国产在线视频网| 一区二区三区在线不卡| 欧美激情精品久久久久久小说| 日韩08精品| 亚洲午夜精品视频| 日本少妇久久久| 激情五月婷婷综合网| 欧美精品一区二区三区四区五区 | 日本www.色| 成人性生交大片免费看96| 色婷婷综合成人| 欧美男人亚洲天堂| 成人黄色大片在线观看| 免费成人进口网站| 免费观看成人性生生活片 | 黄色一区二区在线| 午夜诱惑痒痒网| 成人婷婷网色偷偷亚洲男人的天堂| 久久久伊人日本| 国产欧美综合视频| 国产精品视频免费看| 国产一区二区三区精彩视频 | 国产高清中文字幕在线| 日韩欧美中文一区| 精品国产精品国产精品| 免费成人av资源网| 日韩尤物视频| 奇米777日韩| 日韩精品在线观| 日韩少妇裸体做爰视频| 成人黄页毛片网站| 国产精品久久久久久久乖乖| 99ri日韩精品视频| 久久久久久久色| 全部免费毛片在线播放一个| 亚洲午夜羞羞片| av在线免费观看不卡| 久久久久久久久久久久久久| 国产日韩欧美日韩| 日韩av中文| 欧美亚洲综合久久| 美女100%无挡| 美女国产一区| 欧美日韩国产综合视频在线| 欧美一卡二卡| 欧美人成免费网站| 婷婷激情四射网| 六月丁香婷婷久久| 91社在线播放| 在线视频亚洲欧美中文| 欧美激情xxxx| 欧洲成人一区二区三区| 欧美日韩免费观看中文| 欧美成人午夜精品免费| 丝袜美腿亚洲色图| 亚洲一区二区三区免费看| 日韩美女在线| 欧美国产日韩一区二区| 亚洲欧美一区二区三| 欧美色视频日本高清在线观看| 色婷婷av777| 人人爽香蕉精品| 中文字幕中文字幕一区三区| 精品中文在线| 91高清免费视频| 成人p站proumb入口| 欧美一区二区在线播放| 国产亚洲自拍av| 久久久综合激的五月天| 亚洲激情在线观看视频| 亚洲天天综合| 久久久久久久久久久久久9999| 欧美成人黑人| 精品国内亚洲在观看18黄 | 欧美成人a交片免费看| 日韩一区二区欧美| 免费观看黄一级视频| 欧美午夜www高清视频| 黄色片网站在线播放| 成人听书哪个软件好| 日韩免费高清在线| 亚洲欧美一级二级三级| 蜜桃91精品入口| 精品国产乱码一区二区三区| 96精品视频在线| 在线a人片免费观看视频| 日韩三级视频在线观看| 三级视频在线观看| 亚洲欧美一区二区不卡| av在线网站观看| 国产剧情一区在线| 日本xxxxxxx免费视频| 亚洲色图欧美| 日韩免费电影一区二区| 7777精品| 91精品国产综合久久香蕉的用户体验| 91白丝在线| 久久亚洲精品成人| 国产在线观看网站| 精品久久久久久久久久久院品网 | 日韩写真欧美这视频| 青青视频在线免费观看| 一区二区三区美女视频| 老熟妇一区二区| 91网站视频在线观看| 亚洲图片 自拍偷拍| 石原莉奈一区二区三区在线观看| 青草视频在线观看视频| 亚洲一区在线| 神马一区二区影院| 亚洲盗摄视频| 国产一区二区精品在线| 欧美黄色一级| 成人午夜在线视频一区| 欧美日韩女优| 日本国产欧美一区二区三区| 国产天堂在线播放视频| 久久成人精品视频| 精品麻豆一区二区三区| 日韩在线中文视频| 番号在线播放| 亚洲片在线资源| 亚洲人视频在线观看| 日韩你懂的在线观看| 精品国自产在线观看| 欧美精品丝袜中出| 一区二区三区亚洲视频| 日本道色综合久久| 久久久精品视频网站| 欧美午夜精品伦理| 久热这里只有精品6| 亚洲6080在线| 永久免费看片在线播放| 亚洲成人av在线电影| 久久国产免费观看| 樱桃视频在线观看一区| 久久久久成人精品无码| 亚洲综合久久久久| 国产亚洲精品成人| 亚洲一区二区三区四区中文字幕| 欧美成人精品欧美一级私黄| 亚洲精品国产高清久久伦理二区| 精品无码久久久久成人漫画 | 激情五月色婷婷| 岛国av一区二区| 国产又黄又猛又粗又爽| 色诱亚洲精品久久久久久| 中文字幕一区二区人妻视频| 色婷婷av一区二区三区软件| 国产偷人爽久久久久久老妇app| 欧美专区日韩专区| 亚洲天堂国产精品| 91精品国产品国语在线不卡| 午夜精品久久久久久久爽 | 中文字幕第10页| 不卡电影免费在线播放一区| 制服丝袜第二页| 中文字幕精品一区| 成人免费毛片xxx| 亚洲综合区在线| 亚洲黄色激情视频| 在线精品视频免费播放| 一级黄色短视频| 日韩欧美成人激情| 图片区 小说区 区 亚洲五月| 亚洲精品一区av在线播放| jizz在线免费观看| 欧美大片在线免费观看| 极品在线视频| 91精品国产综合久久香蕉| 福利在线一区| 视频一区亚洲| 欧美日韩国产一区精品一区| 国产97在线 | 亚洲| 日本aⅴ免费视频一区二区三区| 欧美一级免费在线| 久久亚洲免费视频| 三级在线观看免费大全| 精品久久久久久久久久久久久| 国产一级片一区二区| 精品国产一区久久| av影片免费在线观看| 久久久久国产精品免费网站| 日韩一区二区三区在线免费观看| 亚洲精品欧美日韩专区| 亚洲免费观看高清完整版在线观| 日本特级黄色大片| 中文亚洲免费| 搡的我好爽在线观看免费视频| 26uuu久久综合| 18岁成人毛片| 欧美亚洲综合另类| 手机福利小视频在线播放| 日韩视频精品在线| 日韩大尺度黄色| 超碰在线97av| 91亚洲一区| aaa毛片在线观看| 丁香亚洲综合激情啪啪综合| 特级西西人体高清大胆| 午夜精品福利视频网站| 国产绿帽一区二区三区| 亚洲午夜小视频| 精品丝袜在线| 成人看片在线| 97久久视频| 午夜免费精品视频| 99久久99久久免费精品蜜臀| 色欲人妻综合网| 欧美性生活一区| 欧美男男激情freegay| 久久免费视频网站| 天堂精品久久久久| 91xxx视频| 九一久久久久久| 在线观看免费小视频| 色婷婷综合久久久中文字幕| 免费观看国产视频| 久久久久久欧美| 日韩在线亚洲| 国产又大又长又粗又黄| 蜜臀av性久久久久蜜臀aⅴ四虎 | 有码一区二区三区| 国产精品特级毛片一区二区三区| 在线观看视频99| 日本在线中文字幕一区二区三区| 欧美一区免费视频| 米奇777在线欧美播放| 搡老熟女老女人一区二区| 性久久久久久久| 视频一区 中文字幕| 午夜精品一区二区三区在线视频| 最新国产一区二区| 毛片av在线播放| k8久久久一区二区三区| 成人免费看片98| 亚洲精品电影网站| 深夜成人在线| 久久久久久高清| 视频在线观看一区| 日本理论中文字幕| 欧美日本乱大交xxxxx| 黄色视屏免费在线观看| 亚洲一区二区三区久久 | 欧美精品久久久久a| 国产精东传媒成人av电影| 又大又硬又爽免费视频| 不卡av在线免费观看| 日韩精品久久久久久免费| 亚洲欧洲成视频免费观看| 国产韩日精品| 亚洲最新免费视频| 高清视频一区二区| 日本高清www免费视频| 亚洲精品日韩在线| 色猫猫成人app| 好吊色这里只有精品| 成人黄色a**站在线观看| 精品国产xxx| 色偷偷av一区二区三区乱| 精品一区二区三区免费看| 欧美成人三级在线视频| 久久久久久亚洲综合影院红桃| 五月天中文字幕| 欧美大荫蒂xxx| 亚洲婷婷影院| 亚洲精品综合在线观看| 亚洲一区二区三区四区在线免费观看 | 欧美成人综合色| 日韩电视剧在线观看免费网站| videos性欧美另类高清| 午夜探花在线观看| 成人av免费在线| 成年人晚上看的视频| 久精品免费视频| 免费毛片在线不卡| 欧美视频亚洲图片| 欧美日韩亚洲成人| a免费在线观看| 鲁片一区二区三区| 国产麻豆精品一区二区| 人妻丰满熟妇av无码区| 久久精品2019中文字幕| 日韩欧美四区| 国产免费中文字幕| 一本一道波多野结衣一区二区| 超碰个人在线| 欧美高清性xxxxhdvideosex| 久久99日本精品|