數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較
數(shù)據(jù)可視化原理
幾個(gè)世紀(jì)以前,科學(xué)家沒有用相機(jī)在顯微鏡下拍攝遙遠(yuǎn)星系或微小細(xì)菌的照片。 圖紙是傳達(dá)觀察,思想甚至理論的主要媒介。 實(shí)際上,對(duì)于科學(xué)家來(lái)說(shuō),能夠繪制抽象思想和物體的能力是一項(xiàng)必不可少的技能(請(qǐng)查看William Playfair從1700年代開始的收藏)。

> A bar chart showing exports and imports of Scotland (William Playfair: public domain)
情況仍然如此。 我們無(wú)法拍攝分布變量或其相關(guān)性的照片。 相反,我們通過(guò)現(xiàn)代工具和技術(shù)通過(guò)圖紙和插圖(也稱為數(shù)據(jù)可視化)進(jìn)行交流。
數(shù)據(jù)集包含一個(gè)或多個(gè)變量,我們可以通過(guò)多種方式可視化每個(gè)變量及其與其他變量的交互。 選擇哪種可視化取決于數(shù)據(jù)和我們要交流的信息類型。 但是,從根本上講,它們分為四種不同的類型:
- 單個(gè)變量的分布
- 兩個(gè)變量之間的關(guān)系
- 一個(gè)或多個(gè)變量的組成
- 不同類別/個(gè)人之間的比較
在本文中,我將通過(guò)插圖分解這四個(gè)數(shù)據(jù)可視化的基石。
1)分布
統(tǒng)計(jì)和數(shù)據(jù)科學(xué)中的一個(gè)重要概念是分布。 分布通常是指結(jié)果發(fā)生的可能性。 在分配100張硬幣的情況下,會(huì)有多少正面和反面? 這樣的頻率分布以直方圖或曲線表示。
下面是游泳課中學(xué)生身高分布的示意圖。 x軸顯示不同的身高類別,y軸顯示每個(gè)類別的學(xué)生人數(shù)。

> Frequency distribution of student heights (drawing: author)
那是頻率分布。 但是還有另一種分布-更好地稱為分散-可以顯示變量相對(duì)于其中心趨勢(shì)如何分散/分布。
色散的經(jīng)典表示是箱線圖。

> Decomposition of box plot to show the dispersion of values of a variable
上面的箱線圖表示多年以來(lái)周六航空乘客數(shù)量的分布。 這個(gè)單一的圖顯示了太多的信息-周六的平均乘客數(shù)/中位數(shù),最小和最大乘客數(shù),異常值等等!
2)關(guān)系
樹木隨著年齡的增長(zhǎng)變得越來(lái)越高。 那是身高和年齡這兩個(gè)變量之間的關(guān)系。
身高=(年齡)
在另一個(gè)示例中,房屋價(jià)格取決于床位數(shù),浴室數(shù)量,位置,平方英尺等。這是一個(gè)因變量與許多解釋變量之間的關(guān)系。
價(jià)格=的(床,浴室,位置,面積)
如果僅將數(shù)據(jù)集視為數(shù)字,則無(wú)法識(shí)別這些關(guān)系。 但是實(shí)際上,借助良好的可視化,您可以無(wú)需進(jìn)行復(fù)雜的統(tǒng)計(jì)分析。

> Relationship between age and height of a class of students
3)比較
數(shù)據(jù)可視化的第三個(gè)基石是比較。 這種視覺材料將數(shù)據(jù)集中的多個(gè)變量或單個(gè)變量?jī)?nèi)的多個(gè)類別進(jìn)行比較。
我們來(lái)看看以下兩個(gè)視覺效果:

> Visuals to show comparisons
左圖比較條形圖上兩組觀察值(科學(xué)家與律師)之間的變量(工資)。 右側(cè)面板也是一個(gè)比較圖-在這種情況下,是比較兩個(gè)組(英國(guó)和加拿大)之間但沿時(shí)間維度的變量(GDP)。
4)組成
您聽說(shuō)過(guò)堆積條形圖嗎? 但我確定您知道餅圖是什么。
這些圖表的目的是以絕對(duì)數(shù)和標(biāo)準(zhǔn)化形式(例如百分比)顯示一個(gè)或多個(gè)變量的組成。
構(gòu)成圖是當(dāng)今一些有限的用例的老式可視化技術(shù)(您是否真的需要餅圖來(lái)顯示黃色10%和紅色15%的組成?)。 但是,有時(shí)他們可以以視覺上的審美和熟悉的老式方式呈現(xiàn)信息。

> Composition plots: Stacked bar chart (left) and pie chart (right)
最后的話
本文的目的是討論數(shù)據(jù)可視化的四個(gè)基石:分布,關(guān)系,比較和組合。 在學(xué)習(xí)可視化工具和技術(shù)之前,重要的是要了解可視化的目的和要傳達(dá)的信息。 在以后的文章中,我將用python和R編程語(yǔ)言寫一些特定的工具,包括matplotlib,seabon和ggplot2。 敬請(qǐng)關(guān)注!





























