利用Python進行數據分析之初識Pandas

作者：程序猿研究中心 2020-06-05 14:29:07

Pandas是構建在Python編程語言之上的一個快速、強大、靈活且易于使用的開源數據分析和操作工具。Pandas是基于Numpy的專業數據分析工具，可以靈活高效的處理各種數據集。

在Pandas中有這樣兩種數據結構：DataFrame、Series，DataFrame就類似Excel里面的Sheet表，而Series就相當于表中的某一列。

安裝

在這里我們使用pip進行安裝(如果沒有可自行查詢如何安裝pip)安裝panda最簡單的方法是將其作為Anaconda的一部分安裝，Anaconda主要用于數據分析和科學計算。還提供源代碼、PyPI、ActivePython、各種Linux發行版或開發版本進行安裝的說明。

當然，最為基礎的Python環境還是少不了的，如果你是Linux或使用的Mac就不用安裝Python了。

pip install pandas

Pandas中的數據結構

我們都知道在Excel中是有sheet表，在sheet中每個單元格都是有坐標來表示的，例如：A1、F3等，想要哪些數據只需要定位都響應數據都坐標或某個范圍。這里有一點需要強調，Pandas無論是和Exce相比還是和SQL相比，只是調用和處理數據的方式變了，核心都是對源數據進行一系列的處理。

DataFrame

在Pandas中同樣數據表表示方式與Excel基本相同，只不過Excel中的"列"，在Pandas中叫做"Series"：

Series

Pandas初體驗

如果想要構建下面這個表格，在Excel中大家再熟悉不過了，在Pandas中該如何構造呢?

Excel表格

要想使用Pandas，首先我們需要導入模塊(這里使用的ipython，可通過pip install ipython安裝)。

導入pandas

我們需要手動將數據存儲在表中，就要創建一個DataFrame。當使用Python列表和字典時，字典鍵將作為列頭，而每個列表中的值將用作DataFrame的行。

df = pd.DataFrame({ "設備名稱": ['服務器', '服務器', '磁盤陣列', '網絡設備'], "設備品牌": ['華為', '浪潮', 'Sugon', 'H3C'], "用途": ['高性能計算', '高性能計算', '存儲', '接入交換機'], "價格": [80000, 50800, 150000, 8000]})