Python資料分析之Pandas篇

小張學IT發表於2020-10-05

一、pandas安裝

Windows下pip安裝pandas:
pip install pandas

二、pandas之旅開始

執行環境
在這裡插入圖片描述

1.Series物件

先匯入pandas模組:
import pandas as pd
1.1 宣告Series物件(以下圖片程式碼皆在ipython中演示)
呼叫Series()建構函式,建立Series物件
在這裡插入圖片描述
呼叫構造建構函式Series()時可以指定index,標籤可以為字串型別
在這裡插入圖片描述
使用index(索引)和values(元素)兩個屬性分別檢視組成Series物件的兩個陣列
在這裡插入圖片描述
2.2選擇內部元素
指定鍵或定位於索引位置的標籤獲取Series物件內部元素
在這裡插入圖片描述
使用切片或者元素對應的標籤選擇多個元素
在這裡插入圖片描述
1.3為元素賦值用索引或者標籤選取元素進行賦值
在這裡插入圖片描述
1.4使用Numpy陣列或其他新的Series物件定義新Series物件

這裡注意修改arr的元素值Series物件c的元素值也會改變
1.5篩選元素
根據條件篩選元素
在這裡插入圖片描述
1.6 Series物件運算和數學函式
適用於numpy陣列的運算子(+、-、*、/)或其他數學函式也適用於Series物件。運算子可直接用來編寫算術表示式
在這裡插入圖片描述
1.7 Series物件的組成元素

Series物件往往包含重複的元素,以下是對重複元素的一些處理
使用unique()函式返回一個包含Series去重後元素的陣列
在這裡插入圖片描述
value_counts()函式不僅返回各個不同的元素,還計算每個元素在Series中出現的次數。
在這裡插入圖片描述
isin()函式判斷所屬關係,返回布林值,可用於篩選Series或DataFrame列中的資料
在這裡插入圖片描述
1.8 NaN(Not a Number)非數值
資料結構中若欄位為空或者不符合數字的定義時,可用這個特定的值來表示,建立資料結構時,可為陣列中元素缺失的缺失項輸入np.NaN。一般來講NaN值表示資料有問題,必須對其進行處理,尤其是在資料分析時。
isnull()和notnull()函式適合用來識別沒有對應元素的索引。物件的元素對應的時NaN,isnull()函式返回值為True,反之為False;notnull()函式與isnull函式用法相反。
在這裡插入圖片描述
這兩個函式還可以作為篩選條件
在這裡插入圖片描述
1.9 Series用作字典
可以把Series物件當作字典(dictionary)來用,可以事先定義好字典類建立Series物件。
在這裡插入圖片描述
1.10 Series物件之間的運算
運算後會得到一個新的Series物件,其中支隊標籤相同的元素求和,其他屬於任何一個Series物件的標籤也被新增到新物件中,只不過過它的值均為NaN。
在這裡插入圖片描述

相關文章