Pandas大綱學習-0

Vivian Long發表於2020-12-26

在這裡插入圖片描述在這裡插入圖片描述
**1、Series轉DataFrame


population_dict = {"BeiJing": 2154,
                   "ShangHai": 2424,
                   "ShenZhen": 1303,
                   "HangZhou": 981 }

population = pd.Series(population_dict)    
pd.DataFrame(population)

pd.DataFrame(population, columns=["population"])

2、通過Numpy二維陣列建立


data = np.random.randint(10, size=(3, 2))
data

pd.DataFrame(data, columns=["foo", "bar"], index=["a", "b", "c"])

data.values

** df.index 返回行索引**
df.columns 返回列索引
df.shape 形狀
df.size 大小
df.dtypes 返回每列資料型別
獲取行

df.loc
data.loc[“BeiJing”]
data.loc[[“BeiJing”, “HangZhou”]]

相對索引 df.iloc
data.iloc[0]
data.iloc[[1, 3]]
行分散取值,列切片
df.loc[[“2019-01-02”, “2019-01-06”], “C”: “D”]

%time 或 %timeit 來計算多次運算的平均時間,並獲得平均值和標準偏差。
執行相同運算,Numpy與Pandas的對比
Numpy更側重於計算,Pandas更側重於資料處理

pandas會自動對齊兩個物件的索引,沒有的值用np.nan表示

預設值也可用fill_value來填充,比NAN更高效

資料種類統計
y1 = pd.DataFrame(y, columns=[“A”])

相關文章