資料分析常用的 23 個 Pandas 程式碼,收好不謝

優達學城Udacity發表於2018-09-13
文:George Seif
編譯:之餚
來源:towardsdatascience.com/23-great-pa…

這兒有給資料分析師的 23 個 Pandas 程式碼,可以幫你更好地理解資料!Pandas 想必從事資料分析的各位都懂,這是一個開源的,BSD 許可的庫,為 Python 程式語言提供高效能,易於使用的資料結構和資料分析工具。還不熟悉的新手可以複製官網連結,10 分鐘快速瞭解下:pandas.pydata.org/pandas-docs…


應用案例集合也可以看看:pandas.pydata.org/pandas-docs…


(1)讀入 CSV 資料集

pd.DataFrame.from_csv(“csv_file”)
複製程式碼

或者:

pd.read_csv(“csv_file”)
複製程式碼


(2)讀入 Excel 資料集

pd.read_excel("excel_file")
複製程式碼


(3)直接把資料寫入 CSV

如資料以逗號分隔,且沒有索引:

df.to_csv("data.csv", sep=",", index=False)
複製程式碼


(4)基礎資料集特徵資訊

df.info()
複製程式碼


(5)基礎資料集統計結果

print(df.describe())
複製程式碼


(6) 以表格形式列印資料

print(tabulate(print_table, headers=headers))
複製程式碼

其中“print_table”是一列list,“headers”是一列字串抬頭


(7)列出列名稱

df.columns
複製程式碼


基本資料處理


(8)刪除缺失的資料

df.dropna(axis=0, how='any')
複製程式碼

返回給定軸上標籤的物件,逐個丟掉相應資料。


(9)替換丟失的資料

df.replace(to_replace=None, value=None)
複製程式碼

用“value”的值替換“to_replace”中給出的值。


(10)檢查 NAN

pd.isnull(object)
複製程式碼

檢測缺失值(有數值陣列中的NaN,物件陣列中的None和NaN)


(11)刪除特徵

df.drop('feature_variable_name', axis=1)
複製程式碼

軸為 0 代表行,1 代表列


(12)將物件型別轉換為 float

pd.to_numeric(df["feature_name"], errors='coerce')
複製程式碼

將物件型別轉換為數字型以便計算(如果它們是字串的話)


(13)將資料轉換為 Numpy 陣列

df.as_matrix()
複製程式碼


(14)獲取資料的頭“n”行

df.head(n)
複製程式碼


(15)按特徵名稱獲取資料

df.loc[feature_name] 
複製程式碼


(16)將函式應用於資料

這個函式將資料裡“height”一列中的所有值乘以2

df["height"].apply(*lambda* height: 2 * height)
複製程式碼

或:

def multiply(x):

 return x * 2

df["height"].apply(multiply)
複製程式碼


(17)重新命名資料列

這裡我們將資料的第3列重新命名為“size”

df.rename(columns = {df.columns[2]:'size'}, inplace=True)
複製程式碼


(18)單獨提取某一列

df["name"].unique()
複製程式碼


(19)訪問子資料

我們從資料中選擇“name”和“size”兩列

new_df = df[["name", "size"]]
複製程式碼


(20)總結資料資訊

#資料之和df.sum()
#資料中的最小值df.min()
#資料中的最大值df.max()
#最小值的索引df.idxmin()
#最大值的索引df.idxmax()
#資料統計資訊,有四分位數,中位數等df.describe()
#平均值df.mean()
#中位數值df.median() 
複製程式碼


(21)對資料進行排序

df.sort_values(ascending = False)
複製程式碼


(22)布林索引

這裡我們過濾“size”的資料列,以顯示等於5的值:

df[df["size"] == 5]
複製程式碼


(23)選擇某值

選擇“size”列的第一行:

df.loc([0], ['size'])
複製程式碼


資料分析常用的 23 個 Pandas 程式碼,收好不謝


那麼問題來了,程式設計師該如何系統學習資料分析?

通過職業路徑的規劃,在 Udacity 一站式學習「資料科學」學院課程,配合矽谷權威課程內容、名企實戰專案以及個性化的學習輔導,幫助每一位學員在「資料科學」這條職業道路上拒絕彎路,零壓力入門,短期、高效的學習每個階段和職業路程上的必備知識和經驗。

你可以在 “優達資料科學學院” 找到適合自己的學習規劃,並在行業專家的引導下,避開學習誤區,高效掌握資料分析核心技能,輕鬆遠超行業競爭者,斬獲高薪 Offer!


資料分析常用的 23 個 Pandas 程式碼,收好不謝

如果你是以下三類人群:

  • 負資料/統計基礎,想要加入資料人才紅利的小白;
  • 有一定程式設計經驗,面臨著職業和年薪瓶頸的轉型者;
  • 想要在資料科學領域或者學術領域深耕的專業人士;

你都將在 Udacity 資料科學學院得到解決方案,獲得更清晰、更高效的學習路徑,進而掌握核心技術,get 豐富的實戰經驗,快速提升職場競爭力!


來體驗下我們的新學院 ba!


資料分析常用的 23 個 Pandas 程式碼,收好不謝


相關文章