文:George Seif
編譯:之餚
來源:towardsdatascience.com/23-great-pa…
這兒有給資料分析師的 23 個 Pandas 程式碼,可以幫你更好地理解資料!Pandas 想必從事資料分析的各位都懂,這是一個開源的,BSD 許可的庫,為 Python 程式語言提供高效能,易於使用的資料結構和資料分析工具。還不熟悉的新手可以複製官網連結,10 分鐘快速瞭解下:pandas.pydata.org/pandas-docs…
應用案例集合也可以看看:pandas.pydata.org/pandas-docs…
(1)讀入 CSV 資料集
pd.DataFrame.from_csv(“csv_file”)
複製程式碼
或者:
pd.read_csv(“csv_file”)
複製程式碼
(2)讀入 Excel 資料集
pd.read_excel("excel_file")
複製程式碼
(3)直接把資料寫入 CSV
如資料以逗號分隔,且沒有索引:
df.to_csv("data.csv", sep=",", index=False)
複製程式碼
(4)基礎資料集特徵資訊
df.info()
複製程式碼
(5)基礎資料集統計結果
print(df.describe())
複製程式碼
(6) 以表格形式列印資料
print(tabulate(print_table, headers=headers))
複製程式碼
其中“print_table”是一列list,“headers”是一列字串抬頭
(7)列出列名稱
df.columns
複製程式碼
基本資料處理
(8)刪除缺失的資料
df.dropna(axis=0, how='any')
複製程式碼
返回給定軸上標籤的物件,逐個丟掉相應資料。
(9)替換丟失的資料
df.replace(to_replace=None, value=None)
複製程式碼
用“value”的值替換“to_replace”中給出的值。
(10)檢查 NAN
pd.isnull(object)
複製程式碼
檢測缺失值(有數值陣列中的NaN,物件陣列中的None和NaN)
(11)刪除特徵
df.drop('feature_variable_name', axis=1)
複製程式碼
軸為 0 代表行,1 代表列
(12)將物件型別轉換為 float
pd.to_numeric(df["feature_name"], errors='coerce')
複製程式碼
將物件型別轉換為數字型以便計算(如果它們是字串的話)
(13)將資料轉換為 Numpy 陣列
df.as_matrix()
複製程式碼
(14)獲取資料的頭“n”行
df.head(n)
複製程式碼
(15)按特徵名稱獲取資料
df.loc[feature_name]
複製程式碼
(16)將函式應用於資料
這個函式將資料裡“height”一列中的所有值乘以2
df["height"].apply(*lambda* height: 2 * height)
複製程式碼
或:
def multiply(x):
return x * 2
df["height"].apply(multiply)
複製程式碼
(17)重新命名資料列
這裡我們將資料的第3列重新命名為“size”
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
複製程式碼
(18)單獨提取某一列
df["name"].unique()
複製程式碼
(19)訪問子資料
我們從資料中選擇“name”和“size”兩列
new_df = df[["name", "size"]]
複製程式碼
(20)總結資料資訊
#資料之和df.sum()
#資料中的最小值df.min()
#資料中的最大值df.max()
#最小值的索引df.idxmin()
#最大值的索引df.idxmax()
#資料統計資訊,有四分位數,中位數等df.describe()
#平均值df.mean()
#中位數值df.median()
複製程式碼
(21)對資料進行排序
df.sort_values(ascending = False)
複製程式碼
(22)布林索引
這裡我們過濾“size”的資料列,以顯示等於5的值:
df[df["size"] == 5]
複製程式碼
(23)選擇某值
選擇“size”列的第一行:
df.loc([0], ['size'])
複製程式碼
那麼問題來了,程式設計師該如何系統學習資料分析?
通過職業路徑的規劃,在 Udacity 一站式學習「資料科學」學院課程,配合矽谷權威課程內容、名企實戰專案以及個性化的學習輔導,幫助每一位學員在「資料科學」這條職業道路上拒絕彎路,零壓力入門,短期、高效的學習每個階段和職業路程上的必備知識和經驗。
你可以在 “優達資料科學學院” 找到適合自己的學習規劃,並在行業專家的引導下,避開學習誤區,高效掌握資料分析核心技能,輕鬆遠超行業競爭者,斬獲高薪 Offer!
如果你是以下三類人群:
- 負資料/統計基礎,想要加入資料人才紅利的小白;
- 有一定程式設計經驗,面臨著職業和年薪瓶頸的轉型者;
- 想要在資料科學領域或者學術領域深耕的專業人士;
你都將在 Udacity 資料科學學院得到解決方案,獲得更清晰、更高效的學習路徑,進而掌握核心技術,get 豐富的實戰經驗,快速提升職場競爭力!
來體驗下我們的新學院 ba!