建模常用的pandas語句

烏克蘭老劉發表於2018-11-21

  pandas物件是Python常用的資料分析模組,它主要包括series物件,dataframe物件和index物件。每種物件都有自己所特有的方法和屬性。今天小編更新下建模中常用的pandas語句。

  額外提一句哈。小編不私聊哈,有事的話請加qq群的,微信群已滿。

  1.匯入pandas和numpy模組

  import pandas as pd

  import numpy as np

  import os

  2.檢視並更改工作路徑

  pwd

  os.chdir(`更改的路徑`)

  3.讀入資料集

  df=pd.read_csv(r`檔案路徑`)

  4.檢視列數、行數

  print(df1.columns.size,df.iloc[:,0].size)

  5.檢視列名

  df.columns.tolist()

  6.檢視每個特徵的型別

  for col in fk_df.columns:print(col,fk_df[col].dtype)

  7.計算壞賬率

  badRate=df[`target`].sum()/df[`target`].count()

  8.計算特徵空值率

  null_rate=1-df.count()/df.shape[0]

  9.保留空值率小於0.2的特徵

  cols=null_rate[null_rate<0.2].index.tolist()

  10.查詢資料集數值中型特徵小於0的值並置為nan

  def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

  11.設定新的索引

  df=df.reindex()

  12.檢查常量特徵

  df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

  13.檢視是否有重複特徵

  len(set(list(df1.columns)))==df1.shape[1]

  14.檢視特徵類別數

  df1[`education`].value_counts()


相關文章