python 操作 excel 之資料清洗

ckxllf發表於2021-03-02

  python 在對 excel 操作的同時,前面文章中說了資料的讀取、插入、簡單分析,還有一個非常重要的點就是資料清洗。那什麼叫資料清洗,說白了就是去除資料文字中的垃圾值,比如:存在的空值、多餘的空格、資料格式等等的處理。

  1,匯入 python 庫、讀取 excel 資料

  # 匯入 pandas 庫

  import pandas as pd

  # read_excel() 讀取 excel 資料

  # DataFrame() 將讀取到的資料轉換為 DataFrame 資料

  df = pd.DataFrame(pd.read_excel('data.xlsx'))

  2,資料清洗(去除空值)

  # dropna() 函式去除 df 資料表中存在空值的所有行

  df.dropna(how='any')

  # mean() 函式計算 age 欄位所在列的平均值

  age_pre = df['age'].mean()

  # 使用 fillna() 函式對存在的空值進行填充,將 age_pre 的值填充到欄位為空的值內面

  df['age'].fillna(age_pre)

  3,資料清洗(清除欄位中的空格)

  # 清除欄位的空格 大連人流哪家好

  df['name'] = df['name'].map(str.strip)

  4,資料清洗(對某個列進行重新命名)

  # rename() 函式對列進行重新命名

  df.rename(columns={'name': 'name_new'})

  5,資料清洗(清除某一列中的重複值)

  # 從前往後查詢某個列中的重複值,如果存在則清除後面所出現的重複值

  df['name'].drop_duplicates()

  # 從後往前查詢某個列中的重複值,如果存在則清除前面所出現的重複值

  df['city'].drop_duplicates(keep='last')

  # 兩種正好是按照相反的清除順序

  6,資料清洗(資料值替換)

  # 將某一列中的具體值進行替換

  df['name'].replace('laow', 'lwsbc')

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945560/viewspace-2760620/,如需轉載,請註明出處,否則將追究法律責任。

相關文章