資料處理之去除重複資料

純潔的程式碼發表於2020-03-17
# -*- coding: utf-8 -*-
#1. 概念:把資料結構中,行相同的資料只保留一行。
# 語法: drop_duplicates 該方法返回一個去重後的資料框物件

from pandas import read_csv

df = read_csv("D:/python/workspace/pythonStudy/8.csv")

#找出行重複的位置(索引值)
dIndex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過,則返回False,否則返回True

#找出列重複位置
dIndex = df.duplicated('id') #返回id這一列重複的位置

dIndex = df.duplicated(['id','key']) #這兩列同時重複的位置

#根據上面的返回值,把重複資料提取出來
df[dIndex]


#刪除重複值
#預設根據所有的列,進行刪除(當某兩行所有列的資料都重複時,會刪除其中一行)
newDf = df.drop_duplicates()

#當然也可以指定某一列或多列,進行重複值刪除
newDf = df.drop_duplicates("id")
newDf = df.drop_duplicates(["id","key"])

更多Python技術可關注:itheimaGZ獲取


相關文章