# -*- coding: utf-8 -*- #1. 概念:把資料結構中,行相同的資料只保留一行。 # 語法: drop_duplicates 該方法返回一個去重後的資料框物件
from pandas import read_csv
df = read_csv("D:/python/workspace/pythonStudy/8.csv")
#找出行重複的位置(索引值) dIndex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過,則返回False,否則返回True
#找出列重複位置 dIndex = df.duplicated('id') #返回id這一列重複的位置
dIndex = df.duplicated(['id','key']) #這兩列同時重複的位置
#根據上面的返回值,把重複資料提取出來 df[dIndex]
#刪除重複值 #預設根據所有的列,進行刪除(當某兩行所有列的資料都重複時,會刪除其中一行) newDf = df.drop_duplicates()
#當然也可以指定某一列或多列,進行重複值刪除 newDf = df.drop_duplicates("id") newDf = df.drop_duplicates(["id","key"])
|
|
更多Python技術可關注:itheimaGZ獲取