資料處理之去除重複資料

# -*- coding: utf-8 -*-
#1. 概念：把資料結構中，行相同的資料只保留一行。
# 語法： drop_duplicates 該方法返回一個去重後的資料框物件

from pandas import read_csv

df = read_csv("D:/python/workspace/pythonStudy/8.csv")

#找出行重複的位置（索引值）
dIndex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過，則返回False，否則返回True

#找出列重複位置
dIndex = df.duplicated('id') #返回id這一列重複的位置

dIndex = df.duplicated(['id','key']) #這兩列同時重複的位置

#根據上面的返回值，把重複資料提取出來
df[dIndex]

#刪除重複值
#預設根據所有的列，進行刪除（當某兩行所有列的資料都重複時，會刪除其中一行）
newDf = df.drop_duplicates()

#當然也可以指定某一列或多列，進行重複值刪除
newDf = df.drop_duplicates("id")
newDf = df.drop_duplicates(["id","key"])

更多Python技術可關注：itheimaGZ獲取

MySQL 處理重複資料
2019-07-02
MySql
mongodb如何去除重複資料
2021-09-11
MongoDB
php資料庫資料如何去除重複資料呢？
2021-04-05
PHP資料庫
sqlserver根據條件去除重複資料
2024-12-02
SQLServer
Python中去除重複資料的方法有哪些？
2023-11-06
Python
Mysql如何處理重複資料？讓你的效率更高效
2020-08-04
MySql
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
資料處理
2024-07-18
資料分析--資料預處理
2023-12-14
資料預處理-資料清理
2020-01-19
資料清洗和資料處理
2020-03-03
mysql 清除重複資料
2024-04-22
MySql
刪除重複資料
2022-01-07
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
資料預處理之 pandas 讀表
2020-03-01
資料處理之欄位合併
2020-03-16
資料預處理-資料歸約
2020-01-19
海量資料處理
2018-03-08
python 處理資料
2020-10-29
Python
springmvc 資料處理
2020-10-06
SpringMVC
Panda資料處理
2024-07-15
資料預處理
2021-09-09
Excel 資料處理
2022-07-21
Excel
javascript - 資料處理
2020-12-02
JavaScript
mongodb刪除重複資料
2019-02-27
MongoDB
mysql避免插入重複資料
2019-05-11
MySql
資料預處理-資料整合與資料變換
2020-01-19
Oracle:重複資料去重，只取最新的一條資料
2024-09-27
Oracle
json字串返回的資料有重複的資料
2020-11-10
JSON字串
Python資料處理(一)：處理 JSON、XML、CSV 三種格式資料
2019-01-27
PythonJSONXML
資料預處理- 資料清理資料整合資料變換資料規約
2020-01-15
請求資料處理
2018-11-14
海量資料處理2
2018-08-28
雨滴譜資料處理
2024-04-08
flutter json資料處理
2019-08-26
FlutterJSON
資料預處理 demo
2020-02-19
流資料處理利器
2020-10-09
Hive處理Json資料
2021-11-30
HiveJSON

資料處理之去除重複資料

相關文章