資料分析 | 資料清理的方法

abloger發表於2024-06-27

原文網址 : https://www.cnblogs.com/abloger/p/18270897

資料清理的步驟


# 一、讀取資料
匯入NumPy和Pandas資料庫，用Pandas的read_csv函式讀取原始資料集’e_commerce.csv’，使其轉換成DataFrame格式，並賦值給變數df。
展示資料集的前5行和後5行。

# 二、評估資料（整潔度、乾淨度）
建立一個新的變數cleaned_data = df（相當於複製一個，對備份進行操作）
評估主要從兩個方面進行：結構和內容，即整齊度和乾淨度。'''df.info/df.describe 看整體'''

1. 資料的結構性問題：
    * 每列是一個變數，
    * 每行是一個觀察值，
    * 每個單元格是一個值

2. 資料的內容性問題包括存在丟失資料、重複資料、無效資料等：
    * 缺失，df.isnull.sum
    * 重複，df.duplicated
    * 評估填寫不一致的資料，df[].value_counts
    * 資料型別 df.info
    * 評估無效/錯誤資料 df.describe()

# 三、清理資料
根據前面評估時候的記錄來進行清理
1. 處理結構問題：
    * 每列是一個變數：df.melt()
    * 每行是一個觀察值：df.melt()
    * 每個單元格是一個值：df.explode()

2. 處理內容問題：
    * 缺失：df.fillna填充 ，或者直接刪除 df.dropna
    * 重複：df.drop_duplicates() 刪除重複值 
    * 評估填寫不一致的資料：df.replace([舊1，舊2],新，inplace = True) 用替代來統一
    * 資料型別 df.astype() 修改資料型別
    * 評估無效/錯誤資料:df.drop() 直接刪了

# 四、儲存資料

cleaned_df.to_csv('e_commerce_cleaned.csv', index=False)

方法詳解

df.melt


# 適用場景：主要用於將寬資料轉換成長資料

df.explode()


# 適用場景：主要用於將一個包含列表或陣列等可迭代物件的列展開。
如果一列中有很多內容（比如一列中包含一個列表），想讓內容分開單獨成行，則可使用explode。
——————如果非列表或陣列，則不行

df.fillna(直接寫值)/df[某行列].fillna({列名：替換值，列名：替換值})


# 適用場景：主要用於 自動找到缺失值進行填充

df.dropna()/
df.dropna(subset = [關注的列名])/
df.dropna(axis = 1)


# 適用場景：主要用於 直接刪除存在缺失值的行
如果傳入了subset，那麼只要關注列沒有缺失，其他列有缺失也不會刪除；
如果axis = 1，就變成了關注列，只要某列有空缺，直接刪除整列

df.drop_duplicates()


# 適用場景：刪除重複資料
如果希望是兩列同時重複，才刪除，就df.drop_duplicates(subset = [關注的列名1，關注的列名2])
一般遇到重複值，會刪除後面出現的值，如果想刪除前面的重複值，則drop_duplicates（keep = 'last'）

df.replace(原值，替換值)/dr.replace(字典)


# 適用場景：將值進行統一的時候
如果有很多個值都想替換成同一個值，直接在原值處放列表即可
如果放字典，鍵為原值，值為替換值

df.astype(型別)


# 適用場景：需要轉換值的型別的時候，比如str轉int
有一個特殊的型別是“category”，意思是一些有限的分類的值，比如顏色【藍，紅，黃】；部門【人事部，財務部，銷售部】

資料預處理-資料清理
2020-01-19
電商資料分析必備的4種資料分析方法
2022-04-06
win10系統怎麼清理temp資料夾 win10系統清理temp資料夾的方法
2018-08-05
Win10
資料預處理- 資料清理資料整合資料變換資料規約
2020-01-15
資料分析特徵工程方法
2021-01-21
特徵工程
大資料分析的幾種方法
2022-04-07
大資料
資料分析方法中的杜邦分析法
2018-12-25
影片分析/智慧安防AI智慧分析閘道器V4平臺告警資料清理方法：自動清理與手動清理
2024-04-15
AI
安全的清理Debug Release資料夾
2020-04-05
常用的資料分析方法論有哪些？
2023-12-11
快收藏！資料分析師不能不知道的三種資料分析方法
2022-05-12
清理oracle資料庫空間
2024-09-14
Oracle資料庫
大資料開發之常見九種資料分析方法
2019-06-13
大資料
常用的資料分析方法及案例講解
2023-12-08
資料分析方法——使用者群組分析
2020-12-26
淺談大資料、資料分析、資料探勘的區別！
2020-12-19
大資料
VNPY 行情資料中非行情資料清理
2018-07-08
說說資料分析中的資料建模
2020-11-12
圖解資料分析 | 資料分析的數學基礎
2022-02-25
圖解
PbootCMS快取如何清理runtime資料夾下經常滿怎麼辦？清理快取的方法
2024-10-22
boot快取
機器學習之清理資料
2020-06-16
機器學習
資料分析
2024-12-09
資料分析中的五大思維方法
2019-05-06
15種最常用的資料分析方法和模型
2021-12-28
模型
PHP 傳送GET 和 POST資料的方法分析
2021-09-09
PHP
使用CRM系統資料分析的四種方法
2023-02-09
SAST-資料流分析方法-理論
2024-04-08
AST
四種大資料分析方法介紹！
2022-03-29
大資料
大資料分析方法管不管用
2021-10-21
大資料
大資料分析方法，你都知道哪些？
2023-02-14
大資料
windows10資料夾太大清理方法不影響系統怎麼清理c盤
2021-10-18
Windows
資料分析--資料預處理
2023-12-14
資料分析中最缺少的是資料探索工具？
2022-02-23
大資料常見的資料分析思維
2022-03-28
大資料
資料編織：交易資料和分析資料的橋樑【含示例】
2023-05-15
螞蟻金服楊軍：螞蟻資料分析平臺的演進及資料分析方法的應用
2022-06-10
Python+資料分析：資料分析：北京Python開發的現狀
2018-11-24
Python
財務資料分析不可錯過的大資料分析平臺
2023-05-09
大資料

資料分析 | 資料清理的方法

相關文章