“一圖勝千言”,資料清洗的5個基本流程

環音儀資料發表於2022-01-07

如今,越來越多企業都開展了資料分析工作,因此不管從事什麼行業、什麼崗位,擁有一定的資料分析能力在職場中都是“香餑餑”一樣的存在。現在有很多人都有想要學習資料分析知識的心,但還沒有找到資料分析的“路”,不知道應該從何學起。今天小編就帶大家來了解一個很基礎但也比較冷門的知識點—— 資料清洗

 

雖然資料清洗被提及的頻率不如資料分析、資料探勘、資料視覺化等詞高,但並不代表它就不重要喔,資料清洗也是整個資料分析過程中不可或缺的一環。提到資料清洗,你最先想到什麼問題?“資料清洗是什麼”、“資料清洗想要洗掉什麼”、“資料清洗的基本流程”……接下來小編會圍繞這3個問題開始今天的話題。

 

1.1話題.png 

一、資料清洗是什麼


資料清洗,顧名思義就是將要用到的資料中重複、多餘部分的資料進行篩選並清除;把缺失部分補充完整,並將不正確的資料糾正或者刪除。最後整理成可以進一步加工、使用的資料。

 

二、資料清洗想要洗掉什麼


從上面資料清洗的概念就可以大概知道資料清洗是在清洗什麼了,洗掉的就是資料庫中的“髒”資料。“髒資料”,即資料庫中殘缺、錯誤、重複的資料。資料清洗,旨在提高資料的質量、縮小資料統計過程中的誤差值。

 

三、資料清洗的基本流程


“一圖勝千言”,直接上一張資料清洗的路徑圖,是不是一目瞭然啦!

  1.3一目瞭然.png  

 

1、對缺失值進行清洗


資料清洗第一步,對缺失值進行清洗。缺失值是非常常見的資料問題,它的處理方法也很多。下面分享一種很常用的方法,首先是明確缺失值的範圍:對每個欄位進行計算其缺失值比例,並按照缺失比例和欄位重要性,分別制定策略。

 

2、去除不需要的欄位


這個步驟非常簡單,直接刪掉即可。這裡有一個點注意,就是記得先對資料進行備份,或者先進行小規模的資料實驗,確定無誤後在應用到大量的資料上。這樣做是為了避免“一誤刪成千古恨”。

 

3、填充缺失內容


填充缺失資料有3種方法,分別是以業務知識/經驗推測進行填充、以同一個指標計算的結果進行填充、以不同的指標計算的結果進行填充。

 

4、重新取數


重新取數是針對那些指標重要但缺失率又較高的資料,這需要向取數人員或是業務人員進行資訊,或者從其他渠道取到相關資料。

 

5、關聯性驗證


如果資料的來源較多,就有必要進行關聯性驗證。

 

資料清洗可以藉助專業的BI工具來進行,思邁特軟體Smartbi就很值得推薦。思邁特軟體Smartbi採用的是分散式的計算架構,單節點支援多執行緒,處理海量資料沒有壓力,能有效提高資料處理的效能。強大的資料處理功能不僅支援異構資料,還內建排序、去重、對映、行列合併、行列轉換聚合、去空值等等資料預處理功能。

 

1.3處理功能.png 

 

相信大家現在對資料清洗已經有了一定的瞭解了,感興趣的小夥伴可以去找些BI工具來試驗一下,去真實的感受一番喔~


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69985379/viewspace-2851172/,如需轉載,請註明出處,否則將追究法律責任。

相關文章