乾貨來了!快速教你資料清洗的步驟及方法

環音儀資料發表於2022-01-09

說起 資料清洗,可能會有些小夥伴會覺得這一步可以忽略掉,但是!作為混跡在資料分析這一塊多年的老油條,小編在此嚴肅地宣告!資料清理是資料處理中最不能被忽略的部分,它是資料分析過程中不可缺少的一環,其結果的好壞直接關係到模型的效果。實際上,資料清洗通常要佔用50%—80%的分析過程。國外有些學術機構還會專門研究如何做資料清洗,相關的書籍也不少。


資料清洗的主要型別有哪幾種


一、殘缺資料


此類資料主要是缺少某些應包括的資訊,如供應商名稱、分公司名稱、客戶區域資訊缺失、業務系統中主表與明細表不匹配等。那麼對於這一型別的資料就需要過濾出來,並在規定的時間內補全,之後再寫入資料倉儲。


二、錯誤資料


這類資料的原因是業務系統完善接收輸入後沒有判斷直接寫入背景資料庫,如數值資料輸成全形數字字元、字串資料、日期格式不正確、日期越界等。這種型別的資料還需要進行分類,對於類似於全形字元、資料前後出現不可見字元的問題,只能通過編寫SQL語句來查詢,然後讓使用者在業務系統改後抽取。日期格式不正確或日期越界的錯誤會導致ETL執行失敗,這種錯誤需要通過SQL的方式從業務系統資料庫挑選出來,交給業務主管部門,要求限期修改,改後提取。


三、重複資料


這種型別的資料,尤其是在維表中,就會出現這種情況,所以要把所有重複資料記錄的欄位都寫出來,讓客戶進行確認和分析。

 

資料整理是一個反覆的過程,只有不斷地發現問題,解決問題,才能在幾天內完成。關於是否過濾,一般需要客戶確認,被過濾的資料,寫到Excel檔案把濾資料寫到資料表,ETL開發初期每天都會把過濾資料的郵件傳送給業務單位,促使他們儘快修改錯誤,並可以作為未來驗證資料的基礎。要注意的是,不能過濾有用的資料,要仔細驗證每條過濾規則,然後讓使用者確認。


搞清楚了資料清洗的原則和理論,接下來進行資料清洗就容易很多啦~


如何進行資料清洗


1、對缺失值進行清洗


一般來說,缺失值是最常見的資料問題,處理缺失值也有很多辦法,我們需要按照步驟來做,第一就是確定缺失值範圍:計算每個欄位的缺失值比例,然後根據缺失比例和欄位重要性,制定策略。

 

2、去除不需要的欄位


實際操作非常簡單,可以直接刪除,但需要提醒您,在清理資料時,每做一步都備份,或者在小規模資料上成功測試,然後處理所有資料,如果刪除錯誤資料會後悔。

 

3、填充缺失內容


原因在於,一些缺失值可以通過三種方式被填充,即根據商業知識或經驗推測填補缺失值、用相同的指標的計算結果(均值、中位數、眾數等)填充缺失值、以不同指標的計算結果填充缺失值。

 

4、重新取數


由於某些指標非常重要又缺失率高,那就需要和取數人員或業務人員瞭解,是否有其他渠道可以取到相關資料。這就是缺失值清洗的步驟。

 

5、關聯性驗證


若您的資料來自多種來源,則必須進行關聯驗證。如果不關聯,這個資料據需要我們清洗。


現在你對資料清洗有更深的理解嗎?資料清洗是資料分析中非常重要的一步,其重要性不容忽視。但是使用合適的工具可以使資料清洗更加高效方便。正所謂,工欲善其事,必先利其器。藉助工具進行資料清洗是非常必要的,思邁特軟體Smartbi一站式大資料分析平臺的資料清洗功能就很值得推薦。強大的資料處理功能、分散式計算架構,還支援內建排序、去重、對映、行列合併、行列轉換聚合、去空值等資料預處理功能。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69985379/viewspace-2851386/,如需轉載,請註明出處,否則將追究法律責任。

相關文章