乾貨來了!快速教你資料清洗的步驟及方法
說起 資料清洗,可能會有些小夥伴會覺得這一步可以忽略掉,但是!作為混跡在資料分析這一塊多年的老油條,小編在此嚴肅地宣告!資料清理是資料處理中最不能被忽略的部分,它是資料分析過程中不可缺少的一環,其結果的好壞直接關係到模型的效果。實際上,資料清洗通常要佔用50%—80%的分析過程。國外有些學術機構還會專門研究如何做資料清洗,相關的書籍也不少。
資料清洗的主要型別有哪幾種
一、殘缺資料
此類資料主要是缺少某些應包括的資訊,如供應商名稱、分公司名稱、客戶區域資訊缺失、業務系統中主表與明細表不匹配等。那麼對於這一型別的資料就需要過濾出來,並在規定的時間內補全,之後再寫入資料倉儲。
二、錯誤資料
這類資料的原因是業務系統完善接收輸入後沒有判斷直接寫入背景資料庫,如數值資料輸成全形數字字元、字串資料、日期格式不正確、日期越界等。這種型別的資料還需要進行分類,對於類似於全形字元、資料前後出現不可見字元的問題,只能通過編寫SQL語句來查詢,然後讓使用者在業務系統改後抽取。日期格式不正確或日期越界的錯誤會導致ETL執行失敗,這種錯誤需要通過SQL的方式從業務系統資料庫挑選出來,交給業務主管部門,要求限期修改,改後提取。
三、重複資料
這種型別的資料,尤其是在維表中,就會出現這種情況,所以要把所有重複資料記錄的欄位都寫出來,讓客戶進行確認和分析。
資料整理是一個反覆的過程,只有不斷地發現問題,解決問題,才能在幾天內完成。關於是否過濾,一般需要客戶確認,被過濾的資料,寫到Excel檔案把濾資料寫到資料表,ETL開發初期每天都會把過濾資料的郵件傳送給業務單位,促使他們儘快修改錯誤,並可以作為未來驗證資料的基礎。要注意的是,不能過濾有用的資料,要仔細驗證每條過濾規則,然後讓使用者確認。
搞清楚了資料清洗的原則和理論,接下來進行資料清洗就容易很多啦~
如何進行資料清洗
1、對缺失值進行清洗
一般來說,缺失值是最常見的資料問題,處理缺失值也有很多辦法,我們需要按照步驟來做,第一就是確定缺失值範圍:計算每個欄位的缺失值比例,然後根據缺失比例和欄位重要性,制定策略。
2、去除不需要的欄位
實際操作非常簡單,可以直接刪除,但需要提醒您,在清理資料時,每做一步都備份,或者在小規模資料上成功測試,然後處理所有資料,如果刪除錯誤資料會後悔。
3、填充缺失內容
原因在於,一些缺失值可以通過三種方式被填充,即根據商業知識或經驗推測填補缺失值、用相同的指標的計算結果(均值、中位數、眾數等)填充缺失值、以不同指標的計算結果填充缺失值。
4、重新取數
由於某些指標非常重要又缺失率高,那就需要和取數人員或業務人員瞭解,是否有其他渠道可以取到相關資料。這就是缺失值清洗的步驟。
5、關聯性驗證
若您的資料來自多種來源,則必須進行關聯驗證。如果不關聯,這個資料據需要我們清洗。
現在你對資料清洗有更深的理解嗎?資料清洗是資料分析中非常重要的一步,其重要性不容忽視。但是使用合適的工具可以使資料清洗更加高效方便。正所謂,工欲善其事,必先利其器。藉助工具進行資料清洗是非常必要的,思邁特軟體Smartbi一站式大資料分析平臺的資料清洗功能就很值得推薦。強大的資料處理功能、分散式計算架構,還支援內建排序、去重、對映、行列合併、行列轉換聚合、去空值等資料預處理功能。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69985379/viewspace-2851386/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 乾貨分享:資料分析的6大基本步驟
- SNP乾貨分享:SAP資料脫敏的具體實施步驟
- 思路+步驟+方法,三步教你如何快速構建使用者畫像?
- 資料倉儲構建實施方法及步驟
- RMAN登陸及連線target資料庫的步驟方法資料庫
- 詳解資料分析的一般步驟及業務分析方法
- 資料清洗的方法有哪些?
- 資料庫設計方法步驟資料庫
- (內幕乾貨)— 5步教你成功求職進入BAT求職BAT
- 快速掌握重啟Oracle資料庫的操作步驟Oracle資料庫
- 資料清洗有哪些方法?
- 乾貨|一文教你建立資料分析思維
- 「乾貨」教你如何用OpenCV快速尋找影象差異處OpenCV
- 乾貨 | 手把手教你快速擼一個區塊鏈區塊鏈
- GopherChina 2021 定了,乾貨滿滿的來了Go
- 資料預處理(資料清洗)的一般方法及python實現Python
- 關於資料遷移的方法、步驟和心得
- 清洗資料,我習慣用這 7 步!
- 乾貨|上雲了,如何保障雲資料庫的高可用?資料庫
- 常用資料清洗方法大盤點
- 乾貨來了:Chrome常用快捷鍵整理彙總Chrome
- 你們要的乾貨來了——實戰 Spring BootSpring Boot
- 資料清洗
- 資料探勘的步驟有哪些?
- duplicate資料庫的操作步驟資料庫
- 資料庫優化的步驟資料庫優化
- 安裝寶塔皮膚後網址打不開的解決方法及快速排查步驟
- LLM大模型: 常用的資料清洗方法總結大模型
- 乾貨:mysql索引的資料結構MySql索引資料結構
- 超乾貨 | 手把手教你快速構建一個企業自有“微信”!
- 不要讓資料毀了ERP,基礎資料收集8個步驟!
- 資料清洗太難了?那是你沒有好工具,讓Smartbi來幫你!
- 振弦採集儀的操作方法及資料處理技術的一般步驟
- Facebook遊戲再營銷(二):乾貨要點+實操步驟=即學即用!遊戲
- java中UDP接收資料的步驟JavaUDP
- PHP連線資料庫的步驟PHP資料庫
- 資料庫設計的基本步驟資料庫
- 手工建立資料庫的完整步驟資料庫