資料質量管理--資料抽取和清洗

love others as self發表於2016-05-06

web資料整合技術可以從web上自動獲取資料,但是獲取的資訊存在著大量的髒資料,比如濫用縮寫詞,慣用語,資料輸入錯誤,重複記錄,丟失值,拼寫變化,不同的計量單位。這些資料是沒有意義的,根本就不可能為以後的資料探勘決策分析提供任何支援。

資料清洗主要是提高資料的可用性,目前,資料清洗主要應用於三個領域:
1 資料倉儲(DW)
2資料庫中的知識發現(KDD)
3資料質量管理(TDQM)
我在公司裡的第一個專案就是資料質量管理,在這裡在說下資料質量管理:
通過制定、實施資料質量檢核,暴露各系統資料質量問題。持續監控各系統資料質量波動情況及資料質量規則佔比分析,定期生成各系統關鍵資料質量報告,掌握系統資料質量狀況。結合系統提供的清洗元件以及資料質量問題處理流程為各系統資料質量提升提供有效支撐。

資料質量(DataQuality)管理是貫穿資料生命週期的全過程,覆蓋質量評估,資料去噪,資料監控,資料探查,資料清洗,資料診斷等方面。資料度量和變化頻度提供了衡量資料質量好壞的手段。資料度量主要包括完整性、唯一性、一致性、準確性、合法性。變化頻度主要包括業務系統資料的變化週期和實體資料的重新整理週期。資料質量管理準則包括測量、提高組織資料的質量和整合性的方法。資料質量處理包括資料標準化、匹配、生存和質量監測。資料必須具備適當的質量,以解決業務要求問題。
結合大資料的參考框架及資料處理實際需求情況,資料質量管理系統主要功能定位為:資料發現、質量管理、後設資料、主資料管理和資訊政策管理。

在資料生命週期中,資料的獲取和使用週期包括系列活動:評估,分析,調整,丟棄資料,

目前資料清洗的模型:
基於粗糙集理論資料清洗
基於聚式模式資料清洗
基於模糊匹配資料清洗模型
基於遺傳神經網路資料清洗
基於專家系統體系結構等

資料校驗及轉換
資料校驗的目的是確保抽取資料本身的正確性和完整性,
資料轉換的目的是保證資料的一致性

資料清洗流程

1資料預處理: 包括資料元素化,保準化
2確定清洗方法:
3校驗清洗方法:先驗證所用的清洗方法是否合適,抽取小樣本進行驗證,判斷其召回率和準確率
4執行清洗工具:
5資料歸檔:將新舊資料來源進行歸檔處理,方便以後的清洗

一般情況下,模式中反應的後設資料對應判斷一個資料來源的質量遠遠不夠,因此通過具體例項來獲得有關資料熟悉和不尋常模式的後設資料很重要。這些後設資料可以幫助發現資料質量問題,也有助於發現屬性間的依賴關係,

1資料分析
資料分析的兩種方法;
資料派生:主要對單獨的某個屬性進行例項分析。資料派生可以得到關於屬性的很多資訊,比如資料型別,長度,取值空間,離散值,他們的出現頻率和不同值的個數等,通過應用統計技術,可以得到屬性間的平均值,中間值標準差等
資料探勘:幫助在大型資料集中發現特定的資料模式,可以通過資料探勘來發現屬性間的一些完整性約束如函式依賴和商業規則。

2定義清洗轉換規則與工作流
根據資料來源中不一致資料和“髒資料”多少的程度,需要執行大量的資料轉換和清洗步驟
3驗證
定義的清洗規則和工作流的正確性和效率應該進行驗證和評估,真正的資料清洗過程需多次迭代的進行分析設計和驗證

4清洗資料中的錯誤
注意先備份源資料,
5乾淨資料迴流
乾淨的資料替換資料來源中原來的“髒資料”

資料清洗框架
A與領域無關的資料清洗框架
後設資料是指”關於資料的資料“,指在資料清洗過程中所產生的有關資料來源定義,目標定義,轉換規則等相關的關鍵資料,後設資料在資料清洗過程中包含以下幾個元件:
1基本元件:主要是對後設資料的特徵進行描述,包括:可以提供後設資料的資料庫名,資料庫編號,資料庫表及表的編號,表中的屬性及屬性的編號。

2清洗規則元件:資料質量規則定義了後設資料中質量問題和資料清洗規則,包括錯誤資料表

3資料載入元件:用於確定異構的後設資料什麼時候、將什麼資料載入到目的資料庫中
另外的三個工作流:
(1)資料分析流(2)資料清洗工作流(3)清理結果檢驗工作流

B.基於領域知識相關的資料清洗框架
基於知識的資料清洗框架,在領域知識的指導下從樣本資料中抽取,驗證知識,然後通過專家系統引擎對整體資料進行清洗
1規則生成階段:首先生成一個樣本資料集,樣本資料集是從整個資料庫中抽出的小部分樣本,在此基礎上通過專家的參與產生規則庫,在得到初步的規則後,把他們應用到資料集上,觀察中間結果,進一步修改規則,在這個過程中,可以基於機器學習和統計學技術來幫助解決。

2預處理階段:根據生成的預處理規則糾正我們能檢測到的所有異常,基本的預處理包括:資料型別檢測,資料格式標準化,解決資料不一致

3處理階段:資料會接著流入 專家引擎系統,典型的規則包括髒資料檢測規則,重複資料檢測,錯誤資料更正規則

4資料載入階段:通過資料載入規則,把清洗後的資料載入到目的資料庫中

資料框架清洗設計

下面是nosql的一點筆記
Hypertable的目標就是為了解決大併發,大資料量的資料庫需求,可以處理大量併發請求,管理大量資料,可擴縮性好。

相關文章