對ETL的總結

gavin-wu發表於2007-11-14

今天看了幾位前輩的ETL文章,以前只是知道,但沒有形成自己的東西,或者說沒有一個系統的認識。

ETL的特點:一是資料同步,週期性執行,二是資料量大。

1、 ETL工作先後順序:一般情況下先做調研,然後去看業務資料庫,找出一此髒資料, 然後著手開始開發,同時進行髒數的處理,最後形成完整的ETL指令碼或者JOB,提交驗收決策,最後根據決策進行部署。一般會準備三個環境:開發環境、測試環境和生產環境。要提交各種相關報告。

2、 ETL方法: ETL的實現有多種方法,常用的有三種:一種是藉助ETL工具,如Oracle的OWB,datastage,informatic等,這種方法可以快速的建立起ETL工程,遮蔽了複雜的編碼任務,提高的速度,降低的難度,缺點是效率較低,缺少靈活性。第二種是SQL方式實現,運用SQL的方法優點是靈活,ETL執行效率高,缺點是開發速度慢,編碼複雜,對技術要求比較高。第三種是ETL工具和SQL相結合。這種是結合了前面二種的優點,會極大的提高ETL的開發速度和效率。 採用哪種方法主要考慮開發效率、維護方面、效能、學習曲線、人員技能,當然最主要的是客戶認可

3、 ETL架構:一般分兩步ETL:第一步是資料來源到ODS,主要完成髒資料和不完整資料的清洗。第二步是ODS到DW,主要完成資料業務規則轉換,計算,聚合等。

4、 資料來源的資料質量:一資料格式錯誤,二資料一致性,三業務邏輯的合理性,是清洗和轉換的原因。

5、 資料清洗:清洗的資料有不完整的資料、錯誤的資料、重複的資料三大類。資料清洗的任務是過濾那些不符合要求的資料,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。

6、 資料轉換:資料轉換的任務主要進行不一致的資料轉換、資料粒度的轉換、一些商務規則的計算和聚集。

7、 轉換方法:從資料欄位的轉換規則可以分為:一、直接對映;二、欄位運算;三、參照轉換;四、日期轉換與運算;五、字串處理;六、空值處理;七、聚集運算;八、既定取值。從資料來源表的操作可以分為:一、大小交;二、大大交;三、站著進來,躺著出去;四、是聚集。

8、 ETL的資料質量:引起資料質量的原因主要有:一、規則描述錯誤,二、ETL開發錯誤,三、人為處理錯誤。

9、 ETL的資料質量保證:保證資料質量的工作:一、開發規範化,二、ETL日誌檢查,三、資料驗證,分為:總量稽查,包括總記錄數,所有度量指標的總值、均值等。總量正確說明資料沒有丟棄,沒有髒資料存在;分量稽查:需要對每個唯獨上的分佈的每個度量進行查詢,是確保多為分析的正確性;稽查自動化;稽查報告。

10、 後設資料:主要是指轉換規則和轉換前後的資料結構。可能還有對形式引數的管理等

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11289496/viewspace-982397/,如需轉載,請註明出處,否則將追究法律責任。

相關文章