對ETL的總結
今天看了幾位前輩的ETL文章,以前只是知道,但沒有形成自己的東西,或者說沒有一個系統的認識。
ETL的特點:一是資料同步,週期性執行,二是資料量大。
1、 ETL工作先後順序:一般情況下先做調研,然後去看業務資料庫,找出一此髒資料, 然後著手開始開發,同時進行髒數的處理,最後形成完整的ETL指令碼或者JOB,提交驗收決策,最後根據決策進行部署。一般會準備三個環境:開發環境、測試環境和生產環境。要提交各種相關報告。
2、 ETL方法: ETL的實現有多種方法,常用的有三種:一種是藉助ETL工具,如Oracle的OWB,datastage,informatic等,這種方法可以快速的建立起ETL工程,遮蔽了複雜的編碼任務,提高的速度,降低的難度,缺點是效率較低,缺少靈活性。第二種是SQL方式實現,運用SQL的方法優點是靈活,ETL執行效率高,缺點是開發速度慢,編碼複雜,對技術要求比較高。第三種是ETL工具和SQL相結合。這種是結合了前面二種的優點,會極大的提高ETL的開發速度和效率。 採用哪種方法主要考慮開發效率、維護方面、效能、學習曲線、人員技能,當然最主要的是客戶認可
3、 ETL架構:一般分兩步ETL:第一步是資料來源到ODS,主要完成髒資料和不完整資料的清洗。第二步是ODS到DW,主要完成資料業務規則轉換,計算,聚合等。
4、 資料來源的資料質量:一資料格式錯誤,二資料一致性,三業務邏輯的合理性,是清洗和轉換的原因。
5、 資料清洗:清洗的資料有不完整的資料、錯誤的資料、重複的資料三大類。資料清洗的任務是過濾那些不符合要求的資料,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。
6、 資料轉換:資料轉換的任務主要進行不一致的資料轉換、資料粒度的轉換、一些商務規則的計算和聚集。
7、 轉換方法:從資料欄位的轉換規則可以分為:一、直接對映;二、欄位運算;三、參照轉換;四、日期轉換與運算;五、字串處理;六、空值處理;七、聚集運算;八、既定取值。從資料來源表的操作可以分為:一、大小交;二、大大交;三、站著進來,躺著出去;四、是聚集。
8、 ETL的資料質量:引起資料質量的原因主要有:一、規則描述錯誤,二、ETL開發錯誤,三、人為處理錯誤。
9、 ETL的資料質量保證:保證資料質量的工作:一、開發規範化,二、ETL日誌檢查,三、資料驗證,分為:總量稽查,包括總記錄數,所有度量指標的總值、均值等。總量正確說明資料沒有丟棄,沒有髒資料存在;分量稽查:需要對每個唯獨上的分佈的每個度量進行查詢,是確保多為分析的正確性;稽查自動化;稽查報告。
10、 後設資料:主要是指轉換規則和轉換前後的資料結構。可能還有對形式引數的管理等
[@more@]來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11289496/viewspace-982397/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- ETL 是什麼 ETL 工具有哪些 ETL 工具對比 engine
- 試用完幾十款ETL工具後的經驗總結,ETL工具用這三款就足夠了
- etl 增量對比解決方案 etl-engine 如何實現增量對比
- 結對作業總結
- 對react中setState的總結React
- ETL是什麼?淺談ETL對資料倉儲的重要性
- 4.1 結對作業總結
- MyBatis 結果對映總結MyBatis
- 對MediaPlayer的錯誤使用總結
- RestCloud ETL與Kettle對比分析RESTCloud
- ETL+BI結合的資料整合工具
- 對話論文總結
- TCP/UDP對比總結TCPUDP
- 對分課堂總結
- 對SVN的落地與實踐總結
- keycloak~對框架中提供的Provider總結框架IDE
- 對題目集1~3的總結
- 對4-6次pta的總結
- 對題目集4~6的總結
- 我對遞迴的理解和總結遞迴
- 對js裡的join()、split()、slice()的總結。JS
- PostgreSQL的學習心得和知識總結(二十)|阿里開源ETL工具dataX的使用全解SQL阿里
- 今日總結-結對作業衝刺
- 【資料結構】棧和佇列的總結對比資料結構佇列
- 小白對python的一些概念的總結Python
- 對狂神說的MybatisPlus的學習總結MyBatis
- 對前端跨域方案的認知總結前端跨域
- 對接高德地圖API的總結地圖API
- 對前三週pta總結
- 對稱加密、非對稱加密、RSA(總結)加密
- 離職後,對專案的記錄、總結
- 對api請求封裝的探索和總結API封裝
- ReferenceField、EmbeddedDocumentField和LazyReferenceField的使用和總結對比
- 運維7年,對Linux的經驗總結運維Linux
- Hibernate--單表對映總結
- ETL工具 etl-engine 能嵌入go語言進行開發的ETL產品Go
- ETL常用的三種工具介紹及對比Datastage、Informatica、KettleASTORM
- 對深拷貝挺用心的一次總結
- 對於http/http2的一些總結HTTP