ETL工具

zhengnx發表於2013-07-05

1.ETL是什麼?

ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。(資料倉儲結構)通俗的說法就是從資料來源抽取資料出來,進行清洗加工轉換,然後載入到定義好的資料倉儲模型中去。目的是將企業中的分散、零亂、標準不統一的資料整合到一起,為企業的決策提供分析依據。ETL是BI專案重要的一個環節,其設計的好壞影響生成資料的質量,直接關係到BI專案的成敗。

構建資料倉儲的核心是建模,在資料倉儲的構建中,ETL貫穿於專案始終,它是整個資料倉儲的生命線。從資料來源中抽取資料,然後對這些資料進行轉化,最終載入到目標資料庫或者資料倉儲中去,這也就是我們通常所說的 ETL 過程(Extract,Transform,Load)。

       通常資料抽取工作分抽取、清洗、轉換、裝載幾個步驟:

                                 

       抽取:主要是針對各個業務系統及不同伺服器的分散資料,充分理解資料定義後,規劃需要的資料來源及資料定義,制定可操作的資料來源,制定增量抽取和緩慢漸變的規則。

        清洗:主要是針對系統的各個環節可能出現的資料二義性、重複、不完整、違反業務規則等資料質量問題,允許透過資料抽取設定的資料質量規則,將有問題的記錄先剔除出來,根據實際情況調整相應的清洗操作。

        轉換:主要是針對資料倉儲建立的模型,透過一系列的轉換來實現將資料從業務模型到分析模型,透過ETL工具視覺化拖拽操作可以直接使用標準的內建程式碼片段功能、自定義指令碼、函式、儲存過程以及其他的擴充套件方式,實現了各種複雜的轉換,並且支援自動分析日誌,清楚的監控資料轉換的狀態並最佳化分析模型。

        裝載:主要是將經過轉換的資料裝載到資料倉儲裡面,可以透過直連資料庫的方式來進行資料裝載,可以充分體現高效性。在應用的時候可以隨時調整資料抽取工作的執行方式,可以靈活的整合到其他管理系統中。

2.為什麼要用ETL工具?

▶ 當資料來自不同的物理主機,這時候如使用SQL語句去處理的話,就顯得比較吃力且開銷也更大。

▶ 資料來源可以是各種不同的資料庫或者檔案,這時候需要先把他們整理成統一的格式後才可以進行資料的處理,這一過程用程式碼實現顯然有些麻煩。

▶ 在資料庫中我們當然可以使用儲存過程去處理資料,但是處理海量資料的時候儲存過程顯然比較吃力,而且會佔用較多資料庫的資源,這可能會導致資料資源不足,進而影響資料庫的效能。

上面所說的問題, 我們用ETL工具就可以解決。它的優點有:

● 支援多種異構資料來源的連線。(部分)

● 圖形化的介面操作十分方便。

● 處理海量資料速度快、流程更清晰等。

3.ETL工具選型

https://blog.csdn.net/gggwfn1982/article/details/94036704

https://www.cnblogs.com/DataPipeline2018/p/11131723.html





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31397003/viewspace-2665320/,如需轉載,請註明出處,否則將追究法律責任。

相關文章