ETL工具----Kettle快速入門

leixue0906發表於2016-02-05

不論是資料倉儲還是大資料,都需要用到ETL工具。
ETL(Extract-Transform-Load的縮寫,即資料抽取、轉換、裝載的過程)

1、Kettle概念

Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上執行,綠色無需安裝,資料抽取高效穩定。

Kettle 中文名稱叫水壺,該專案的主程式設計師MATT 希望把各種資料放到一個壺裡,然後以一種指定的格式流出。

Kettle這個ETL工具集,它允許你管理來自不同資料庫的資料,通過提供一個圖形化的使用者環境來描述你想做什麼,而不是你想怎麼做。

Kettle中有兩種指令碼檔案,transformation和job,transformation完成針對資料的基礎轉換,job則完成整個工作流的控制。

2、下載和部署

Kettle可以在http://kettle.pentaho.org/網站下載

下載kettle壓縮包,因kettle為綠色軟體,解壓縮到任意本地路徑即可

3、Kettle環境配置

    1 安裝java JDK

1)首先到官網上下載對應JDK包,JDK1.7或以上版本就行;

2)安裝JDK;

3)配置環境變數,附配置方式:

安裝完成後,還要對它進行相關的配置才可以使用,先來設定一些環境變數,對於Java來說,最需要設定的環境變數是系統路徑變數path。

(1)要開啟環境變數的設定視窗。右擊“我的電腦”,在彈出的快捷選單中選擇“屬性”選項,進入“系統屬性”對話方塊,如圖所示。選擇“高階”標籤,進入“高階”選項卡,再單擊“環境變數”按鈕,進入“環境變數”對話方塊

(2)在“xxx的使用者變數”列表框中,新建“變數名”:"jdk_home"--新增jdk檔案目錄,如圖所示。

編輯完後,單擊“確定”按鈕,進行儲存,環境變數Path的設定就正式完成。


資料庫需要下載對就驅動包,如用MySQL需要到

http://dev.mysql.com/downloads/connector/j/
下載MySQL驅動包
放到
kettle解壓目錄\libswt\win32 or win64

3、2 測試JDK配置是否成功

設定好環境變數後,就可以對剛設定好的變數進行測試,並檢測Java是否可以執行。

(1)單擊“開始”按鈕,選擇“執行”選項,在“執行”對話方塊中輸入cmd命令。

(2)之後單擊“確定”按鈕,開啟命令列視窗。

(3)在游標處輸入:java -version命令,按下Enter鍵執行,即可看到測試結果

Kettle提供了資源庫方式的方式來整合所有的工作,但是因為資源庫移植不方便,所以我們選擇沒有資源庫;
1)建立一個新的transformation,點選 儲存到本地路徑,例如儲存到D:/xxx下,儲存檔名為guo,kettle預設transformation檔案儲存後字尾名為ktr;

下面開始詳細步驟:
新建轉換



把“輸入”----“表輸入”拖到右邊框裡




雙擊表輸入
步驟名稱輸入:guo_testA
點 “新建” 新建資料庫連線




輸入連線資訊




測試連線是否成功



隨意寫一個sql語句,這個語句表示可以在這個庫中隨意組合,只要sql語句沒有錯誤即可,我這裡只是最簡單的把guo_testA中的所有資料查出來,語句為select * from guo_testA



接下來我們建立另外一個步驟【插入/ 更新】





然後在【表輸入】上同時按住shift鍵和滑鼠左鍵滑向【插入/ 更新】



新建資料庫連線guo_testB
配置“步驟名稱”、”資料庫連線“ 、“目標資料庫”



連線“表輸入”-->“插入/更新”
點選開始

2)建立一個新的job,點選 儲存到本地路徑,例如儲存到D:/xxx下,儲存檔名為EtltestJob,kettle預設job檔案儲存後字尾名為kjb;
新建--作業


把通用下的START、轉換拖到右邊


雙擊START設定時間間隔


雙擊轉換,新增轉換檔案路徑



點選開始、開始執行


至此,自動同步完成。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29989552/viewspace-1990360/,如需轉載,請註明出處,否則將追究法律責任。

相關文章