kettle從入門到精通 第五十五課 ETL之kettle Excel輸入

慕容尘轩發表於2024-05-05

1、 Excel輸入,Microsoft Excel輸入步驟的作用是從Microsoft Excel中讀取資料,如下圖所示:

1)Excel輸入步驟從檔案D:\data\測試資料.xlsx讀取資料。

2)將資料透過寫日誌步驟列印出來。

2、Excel輸入步驟-檔案配置

步驟名稱:自定義

表格型別(引擎):

Excel 97-2003 XLS:這個引擎是JXL軟體後端提供的預設向後相容型別。
Excel 2007 XLSX(Apache POI):如果您選擇這種電子表格型別,您可以讀取所有已知的Excel檔案型別。功能由Apache POI專案提供。
注意:如果您使用了受密碼保護的工作表,您必須將電子表格型別(引擎)設定為Excel 2007 XLSX(Apache POI)。
Excel 2007 XLSX(Apache POI Streaming):這種電子表格型別允許您讀取大型Excel檔案。
Open Office ODS:透過選擇這種型別,您可以使用ODFDOM引擎讀取OpenOffice電子表格檔案。

檔案或目錄:透過點選瀏覽按鈕進行選擇檔案或者目錄。

正規表示式:如果上方指定的是目錄,這裡指定一個正規表示式來匹配指定目錄中的檔名。

正規表示式(排除):如果上方指定的是目錄,這裡指定一個正規表示式來排除指定目錄中的檔名。

Password:當Excel檔案設定密碼保護時,請指定開啟Excel檔案所需的密碼。

選中的檔案:上面點選增加按鈕之後的檔案會展示在這裡,可以刪除或者編輯。

從前面的步驟獲取檔名:動態設定Excel檔名稱。

3、Excel輸入步驟-工作表配置,當檔案選中之後可以點選獲取工作表名稱或者手動填寫工作表名稱也可以。

開始讀資料的行號和列號(從0開始),這個根據檔案的具體情況進行設定。

4、Excel輸入步驟-內容配置。

1)頭部:在“sheet”選項卡中指定的工作表包含標題行需要跳過時,請選擇此選項。

2)非空記錄:在此步驟的輸出中不希望出現空行,請選擇此選項。

3)停在空記錄:在空資料的地方停下來。

4)限制:在此步驟生成的記錄數量上設定一個限制。當設定為零時,結果不受限制。

5)編碼:指定要使用的文字檔案編碼。將此選項留空以使用預設系統編碼。首次使用時,PDI會搜尋您的系統以獲取可用編碼。要使用Unicode,請指定UTF-8或UTF-16。

5、Excel輸入步驟-錯誤處理配置。

嚴格型別:選擇在讀取時讓PDI報告資料型別錯誤。

忽略錯誤:選擇是否要在解析過程中忽略錯誤。這些行可以透過在警告檔案目錄、錯誤檔案目錄和失敗行號檔案目錄中指定路徑來轉儲到單獨的檔案中。取消選中此選項,以使具有錯誤的行在此步驟的輸出中顯示為NULL值。

跳過錯誤行:選擇讓PDI跳過包含錯誤的行。

警告檔案目錄:指定生成警告時放置警告的目錄位置。生成的檔名稱為<警告目錄>/檔名.<日期_時間>.<警告副檔名>。

錯誤檔案目錄:指定發生錯誤時放置錯誤的目錄位置。生成的檔名稱為<errorfile_dir>/檔名.<日期_時間>.<errorfile_extension>。

失敗的記錄數檔案目錄:翻譯:如果發生行解析錯誤,請指定放置錯誤的目錄位置。生成的檔名稱為<errorline dir>/filename.<date_time>.<errorline extension>。

6、Excel輸入步驟-欄位配置

點選偶去來自頭部資料的欄位按鈕進行設定欄位。也就是Excel檔案第一行的列名。

7、Excel輸入步驟-其他輸出配置。

自定義其他輸出欄位,然後這些欄位會同檔案內容一同輸出,傳遞給後續步驟。

相關文章