《Kettle構建Hadoop ETL系統實踐》簡介

brucexia發表於2022-04-01

# 好書推薦 ## 好書奇遇季 # Kettle 構建 Hadoop ETL 系統實踐》,京東噹噹天貓都有發售。 定價 79 元,網店打折銷售其實沒多少錢。 Kettle 是一款國外開源的 ETL 工具,純 Java 編寫,無須安裝,功能完備,資料抽取高效穩定。本書介紹並演示如何用 Kettle 完成 Hadoop 資料倉儲上的 ETL 過程,所有的描繪場景與實驗環境都是基於 Linux 作業系統的虛擬機器。我們仍然以 CDH 作為 Hadoop 平臺,沿用相同的銷售訂單示例進行說明,因此可以將本書當作《 Hadoop 構建資料倉儲實踐》的另一版本。

 

本書內容

 

全書共分 10 章,主要內容包括 ETL Kettle 的基本概念、 Kettle 安裝與配置、 Kettle Hadoop 的支援、建立 ETL 示例模型、資料轉換與裝載、定期自動執行 ETL 作業、維度表技術、事實表技術,以及 Kettle 並行、叢集與分割槽技術。

 

為什麼選用 Kettle

 

面對各種各樣的 ETL 開發工具,之所以選擇 Kettle ,主要由於它的一些鮮明特性。首先,很明確的一點是,作為一款 GUI 工具, Kettle 的易用性好,編碼工作量最小化。幾乎所有的功能都可以通過使用者介面完成,提高了 ETL 過程的開發效率。其次, Kettle 的功能完備。書中演示所用的 Kettle 8.3 版本幾乎支援所有常見的資料來源,並能滿足 ETL 功能需求的各種轉換步驟與作業項。第三, Kettle 是基於 Java 的解決方案,天然繼承了 Java 的跨平臺性,只要有合適的 JVM 存在,轉換或作業就能執行在任何環境和平臺之上,真正做到與平臺無關。最後, Kettle 允許多執行緒與併發執行,以提高程式執行效率。使用者只需指定執行緒數,其他工作都交給 Kettle 處理,實現細節完全透明化。

 

本書讀者

 

本書既適合大資料分析系統開發、資料倉儲系統設計與開發、 DBA 、架構師等相關技術人員閱讀,也適合高等院校和培訓機構人工智慧與大資料相關專業的師生參考。

 

本書作者

 

王雪迎 ,畢業於中國地質大學計算機專業,高階工程師, 20 年資料庫、資料倉儲相關技術工作經驗。先後供職於北京現代商業資訊科技有限公司、北京線上九州資訊科技服務有限公司、華北計算技術研究所、北京優貝線上網路科技有限公司,擔任 DBA 、資料架構師等職位。著有圖書《 Hadoop 構建資料倉儲實踐》《 HAWQ 資料倉儲與資料探勘實戰》《 SQL 機器學習庫 MADlib 技術解析》《 MySQL 高可用實踐》。

 

       目錄


第1章  ETL與Kettle

第2章  Kettle安裝與配置

第3章  Kettle對Hadoop的支援

第4章  建立ETL示例模型

第5章  資料抽取

第6章  資料轉換與裝載

第7章  定期自動執行ETL作業

第8章  維度表技術

第9章  事實表技術

第10章  並行、叢集與分割槽

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/18841117/viewspace-2885366/,如需轉載,請註明出處,否則將追究法律責任。

相關文章