《Kettle構建Hadoop ETL系統實踐》簡介
# 好書推薦 ## 好書奇遇季 # 《 Kettle 構建 Hadoop ETL 系統實踐》,京東噹噹天貓都有發售。 定價 79 元,網店打折銷售其實沒多少錢。 Kettle 是一款國外開源的 ETL 工具,純 Java 編寫,無須安裝,功能完備,資料抽取高效穩定。本書介紹並演示如何用 Kettle 完成 Hadoop 資料倉儲上的 ETL 過程,所有的描繪場景與實驗環境都是基於 Linux 作業系統的虛擬機器。我們仍然以 CDH 作為 Hadoop 平臺,沿用相同的銷售訂單示例進行說明,因此可以將本書當作《 Hadoop 構建資料倉儲實踐》的另一版本。
本書內容
全書共分 10 章,主要內容包括 ETL 與 Kettle 的基本概念、 Kettle 安裝與配置、 Kettle 對 Hadoop 的支援、建立 ETL 示例模型、資料轉換與裝載、定期自動執行 ETL 作業、維度表技術、事實表技術,以及 Kettle 並行、叢集與分割槽技術。
為什麼選用 Kettle
面對各種各樣的 ETL 開發工具,之所以選擇 Kettle ,主要由於它的一些鮮明特性。首先,很明確的一點是,作為一款 GUI 工具, Kettle 的易用性好,編碼工作量最小化。幾乎所有的功能都可以通過使用者介面完成,提高了 ETL 過程的開發效率。其次, Kettle 的功能完備。書中演示所用的 Kettle 8.3 版本幾乎支援所有常見的資料來源,並能滿足 ETL 功能需求的各種轉換步驟與作業項。第三, Kettle 是基於 Java 的解決方案,天然繼承了 Java 的跨平臺性,只要有合適的 JVM 存在,轉換或作業就能執行在任何環境和平臺之上,真正做到與平臺無關。最後, Kettle 允許多執行緒與併發執行,以提高程式執行效率。使用者只需指定執行緒數,其他工作都交給 Kettle 處理,實現細節完全透明化。
本書讀者
本書既適合大資料分析系統開發、資料倉儲系統設計與開發、 DBA 、架構師等相關技術人員閱讀,也適合高等院校和培訓機構人工智慧與大資料相關專業的師生參考。
本書作者
王雪迎 ,畢業於中國地質大學計算機專業,高階工程師, 20 年資料庫、資料倉儲相關技術工作經驗。先後供職於北京現代商業資訊科技有限公司、北京線上九州資訊科技服務有限公司、華北計算技術研究所、北京優貝線上網路科技有限公司,擔任 DBA 、資料架構師等職位。著有圖書《 Hadoop 構建資料倉儲實踐》《 HAWQ 資料倉儲與資料探勘實戰》《 SQL 機器學習庫 MADlib 技術解析》《 MySQL 高可用實踐》。
目錄
第1章 ETL與Kettle
第2章 Kettle安裝與配置
第3章 Kettle對Hadoop的支援
第4章 建立ETL示例模型
第5章 資料抽取
第6章 資料轉換與裝載
第7章 定期自動執行ETL作業
第8章 維度表技術
第9章 事實表技術
第10章 並行、叢集與分割槽
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/18841117/viewspace-2885366/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 實踐:GNU構建系統
- 《Greenplum構建實時資料倉儲實踐》簡介
- 根檔案系統簡介與BusyBox構建根檔案系統
- Grafana監控系統的構建與實踐Grafana
- 《推薦系統實踐》筆記 01 推薦系統簡介筆記
- 【Android系統】Android系統架構簡介Android架構
- Hadoop大資料分散式處理系統簡介Hadoop大資料分散式
- 系統設計:使用Scala、Spark和Hadoop構建推薦系統SparkHadoop
- Hadoop 簡介Hadoop
- Hadoop簡介!Hadoop
- Slack系統架構簡介 - jinlow架構
- RestCloud ETL與Kettle對比分析RESTCloud
- 華為雲FunctionGraph構建高可用系統的實踐Function
- ETL常用的三種工具介紹及對比Datastage、Informatica、KettleASTORM
- MySQL 高擴充套件架構構建百萬線上系統實踐MySql套件架構
- Hadoop高階資料分析 使用Hadoop生態系統設計和構建大資料系統Hadoop大資料
- kettle從入門到精通 第六十九課 ETL之kettle kettle cdc mysql,輕鬆實現實時增量同步MySql
- kettle從入門到精通 第五十三課 ETL之kettle MQTT/RabbitMQ consumer實戰MQQT
- kettle從入門到精通 第五十三課 ETL之kettle MQTT/RabbitMQ producer 實戰MQQT
- Flink 實踐教程-入門(8): 簡單 ETL 作業
- 構建可承極端流量的軟體系統最佳實踐
- 低程式碼實時數倉構建系統的設計與實踐
- kettle從入門到精通 第八十四課 ETL之kettle kettle中Get data from XML使用實戰教程XML
- ETL架構中的38個子系統架構
- 設計專案全生命週期管理系統構建與實踐
- kettle從入門到精通 第五十一課 ETL之kettle Avro inputVR
- LLM應用實戰: 文件問答系統Kotaemon-1. 簡介及部署實踐
- 讀構建可擴充套件分散式系統:方法與實踐14流處理系統套件分散式
- Android初級之路-Android系統架構簡介Android架構
- kettle從入門到精通 第七十三課 ETL之kettle kettle呼叫http分頁介面教程HTTP
- WebSocket簡介與最佳實踐Web
- ETL 幾種工具的比較(Kettle,Talend,Informatica )ORM
- 美圖離線ETL實踐
- 第5講回顧:FATE整體架構介紹與系統實踐架構
- kettle從入門到精通 第五十五課 ETL之kettle Excel輸入Excel
- kettle從入門到精通 第五十六課 ETL之kettle Microsoft Excel OutputROSExcel
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- kettle從入門到精通 第八十三課 ETL之kettle kettle呼叫python且接收返回值Python