大資料Hadoop系統性學習路線圖

金羅老師發表於2018-11-15

原文網址 : https://blog.csdn.net/qq_41842579/article/details/84103432

本文主要介紹Hadoop家族產品，常用的專案包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的專案包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

Hadoop系統性學習路線圖

從2011年開始，中國進入大資料風起雲湧的時代，以Hadoop為代表的家族軟體，佔據了大資料處理的廣闊地盤。開源界及廠商，所有資料軟體，無一不向Hadoop靠攏。Hadoop也從小眾的高富帥領域，變成了大資料開發的標準。在Hadoop原有技術基礎之上，出現了Hadoop家族產品，通過“大資料”概念不斷創新，推出科技進步。

作為IT界的開發人員，我們也要跟上節奏，抓住機遇，跟著Hadoop一起雄起！

大資料學習群：8688+47735 一起學習，分享視訊資源學習

Hadoop系統性學習路線圖

使用Hadoop已經有一段時間了，從開始的迷茫，到各種的嘗試，到現在組合應用….慢慢地涉及到資料處理的事情，已經離不開hadoop了。Hadoop在大資料領域的成功，更引發了它本身的加速發展。現在Hadoop家族產品，已經達到20個了之多。

有必要對這些知識做一個整理了，把產品和技術都串起來。不僅能加深印象，更可以對以後的技術方向，技術選型做好基礎準備。

Hadoop家族產品

我把這20個產品，分成了2類。

· 第一類，是我已經掌握的

· 第二類，是TODO準備繼續學習的

Hadoop系統性學習路線圖

· Apache Hadoop: 是Apache開源組織的一個分散式計算開源框架，提供了一個分散式檔案系統子專案(HDFS)和支援MapReduce分散式計算的軟體架構。

· Apache Hive: 是基於Hadoop的一個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合資料倉儲的統計分析。

· Apache Pig: 是一個基於Hadoop的大規模資料分析工具，它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的資料分析請求轉換為一系列經過優化處理的MapReduce運算。

· Apache HBase: 是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集。

· Apache Sqoop: 是一個用來將Hadoop和關係型資料庫中的資料相互轉移的工具，可以將一個關係型資料庫（MySQL ,Oracle ,Postgres等）中的資料導進到Hadoop的HDFS中，也可以將HDFS的資料導進到關係型資料庫中。

· Apache Zookeeper: 是一個為分散式應用所設計的分佈的、開源的協調服務，它主要是用來解決分散式應用中經常遇到的一些資料管理問題，簡化分散式應用協調及其管理的難度，提供高效能的分散式服務

· Apache Mahout:是基於Hadoop的機器學習和資料探勘的一個分散式框架。Mahout用MapReduce實現了部分資料探勘演算法，解決了並行挖掘的問題。

· Apache Cassandra:是一套開源分散式NoSQL資料庫系統。它最初由Facebook開發，用於儲存簡單格式資料，集Google BigTable的資料模型與Amazon Dynamo的完全分散式的架構於一身

· Apache Avro: 是一個資料序列化系統，設計用於支援資料密集型，大批量資料交換的應用。Avro是新的資料序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制

· Apache Ambari: 是一種基於Web的工具，支援Hadoop叢集的供應、管理和監控。

· Apache Chukwa: 是一個開源的用於監控大型分散式系統的資料收集系統，它可以將各種各樣型別的資料收整合適合 Hadoop 處理的檔案儲存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。

· Apache Hama: 是一個基於HDFS的BSP（Bulk Synchronous Parallel)平行計算框架, Hama可用於包括圖、矩陣和網路演算法在內的大規模、大資料計算。

· Apache Flume: 是一個分佈的、可靠的、高可用的海量日誌聚合的系統，可用於日誌資料收集，日誌資料處理，日誌資料傳輸。

· Apache Giraph: 是一個可伸縮的分散式迭代圖處理系統，基於Hadoop平臺，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

· Apache Oozie: 是一個工作流引擎伺服器, 用於管理和協調執行在Hadoop平臺上（HDFS、Pig和MapReduce）的任務。

· Apache Crunch: 是基於Google的FlumeJava庫編寫的Java庫，用於建立MapReduce程式。與Hive，Pig類似，Crunch提供了用於實現如連線資料、執行聚合和排序記錄等常見任務的模式庫

· Apache Whirr: 是一套執行於雲服務的類庫（包括Hadoop），可提供高度的互補性。Whirr學支援Amazon EC2和Rackspace的服務。

· Apache Bigtop: 是一個對Hadoop及其周邊生態進行打包，分發和測試的工具。

· Apache HCatalog: 是基於Hadoop的資料表和儲存管理，實現中央的後設資料和模式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供關係檢視。

· Cloudera Hue: 是一個基於WEB的監控和管理系統，實現對HDFS，MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

這些就是我整理的20個hadoop家族產品。

大資料是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握大資料核心技術，才是掌握真正的價值所在。

大資料開發學習Hadoop路線圖（詳細篇）
2018-11-19
大資料Hadoop
大資料學習路線圖
2018-10-02
大資料
2019最新大資料學習路線圖
2019-01-02
大資料
2019版大資料學習路線圖
2019-01-25
大資料
好程式設計師大資料培訓分享Hadoop入門學習線路圖
2020-06-21
程式設計師大資料Hadoop
好程式設計師大資料學習路線Hadoop學習乾貨分享
2019-08-27
程式設計師大資料Hadoop
大資料學習路線
2019-06-03
大資料
大資料學習路線圖讓你精準掌握大資料技術學習
2019-07-08
大資料
計算機小白大資料學習線路圖
2018-08-31
計算機大資料
資料庫學習線路圖
2018-09-17
資料庫
大資料最佳學習路線
2018-05-17
大資料
好程式設計師大資料學習路線分享Hadoop機架感知
2020-06-04
程式設計師大資料Hadoop
大資料經典學習路線
2019-01-23
大資料
零基礎如何轉行大資料？系統學習路線在此
2019-06-21
大資料
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
大資料路線圖
2022-11-01
大資料
大資料經典學習路線，必看！！
2019-04-11
大資料
大資料工程師-學習路線-轉
2018-09-26
大資料工程師
java轉大資料的學習路線
2019-04-29
Java大資料
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
Hadoop大資料開發框架學習
2018-08-31
Hadoop大資料框架
大資料初學者必備的詳細版學習路線圖
2019-05-07
大資料
大資料學習方法，學大資料需要的基礎和路線
2019-07-11
大資料
好程式設計師大資料學習路線之大資料自學路線二
2019-09-18
程式設計師大資料
好程式設計師大資料學習路線之大資料自學路線一
2019-09-18
程式設計師大資料
大資料學習入門規劃？和學習路線
2018-11-05
大資料
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
好程式設計師大資料學習路線分享hadoop常用四大模組檔案
2019-08-27
程式設計師大資料Hadoop
小白如何學習大資料開發，大資料學習路線是怎樣的？
2018-10-14
大資料
全網最全最新的大資料系統學習路徑
2019-05-14
大資料
好程式設計師大資料學習路線分享Hadoop階段的高可用配置
2019-08-28
程式設計師大資料Hadoop
大資料學習路線分享Master的jps
2019-08-19
大資料AST
大資料和Hadoop什麼關係？為什麼大資料要學習Hadoop？
2019-06-27
大資料Hadoop
1、大資料 Hadoop配置和單機Hadoop系統配置
2021-05-28
大資料Hadoop
小白學習大資料測試之hadoop
2018-09-02
大資料Hadoop
什麼是大資料？零基礎如何學習大資料？（附學習路線）
2018-08-29
大資料
好程式設計師大資料學習路線分享分散式檔案系統HDFS
2019-08-22
程式設計師大資料分散式
好程式設計師大資料學習路線分享彈性分散式資料集RDD
2019-08-21
程式設計師大資料分散式

大資料Hadoop系統性學習路線圖

相關文章