hadoop

hadoop 簡介：
hadoop是一個能夠對大量資料進行分散式處理的軟體框架，實現了google的MapReduce程式設計模型和框架，
把應用程式分割成效的工作單元，並把這些單元放到叢集節點上執行。

角色：
NameNode：
NameNode是HDFS守護程式，負責記錄檔案如何分割成資料塊的，以及這些資料塊分別被儲存在哪些資料節點上
主要功能：對記憶體及I/O進行集中管理

DataNode：
DataNode屬於叢集中的每個伺服器都執行的一個後臺程式，負責把HDFS資料塊讀寫到本地的檔案系統

Secondary NameNode:
Secondary NameNode使用者監控HDFS狀態的輔助後臺程式，做NameNode的備用

JobTracker：
JobTracker後臺程式用來連線應用程式與Hadoop。每個Hadoop叢集只有一個JobTracker，一般執行在叢集的Master節點上

TaskTracker：
TaskTracker與負責儲存資料的DataNode結合，遵循主/從架構每個節點上僅有唯一的一個TaskTracker

族群：
Hadoop子專案：

Hadoop Common：屬於hadoop專案的核心部分，為Hadoop各子專案提供各種工具

HDFS：提供高吞吐量訪問的分散式檔案系統 GFS的開源實現

MapReduce：大型資料的分散式並行程式設計模型和程式執行框架 google的MapReduce的開源實現

Hadoop相關專案：

AVRO：作為Hadoop的RPC（遠端過程呼叫模組），使Hadoop的RPC模組通訊速度更快，資料結構更緊湊

Cassandra：是一套開源分散式的NoSQLogic資料庫系統 Facebook開發集google BigTable 的資料模型與Amazon Dynamo的完全分散式的架構於一身

Hama: 為科學計算提供一個機遇整體同步平行計算技術的分散式計算框架

HBase：Apache Hadoop專案，開源基於列儲存模型的分散式資料庫

Hive：提供資料摘要和查詢功能的資料倉儲

Pig：是在MapReduce上構建的一種高階的資料流語言

ZooKeeper：用於解決分散式系統中一致性問題，是Chubby的開源實現

hadoop概要

相關文章