hadoop概要

thamsyangsw發表於2014-03-25
hadoop 


hadoop 簡介:
   hadoop是一個能夠對大量資料進行分散式處理的軟體框架,實現了google的MapReduce程式設計模型和框架,
   把應用程式分割成效的工作單元,並把這些單元放到叢集節點上執行。


角色:
NameNode:
          NameNode是HDFS守護程式,負責記錄檔案如何分割成資料塊的,以及這些資料塊分別被儲存在哪些資料節點上
          主要功能:對記憶體及I/O進行集中管理


DataNode:
         DataNode屬於叢集中的每個伺服器都執行的一個後臺程式,負責把HDFS資料塊讀寫到本地的檔案系統


Secondary NameNode:
         Secondary NameNode使用者監控HDFS狀態的輔助後臺程式,做NameNode的備用


JobTracker:
          JobTracker後臺程式用來連線應用程式與Hadoop。  每個Hadoop叢集只有一個JobTracker,一般執行在叢集的Master節點上


TaskTracker:
         TaskTracker與負責儲存資料的DataNode結合,遵循主/從架構   每個節點上僅有唯一的一個TaskTracker




族群:
Hadoop子專案:


   Hadoop Common: 屬於hadoop專案的核心部分,為Hadoop各子專案提供各種工具


   HDFS: 提供高吞吐量訪問的分散式檔案系統   GFS的開源實現


   MapReduce:大型資料的分散式並行程式設計模型和程式執行框架   google的MapReduce的開源實現


Hadoop相關專案:
   
   AVRO:作為Hadoop的RPC(遠端過程呼叫模組),使Hadoop的RPC模組通訊速度更快,資料結構更緊湊


   Cassandra:是一套開源分散式的NoSQLogic資料庫系統  Facebook開發    集google BigTable 的資料模型與Amazon Dynamo的完全分散式的架構於一身


   Hama: 為科學計算提供一個機遇整體同步平行計算技術的分散式計算框架


   HBase:Apache Hadoop專案,開源  基於列儲存模型的分散式資料庫


   Hive:提供資料摘要和查詢功能的資料倉儲


   Pig:是在MapReduce上構建的一種高階的資料流語言
  
   ZooKeeper:用於解決分散式系統中一致性問題,是Chubby的開源實現



         

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1128915/,如需轉載,請註明出處,否則將追究法律責任。

相關文章