1 hadoop生態系統
hdfs 分散式檔案系統 hadoop-hdfs-2.7.2.jar
mapreduce 分散式計算框架 hadoop-mapreduce-client-app-2.7.2.jar
Ambari 安裝部署配置和管理工具
zookeeper分散式協作服務zookeeper-3.5.1.jar
hbase實時分散式資料庫hbase-server-1.0.2.jar
hive資料倉儲hive-service-1.2.1.spark.jar
pig資料流處理
mahout資料探勘庫
flume日誌收集工具flume-ng-sdk-1.6.0.jar
sqoop資料庫etl工具
2 mapreduce 思想分而治之,需要分別實現2個方法:map(),reduce()
Mapper 分解若干任務處理Job
Reducer 將map任務的輸出處理後寫成檔案到hdfs