大資料之 Hadoop學習筆記

sun-sailing發表於2018-12-14

1 hadoop生態系統

hdfs 分散式檔案系統 hadoop-hdfs-2.7.2.jar

mapreduce 分散式計算框架 hadoop-mapreduce-client-app-2.7.2.jar

Ambari 安裝部署配置和管理工具

zookeeper分散式協作服務zookeeper-3.5.1.jar

hbase實時分散式資料庫hbase-server-1.0.2.jar

hive資料倉儲hive-service-1.2.1.spark.jar

pig資料流處理

mahout資料探勘庫

flume日誌收集工具flume-ng-sdk-1.6.0.jar

sqoop資料庫etl工具

2 mapreduce 思想分而治之,需要分別實現2個方法:map(),reduce()

Mapper 分解若干任務處理Job

Reducer 將map任務的輸出處理後寫成檔案到hdfs

 

相關文章