Hadoop學習筆記之一 : HDFS原理一

趙明威發表於2014-09-30

Hadoop生態系統

最近大資料的暴風席捲全球,這一切,

1.都起源自Web資料爆炸時代的來臨

大資料生態圈主要包括下面的工作內容

  1. 資料抓取系統 - Nutch

3.海量資料怎麼存,當然是用分散式檔案系統 - HDFS

4.資料怎麼用呢,分析,處理

5.MapReduce框架,讓你編寫程式碼來實現對大資料的分析工作

  1. 非結構化資料(日誌)收集處理 - fuse,webdav, chukwa, flume, Scribe

7.資料匯入到HDFS中,至此RDBSM也可以加入HDFS的狂歡了 - Hiho, sqoop

8 . MapReduce太麻煩,好吧,讓你用熟悉的方式來操作Hadoop裡的資料 – Pig, Hive, Jaql

9.讓你的資料可見 - drilldown, Intellicus

10.用高階語言管理你的任務流 – oozie, Cascading

11 . Hadoop當然也有自己的監控管理工具 – Ambari, Hue, karmasphere, eclipse plugin, cacti, ganglia

12 .資料序列化處理與任務排程 – Avro, Zookeeper

13 .更多構建在Hadoop上層的服務 – Mahout, Elastic map Reduce

14 . OLTP儲存系統 – Hbase

轉自:Hadoop生態圖譜

本小節:主要講一下HDFS的基本原理

1、HDFS是Hadoop Distribute File System 的簡稱,也就是Hadoop的一個分散式檔案系統。

但是並不是唯一的一個

相關文章