大資料hadoop入門之hadoop家族產品詳解
大資料 hadoop 入門之 hadoop 家族產品詳解
大資料這個詞也許幾年前你聽著還會覺得陌生,但我相信你現在聽到 hadoop 這個詞的時候你應該都會覺得“熟悉”!越來越發現身邊從事 hadoop 開發或者是正在學習 hadoop 的人變多了。作為一個 hadoop 入門級的新手,你會覺得哪些地方很難呢?執行環境的搭建恐怕就已經足夠讓新手頭疼。如果每一個發行版 hadoop 都可以做到像大快 DKHadoop 那樣把各種環境搭建整合到一起,一次安裝搞定所有,那對於新手來說將是件多麼美妙的事情!
閒話扯得稍微多了點,迴歸整體。這篇準備給大家 hadoop 新入門的朋友分享一些 hadoop 的基礎知識—— hadoop 家族產品。透過對 hadoop 家族產品的認識,進一步幫助大家學習好 hadoop !同時,也歡迎大家提出寶貴意見!
一、 Hadoop定義
Hadoop是一個大家族,是一個開源的生態系統,是一個分散式執行系統,是基於 Java 程式語言的架構。不過它最高明的技術還是 HDFS和 MapReduce ,使得它可以分散式處理海量資料。
二、 Hadoop產品
HDFS(分散式檔案系統):
它與現存的檔案系統不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續執行),支援多媒體資料和流媒體資料訪問,高效率訪問大型資料集合,資料保持嚴謹一致,部署成本降低,部署效率提高等,如圖是 HDFS 的基礎架構。
MapReduce/ S park/ S torm (平行計算架構):
1 、資料處理方式來說分離線計算和線上計算:
角色 |
描述 |
MapReduce |
MapReduce 常用於離線的複雜的大資料計算 |
Storm |
Storm 用於線上的實時的大資料計算,S torm 的實時主要是一條一條資料處理; |
Spark |
可以用於離線的也可用於線上的實時的大資料計算,S park 的實時主要是處理一個個時間區域的資料,所以說S park 比較靈活。 |
2 、資料儲存位置來說分磁碟計算和記憶體計算:
角色 |
描述 |
MapReduce |
資料存在磁碟中 |
S park 和S trom |
資料存在記憶體中 |
Pig/Hive ( Hadoop程式設計):
角色 |
描述 |
Pig |
是一種高階程式語言,在處理半結構化資料上擁有非常高的效能,可以幫助我們縮短開發週期。 |
Hive |
是資料分析查詢工具,尤其在使用類SQL查詢分析時顯示出極高的效能。可以在分分鐘完成 ETL 要一晚上才能完成的事情,這就是優勢,佔了先機! |
HBase/Sqoop/Flume (資料匯入與匯出) :
角色 |
描述 |
HBase |
是執行在 HDFS 架構上的列儲存資料庫,並且已經與 Pig/Hive 很好地整合。透過 Java API 可以近無縫地使用 HBase 。 |
Sqoop |
設計的目的是方便從傳統資料庫匯入資料到Hadoop資料集合 (HDFS/Hive) 。 |
Flume |
設計的目的是便捷地從日誌檔案系統直接把資料匯入到Hadoop資料集合 (HDFS) 中。 |
以上這些資料轉移工具都極大地方便了使用的人,提高了工作效率,把精力專注在業務分析上。
ZooKeeper/Oozie (系統管理架構):
角色 |
描述 |
ZooKeeper |
是一個系統管理協調架構,用於管理分散式架構的基本配置。它提供了很多介面,使得配置管理任務簡單化。 |
Oozie |
Oozie 服務是用於管理工作流。用於排程不同工作流,使得每個工作都有始有終。這些架構幫助我們輕量化地管理大資料分散式計算架構。 |
Ambari/Whirr (系統部署管理):
角色 |
描述 |
Ambari |
幫助相關人員快捷地部署搭建整個大資料分析架構,並且實時監控系統的執行狀況。 |
Whirr |
Whirr 的主要作用是幫助快速地進行雲端計算開發。 |
Mahout (機器學習):
Mahout 旨在幫助我們快速地完成高智商的系統。其中已經實現了部分機器學習的邏輯。這個架構可以讓我們快速地整合更多機器學習的智慧。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2286512/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hadoop入門和大資料應用Hadoop大資料
- 大資料技術之Hadoop(入門) 第2章 從Hadoop框架討論大資料生態大資料Hadoop框架
- Hadoop家族產品學習線路圖和簡單產品介紹Hadoop
- 大資料技術之Hadoop(入門)第1章 大資料概論大資料Hadoop
- 大資料技術之Hadoop(入門)第3章 Hadoop執行環境搭建大資料Hadoop
- 大資料入門學習之Hadoop技術優缺點大資料Hadoop
- Hadoop入門(二)之 HDFS 詳細解析Hadoop
- hadoop家族之mahout安裝Hadoop
- 大資料時代之hadoop(一):hadoop安裝大資料Hadoop
- 大資料入門:Hadoop Yarn元件基礎解析大資料HadoopYarn元件
- **大資料hadoop瞭解**大資料Hadoop
- 大資料時代之hadoop(二):hadoop指令碼解析大資料Hadoop指令碼
- 大資料時代之hadoop(三):hadoop資料流(生命週期)大資料Hadoop
- Hadoop v3.1 大資料技術快速入門Hadoop大資料
- 大資料學習筆記之Hadoop安裝步驟詳解大資料筆記Hadoop
- hadoop家族成員Hadoop
- hadoop家族介紹Hadoop
- hadoop大資料平臺安全基礎知識入門Hadoop大資料
- Hadoop大資料探勘從入門到進階實戰Hadoop大資料
- Hadoop 資料遷移用法詳解Hadoop
- 大資料測試之hadoop初探大資料Hadoop
- hadoop 入門Hadoop
- 大資料hadoop資料大資料Hadoop
- Hadoop 基礎之 HDFS 入門Hadoop
- Hadoop大資料實戰系列文章之安裝HadoopHadoop大資料
- Hadoop入門(一)之Hadoop偽分散式環境搭建Hadoop分散式
- 大資料hadoop 新手快速入門經典視訊教程大資料Hadoop
- 初學者入門大資料,學習Hadoop的5個理由大資料Hadoop
- 大資料入門課程:Hadoop和spark的效能比較大資料HadoopSpark
- 大資料時代之hadoop(五):hadoop 分散式計算框架(MapReduce)大資料Hadoop分散式框架
- 大資料之 Hadoop學習筆記大資料Hadoop筆記
- Hadoop大資料平臺之HBase部署Hadoop大資料
- Hadoop大資料平臺之Kafka部署Hadoop大資料Kafka
- 大資料hadoop工具大資料Hadoop
- Hadoop大資料部署Hadoop大資料
- Hadoop快速入門Hadoop
- Hadoop入門系列(2)-安裝HadoopHadoop
- 好程式設計師大資料入門學習之Hadoop技術優缺點程式設計師大資料Hadoop