好程式設計師大資料培訓分享Hadoop入門進階

好程式設計師發表於2020-11-25

  好程式設計師大資料培訓分享Hadoop 入門進階, 凡事只有入門後才能瞭解更多,技術更是如此,大資料開發技術也是隻有入門後才能更好的深入探究,本篇文章 好程式設計師 大資料培訓小編和大家分析Hadoop 的入門進階,對大資料開發感興趣的小夥伴就隨著小編一起來了解一下吧。

   Hadoop 是什麼 ?

   Hadoop 是一個開發和執行處理大規模資料的軟體平臺 , Appach 的一個用 java 語言實現開源軟體框架,實現在大量計算機組成的叢集中對海量資料進行分散式計算。

   Hadoop 框架中最核心設計就是: HDFS MapReduce.HDFS 提供了海量資料的儲存 ,MapReduce 提供了對資料的計算。

   詳情:

   HDFS--Hadoop 生態圈的基本組成部分是 Hadoop 分散式檔案系統 (HDFS) HDFS 是一種資料分散式儲存機制,資料被儲存在計算機叢集上, HDFS HBase 等工具提供了基礎。

   MapReduce--Hadoop 的主要執行框架是 MapReduce ,它是一個分散式、並行處理的程式設計模型, MapReduce 把任務分為 map( 對映 ) 階段和 reduce( 化簡 ) 。由於 MapReduce 工作原理的特性, Hadoop 能以並行的方式訪問資料,從而實現快速訪問資料。

   Hbase--HBase 是一個建立在 HDFS 之上,面向列的 NoSQL 資料庫,用於快速讀 / 寫大量資料。 HBase 使用 Zookeeper 進行管理,確保所有元件都正常執行。

   Zookeeper-- 用於 Hadoop 的分散式協調服務。 Hadoop 的許多元件依賴於 Zookeeper ,它執行在計算機叢集上面,用於管理 Hadoop 操作。

   Pig-- 它是 MapReduce 程式設計的複雜性的抽象。 Pig 平臺包括執行環境和用於分析 Hadoop 資料集的指令碼語言 (Pig Latin) 。其編譯器將 Pig Latin 翻譯成 MapReduce 程式序列。

   Hive--Hive 類似於 SQL 高階語言,用於執行儲存在 Hadoop 上的查詢語句, Hive 讓不熟悉 MapReduce 開發人員也能編寫資料查詢語句,然後這些語句被翻譯為 Hadoop 上面的 MapReduce 任務。像 Pig 一樣, Hive 作為一個抽象層工具,吸引了很多熟悉 SQL 而不是 Java 程式設計的資料分析師。

   Sqoop 是一個連線工具,用於在關聯式資料庫、資料倉儲和 Hadoop 之間轉移資料。 Sqoop 利用資料庫技術描述架構,進行資料的匯入 / 匯出 ; 利用 MapReduce 實現並行化執行和容錯技術。

   Flume 提供了分散式、可靠、高效的服務,用於收集、彙總大資料,並將單臺計算機的大量資料轉移到 HDFS 。它基於一個簡單而靈活的架構,並提供了資料流的流。它利用簡單的可擴充套件的資料模型,將企業中多臺計算機上的資料轉移到 Hadoop


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2736830/,如需轉載,請註明出處,否則將追究法律責任。

相關文章