Hadoop大資料分散式處理系統簡介

banq發表於2021-12-22

Hadoop 是一個用於儲存資料和執行應用程式的框架。為任何型別的資料提供大容量儲存是其主要功能之一。此外,它具有強大的處理能力,因此它能夠一次處理多個併發任務。

 

Hadoop 模組

  • Hadoop 分散式檔案系統 (HDFS) - HDFS 是一種能夠在標準低端硬體上執行的分散式檔案系統。該系統可確保更好的資料吞吐量以及強大的容錯能力和大資料集支援。
  • 另一個資源協商器 (YARN) - YARN 負責管理和監控叢集節點。此外,它還有助於安排作業和任務。
  • MapReduce - 對進行並行資料計算的程式很有用。此外,輸入資料被轉換為計算資料集。
  • Hadoop 通用 - 它帶有通用的 Java 庫,在整個模組中都很有用。

 

Hadoop的元件

隨著 Hadoop 的引入,在叢集伺服器中使用儲存和處理能力變得更加容易。它充當構建其他應用程式的構建塊。在過去的幾年中,Hadoop 生態系統因其各種特性而呈現出顯著的增長。該生態系統由許多用於收集、儲存、分析和管理大資料的應用程式和工具組成。下面給出了一些最流行和最常用的元件。

  • Spark- 這是一個開源平臺,適用於分散式處理中的大量資料工作負載。此外,它還確保了快速效能、通用批處理、流分析、機器學習和圖形資料庫。
  • Presto——Hadoop 的這個開源工具有利於支援 ANSI SQL 標準,包括複雜查詢、聚合、連線和視窗函式。此外,它還能夠處理來自多個來源(如 (HDFS) 和 Amazon S3)的資料。
  • Hive - 該工具允許使用者通過使用 SQL 介面來利用 Hadoop MapReduce。這導致大規模執行分析。
  • HBase- HBase 是一個與 Amazon S3 一起執行的開源資料庫。最重要的是,它使用 Hadoop 分散式檔案系統 (HDFS),是一個分散式大資料儲存,由具有不可數行和列的表建立。
  • Zeppelin - 這可以稱為筆記本,允許使用者探索互動式資料。

 

Hadoop 對大資料的好處

  • 彈性 - 它確保彈性,因為儲存在節點中的資料會自動複製到叢集的其他節點中。它支援容錯並在節點出現故障時提供資料備份。
  • 擴充套件性 - Hadoop 在分散式環境中執行,因此具有可擴充套件性。它使設定能夠根據需要擴充套件。這有助於在設定中儲存多達數 PB 的資料。
  • 低成本 - 這是開源軟體,與關聯式資料庫系統相比,它的成本較低。
  • 資料多樣性 - 該平臺將資料儲存為非結構化、半結構化和結構化三種格式。它允許以任何格式轉儲資料,而無需驗證預定模式。但是,資料在檢索時適合任何模式。這是有益的,因為它可以使用相同的資料得出多種見解。
  • 速度——藉助分散式檔案系統、併發處理和 MapReduce 模型,確保更快地執行復雜查詢。

 

 

相關文章