Hadoop大資料分散式處理系統簡介
Hadoop 是一個用於儲存資料和執行應用程式的框架。為任何型別的資料提供大容量儲存是其主要功能之一。此外,它具有強大的處理能力,因此它能夠一次處理多個併發任務。
Hadoop 模組
- Hadoop 分散式檔案系統 (HDFS) - HDFS 是一種能夠在標準低端硬體上執行的分散式檔案系統。該系統可確保更好的資料吞吐量以及強大的容錯能力和大資料集支援。
- 另一個資源協商器 (YARN) - YARN 負責管理和監控叢集節點。此外,它還有助於安排作業和任務。
- MapReduce - 對進行並行資料計算的程式很有用。此外,輸入資料被轉換為計算資料集。
- Hadoop 通用 - 它帶有通用的 Java 庫,在整個模組中都很有用。
Hadoop的元件
隨著 Hadoop 的引入,在叢集伺服器中使用儲存和處理能力變得更加容易。它充當構建其他應用程式的構建塊。在過去的幾年中,Hadoop 生態系統因其各種特性而呈現出顯著的增長。該生態系統由許多用於收集、儲存、分析和管理大資料的應用程式和工具組成。下面給出了一些最流行和最常用的元件。
- Spark- 這是一個開源平臺,適用於分散式處理中的大量資料工作負載。此外,它還確保了快速效能、通用批處理、流分析、機器學習和圖形資料庫。
- Presto——Hadoop 的這個開源工具有利於支援 ANSI SQL 標準,包括複雜查詢、聚合、連線和視窗函式。此外,它還能夠處理來自多個來源(如 (HDFS) 和 Amazon S3)的資料。
- Hive - 該工具允許使用者通過使用 SQL 介面來利用 Hadoop MapReduce。這導致大規模執行分析。
- HBase- HBase 是一個與 Amazon S3 一起執行的開源資料庫。最重要的是,它使用 Hadoop 分散式檔案系統 (HDFS),是一個分散式大資料儲存,由具有不可數行和列的表建立。
- Zeppelin - 這可以稱為筆記本,允許使用者探索互動式資料。
Hadoop 對大資料的好處
- 彈性 - 它確保彈性,因為儲存在節點中的資料會自動複製到叢集的其他節點中。它支援容錯並在節點出現故障時提供資料備份。
- 可擴充套件性 - Hadoop 在分散式環境中執行,因此具有可擴充套件性。它使設定能夠根據需要擴充套件。這有助於在設定中儲存多達數 PB 的資料。
- 低成本 - 這是開源軟體,與關聯式資料庫系統相比,它的成本較低。
- 資料多樣性 - 該平臺將資料儲存為非結構化、半結構化和結構化三種格式。它允許以任何格式轉儲資料,而無需驗證預定模式。但是,資料在檢索時適合任何模式。這是有益的,因為它可以使用相同的資料得出多種見解。
- 速度——藉助分散式檔案系統、併發處理和 MapReduce 模型,確保更快地執行復雜查詢。
相關文章
- 《Hadoop大資料分析技術》簡介Hadoop大資料
- 分散式是大資料處理的萬用藥?分散式大資料
- 分散式跟蹤系統zipkin簡介分散式
- 大資料之Hadoop偽分散式的搭建大資料Hadoop分散式
- 大資料處理系統有哪些大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 大資料 | 分散式檔案系統 HDFS大資料分散式
- 知識篇:新一代的資料處理平臺Hadoop簡介Hadoop
- 大資料系統框架中hadoop服務角色介紹大資料框架Hadoop
- 分散式處理框架Hadoop的安裝與使用分散式框架Hadoop
- java大資料最全課程學習筆記(1)--Hadoop簡介和安裝及偽分散式Java大資料筆記Hadoop分散式
- 分享Hadoop處理大資料工具及優勢Hadoop大資料
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 【大資料】BigTable分散式資料儲存系統分散式資料庫 | 複習筆記大資料分散式資料庫筆記
- 從併發程式設計到分散式系統-如何處理海量資料(上)程式設計分散式
- 大資料2-Hadoop偽分散式+ZK+HDFS大資料Hadoop分散式
- 分散式系統1:什麼是分散式系統——簡要的介紹與定義分散式
- SQL Server 2008事件處理系統簡介LSSQLServer事件
- 大資料平臺之大資料處理系統的架構大資料架構
- 分散式系統(Distributed System)資料分散式
- Hadoop 系列(一)—— 分散式檔案系統 HDFSHadoop分散式
- 資料演算法 Hadoop/Spark大資料處理---第十六章演算法HadoopSpark大資料
- 1、大資料 Hadoop配置和單機Hadoop系統配置大資料Hadoop
- Hadoop高階資料分析 使用Hadoop生態系統設計和構建大資料系統Hadoop大資料
- 資料演算法 Hadoop/Spark大資料處理---第十二章演算法HadoopSpark大資料
- Hadoop基礎(一):分散式檔案系統HDFSHadoop分散式
- Hadoop學習(一)——HDFS分散式檔案系統Hadoop分散式
- 分散式資料庫系統(DDBS) 概述分散式資料庫
- 分散式系統中處理引數配置的4種方案分散式
- 分散式系統中處理引數配置的 4 種方案分散式
- SpringBoot開發案例構建分散式日誌處理系統Spring Boot分散式
- 知識學習綜合三---分散式系統大資料分散式大資料
- 分散式系統的 CAP 理論分散式
- 分散式系統好處不僅是規模變大分散式
- MPP(大規模並行處理)簡介並行
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 《Kettle構建Hadoop ETL系統實踐》簡介Hadoop
- 大資料和Hadoop平臺介紹大資料Hadoop