What Is Apache Hadoop?
Hadoop是一個可靠的、可擴充套件的、分散式計算的開源軟體。
Hadoop是一個分散式處理大資料的框架。它被設計成從一臺到上千臺不等的伺服器,每個伺服器都提供本地計算和儲存的能力。它並非依賴於硬體來提供高可用服務。
Hadoop這個工程包含如下模組:
- Hadoop Common:公共模組
- Hadoop Distributed File System (HDFS™):分散式檔案系統
- Hadoop YARN:一個任務排程和叢集資源管理的框架
- Hadoop MapReduce:一個機遇YARN的系統,用於並行處理大資料
其它相關的工程還包括:
- HBase:一個彈性的、分散式的資料庫,支援結構化的資料儲存
- Hive:一個資料倉儲的基礎設施,提供資料彙總和查詢
- Spark:一個快速、通用的計算引擎。Spark提供簡單並且有表現力的程式模組以支援大範圍的應用,包括ETL、機器學習、流處理和圖計算
- Zookeeper:為分散式應用提供一個高效能的協調服務