初識Haphoop

愛上冰激凌發表於2018-05-31

問題:

1.Haphoop概述

可靠的、可擴充套件的、分散式的框架(大資料資料體量大,所以採用分散式的多執行緒方式);

The project includes these modules:

Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets

搭建大型資料倉儲,PB級資料的儲存、處理、分析、統計等業務。
應用:日誌分析、搜尋引擎、資料探勘、商業智慧。

2.分散式檔案系統——HDFS

源自於Google的GFS論文,論文發表於2003年,特點是可擴充套件性(節點可擴充套件)、容錯性(資料複製多個副本)和海量資料儲存。

  • 將檔案切分成指定大小的資料塊並以多副本儲存在多個機器上;
  • 資料切分、多副本、容錯操作對於使用者是透明的;
    這裡寫圖片描述

3.資源排程系統——YARN(Yet Another Resource Negotiator)

負責叢集的管理和排程,具有可擴充套件性(計算能力不夠時通過新增機器的方式擴充資源)、容錯性(作業在執行過程中執行過程中出現問題,多次試錯)和多框架資源統一排程。
這裡寫圖片描述

3.分散式計算框架——MapReduce(Yet Another Resource Negotiator)

源自於Google的MapReduce論文,發表於2004年,特點擴充套件性、容錯性及海量資料離線處理。

這裡寫圖片描述