Hadoop(十四)MapReduce概述

一年都在冬眠發表於2024-09-18

一、定義

  • MapReduce是一個分散式運算程式的程式設計框架,是使用者開發“基於Hadoop的資料分析應用”的核心框架
  • MapReduce核心功能是將使用者編寫的業務邏輯程式碼和自帶預設元件整合成一個完整的分散式運算程式,併發執行在一個Hadoop叢集上

二、優缺點

優點 描述
易於程式設計 它簡單的實現一些介面,就可以完成一個分散式程式 ,也就是寫一個分散式程式,跟寫一個簡單的序列程式是一模一樣的
良好的擴充套件性 當計算資源不能得到滿足的時候,可以透過簡單的增加機器來擴充套件它的計算能力
高容錯性 比如其中一臺機器掛了,它可以把上面的計算任務轉移到另外一個節點上執行,不至於這個任務執行失敗,而且這個過程不需要人工參與,而完全是由Hadoop內部完成的
適合PB級以上海量資料的離線處理 可以實現上千臺伺服器叢集併發工作,提供資料處理能力
缺點 描述
不擅長實時計算 MapReduce無法像MySQL一樣,在毫秒或者秒級內返回結果
不擅長流式計算 流式計算的輸入資料是動態的,而MapReduce的輸入資料集是靜態的,不能動態變化,這是因為MapReduce自身的設計特點決定了資料來源必須是靜態的
不擅長DAG(有向無環圖)計算 多個應用程式存在依賴關係,後一個應用程式的輸入為前一個的輸出。在這種情況下,MapReduce並不是不能做,而是使用後,每個MapReduce作業的輸出結果都會寫入到磁碟,會造成大量的磁碟IO,導致效能非常的低下

三、MapReduce核心思想

1、MapReduce運算程式一般需要分成2個階段:Map階段和Reduce階段
2、Map階段的併發MapTask,完全並行執行,互不相干
3、Reduce階段的併發ReduceTask,完全互不相干,但是他們的資料依賴於上一個階段的所有MapTask併發例項的輸出
4、MapReduce程式設計模型只能包含一個Map階段和一個Reduce階段,如果使用者的業務邏輯非常複雜,那就只能多個MapReduce程式,序列執行

四、MapReduce程序

一個完整的MapReduce程式在分散式執行時有三類例項程序:

  • MrAppMaster:負責整個程式的過程排程及狀態協調
  • MapTask:負責Map階段的整個資料處理流程
  • ReduceTask:負責Reduce階段的整個資料處理流程

五、常用資料序列化型別

Java型別 Hadoop Writable 型別
Boolean BooleanWritable
Byte ByteWritable
Int IntWritable
Float FloatWritable
Long LongWritable
Double DoubleWritable
String Text
Map MapWritable
Array ArrayWritable
Null NullWritable

六、MapReduce程式設計規範

使用者編寫的程式分成三個部分:Mapper、Reducer和Driver
1、Mapper階段

  • 使用者自定義的Mapper要繼承自己的父類
  • Mapper的輸入資料是KV對的形式(KV的型別可自定義)
  • Mapper中的業務邏輯寫在map()方法中
  • Mapper的輸出資料是KV對的形式(KV的型別可自定義)
  • map()方法(MapTask程序)對每一個<K,V>呼叫一次

2、Reducer階段

  • Reducer的輸入資料型別對應Mapper的輸出資料型別,也是KV
  • Reducer的業務邏輯寫在reduce()方法中
  • ReduceTask程序對每一組相同k的<k,v>組呼叫一次reduce()方法

3、Driver階段
相當於YARN叢集的客戶端,用於提交我們整個程式到YARN叢集,提交的是封裝了MapReduce程式相關執行引數的job物件

相關文章