大資料入門：MapReduce基本原理

加米穀大資料張老師發表於2020-11-24

原文網址 : https://blog.csdn.net/shuimuzh123/article/details/110088879

在圍繞Hadoop形成的大資料技術生態當中，MapReduce的地位，在早期是處於核心地位的，但是伴隨著資料處理實時性需求的不斷提升，更多新的計算框架出現，MapReduce的地位受到壓制，但是作為Hadoop原始計算框架，還是需要相應程度的瞭解和掌握的。今天的大資料入門分享，我們來具體講一講MapReduce基本原理。

一、什麼是MapReduce？

在Hadoop技術生態當中，MapReduce是作為計算引擎出現的，在處理超大規模的資料集上，MapReduce效能可觀，通過分散式計算，將大規模資料計算任務分解，分佈到不同的計算節點去平行計算，從而使得低成本下的大規模資料計算成為可能。

MapReduce的原型，公認的說法，是來自Google公司2004年釋出的MapReduce論文，而後Doug Cutting根據谷歌的論文，實現了MapReduce，並將其作為Hadoop的一個元件開源。在Hadoop當中，MapReduce也是處於核心元件的地位。

二、MapReduce解決了什麼問題？

網際網路、移動網際網路的高度發達，為資料儲存和資料計算都帶來了新的挑戰。當資料的規模大到一定程度，單獨的機器已經無法負荷。那麼能夠怎麼辦呢？首先能夠想到的辦法，就是增加機器。

而要想讓一定數量的機器實現協同工作，並且工作效率要求還不低，應該怎麼去實現呢？這就是MapReduce需要解決的問題。MapReduce作為一個分散式平行計算框架，就是一個把一群機器組織起來工作的程式設計模型。

三、MapReduce是怎麼解決的？

MapReduce，其實從執行來說，就是分為大的兩個階段的，一個階段是MapTask（將大任務拆分為小任務），第二個階段是ReduceTask（小任務計算結果重組），兩個階段之間，有個Shuffle的過程。

MapTask

整個MapTask分為Read階段，Map階段，Collect階段，溢寫（spill）階段和combine階段。

Read階段：MapTask通過使用者編寫的RecordReader，從輸入InputSplit中解析出一個個key/value；

Map階段：該節點主要是將解析出的key/value交給使用者編寫map()函式處理，併產生一系列新的key/value；

Collect收集階段：在使用者編寫map()函式中，當資料處理完成後，一般會呼叫OutputCollector.collect()輸出結果。在該函式內部，它會將生成的key/value分割槽（呼叫Partitioner），並寫入一個環形記憶體緩衝區中；

Spill階段：即“溢寫”，當環形緩衝區滿後，MapReduce會將資料寫到本地磁碟上，生成一個臨時檔案。需要注意的是，將資料寫入本地磁碟之前，先要對資料進行一次本地排序，並在必要時對資料進行合併、壓縮等操作；

Shuffle

Map方法之後，Reduce方法之前的資料處理過程稱之為Shuffle。shuffle流程如下：

MapTask收集map()方法輸出的kv對，放到環形緩衝區中；
從環形緩衝區不斷溢位到本地磁碟檔案，可能會溢位多個檔案；
多個溢位檔案會被合併成大的溢位檔案；
在溢位過程及合併的過程中，都要呼叫Partitioner進行分割槽和針對key進行排序；
ReduceTask根據自己的分割槽號，去各個MapTask機器上取相應的結果分割槽資料；
ReduceTask將取到的來自同一個分割槽不同MapTask的結果檔案進行歸併排序；
合併成大檔案後，shuffle過程也就結束了，進入reduce方法。

ReduceTask

整個ReduceTask分為Copy階段，Merge階段，Sort階段（Merge和Sort可以合併為一個），Reduce階段。

Copy階段：ReduceTask從各個MapTask上遠端拷貝一片資料，並針對某一片資料，如果其大小超過一定閾值，則寫到磁碟上，否則直接放到記憶體中；

Merge階段：在遠端拷貝資料的同時，ReduceTask啟動了兩個後臺執行緒對記憶體和磁碟上的檔案進行合併，以防止記憶體使用過多或磁碟上檔案過多；

Sort階段：按照MapReduce語義，使用者編寫reduce()函式輸入資料是按key進行聚集的一組資料。為了將key相同的資料聚在一起，Hadoop採用了基於排序的策略。由於各個MapTask已經實現對自己的處理結果進行了區域性排序，因此，ReduceTask只需對所有資料進行一次歸併排序即可；

Reduce階段：reduce()函式將計算結果寫到HDFS上。

關於大資料入門，MapReduce基本原理，以上就為大家做了一個簡單的介紹了。在Hadoop生態當中，MapReduce雖然地位日益尷尬，但是其MapReduce思想，在後來的框架（比如Spark）當中，繼續得到了繼承。

Hadoop框架：MapReduce基本原理和入門案例
2020-11-22
Hadoop框架
帶你入坑大資料（三） --- MapReduce介紹
2019-11-22
大資料
大資料入門
2019-04-08
大資料
大資料入門001
2024-04-22
大資料
大話資料入門
2019-12-23
Hadoop 專欄 - MapReduce 入門
2021-01-21
Hadoop
大資料計算的基石——MapReduce
2020-09-01
大資料
入門大資料---大資料調優彙總
2020-07-15
大資料
大資料學習入門看什麼書？大資料新手怎麼入門？
2018-10-12
大資料
MapReduce入門及核心流程案例
2020-10-08
【大資料】MapReduce開發小實戰
2020-09-21
大資料
大資料系列4：Yarn以及MapReduce 2
2021-01-29
大資料Yarn
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
如何大資料開發入門
2023-12-07
大資料
大資料怎樣入門學習？
2019-03-11
大資料
大資料小白系列 —— MapReduce流程的深入說明
2019-03-16
大資料
純乾貨分享 —— 大資料入門指南
2019-06-19
大資料
MapReduce之----往hbase資料庫寫入資料時, 出現資料異常
2018-06-23
資料庫
大資料技術之Hadoop（入門）第1章大資料概論
2018-08-08
大資料Hadoop
大資料 - MapReduce：從原理到實戰的全面指南
2023-12-03
大資料
大資料架構師從入門到精通
2018-06-11
大資料架構
大資料入門指南（GitHub開源專案）
2019-06-15
大資料Github
快速入門大資料訊息中介軟體
2021-01-04
大資料
大資料入門：Hadoop Yarn元件基礎解析
2020-11-26
大資料HadoopYarn元件
大資料學習：零基礎大資料入門該看哪些書？
2019-10-30
大資料
大資料學習：怎樣進行大資料的入門級學習？
2019-10-11
大資料
NLP入門資料
2019-03-12
企業大資料平臺MapReduce應用之Join實踐！
2018-11-02
大資料
大資料學習開發技術：MapReduce執行原理
2018-11-15
大資料
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
好程式設計師大資料培訓分享MapReduce理解
2020-11-26
程式設計師大資料
大資料入門到精通，想入行大資料需要學習這些知識
2018-10-24
大資料
入門大資料，可以先自學哪些內容？
2019-08-13
大資料
Hadoop v3.1 大資料技術快速入門
2022-06-21
Hadoop大資料
MapReduce中對大資料處理最合適的資料格式是什麼？
2018-09-17
大資料
入門大資料行業！必備的十大基礎
2019-05-19
大資料行業
大學剛畢業，零基礎大資料如何入門?
2019-05-27
大資料
好程式設計師大資料學習路線分享MAPREDUCE
2019-08-22
程式設計師大資料

大資料入門：MapReduce基本原理

一、什麼是MapReduce？

二、MapReduce解決了什麼問題？

三、MapReduce是怎麼解決的？

相關文章