大資料小白系列 —— MapReduce流程的深入說明

Morven.Huang發表於2019-03-16

原文網址 : https://www.cnblogs.com/morvenhuang/p/10544638.html

大資料

上一期我們介紹了MR的基本流程與概念，本期稍微深入瞭解一下這個流程，尤其是比較重要但相對較少被提及的Shuffling過程。

Mapping

上期我們說過，每一個mapper程式接收並處理一塊資料，這塊資料的大小預設就是一個HDFS資料塊大小。

Mapper處理資料時，基於效能考慮，會使用快取，快取的大小有一個預設值(比如100MB)，滿了之後，將會寫入磁碟檔案。

不過在寫入之前，會在記憶體中進行分割槽(partition)，分割槽的數量取決於reducer的數量，實際上也就是由MR框架決定，例如上圖中是3個。在每個分割槽內，資料會被按key進行排序，都完成之後，這些資料才會被寫入磁碟。

由於快取可能多次被佔滿(上圖中是3次)，從而導致多次磁碟寫入，產生多個磁碟檔案，所以每個mapper結束之後，需要對自己所產生的多個檔案進行合併(merge)，合併出來的大檔案同樣進行分割槽及分割槽內的排序。

通常，這個合併後的檔案會被壓縮，以便減少磁碟儲存成本，同時也有利於降低shuffling時的網路傳輸成本。

這些都完成之後，這個所謂的“中間結果”檔案，就靜靜地等待reducer來獲取。

Reducing

當一個mapper完成工作之後，所有的reducer們都會收到通知，開始去取該mapper產生的資料檔案，不同的reducer取走不同的分割槽內的資料。

所以取數這一步，並不是等到所有的mapper都完成才開始，而是某個mapper一完成，reducer就會去取。

當所有mapper都完成，所有的中間結果都已被拷貝至reducer，才開始真正的reduce操作，對取來的多個分割槽資料進行合併和統一排序，終端使用者所寫的reduce方法會作用在排序後的每一條資料上，以產生最終結果。

Shuffling

上述所說的發生在mapping與reducing之間的資料排序、合併、及拷貝的過程，包括mapping側的一部分好reducing側的一部分，即圖中紅色框出部分，統稱為shuffling。

這一步驟的特點是什麼？就是重磁碟IO、重網路IO，知道這一點很重要。

- END -

好了，本期就先到這兒，下一期講講MR的優點、侷限性等內容。

喜歡本文的朋友們，歡迎長按下圖關注訂閱號程式設計師雜書館，提前獲得更多更新內容，以及領取大資料及Java經典資料。

大資料系列4：Yarn以及MapReduce 2
2021-01-29
大資料Yarn
大資料小白系列——MR(1)
2019-01-03
大資料
大資料小白系列——HDFS(1)
2018-12-09
大資料
大資料小白系列——HDFS(2)
2018-12-15
大資料
大資料小白系列——MR(3)
2018-12-31
大資料
大資料小白系列——HDFS(4)
2018-12-29
大資料
大資料小白系列——HDFS(3)
2018-12-20
大資料
大資料計算的基石——MapReduce
2020-09-01
大資料
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
小白學習大資料測試之hadoop hdfs和MapReduce小實戰
2018-09-03
大資料Hadoop
大快DKH大資料基礎資料平臺的監控引數說明
2018-08-15
大資料
資料分頁說明
2018-08-06
好程式設計師大資料學習路線分享MapReduce全流程總結
2019-08-29
程式設計師大資料
【大資料】MapReduce開發小實戰
2020-09-21
大資料
MapReduce的執行流程概述
2020-07-11
MapReduce執行流程
2021-11-09
大資料 - MapReduce：從原理到實戰的全面指南
2023-12-03
大資料
過等保流程簡單說明
2022-10-17
最新流程引擎 flowable 6.7.2 更新說明
2022-04-22
MySQL:AHI 部分程式碼流程說明
2021-02-16
MySql
大資料入門：MapReduce基本原理
2020-11-24
大資料
資料結構小白系列之資料結構概述
2019-03-05
資料結構
SpringMVC(一)SpringMVC的處理流程、元件說明、搭建
2018-06-07
SpringMVC元件
大型資料集處理之道：深入瞭解Hadoop及MapReduce原理
2023-10-13
Hadoop
大資料：小白升級版
2018-04-25
大資料
《大資料： ZooKeeper 資料同步流程》
2020-12-04
大資料
資料泵的TRANSFORM引數說明及使用
2021-06-11
ORM
MapReduce程式執行流程
2018-06-12
NEO智慧合約除錯流程說明
2018-12-26
除錯
帶你入坑大資料（三） --- MapReduce介紹
2019-11-22
大資料
資料測試全流程總結(小白易上手)
2021-06-01
大資料處理的基本流程
2019-06-11
大資料
Activiti（一） activiti資料庫表說明
2019-02-21
資料庫
Spring原始碼系列：註解說明
2019-03-02
Spring原始碼
MapReduce中對大資料處理最合適的資料格式是什麼？
2018-09-17
大資料
【PG結構】Postgresql資料庫資料目錄說明
2019-01-06
SQL資料庫
小白系列：資料庫基礎知識解析
2024-08-19
資料庫
Hadoop之HDFS檔案讀寫流程說明
2018-05-21
Hadoop

大資料小白系列 —— MapReduce流程的深入說明

相關文章