MapReduce工作原理流程簡介

不要亂摸發表於2018-01-01

在MapReduce整個過程可以概括為以下過程：

輸入 --> map --> shuffle --> reduce -->輸出

輸入檔案會被切分成多個塊，每一塊都有一個map task

map階段的輸出結果會先寫到記憶體緩衝區，然後由緩衝區寫到磁碟上。預設的緩衝區大小是100M，溢位的百分比是0.8，也就是說當緩衝區中達到80M的時候就會往磁碟上寫。如果map計算完成後的中間結果沒有達到80M，最終也是要寫到磁碟上的，因為它最終還是要形成檔案。那麼，在往磁碟上寫的時候會進行分割槽和排序。一個map的輸出可能有多個這個的檔案，這些檔案最終會合併成一個，這就是這個map的輸出檔案。

流程說明如下：

1、輸入檔案分片，每一片都由一個MapTask來處理

2、Map輸出的中間結果會先放在記憶體緩衝區中，這個緩衝區的大小預設是100M，當緩衝區中的內容達到80%時（80M）會將緩衝區的內容寫到磁碟上。也就是說，一個map會輸出一個或者多個這樣的檔案，如果一個map輸出的全部內容沒有超過限制，那麼最終也會發生這個寫磁碟的操作，只不過是寫幾次的問題。

3、從緩衝區寫到磁碟的時候，會進行分割槽並排序，分割槽指的是某個key應該進入到哪個分割槽，同一分割槽中的key會進行排序，如果定義了Combiner的話，也會進行combine操作

4、如果一個map產生的中間結果存放到多個檔案，那麼這些檔案最終會合併成一個檔案，這個合併過程不會改變分割槽數量，只會減少檔案數量。例如，假設分了3個區，4個檔案，那麼最終會合併成1個檔案，3個區

5、以上只是一個map的輸出，接下來進入reduce階段

6、每個reducer對應一個ReduceTask，在真正開始reduce之前，先要從分割槽中抓取資料

7、相同的分割槽的資料會進入同一個reduce。這一步中會從所有map輸出中抓取某一分割槽的資料，在抓取的過程中伴隨著排序、合併。

8、reduce輸出

MapReduce工作流程
2016-10-19
MapReduce 簡介
2016-04-13
ppium簡介及工作原理
2018-03-14
HttpSession工作原理簡介
2014-08-29
HTTPSession
gitlab工作流程簡介
2016-02-01
Gitlab
Thanos工作原理及元件簡介
2023-04-02
元件
[hadoop]mapreduce原理簡述
2015-03-03
Hadoop
MapReduce原理及簡單實現
2021-02-21
MapReduce執行流程
2021-11-09
學習筆記-React的簡單介紹&工作原理
2021-10-23
筆記React
Flutter原理簡介
2021-03-31
Flutter
metaq原理簡介
2018-10-09
HSF原理簡介
2018-08-05
Kafka簡介、基本原理、執行流程與使用場景
2019-05-05
Kafka
MapReduce程式執行流程
2018-06-12
Apache kafka 工作原理介紹
2015-08-09
ApacheKafka
MapReduce(四)：shuffer原理
2015-09-18
測試管理流程簡介
2007-12-06
Turbo碼原理簡介
2012-06-14
Spring原理簡介
2009-07-28
Spring
MapReduce的執行流程概述
2020-07-11
MapReduce流程分析(R1)
2014-02-27
介紹GitOps的工作原理
2020-07-20
Git
SMT上板機工作原理與操作流程
2023-03-29
Xposed原理簡介及其精簡化
2018-09-09
HTTPS流程簡單介紹
2016-11-10
HTTP
Varnish（一）簡介與原理
2018-09-18
Tomcat的簡單工作原理
2017-07-26
Tomcat
MapReduce入門及核心流程案例
2020-10-08
SMT貼片機的工作原理與操作流程
2023-04-07
搜尋引擎工作的基礎流程與原理
2012-11-05
Hadoop MapReduce架構簡介（初學學習不錯）
2014-05-08
Hadoop架構
MapReduce原理與設計思想
2014-12-03
Linux核心啟動流程（簡介）
2021-12-14
Linux
Activiti工作流-簡介篇
2018-12-01
防火牆模式工作模式簡介
2015-01-30
防火牆模式
工作流框架Flowable 簡介
2024-05-20
框架
IDC機房工作的簡單流程
2014-07-02

MapReduce工作原理流程簡介

相關文章