第九篇：Map/Reduce 工作機制分析 - 作業的執行流程

穆晨發表於2017-05-20

前言

從執行我們的 Map/Reduce 程式，到結果的提交，Hadoop 平臺其實做了很多事情。

那麼 Hadoop 平臺到底做了什麼事情，讓 Map/Reduce 程式可以如此 "輕易" 地實現分散式執行？

Map/Reduce 任務執行總流程

經過之前的學習，我們已經知道一個 Map/Reduce 作業的總流程為：

程式碼編寫 --> 作業配置 --> 作業提交 --> Map任務的分配和執行 --> 處理中間結果(Shuffle) --> Reduce任務的分配和執行 --> 作業完成

如下圖所示：

Map/Reduce 框架中的四大實體

1. 客戶端

負責編寫程式碼，配置作業，提交作業。任何節點都可以充當客戶端。

2. JobTracker (1個)

作業中心控制節點，一般一個叢集就一個JobTracker。

　　3. TaskTracker (很多個)

作業具體執行節點，可以分為Map節點和Reduce節點兩大類。

4. HDFS

分散式檔案系統，儲存從作業提交到完成需要的各種資訊。

階段一：提交作業階段

1. 首先，開發人員編寫好程式程式碼，配置好輸入輸出路徑，Key/Value 型別等等。(這部分是人為控制階段，接下來的所有操作都是Hadoop完成的了)

2. 從JobTracker處獲取當前的作業ID號

3. 檢查配置合法性 (如輸入目錄是否存在等)

4. 計算作業的輸入劃分，並將劃分資訊寫入到Job.split檔案。

5. 將執行作業需要的所有資源都複製到HDFS上。

6. 通知JobTracker準備完畢，可以執行作業了。

階段二：初始化作業階段

這個階段，JobTracker將為作業建立一個物件，專門監控它的執行。

並根據Job.split檔案(上一步生成)來建立並初始化Map任務和Reduce任務。

階段三：分配任務

JobTracker和TaskTracker之間通訊和任務分配是通過心跳機制來完成的，每個TaskTracker作為一個單獨的JVM執行一個簡單的迴圈。

TaskTracker每隔一段時間都會向JobTracker彙報它的任務進展報告，JobTracker在收到進展報告以後如果發現任務完成了，就會給它再分配新的任務。

一般來說TaskTracker有個任務槽，它是有容量限制的 - 只能裝載一定個數的Map/Reduce任務。

這一步和下一步，就形成一次心跳。

階段四：執行任務

這一步的主體是TaskTracker，主要任務是實現任務的本地化。

具體步驟如下：

1. 將job.split複製到本地

2. 將job.jar複製到本地

3. 將job的配置資訊寫入到job.xml

4. 建立本地任務目錄，解壓job.jar

5. 釋出任務並在新的JVM裡執行此任務。

6. 最後將計算結果儲存到本地快取

小結

本文細緻分析了Map/Reduce的作業執行流程。

但在流程的執行過程當中，資料的具體流動途徑也是需要仔細分析的 - 是存放在本地磁碟，還是HDFS？

另外，還需要做好錯誤處理 - 比如說某個節點壞了怎麼辦？

這些將在後面的兩篇文章中做出分析和介紹。

Java的執行機制分析！
2021-07-01
Java
第二章作業系統的執行機制
2024-07-18
作業系統
執行緒間的協作機制
2018-09-07
執行緒
Map-Reduce資料分析之二
2018-11-19
執行緒池的工作流程
2024-06-20
執行緒
分析.Net裡執行緒同步機制
2019-02-20
執行緒
js的執行機制
2020-11-26
JS
執行流程原始碼分析
2024-09-27
原始碼
一起分析執行緒的狀態及執行緒通訊機制
2020-07-29
執行緒
JavaScript map和reduce的區別
2024-11-22
JavaScript
ConcurrentHashMap執行緒安全機制以及原始碼分析
2020-10-24
HashMap執行緒原始碼
kubernetes實踐之五十：kubelet執行機制分析
2018-06-12
Hadoop Map Reduce 漫談
2018-10-30
Hadoop
forEach、map、reduce比較
2018-12-10
React的setState執行機制
2018-09-09
React
JS引擎的執行機制
2018-03-02
JS
Javascript 執行機制
2022-01-17
JavaScript
JavaScript執行機制
2019-04-01
JavaScript
Mybatis執行流程原始碼分析
2020-12-15
MyBatis原始碼
Sermant執行流程學習筆記，速來抄作業
2024-03-06
筆記
JavaScript執行緒機制與事件機制
2019-01-19
JavaScript執行緒事件
從原始碼分析Hystrix工作機制
2021-07-19
原始碼
RxJs map operator 工作原理分析
2021-06-05
JS
JavaScript的程式碼執行機制
2019-09-16
JavaScript
Nginx 與 PHP 的執行機制
2020-02-09
NginxPHP
nextTick的原理及執行機制
2020-04-03
【React深入】setState的執行機制
2019-02-23
React
執行緒同步機制
2022-04-16
執行緒
requestAnimationFrame 執行機制探索
2021-11-11
requestAnimationFrame
探索JavaScript執行機制
2021-12-02
JavaScript
Js執行機制圖
2020-11-08
JS
理解Reacg執行機制
2018-10-23
比特幣執行機制
2018-03-14
比特幣
JS的執行機制的總結！
2018-12-17
JS
SpringMVC執行流程及原始碼分析
2021-03-06
SpringMVC原始碼
Facades 原理 (程式碼執行流程分析)
2019-01-05
【執行機制】 JavaScript的事件迴圈機制總結 eventLoop
2020-12-10
JavaScript事件OOP
python-python的sao操作 map reduce filter
2018-07-18
PythonFilter
陣列的 map, filter ，sort和 reduce 用法
2018-07-29
陣列Filter