Mapreduce(二):MR的執行過程分析

fan_rockrock發表於2015-09-16

1.MR的作業執行流程圖

       

        (1).客戶端提交一個mr的jar包給JobClient(提交方式:hadoop jar ...)


(2).JobClient通過RPC和JobTracker進行通訊,返回一個存放jar包的地址(HDFS)和jobId


(3).client將jar包寫入到HDFS當中(path = hdfs上的地址 + jobId)


(4).開始提交任務(任務的描述資訊,不是jar, 包括jobid,jar存放的位置,配置資訊等等)


(5).JobTracker進行初始化任務

        (6).讀取HDFS上的要處理的檔案,開始計算輸入分片,每一個分片對應一個MapperTask


(7).TaskTracker通過心跳機制領取任務(任務的描述資訊)


(8).下載所需的jar,配置檔案等


(9).TaskTracker啟動一個java child子程式,用來執行具體的任務(MapperTask或ReducerTask)


(10).將結果寫入到HDFS當中

相關文章