Lab1 記錄

INnoVation-V2發表於2024-08-25

原文網址 : https://www.cnblogs.com/INnoVationv2/p/18379265

一、非並行版本分析

1.非並行版本MapReduce流程

透過第一個引數，傳入Map和Reduce 函式
之後的引數為待處理檔名
讀取檔案
呼叫Map函式，對檔案內容進行處理，生成KV對
對KV對進行sort
按照Key進行分組，然後對每組資料呼叫Reduce
將結果寫入檔案

二、Lab思路

概述：Worker向Coordinator申請任務

1. Coordinator

程式碼位置： mr/coordinator.go

結構體介紹

type Coordinator struct {
	nReduce int32
	stage   int32

	workerCnt int32

	reduceJobIds []int

	mapJobPendingList    *HashSet
	reduceJobPendingList *HashSet
	jobProcessingList    *HashSet
}

啟動
1. 啟動時，設定Coordinator狀態為Map，
2. 初始化Job List，map Job的名字為檔名，reduce Job的名字為nReduce的編號
初始化Worker

有新Worker來時，為其分配編號，並傳回nReduce
分發任務

Worker會定時請求任務
1. 從JobPendingList中選取Job
2. 將這個Job放入JobProcessingList
3. 如果任務完成，將任務從JobProcessingList徹底刪除
4. 傳送任務後，註冊一個回撥函式，如果10s後這個任務還在JobProcessingList，說明任務超時，透過回撥函式將任務放回JobWaitingList
任務完成

Worker任務完成時，將Job從List中刪除
狀態轉換

如果所有任務都已完成，

任務名就是檔名：

Map的任務名是輸入檔名
Reduce的任務名是nReduce編號

分發任務

Worker會定時發來任務請求，
1. 從JobWaitingList中選取任務給他
2. 將這個任務放入JobProcessingList
3. 如果任務完成，將任務從JobProcessingList徹底刪除
4. 傳送任務後，註冊一個回撥函式，如果10s後這個任務還在JobProcessingList，說明任務超時，透過回撥函式將任務放回JobWaitingList
當JobWaitingList和JobProcessingList皆為空時，意味著任務完成，Coordinator可以退出
只有當Map完成時，才可進行Reduce
1. Map階段
2. Reduce階段

Worker

程式碼地址：mr/worker.go

1.`Map Worer`

讀取檔案，呼叫Map函式處理，將結果按照Hash值分配到nReduce個檔案

中間檔名mr-X-Y

X：Map編號
Y：Reduce編號

2.`Reduce Worker`

結果檔名：mr-out-X

X：Reduce編號

注：為應對兩個Worker同時處理某個任務、以及任務失敗時的情況，Worker建立檔案時，為其新增特殊字尾，比如mr-X-Y建立為mr-X-Y_123456。在任務處理完成，向coordinate彙報時，修改回正確檔名mr-X-Y。

結果

程式碼地址：

Github

測試結果

cs144 lab0 lab1記錄
2022-03-01
CS144
mit6.828 - lab1筆記
2024-05-07
MIT筆記
csapp Lab1
2024-03-07
APP
CSAPP DATA LAB1————位運算
2020-04-07
APP
CSAPP:Lab1 -DataLab 超詳解
2021-01-19
APP
LAB1 啟動作業系統
2021-03-14
作業系統
記錄
2024-12-10
ucore作業系統學習筆記(一) ucore lab1系統啟動流程分析
2020-09-28
作業系統筆記
20240505記錄《程式碼隨想錄》筆記
2024-05-05
筆記
Conda常用命令記錄（自用記錄）
2024-10-23
planetype記錄
2019-04-10
Spring記錄
2018-10-18
Spring
Ionic記錄
2019-03-08
paper記錄
2018-09-08
GitText記錄
2018-04-09
Git
思路記錄
2018-06-06
MongoDB 記錄
2024-04-11
MongoDB
2024.3 記錄
2024-03-10
MyBatis記錄
2024-03-23
MyBatis
debian記錄
2024-03-06
工具記錄
2019-08-08
Git記錄
2020-02-18
Git
命令記錄
2019-12-04
explain記錄
2020-09-25
AI
地址記錄
2019-05-01
PEAC記錄
2019-04-19
PlaneLoc記錄
2019-03-26
科研記錄
2024-10-23
2024.10 記錄
2024-10-02
rabbitmq 記錄
2024-10-08
MQ
nginx 記錄
2024-10-06
Nginx
mybatis 記錄
2024-10-06
MyBatis
jvm 記錄
2024-10-06
JVM
spring 記錄
2024-10-06
Spring
Kafka 記錄
2024-09-28
Kafka
netty 記錄
2024-10-04
Netty
指令記錄
2024-11-25
照片記錄
2024-07-01