mapreduce的一般執行步驟

逸卿發表於2014-05-06

 map任務處理過程

第一:讀取HDFS中的檔案內容,對輸入的每一行解析成<k1,v1>鍵值對, 每一對鍵值對呼叫一次map函式

第二:寫自己的邏輯map函式,對輸入的<k1,v1>處理,裝換成新的<k2,v2> 鍵值對輸出

第三:對輸出的<k2,v2>進行分割槽

第四:對不同分割槽的資料,按照key進行排序和分組,分組時把相同的key value放到一個集合中

第五:(可選)分組後進行資料的歸約處理

 reduce任務處理

第一:對多個map任務的輸出,按照不同的分割槽,通過網路copy到不同的 reduce節點

第二:對多個map任務的輸出進行合併,排序。寫自己的reduce函式邏輯, 對輸入的key,value處理,並轉換成新的key,value輸出

第三:把reduce的輸出保持到本地磁碟中

相關文章