MapReduce

MapReduce是為能夠在叢集上分散式處理海量資料而量身訂做的框架，MapReduce job可以分為三次連續過程。

Map 將輸入資料劃分為key-value集合

Shuffle 將Map產生的結果傳輸給Reduce

Reduce 則對接收到的key-value進一步處理

MapReduce的最大工作單元便是job，每個job又會被分割成map task或reduce task。最經典的MapReduce job便是統計文件中單詞出現的頻率，這個過程可以使用下圖來描述

HDFS是Hadoop中經典的檔案系統，但是Hadoop並不僅僅支援HDFS，它還支援其他的檔案系統，比如Local file system, FTP, AWS S3, Azure’s file system, 和OpenStack’s Swift，這些檔案系統可以在使用時根據不同URI進行區分。比如：

file: for the local file system

a loser.

————————————————

list 集合去重

相關文章