list 集合去重

mcxiaoracle發表於2022-07-21

MapReduce

MapReduce是為能夠在叢集上分散式處理海量資料而量身訂做的框架,MapReduce job可以分為三次連續過程。


Map 將輸入資料劃分為key-value集合

Shuffle 將Map產生的結果傳輸給Reduce

Reduce 則對接收到的key-value進一步處理



MapReduce的最大工作單元便是job,每個job又會被分割成map task或reduce task。最經典的MapReduce job便是統計文件中單詞出現的頻率,這個過程可以使用下圖來描述



HDFS是Hadoop中經典的檔案系統,但是Hadoop並不僅僅支援HDFS,它還支援其他的檔案系統,比如Local file system, FTP, AWS S3, Azure’s file system, 和OpenStack’s Swift,這些檔案系統可以在使用時根據不同URI進行區分。比如:


file: for the local file system




a loser.

————————————————

推薦閱讀:

https://blog.csdn.net/m0_67391270/article/details/123738879

https://blog.csdn.net/wdj_yyds/article/details/123847206






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69949806/viewspace-2906849/,如需轉載,請註明出處,否則將追究法律責任。

相關文章