大資料學習筆記（十七）-MapReduce

狂暴棕熊發表於2018-01-04

原文網址 : https://blog.csdn.net/langyw98/article/details/78974031

1.在MapReduce中被分成了兩類，map操作和reduce操作，1個job是由若干次map操作和1次reduce操作組成的。
在MapReduce中，最重要的就是理解資料在處理時都是以Key/Value形式輸入輸出的（在資料初始讀入時，也是以Key/Value形式讀入的）
2.對map、reduce操作的理解
①map是對映：簡單理解的話可以理解成遍歷原有資料集中的所有資料，針對每一條資料都用相同的邏輯對資料進行處理，然後再產生新的資料集。因為是遍歷操作，所以每條資料都是獨立的，所以是可以並行的，分佈在不同機器上進行運算。
②reduce是歸約：所謂的歸約可以理解成框架將資料集按照Key值生成一個Value的List，在reduce回撥方法中，可以這些資料進行處理。因為要將Key值相同的資料集中在一起進行處理，所以會有網路IO/磁碟IO，也就是shuffle，因此並行度低，執行速度慢。
3.使用MapReduce處理資料
①初學MapReduce，學習的是WordCount Example，在這個例子裡的job是由1次map和1次reduce組成的，對於比較簡單的邏輯這樣就可以了，但是一個job實際上是可以由多次map和1次Reduce組成的。
②處理更復雜的邏輯需要在reduce前執行多次map操作或者再reduce操作後也需要使用map操作對reduce產生的結果進行處理，這個時候就可以使用ChainMapper來實現reduce前的多次map操作，reduce之後要執行map操作可以使用ChainReducer來實現。
③在更復雜的一些情況下，可能需要經過多次reduce，這個時候只需要在寫Driver時順序的寫多個job設定前一個job的輸出為後一個job的輸入就可以了，每個job間以

job.waitForCompletion(true);

提交作業就可以順序的執行多個job了。

我自己的感覺是，MapReduce可以用來做資料的初次ETL，將資料完成整理之後，使用Hive來做後續的處理，因為HQL能夠提供更好更簡單的資料處理方法。比如group by和join，實現起來還是挺複雜的。

但是這就看出MapReduce的侷限了。Spark就提供了對應的運算元，可以實現複雜的資料運算。

4.使用MapReduce實現連線操作時，需要兩個對映器（Mapper），此時可以使用MultipleInputs類來達到使用多個對映器，如果只有一個對映器則是用之前的job.setMapperClass()來實現。

java大資料最全課程學習筆記(5)--MapReduce精通(一)
2020-07-19
Java大資料筆記
【大資料】離線批處理計算MapReduce | 複習筆記
2020-12-11
大資料筆記
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
Redis學習筆記（十七）叢集（上）
2020-06-09
Redis筆記
SpringBoot學習筆記（十七：非同步呼叫）
2020-07-15
Spring Boot筆記非同步
SpringBoot學習筆記（十七：MyBatis-Plus ）
2020-11-16
Spring Boot筆記MyBatis
大資料教程分享Actor學習筆記
2020-06-04
大資料筆記
Nginxupload上傳模組(學習筆記十七)
2018-05-17
Nginx筆記
大資料學習開發技術：MapReduce執行原理
2018-11-15
大資料
資料庫學習筆記
2018-10-18
資料庫筆記
工作學習筆記（十七）MyBatis中eq和like
2024-11-29
筆記MyBatis
好程式設計師大資料學習路線分享MAPREDUCE
2019-08-22
程式設計師大資料
PHP 資料加密 (學習筆記)
2019-07-30
PHP加密筆記
1029學習筆記資料庫
2020-11-03
筆記資料庫
資料結構學習筆記
2018-04-22
資料結構筆記
python學習筆記：資料庫
2018-04-19
Python筆記資料庫
MySQL資料庫學習筆記
2020-12-10
MySql資料庫筆記
大資料學習筆記500條【第一彈】，記得收藏！
2019-05-27
大資料筆記
oracle學習筆記（十七） PL/SQL高階應用
2019-05-28
Oracle筆記SQL
學習筆記（四十七）：@ohos.window (視窗)
2024-11-28
筆記
資料庫mysql學習筆記記錄
2021-09-09
資料庫MySql筆記
好程式設計師大資料學習路線之mapreduce概述
2019-08-13
程式設計師大資料
好程式設計師大資料培訓教你快速學習MapReduce
2020-10-20
程式設計師大資料
好程式設計師大資料學習路線分享Actor學習筆記
2019-08-19
程式設計師大資料筆記
好程式設計師大資料學習路線分享Map學習筆記
2019-09-28
程式設計師大資料筆記
大資料測試學習筆記之測試工具集
2019-05-15
大資料筆記
學習筆記（二十七）：ArkUi-警告彈窗（AlertDialog）
2024-11-06
筆記UI
Ansibleyaml的語法、playbook檔案例子(學習筆記十七)
2018-03-27
YAML筆記
資料結構學習筆記1
2018-08-15
資料結構筆記
Redis學習筆記（七）資料庫
2020-05-16
Redis筆記資料庫
資料結構學習筆記--棧
2019-02-12
資料結構筆記
達夢資料庫學習筆記
2021-01-03
資料庫筆記
Python 學習筆記——資料型別
2020-11-25
Python筆記資料型別
小白學習大資料測試之hadoop hdfs和MapReduce小實戰
2018-09-03
大資料Hadoop
基於python的大資料分析實戰學習筆記-Anaconda
2019-08-28
Python大資料筆記
好程式設計師大資料學習筆記：Storm架構
2019-06-11
程式設計師大資料筆記ORM架構
大資料學習筆記之Hadoop安裝步驟詳解
2019-05-15
大資料筆記Hadoop
Jenkins+Cobertura程式碼覆蓋率(學習筆記三十七)
2018-05-14
Jenkins筆記
Python學習筆記(一) 資料型別
2018-08-01
Python筆記資料型別

大資料學習筆記（十七）-MapReduce

相關文章