【大資料】離線批處理計算MapReduce | 複習筆記

吃水不忘挖井人？發表於2020-12-11

原文網址 : https://blog.csdn.net/m0_46201214/article/details/111027042

大資料筆記

在這裡插入圖片描述

一些介紹

分散式計算模型

批處理計算：（大容量靜態資料集）

有界、持久、大量
理需要訪問全套記錄，不適合對處理時間要求較高的場合

偷老師的圖：
在這裡插入圖片描述

常見計算模式

主要點在於分開mapper和reducer，然後確定每個<key,value>鍵值對的意義

求和模式(Summarization Pattern)
單詞統計：
1. map階段：輸入<key,value>是<網頁ID,網頁內容>，輸出<key,value>是<單詞,出現次數>
2. reduce階段：累加相同key值的，輸出<單詞,出現次數>
3. 補充：map和reduce間是shuffle階段，在shuffle階段，可以先對每一個map做combiner（合併相同的key對應的value，區域性reducer），然後做partitioner，通過hash等方式分配中間結果資料給reducer，實現負載均衡
過濾模式(Filtering Pattern)
1. 簡單過濾：Map-Only
2. TOP K：Mapper首先統計出資料塊內所有記錄中某個欄位滿足Top K條件的記錄子集，得到區域性Top K記錄。然後通過Reducer對這些區域性Top K記錄進一步篩選，獲得最終的全域性最大的K條記錄。
資料組織模式(Data Organization Pattern)
1. 資料分片
2. 全域性排序：“排序是MapReduce的天然特性”（a每個map輸出結果有序；b每個reduce輸入有序）但當多個reducer時，需要通過Partition策略，保證不同Reducer處理一個範圍區間的記錄。

例項

文字分析、頁面點選統計、專利引用統計

特點

優點：
1. 極強的可擴充套件性
2. 很好的容錯性，
3. 簡單，使用者只需完成Map和Reduce
  函式即可完成大規模資料的並行處理
缺點：
1. 不適合對時效性要求較高的應用場景（Map和Reduce任務啟動時間較長）
2. 不適合迭代運算類（在多處的磁碟讀/寫及網路傳輸過程）

K-Means演算法MapReduce化

mapper處理根據簇中心重新分簇，輸出鍵值對為<cluster assigned to , 資料點自身>；
combine階段，鍵值對<cluster id ，-【 # of data points of this cluster， mean】>；
reducer處理根據分簇情況重新計算簇中心，鍵值對<該cluster 的id，該cluster的資料點的均值及對應於該均值的資料點的個數>

大資料計算的基石——MapReduce
2020-09-01
大資料
【計算機網路】資料鏈路層 | 複習筆記
2020-12-17
計算機網路筆記
計算機網路複習筆記
2021-03-02
計算機網路筆記
好程式設計師大資料學習路線分享MAPREDUCE
2019-08-22
程式設計師大資料
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
java大資料最全課程學習筆記(5)--MapReduce精通(一)
2020-07-19
Java大資料筆記
Spark SQL：實現日誌離線批處理
2018-09-17
SparkSQL
好程式設計師大資料學習路線之mapreduce概述
2019-08-13
程式設計師大資料
YOLOv3學習筆記之資料處理
2020-12-12
YOLO筆記
Python深度學習（處理文字資料）--學習筆記（十二）
2020-11-12
Python深度學習筆記
JSP筆記-XML 資料處理
2021-08-06
JS筆記XML
【Pandas學習筆記02】-資料處理高階用法
2021-12-01
筆記
【Pandas學習筆記02】處理資料實用操作
2021-11-26
筆記
OPPO大資料離線計算平臺架構演進
2021-12-23
大資料架構
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
MapReduce中對大資料處理最合適的資料格式是什麼？
2018-09-17
大資料
大資料爭論：批處理與流處理的C位之戰
2018-09-29
大資料
好程式設計師大資料學習路線分享Actor學習筆記
2019-08-19
程式設計師大資料筆記
好程式設計師大資料學習路線分享Map學習筆記
2019-09-28
程式設計師大資料筆記
計算機小白大資料學習線路圖
2018-08-31
計算機大資料
好程式設計師大資料學習路線分享MapReduce全過程解析
2019-08-28
程式設計師大資料
好程式設計師大資料學習路線分享MapReduce全流程總結
2019-08-29
程式設計師大資料
MySQL 處理重複資料
2019-07-02
MySql
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
React學習筆記-事件處理
2020-12-26
React筆記事件
好程式設計師大資料學習路線分享TCP和UDP學習筆記
2019-09-26
程式設計師大資料TCPUDP筆記
【大資料】BigTable分散式資料儲存系統分散式資料庫 | 複習筆記
2020-12-12
大資料分散式資料庫筆記
資料處理之去除重複資料
2020-03-17
計算理論導論筆記
2024-05-04
筆記
機器學習演算法筆記之6：資料預處理
2020-04-06
機器學習演算法筆記
pandas 處理資料和crc16計算
2020-09-26
02142資料結構導論複習筆記
2023-04-03
資料結構筆記
好程式設計師大資料學習路線分享執行緒學習筆記二
2019-09-29
程式設計師大資料執行緒筆記
好程式設計師大資料學習路線分享多執行緒學習筆記
2019-09-27
程式設計師大資料執行緒筆記
Vue學習筆記之事件處理
2018-06-20
Vue筆記事件
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
好程式設計師大資料培訓教你快速學習MapReduce
2020-10-20
程式設計師大資料
【雲端計算與大資料處理技術】公開課實況
2018-12-24
大資料

【大資料】離線批處理計算MapReduce | 複習筆記

一些介紹

常見計算模式

例項

特點

K-Means演算法MapReduce化

相關文章