處理海量資料的模式MapReduce，大規模資料集的並行運算

shenmanli發表於2017-08-07

MapReduce是一種處理海量資料的並行程式設計模式，用於大規模資料集（通常大於1TB）的並行運算。
“Map（對映）”、“Reduce（化簡）”的概念和主要思想，都是從函數語言程式設計語言和向量程式語言借鑑。
適合非結構化和結構化的海量資料的搜尋、挖掘、分析與機器智慧學習等。

MapReduce計算模型

分散式計算的瓶頸是網路頻寬。“本地計算”是最有效的一種節約網路頻寬的手段。

MapReduce的特點

1、輸入的鍵值是不固定的，由分析人員選擇
2、對於非結構化和半結構化資料，非常有效
3、適合於大規模資料的一次寫入，多次查詢
4、MapReduce其核心就是高速、流式讀寫操作

無共享

無共享結構讓MapReduce程式設計師無需考慮系統的部分失效問題；
因為自身的系統實現，能夠檢測到失敗的map或reduce任務；
並讓正常的機器重新執行這些失敗的任務；
因為各個任務之間彼此獨立；
任務的執行順序是無關緊要的；

MapReduce計算流程

MapReduce執行模型

Map函式——對一部分原始資料進行指定的操作。每個Map操作都針對不同的原始資料，因此Map與Map之間是互相獨立的，這使得它們可以充分並行化。
Reduce操作——對每個Map所產生的一部分中間結果進行合併操作，每個Reduce所處理的Map中間結果是互不交叉的，所有Reduce產生的最終結果經過簡單連線就形成了完整的結果集

資料分佈儲存，帶來計算上的並行化：

MapReduce操作執行流程圖

Vaex助力高效處理大規模資料集
2023-10-27
尋路大資料：海量資料與大規模分析
2014-11-21
大資料
Serverless 在大規模資料處理的實踐
2020-06-08
Server
海量資料處理
2018-03-08
資料倉儲之大規模並行處理架構原理NY
2022-03-21
並行架構
海量資料的併發處理
2018-03-14
大資料計算的基石——MapReduce
2020-09-01
大資料
海量資料處理2
2018-08-28
海量資料處理（轉）
2010-06-21
大資料時代，野心勃勃的MongDB為你處理海量資料!
2012-10-30
大資料
運營商大規模資料叢集治理的實踐指南
2019-06-28
MPP(大規模並行處理)簡介
2020-10-16
並行
我的《海量資料處理與大資料技術實戰》出版啦！
2020-08-28
大資料
N道大資料海量資訊處理演算法面試集錦
2018-09-04
大資料演算法面試
【大資料】離線批處理計算MapReduce | 複習筆記
2020-12-11
大資料筆記
海量資料處理_刪除重複行
2011-05-30
海量資料處理_使用外部表進行資料遷移
2011-05-31
海量資料處理_批量插入
2011-05-31
海量資料處理_批量更新
2011-05-30
MapReduce中對大資料處理最合適的資料格式是什麼？
2018-09-17
大資料
一套用來處理海量資料的軟體工具應運而生，這就是大資料！
2022-03-20
大資料
海量資料處理_資料泵分批資料遷移
2011-06-10
E-Mapreduce如何處理RDS的資料
2016-04-08
使用R和Apache Spark處理大規模資料 [session]
2017-05-26
ApacheSparkSession
從Hadoop框架與MapReduce模式中談海量資料處理（含淘寶技術架構）
2018-04-19
Hadoop框架模式架構
JavaScript 資料處理 - 運算元組
2022-03-05
JavaScript
使用RabbitMQ訊息佇列來處理大規模的資料流
2024-03-11
MQ佇列
海量資料處理_表分割槽
2011-05-31
MPP大規模並行處理架構詳解
2021-07-11
並行架構
海量資料處理：十道面試題與十個海量資料處理方法總結
2014-08-18
面試題
大資料與海量資料的區別
2013-09-09
大資料
“大資料”與“海量資料”的區別
2011-11-11
大資料
剖析大資料平臺的資料處理
2020-04-04
大資料
Ocient報告：從大資料到超大規模資料集的轉變
2022-08-12
大資料
海量資料處理利器greenplum——初識
2016-08-17
大資料計算：結構化大資料計算的理想模式
2018-01-19
大資料模式
人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載
2017-07-20
人工智慧大資料機器學習
Flashtext：大規模資料清洗的利器
2017-11-19

處理海量資料的模式MapReduce，大規模資料集的並行運算

相關文章