處理海量資料的模式MapReduce,大規模資料集的並行運算
MapReduce是一種處理海量資料的並行程式設計模式,用於大規模資料集(通常大於1TB)的並行運算。
“Map(對映)”、“Reduce(化簡)”的概念和主要思想,都是從函數語言程式設計語言和向量程式語言借鑑。
適合非結構化和結構化的海量資料的搜尋、挖掘、分析與機器智慧學習等。
MapReduce計算模型
分散式計算的瓶頸是網路頻寬。“本地計算”是最有效的一種節約網路頻寬的手段。
MapReduce的特點
1、輸入的鍵值是不固定的,由分析人員選擇
2、對於非結構化和半結構化資料,非常有效
3、適合於大規模資料的一次寫入,多次查詢
4、MapReduce其核心就是高速、流式讀寫操作
無共享
無共享結構讓MapReduce程式設計師無需考慮系統的部分失效問題;
因為自身的系統實現,能夠檢測到失敗的map或reduce任務;
並讓正常的機器重新執行這些失敗的任務;
因為各個任務之間彼此獨立;
任務的執行順序是無關緊要的;
MapReduce計算流程
MapReduce執行模型
Map函式——對一部分原始資料進行指定的操作。每個Map操作都針對不同的原始資料,因此Map與Map之間是互相獨立的,這使得它們可以充分並行化。
Reduce操作——對每個Map所產生的一部分中間結果進行合併操作,每個Reduce所處理的Map中間結果是互不交叉的,所有Reduce產生的最終結果經過簡單連線就形成了完整的結果集
資料分佈儲存,帶來計算上的並行化:
MapReduce操作執行流程圖
“Map(對映)”、“Reduce(化簡)”的概念和主要思想,都是從函數語言程式設計語言和向量程式語言借鑑。
適合非結構化和結構化的海量資料的搜尋、挖掘、分析與機器智慧學習等。
MapReduce計算模型
分散式計算的瓶頸是網路頻寬。“本地計算”是最有效的一種節約網路頻寬的手段。
MapReduce的特點
1、輸入的鍵值是不固定的,由分析人員選擇
2、對於非結構化和半結構化資料,非常有效
3、適合於大規模資料的一次寫入,多次查詢
4、MapReduce其核心就是高速、流式讀寫操作
無共享
無共享結構讓MapReduce程式設計師無需考慮系統的部分失效問題;
因為自身的系統實現,能夠檢測到失敗的map或reduce任務;
並讓正常的機器重新執行這些失敗的任務;
因為各個任務之間彼此獨立;
任務的執行順序是無關緊要的;
MapReduce計算流程
MapReduce執行模型
Map函式——對一部分原始資料進行指定的操作。每個Map操作都針對不同的原始資料,因此Map與Map之間是互相獨立的,這使得它們可以充分並行化。
Reduce操作——對每個Map所產生的一部分中間結果進行合併操作,每個Reduce所處理的Map中間結果是互不交叉的,所有Reduce產生的最終結果經過簡單連線就形成了完整的結果集
資料分佈儲存,帶來計算上的並行化:
MapReduce操作執行流程圖
相關文章
- Vaex助力高效處理大規模資料集
- 尋路大資料:海量資料與大規模分析大資料
- Serverless 在大規模資料處理的實踐Server
- 海量資料處理
- 資料倉儲之大規模並行處理架構原理NY並行架構
- 海量資料的併發處理
- 大資料計算的基石——MapReduce大資料
- 海量資料處理2
- 海量資料處理 (轉)
- 大資料時代,野心勃勃的MongDB為你處理海量資料!大資料
- 運營商大規模資料叢集治理的實踐指南
- MPP(大規模並行處理)簡介並行
- 我的《海量資料處理與大資料技術實戰》出版啦!大資料
- N道大資料海量資訊處理 演算法面試集錦大資料演算法面試
- 【大資料】離線批處理計算MapReduce | 複習筆記大資料筆記
- 海量資料處理_刪除重複行
- 海量資料處理_使用外部表進行資料遷移
- 海量資料處理_批量插入
- 海量資料處理_批量更新
- MapReduce中對大資料處理最合適的資料格式是什麼?大資料
- 一套用來處理海量資料的軟體工具應運而生,這就是大資料!大資料
- 海量資料處理_資料泵分批資料遷移
- E-Mapreduce如何處理RDS的資料
- 使用R和Apache Spark處理大規模資料 [session]ApacheSparkSession
- 從Hadoop框架與MapReduce模式中談海量資料處理(含淘寶技術架構)Hadoop框架模式架構
- JavaScript 資料處理 - 運算元組JavaScript
- 使用RabbitMQ訊息佇列來處理大規模的資料流MQ佇列
- 海量資料處理_表分割槽
- MPP大規模並行處理架構詳解並行架構
- 海量資料處理:十道面試題與十個海量資料處理方法總結面試題
- 大資料與海量資料的區別大資料
- “大資料”與“海量資料”的區別大資料
- 剖析大資料平臺的資料處理大資料
- Ocient報告:從大資料到超大規模資料集的轉變大資料
- 海量資料處理利器greenplum——初識
- 大資料計算:結構化大資料計算的理想模式大資料模式
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- Flashtext:大規模資料清洗的利器