大資料小白系列——MR(1)

Morven.Huang發表於2019-01-03

原文網址 : https://www.cnblogs.com/morvenhuang/p/10213432.html

大資料

一部程式設計發展史就是一部程式設計師偷懶史，MapReduce(下稱MR)同樣是程式設計師們用來偷懶的工具。

來了一份大資料，我們寫了一個程式準備分析它，需要怎麼做？

老式的處理方法不行，資料量太大時，所需的時間無法忍受，所以，必須平行計算。好比1000塊磚，1個人搬需要1小時，10個人同時搬，只需要6分鐘。

不過進行平行計算，面臨幾個細思頭大問題：

如何切分資料
如何處理部分任務失敗
如何對多路計算的結果進行彙總

不過不用擔心，世界就是這樣的，少部分人發明創造工具，大部分人使用工具。總有聰明人在合適的時候出來解決問題。

Google在2004年出了個paper，《MapReduce: Simplifed Data Processing on Large Clusters》，提出來一種針對大資料的並行處理模型、並基於此理論做了一個計算框架。

所以，你可以說MR是一種計算模型、也可以叫它一個計算框架。廣義的MR甚至還包括一套資源管理(JobTracker、TaskTracker)，後面這個我們不講，因為，過，時，了。

Q 框架是什麼？

A 就是套路。內部會幫你處理那些讓你頭大的問題。

作為小白系列，我們先來看看MR簡單的流程圖：

為方便理解，來一個WorkCount示例(WordCount就好比大資料的HelloWorld，總要來一個的)。假設我們有一個檔案包含內容：

Live for nothing, die for something

統計每一個單詞出現的次數：

Q Splitting是怎麼做的，分成幾份？

A 框架決定(通常是檔案有多少個資料塊，就分成幾份，資料塊不懂的回去看HDFS系列)。

Q k1，v1是什麼？

A 一般來說，k1是行號(在WordCount示例中用不到)，v1是檔案的某一行。本例只是概念示例，不用糾結。

Q Mapping產生的結果儲存在哪裡？

A 所在機器的本地檔案系統，非HDFS，以避免產生多餘的副本（HDFS預設多個副本）。

Q Shuffling是做什麼的？

A 負責將Mapping產生的中間結果發給Reducer，哪些資料發個哪個Reducer，有框架決定。

Q Reducer有幾個，執行在哪些機器上？

A 框架決定。

Q 哪些是需要程式設計師進行程式碼實現的？

A Mapping及Reducing，即圖中兩個紅框部分。

好了，這期就先說到這，下期將稍微深入瞭解一下MR中的Shuffling、Sorting等概念。Cheers！

—END—

歡迎關注“程式設計師雜書館”公眾號，領取大資料經典紙質書。

大資料小白系列——MR(3)
2018-12-31
大資料
大資料小白系列——HDFS(1)
2018-12-09
大資料
大資料小白系列——HDFS(2)
2018-12-15
大資料
大資料小白系列——HDFS(4)
2018-12-29
大資料
大資料小白系列——HDFS(3)
2018-12-20
大資料
大資料小白系列 —— MapReduce流程的深入說明
2019-03-16
大資料
大資料系列 1：大資料技術發展歷程
2018-12-30
大資料
資料結構小白系列之資料結構概述
2019-03-05
資料結構
大資料：小白升級版
2018-04-25
大資料
4.MR(1)
2024-09-10
大資料系列1：一文初識Hdfs
2021-01-25
大資料
小白系列：資料庫基礎知識解析
2024-08-19
資料庫
MySQL系列教程小白資料庫基礎暨隨
2022-03-01
MySql資料庫
大資料教程系列之大資料概念
2020-05-29
大資料
小白學習大資料測試之hadoop
2018-09-02
大資料Hadoop
大資料為什麼這麼火？小白該如何去學習大資料
2018-11-18
大資料
小白學python系列-(1)環境的安裝
2018-04-05
Python
小白如何學習大資料開發，大資料學習路線是怎樣的？
2018-10-14
大資料
小白如何學習大資料？需要多長時間
2019-03-16
大資料
計算機小白大資料學習線路圖
2018-08-31
計算機大資料
大資料學習|小白學習大資料需要滿足這六個條件你就能學好大資料
2018-09-18
大資料
小白可以轉行學習大資料嗎？怎麼做？
2021-09-28
大資料
資料血緣系列（1）—— 為什麼需要資料血緣？
2024-07-08
Hadoop系列001-大資料概論
2018-12-01
Hadoop大資料
大資料系列4：Yarn以及MapReduce 2
2021-01-29
大資料Yarn
利用PHP實現常用的資料結構之棧（小白系列文章四）
2019-02-16
PHP資料結構
大資料面試那些事（1）
2023-11-22
大資料面試
玩轉大資料系列之一：資料採集與同步
2019-01-07
大資料
玩轉大資料系列之二：資料分析與處理
2019-01-07
大資料
玩轉大資料系列之三：資料包表與展示
2019-01-07
大資料
Hadoop大資料實戰系列文章之Hive
2020-11-16
Hadoop大資料Hive
Hadoop大資料實戰系列文章之Zookeeper
2020-11-10
Hadoop大資料
Hadoop大資料實戰系列文章之HBase
2020-11-11
Hadoop大資料
大資料系列2：Hdfs的讀寫操作
2021-01-26
大資料
Python量化資料倉儲搭建系列1：資料庫安裝與操作
2021-11-01
Python資料庫
大資料技術體系1（清華：大資料技術體系）
2018-11-02
大資料
大資料技術之Hadoop（入門）第1章大資料概論
2018-08-08
大資料Hadoop
小白學大資料掌握這幾個方法可輕鬆入門
2019-05-10
大資料

大資料小白系列——MR(1)

相關文章