從零自學Hadoop(08)：第一個MapReduce

sinodzh發表於2015-10-08

原文網址 : https://www.cnblogs.com/mephisto/p/4858435.html

Hadoop

閱讀目錄

本文版權歸mephisto和部落格園共有，歡迎轉載，但須保留此段宣告，並給出原文連結，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

序

　　上一篇，我們的Eclipse外掛搞定，那開始我們的MapReduce之旅。

　　在這裡，我們先呼叫官方的wordcount例子，然後再手動建立個例子，這樣可以更好的理解Job。

資料準備

一：說明

　　wordcount這個類是對不同的word進行統計個數，所以這裡我們得準備資料，當然也不需要很大的資料量，畢竟是自己做試驗對吧。

二：造資料

　　開啟記事本，輸入各種word，有相同的，不同的。然後儲存為words_01.txt。

三：上傳

　　開啟eclipse，然後在DFS location 中將我們準備的資料來源上傳到tmp/input。

　　這樣我們的資料就準備好了。

wordcount

一：官網示例

　　wordcount是hadoop的一個官網試例，打包在hadoop-mapreduce-examples-<ver>.jar。

　　2.7.1版本的地址：http://hadoop.apache.org/docs/r2.7.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

二：找到示例

　　我們在結果中看到兩個地方有，那就找個近一點的地方吧。
find / -name *hadoop-mapreduce-examples*
四：進入目錄

　　我們選擇進入/usr/hdp/下面的這個例子。
cd /usr/hdp/2.3.0.0-2557/hadoop-mapreduce
五：執行

　　我們先使用hadoop jar這個命令執行。

　　命令說明:hadoop jar 包名稱方法輸入檔案/目錄輸出目錄
#切換使用者
su hsfs
#執行
hadoop jar hadoop-mapreduce-examples-2.7.1.2.3.0.0-2557.jar wordcount /tmp/input/words_01.txt /tmp/output/1007_01
　　命令執行結果

　　外掛結果

　　job頁面結果

　　這樣我們的第一個job就這樣順利的執行完成了。

Yarn

一：介紹

　　Hadoop2.X和Hadoop1.X有兩個最大的變化，也是根本性變化。

　　其中一個是Namenode的單點問題解決，然後就是Yarn的引入。在這裡我們就不做展開的講了，後面會安排章節進行講述。

二：Yarn命令

　　如果仔細看的話，我們可以發現在上面hadoop jar這個命令執行後，會有一個警告。
yarn jar hadoop-mapreduce-examples-2.7.1.2.3.0.0-2557.jar wordcount /tmp/input/words_01.txt /tmp/output/1007_02

新建MapReduce

一：通過外掛新建工程

　　這裡就不詳說了，在上一篇我們通過外掛建立了一個工程，我們直接使用那個工程“com.first”。

二：新建WordCountEx類

　　這個是我們的自定義的wordcount類，仿照官網例子寫的，做了點DIY，方便大家理解。

　　完成後

三：新建Mapper

　　在WordCountEx類中建一個內部類MyMapper。

　　在這裡我們做了點DIY,排除了字母長度小於5的資料，方便大家對比理解程式。

static class MyMapper extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        @Override
        protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context)
                throws IOException, InterruptedException {

            // 分割字串
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                // 排除字母少於5個的
                String tmp = itr.nextToken();
                if (tmp.length() < 5)
                    continue;
                word.set(tmp);
                context.write(word, one);
            }
        }

    }

View Code

四：新建Reduce

　　同上，我們將map的結果乘以2，然後輸出的內容的key加了個字首。

static class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();
        private Text keyEx = new Text();

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values,
                Reducer<Text, IntWritable, Text, IntWritable>.Context context)
                        throws IOException, InterruptedException {

            int sum = 0;
            for (IntWritable val : values) {
                // 將map的結果放大，乘以2
                sum += val.get() * 2;
            }
            result.set(sum);
            // 自定義輸出key
            keyEx.set("輸出:" + key.toString());
            context.write(keyEx, result);
        }

    }

View Code

五：新建Main

　　在main方法中我們得定義一個job，配置它。

    public static void main(String[] args) throws Exception {

        //配置資訊
        Configuration conf = new Configuration();
        
        //job名稱
        Job job = Job.getInstance(conf, "mywordcount");
        
        job.setJarByClass(WordCountEx.class);
        job.setMapperClass(MyMapper.class);
        // job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(MyReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        //輸入、輸出path
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        //結束
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

View Code

六：匯出jar包

　　匯出我們寫好的jar包。命名為com.first.jar

七：放入Linux

　　將匯出的jar包放到H31的/var/tmp下

cd /var/tmp
ls

八：執行

　　大家仔細看下命令和結果會發現有什麼不同

yarn jar com.first.jar  /tmp/input/words_01.txt /tmp/output/1007_03

　　如果是仔細看了，發現少個wordcount對吧，為什麼列，因為在匯出jar包的時候制定的main函式。

九：匯出不指定main入口的jar包

　　我們在匯出的時候，不指定main的入口。

十：執行2

　　我們發現這裡就得多帶一個引數了，就是方法的入口，這裡得全路徑。

 yarn jar com.first.jar com.first.WordCountEx /tmp/input/words_01.txt /tmp/output/1007_04

十一：結果

　　我們看下輸出的結果，可以明顯的看到少於5個長度的被排除了，而且結果的count都乘以了2。字首亂碼的不要糾結了，換個編碼方式就好了。

--------------------------------------------------------------------

　　到此，本章節的內容講述完畢。

示例下載

　Github:https://github.com/sinodzh/HadoopExample/tree/master/2015/com.first

系列索引

　　【源】從零自學Hadoop系列索引

本文版權歸mephisto和部落格園共有，歡迎轉載，但須保留此段宣告，並給出原文連結，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

Hadoop學習——MapReduce
2019-04-06
Hadoop
從分治演算法到 Hadoop MapReduce
2018-11-23
演算法Hadoop
一個「學渣」從零Web前端自學之路
2019-02-17
Web前端
Hadoop學習（二）——MapReduce\Yarn架構
2019-02-20
HadoopYarn架構
hadoop_MapReduce yarn
2020-11-11
HadoopYarn
Hadoop（十四）MapReduce概述
2024-09-18
Hadoop
Hadoop 從 0 到 1 學習 ——第一章 Hadoop 介紹
2020-10-29
Hadoop
Hadoop 學習系列（四）之 MapReduce 原理講解
2019-03-04
Hadoop
一個「學渣」從零開始的Web前端自學之路
2019-02-17
Web前端
Hadoop學習第四天--MapReduce提交過程
2024-08-10
Hadoop
Hadoop面試題之MapReduce
2021-12-23
Hadoop面試題
Hadoop 專欄 - MapReduce 入門
2021-01-21
Hadoop
MapReduce 示例：減少 Hadoop MapReduce 中的側連線
2021-09-17
Hadoop
hadoop的mapreduce串聯執行
2018-09-01
Hadoop
Hadoop（三）通過C#/python實現Hadoop MapReduce
2022-05-01
HadoopC#Python
從零開始學typescript— 自動編譯
2019-01-15
TypeScript編譯
Hadoop（十九）MapReduce OutputFormat 資料壓縮
2024-09-19
HadoopORM
Hadoop面試題總結（三）——MapReduce
2021-10-16
Hadoop面試題
如何從零基礎自學到獲得第一份程式設計工作？
2019-02-11
程式設計
第一章：Hadoop生態系統及執行MapReduce任務介紹！
2018-09-04
Hadoop
Hadoop的mapreduce出現問題，報錯The auxService:mapreduce_shuffle does not exist
2020-12-24
HadoopUX
Hadoop之MapReduce2架構設計
2018-05-28
Hadoop架構
談談Hadoop MapReduce和Spark MR實現
2020-07-27
HadoopSpark
5分鐘從零構建第一個 Apache Flink 應用
2019-05-07
Apache
從零開始構建自己的第一個vue專案
2021-01-03
Vue
【Python零基礎】19天從零開始學Python——第一天
2020-11-20
Python
hadoop之mapreduce.input.fileinputformat.split.minsize引數
2018-10-24
HadoopORM
Hadoop之MapReduce2基礎梳理及案例
2018-05-28
Hadoop
2018-08-16 易語言學習-第一個程式-七夕表白
2018-08-17
小白學習大資料測試之hadoop hdfs和MapReduce小實戰
2018-09-03
大資料Hadoop
hadoop第一課
2018-03-14
Hadoop
Hadoop框架：MapReduce基本原理和入門案例
2020-11-22
Hadoop框架
Hadoop 三劍客之 —— 分散式計算框架 MapReduce
2019-06-27
Hadoop分散式框架
從零學習SpringSecurity
2021-07-19
SpringGse
暑期自學 Day 08 | Junit，反射，註解（二）
2020-05-16
反射
從Hadoop框架與MapReduce模式中談海量資料處理（含淘寶技術架構）
2018-04-19
Hadoop框架模式架構
Spark與Hadoop MapReduce相比，有哪些優點你知道嗎？
2019-01-30
SparkHadoop
在Docker容器中使用Hadoop執行Python MapReduce作業
2022-05-12
DockerHadoopPython
從零開始學Python
2022-04-10
Python

從零自學Hadoop(08)：第一個MapReduce

閱讀目錄

序

資料準備

一：說明

二：造資料

三：上傳

wordcount

一：官網示例

二：找到示例

四：進入目錄

五：執行

Yarn

一：介紹

二：Yarn命令

新建MapReduce

一：通過外掛新建工程

二：新建WordCountEx類

三：新建Mapper

四：新建Reduce

五：新建Main

六：匯出jar包

七：放入Linux

八：執行

九：匯出不指定main入口的jar包

十：執行2

十一：結果

示例下載

系列索引

相關文章