高可用Hadoop平臺－啟航

哥不是小蘿莉發表於2015-03-13

原文網址 : http://www.cnblogs.com/smartloli/p/4335171.html

1.概述

　　在上篇部落格中，我們搭建了《配置高可用Hadoop平臺》，接下來我們就可以駕著Hadoop這艘巨輪在大資料的海洋中遨遊了。工欲善其事，必先利其器。是的，沒錯；我們開發需要有開發工具（IDE）；本篇文章，我打算講解如何搭建和使用開發環境，以及編寫和講解WordCount這個例子，給即將在Hadoop的海洋馳騁的童鞋入個門。上次，我在《網站日誌統計案例分析與實現》中說會將原始碼放到Github，後來，我考慮了下，決定將《高可用的Hadoop平臺》做一個系列，後面基於這個平臺，我會單獨寫一篇來贅述具體的實現過程，和在實現過程中遇到的一些問題，以及解決這些問題的方案。下面我們開始今天的啟航。

2.啟航

　　IDE：JBoss Developer Studio 8.0.0.GA （Eclipse的升級版，Redhat公司出的）

　　JDK：1.7（或1.8）

　　Hadoop2x-eclipse-plugin：這個外掛，本地單元測試或自己做學術研究比較好用

　　外掛下載地址：https://github.com/smartdengjie/hadoop2x-eclipse-plugin

　　由於JBoss Developer Studio 8基本適合於Retina屏，所以，我們這裡直接使用JBoss Developer Studio 8，JBoss Developer Studio 7對Retina屏的支援不是很完美，這裡就不贅述了。

　　附上一張IDE的截圖：

2.1安裝外掛

　　下面我們開始安裝外掛，首先展示首次開啟的介面，如下圖所示：

　　然後，我們到上面給的Github的地址，clone整個工程，裡面有編譯好的jar和原始碼，可自行選擇（使用已存在的和自己編譯對應的版本），這裡我直接使用編譯好的版本。我們將jar放到IDE的plugins目錄下，如下圖所示：

　　接著，我們重啟IDE，介面出現如下圖所示的，即表示外掛新增成功，若沒有，檢視IDE的啟動日誌，根據異常日誌定位出原因。

2.2設定Hadoop外掛

　　配置資訊如下所示（已在圖中說明）：

　　新增本地的hadoop原始碼目錄：

　　到這裡，IDE和外掛的搭建就完成了，下面我們進入一段簡單的開發，hadoop的原始碼中提供了許多example讓我學習，這裡我以WordCount為例子來說明：

3.WordCount

　　首先我們看下hadoop的原始碼檔案目錄，如下圖所示：

3.1原始碼解讀

package cn.hdfs.mr.example;

import java.io.IOException;
import java.util.Random;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import cn.hdfs.utils.ConfigUtils;

/**
 * 
 * @author dengjie
 * @date 2015年03月13日
 * @description Wordcount的例子是一個比較經典的mapreduce例子，可以叫做Hadoop版的hello world。
 *              它將檔案中的單詞分割取出，然後shuffle，sort（map過程），接著進入到彙總統計
 *              （reduce過程），最後寫道hdfs中。基本流程就是這樣。
 */
public class WordCount {

    private static Logger log = LoggerFactory.getLogger(WordCount.class);

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    /*
     * 原始檔：a b b
     * 
     * map之後：
     * 
     * a 1
     * 
     * b 1
     * 
     * b 1
     */
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        StringTokenizer itr = new StringTokenizer(value.toString());// 整行讀取
        while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());// 按空格分割單詞
        context.write(word, one);// 每次統計出來的單詞+1
        }
    }
    }

    /*
     * reduce之前：
     * 
     * a 1
     * 
     * b 1
     * 
     * b 1
     * 
     * reduce之後:
     * 
     * a 1
     * 
     * b 2
     */
    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
        sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
    }

    @SuppressWarnings("deprecation")
    public static void main(String[] args) throws Exception {
    Configuration conf1 = new Configuration();
    Configuration conf2 = new Configuration();
    long random1 = new Random().nextLong();// 重定下輸出目錄1
    long random2 = new Random().nextLong();// 重定下輸出目錄2
    log.info("random1 -> " + random1 + ",random2 -> " + random2);
    Job job1 = new Job(conf1, "word count1");
    job1.setJarByClass(WordCount.class);
    job1.setMapperClass(TokenizerMapper.class);// 指定Map計算的類
    job1.setCombinerClass(IntSumReducer.class);// 合併的類
    job1.setReducerClass(IntSumReducer.class);// Reduce的類
    job1.setOutputKeyClass(Text.class);// 輸出Key型別
    job1.setOutputValueClass(IntWritable.class);// 輸出值型別  

    Job job2 = new Job(conf2, "word count2");
    job2.setJarByClass(WordCount.class);
    job2.setMapperClass(TokenizerMapper.class);
    job2.setCombinerClass(IntSumReducer.class);
    job2.setReducerClass(IntSumReducer.class);
    job2.setOutputKeyClass(Text.class);
    job2.setOutputValueClass(IntWritable.class);
    // FileInputFormat.addInputPath(job, new
    // Path(String.format(ConfigUtils.HDFS.WORDCOUNT_IN, "test.txt")));
    // 指定輸入路徑
    FileInputFormat.addInputPath(job1, new Path(String.format(ConfigUtils.HDFS.WORDCOUNT_IN, "word")));
    // 指定輸出路徑
    FileOutputFormat.setOutputPath(job1, new Path(String.format(ConfigUtils.HDFS.WORDCOUNT_OUT, random1)));
    FileInputFormat.addInputPath(job2, new Path(String.format(ConfigUtils.HDFS.WORDCOUNT_IN, "word")));
    FileOutputFormat.setOutputPath(job2, new Path(String.format(ConfigUtils.HDFS.WORDCOUNT_OUT, random2)));

    boolean flag1 = job1.waitForCompletion(true);// 執行完MR任務後退出應用
    boolean flag2 = job1.waitForCompletion(true);
    if (flag1 && flag2) {
        System.exit(0);
    } else {
        System.exit(1);
    }

    }
}

4.總結

　　這篇文章就和大家分享到這裡，如果在研究的過程有什麼問題，可以加群討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

Hadoop框架：HDFS高可用環境配置
2020-10-27
Hadoop框架
基於 ZooKeeper 搭建 Hadoop 高可用叢集
2019-06-25
Hadoop
高效能、高可用平臺架構演變史
2018-07-29
架構
最大個人直播平臺Twitch如何實現99.99%高可用性？
2022-03-04
1.搭建Hadoop實驗平臺
2021-01-22
Hadoop
黑猴子的家：Hadoop NameNode 高可用 (High Availability) 實現解析
2018-09-05
HadoopAI
當前有哪些可用的AutoML平臺？
2019-12-12
TOML
大資料平臺Hadoop叢集搭建
2020-09-28
大資料Hadoop
大資料和Hadoop平臺介紹
2020-11-22
大資料Hadoop
Hadoop大資料平臺之HBase部署
2020-11-24
Hadoop大資料
Hadoop大資料平臺之Kafka部署
2020-11-24
Hadoop大資料Kafka
EMR：一體化Hadoop雲上工作平臺
2018-09-06
Hadoop
Hadoop大資料平臺有何優勢？
2023-10-20
Hadoop大資料
PostgreSQL repmgr高可用叢集+keepalived高可用
2020-09-02
SQL
Hadoop系列之Hbase的高可用完全分佈模式的安裝（六）
2018-11-25
Hadoop模式
基於Centos7.x平臺搭建PhxSQL+Atlas+MySQL高可用資料庫架構
2021-05-25
CentOSMySql資料庫架構
生命科學領域新工具：北鯤雲超算平臺，夢啟航的地方
2021-07-09
大資料基礎Hadoop 3.1.1 的高可用HA安裝～踩坑記錄
2019-01-15
大資料Hadoop
EurekaServer高可用
2018-06-15
Server
Keepalived 高可用
2024-06-24
能否利用Hadoop搭建完整的雲端計算平臺
2018-04-10
Hadoop
大資料平臺基礎架構hadoop安全分析
2019-03-04
大資料架構Hadoop
什麼是高可用？高可用軟體哪家好？
2022-10-24
高併發、高可用、彈性擴充套件，天翼雲護航企業雲上業務
2022-06-27
套件
高可用系列文章之三 - NGINX 高可用實施方案
2022-12-19
Nginx
高通晶片平臺進9008埠
2024-04-10
晶片
短視訊平臺原始碼，透明導航欄 AppBar
2021-11-10
原始碼APP
觀點:Gartner只是否定Hadoop一體化平臺模式
2018-05-07
Hadoop模式
hadoop大資料平臺安全基礎知識入門
2019-08-05
Hadoop大資料
StackGres 資料庫平臺工程，使用 Citus + Patroni 建立生產級高可用分散式 PostgreSQL 分片叢集
2023-12-05
資料庫分散式SQL
高可用架構
2024-09-14
架構
nt高可用部署
2024-06-15
Redis高可用 Sentinel
2018-04-02
Redis
MMM高可用配置
2024-06-30
媒介啟航：軟文釋出平臺已是當前企業宣傳的不二選擇
2021-12-23
LightDB-高可用主庫常規維護重啟操作
2022-05-07
spring cloud構建網際網路分散式微服務雲平臺-高可用的服務註冊中心
2019-02-25
SpringCloud分散式微服務
4款免費可用的資料整合平臺亮點
2024-04-03
高通MDM平臺開發入門
2018-11-01