大資料學習日記day1

Chaos_001發表於2017-08-21

複習

hdfs的讀寫
secondary namenode的工作原理
shell指令碼定時採集資料到hdfs

mapreduce

是一個程式設計框架
分為兩個階段：
1. map階段，task併發例項各司其職
2. reduce階段，task併發例項依然各司其職，但依賴第一階段的task併發例項
mapreduce只能分為1個map階段和1個reduce階段
可以通過多個mapreduce串聯解決大型複雜問題
mr application master的作用

實踐

wordcount案例
1. mapper類

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    //map方法的生命週期：  框架每傳一行資料就被呼叫一次
    //key :  這一行的起始點在檔案中的偏移量
    //value: 這一行的內容
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //拿到一行資料轉換為string
        String line = value.toString();
        //將這一行切分出各個單詞
        String[] words = line.split(" ");
        //遍歷陣列，輸出<單詞，1>
        for(String word:words){
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

2. reducer類

//生命週期：框架每傳遞進來一個kv 組，reduce方法被呼叫一次
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //定義一個計數器
        int count = 0;
        //遍歷這一組kv的所有v，累加到count中
        for(IntWritable value:values){
            count += value.get();
        }
        context.write(key, new IntWritable(count));
    }
}

3.  定義一個主類，用來描述job並提交job

    //把業務邏輯相關的資訊（哪個是mapper，哪個是reducer，要處理的資料在哪裡，輸出的結果放哪裡……）描述成一個job物件
    //把這個描述好的job提交給叢集去執行
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job wcjob = Job.getInstance(conf);
        //指定我這個job所在的jar包
//      wcjob.setJar("/home/hadoop/wordcount.jar");
        wcjob.setJarByClass(WordCountRunner.class);

        wcjob.setMapperClass(WordCountMapper.class);
        wcjob.setReducerClass(WordCountReducer.class);
        //設定我們的業務邏輯Mapper類的輸出key和value的資料型別
        wcjob.setMapOutputKeyClass(Text.class);
        wcjob.setMapOutputValueClass(IntWritable.class);
        //設定我們的業務邏輯Reducer類的輸出key和value的資料型別
        wcjob.setOutputKeyClass(Text.class);
        wcjob.setOutputValueClass(IntWritable.class);

        //指定要處理的資料所在的位置
        FileInputFormat.setInputPaths(wcjob, "hdfs://hdp-server01:9000/wordcount/data/big.txt");
        //指定處理完成之後的結果所儲存的位置
        FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://hdp-server01:9000/wordcount/output/"));

        //向yarn叢集提交這個job
        boolean res = wcjob.waitForCompletion(true);
        System.exit(res?0:1);
    }

用debug追蹤FileInputFormat()的執行

【大資料學習日記】Spark之shuffle調優
2018-01-19
大資料Spark
大資料學習筆記（四）
2018-01-27
大資料筆記
大資料學習筆記（五）
2018-01-27
大資料筆記
大資料學習筆記（六）
2018-01-29
大資料筆記
大資料學習筆記（十五）-大資料排程框架
2017-12-27
大資料筆記框架
大資料學習筆記（十七）-MapReduce
2018-01-04
大資料筆記
大資料學習筆記（十八）-MRUnit
2018-01-05
大資料筆記
Java 學習筆記--Day1
2019-03-23
Java筆記
TA學習記錄Day1
2021-01-05
大資料學習資料
2022-11-22
大資料
大資料教程分享Actor學習筆記
2020-06-04
大資料筆記
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
大資料學習筆記（十四）-Sqoop
2017-12-25
大資料筆記OOP
電商大資料學習筆記：理論
2016-05-02
大資料筆記
電商大資料學習筆記：實戰
2016-05-02
大資料筆記
大資料學習
2019-01-08
大資料
大周H的前端學習day1
2020-10-15
前端
大資料學習筆記（十三）-Hive高階
2017-12-20
大資料筆記Hive
學習日記
2007-03-02
大資料學習大綱，大資料應該怎麼學
2019-05-20
大資料
大資料學習：物件
2019-10-11
大資料物件
如何學習大資料？
2017-12-05
大資料
大資料學習02
2024-07-19
大資料
Python學習日記-資料型別和變數
2017-12-21
Python資料型別變數
想學習大資料？這才是完整的大資料學習體系
2019-05-11
大資料
大資料如何學習，大資料工程師學習經驗分享
2018-11-06
大資料工程師
OpenCV影像處理學習筆記-Day1
2020-09-28
OpenCV筆記
Flutter學習日記
2020-02-29
Flutter
JDBC學習日記
2021-09-09
JDBC
flashback學習日記
2014-09-19
SAP 學習日記
2005-01-26
學習日記-9.2
2024-09-03
大資料學習：怎樣進行大資料的入門級學習？
2019-10-11
大資料
大資料學習：閉包
2019-10-11
大資料
大資料學習：抽象類
2019-10-11
大資料抽象
大資料學習路線
2019-06-03
大資料
大資料學習目錄
2018-06-21
大資料
大資料分析學習之路
2016-12-11
大資料

大資料學習日記day1

複習

mapreduce

實踐

相關文章