Scala開發Hadoop示例

rilley發表於2016-04-25

import org.apache.hadoop.conf.{Configuration, Configured};
import org.apache.hadoop.util.{ToolRunner, Tool};
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.io.{LongWritable, Text, IntWritable};
import org.apache.hadoop.mapreduce.{Reducer, Mapper, Job};
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;


/**
 * Created with IntelliJ IDEA.
 * User: riley
 * Date: 8/26/13
 * Time: 1:58 PM
 */
object WordCount extends Configured with Tool
{
    class Map extends Mapper[LongWritable, Text, Text, IntWritable]
    {
        private val one: IntWritable = new IntWritable(1);
        private var word: Text;

        override def map(key: LongWritable, rowLine: Text, context: Mapper[LongWritable, Text, Text, IntWritable]#Context)
        {
            val line = rowLine.toString();
            if (line.isEmpty) return;

            val tokens: Array[String] = line.split(" ");
            for (item: String <- tokens) {
                word.set(item);
                context.write(word, one);
            }
        }
    }

    class Reduce extends Reducer[Text, IntWritable, Text, IntWritable]
    {
        private var count: IntWritable = new IntWritable();

        override def reduce(key: Text, values: Iterable[IntWritable], context: Reducer[Text, IntWritable, Text, IntWritable]#Context)
        {
            var sum: Int = 0;

            for (i: IntWritable <- values) sum = sum + i.get();

            count.set(sum);
            context.write(key, count);
        }
    }

    def run(args: Array[String]) =
    {
        val conf = super.getConf();
        val job = new Job(conf, "WordCount");

        job.setJarByClass(this.getClass);
        job.setOutputKeyClass(classOf[Text]);
        job.setOutputValueClass(classOf[IntWritable]);

        job.setMapperClass(classOf[Map]);
        job.setReducerClass(classOf[Reduce]);
        job.setCombinerClass(classOf[Reduce]);

        FileInputFormat.addInputPath(job, new Path(args(0)));
        FileOutputFormat.setOutputPath(job, new Path(args(1)));

        val status = job.waitForCompletion(true);
        if (status) 0 else 1;
    }

    def main(args: Array[String])
    {
        val conf: Configuration = new Configuration();
        System.exit(ToolRunner.run(conf, this, args));
    }
}

搭建scala開發環境
2015-03-04
開發環境
hadoop: hdfs API示例
2015-05-20
HadoopAPI
Intellij IDEA開發Scala程式
2023-11-21
IntelliJIdea
Scala開發之1：環境搭建
2020-10-14
快速開始執行Hadoop的示例程式WordCount
2015-05-03
Hadoop
TLS示例開發-golang版本
2019-07-18
TLSGolang
Hadoop 系列（四）—— Hadoop 開發環境搭建
2019-08-07
Hadoop開發環境
GIS Hadoop 開發案例（gis-tools-for-hadoop）
2015-04-13
Hadoop
IDEA開發Spark應用實戰(Scala)
2022-08-21
IdeaSpark
ubuntu下使用IntelliJ idea開發scala
2018-03-22
UbuntuIntelliJIdea
Mac下使用IntelliJ IDEA開發Scala
2017-01-14
MacIntelliJIdea
搭建Hadoop開發環境
2017-09-07
Hadoop開發環境
API介面開發簡述示例
2023-02-20
API
Github團隊開發示例(二)
2016-11-14
Github
Github團隊開發示例（一）
2016-11-08
Github
iStylePDF c#整合開發示例
2014-08-06
C#
Twitter開源其Scala最佳實踐Effective Scala
2012-02-08
spark開發環境搭建intellij+Scala+sbt
2017-06-15
Spark開發環境IntelliJ
IDEA使用Maven搭建spark開發環境（scala）
2017-12-27
IdeaMavenSpark開發環境
面向 Java 開發人員的 Scala 指南: 類操作
2008-05-19
Java
Hadoop專案開發筆錄
2014-12-30
Hadoop
Docker 下開發 hyperf 完整使用示例
2020-01-08
Docker
Java外掛開發入門示例
2009-08-13
Java
【Hadoop】：Windows下使用IDEA搭建Hadoop開發環境
2020-12-29
HadoopWindowsIdea開發環境
hadoop專案開發案例舉例
2019-01-27
Hadoop
mac搭建hadoop開發環境（二）
2020-09-23
MacHadoop開發環境
在eclipse中開發hadoop MapReduce
2014-12-19
EclipseHadoop
Android/iOS內嵌Unity開發示例
2020-07-09
AndroidiOSUnity
Hive 高階應用開發示例(一)
2020-09-07
Hive
[deviceone開發]-HeaderView和FooterView的示例
2016-09-19
devHeaderView
微信開發示例(連結資訊的接收)
2015-04-13
移動端報表JS開發示例
2016-04-07
JS
Direct Show 開發的一個示例 (轉)
2007-08-15
[AIAgent]白菜GPT支撐AutoGen開發示例
2024-03-08
AIGPT
Scala併發程式設計
2016-03-08
程式設計
hadoop3.x+scala+spark-mac血淚安裝經驗！！
2019-02-28
HadoopSparkMac
使用Scala開發Apache Kafka的TOP 20大最佳實踐！
2018-08-23
ApacheKafka
Hadoop-2.6.0 + Zookeeper-3.4.6 + HBase-0.98.9-hadoop2環境搭建示例
2015-02-07
Hadoop

Scala開發Hadoop示例

相關文章