Hadoop--map/reduce實現單詞計數

林六天發表於2014-07-07

原文網址 : https://www.cnblogs.com/6tian/p/3829188.html

 1 import org.apache.hadoop.fs.Path;
 2 import org.apache.hadoop.io.*;
 3 import org.apache.hadoop.mapred.*;
 4 
 5 import java.io.IOException;
 6 import java.util.*;
 7 
 8 public class WordCount {
 9 
10     /*
11      * 實現輸入內容單詞的計數功能
12      * 一、mapper方法將輸入內容處理為<key1,value1>形式
13      * 二、reduce方法接收mapper的結果，將相同key1的value值相加得到單詞的個數
14      * 三、輸出得到的結果到hdfs中
15      * 
16      * */
17     
18     //main函式
19     public static void main(String[] args) throws Exception{
20         JobConf conf=new JobConf(WordCount.class);
21         conf.setJobName("WordCount");
22         conf.setOutputKeyClass(Text.class);
23         conf.setOutputValueClass(IntWritable.class);
24         
25         conf.setMapperClass(Map.class);
26         conf.setReducerClass(Reduce.class);
27         
28         conf.setInputFormat(TextInputFormat.class);
29         conf.setOutputFormat(TextOutputFormat.class);
30         
31         FileInputFormat.setInputPaths(conf,new Path(args[0]));
32         FileOutputFormat.setOutputPath(conf, new Path(args[1]));
33         
34         JobClient.runJob(conf);
35         
36     }
37     
38     //map函式
39     public static class Map extends MapReduceBase implements Mapper<LongWritable,Text,
40     Text,IntWritable>{
41         private final static IntWritable one=new IntWritable(1);
42         private Text word=new Text();
43         
44         public void map(LongWritable key,Text value, 
45         OutputCollector<Text,IntWritable>output,Reporter reporter)throws IOException{
46             String line=value.toString();
47             StringTokenizer tokenizer=new StringTokenizer(line);
48             while(tokenizer.hasMoreTokens()){
49                 word.set(tokenizer.nextToken());
50                 output.collect(word, one);
51                 
52             }
53             
54         }
55         
56     }
57     
58     //reduce函式
59     public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,
60     Text,IntWritable>{
61         public void reduce(Text key,Iterator<IntWritable>values,OutputCollector<Text,
62         IntWritable>output,Reporter repoter) throws IOException{
63             int sum=0;
64             while(values.hasNext()){
65                 sum+=values.next().get();
66             }
67             output.collect(key,new IntWritable(sum));
68         }
69     }
70     
71     
72     
73 }

統計檔案中出現的單詞次數
2018-03-29
使用map：單詞計數程式
2020-10-27
C++ 統計單詞數
2024-09-10
C++
Spark 從零到開發（四）單詞計數的三種環境實現
2018-08-18
Spark
python實現簡單猜單詞遊戲
2022-04-29
Python遊戲
python實現詞頻統計
2020-12-08
Python
呼叫MapReduce對檔案中單詞出現次數進行統計
2020-12-16
python 實現中文分詞統計
2019-02-16
Python中文分詞
【web前端】自己實現Array.reduce()
2018-08-06
Web前端
實驗一原型設計--背單詞APP
2024-04-14
原型APP
Array.prototype.reduce 的理解與實現
2018-12-16
利用python內建函式，快速統計單詞在文字中出現的次數
2021-09-09
Python函式
超越單詞計數：上下文位置編碼CoPE
2024-05-30
超簡單整合ML kit 實現聽寫單詞播報
2020-06-30
**呼叫MapReduce對檔案中各個單詞出現的次數進行統計**
2020-12-20
Java 實現《編譯原理》簡單詞法分析功能
2019-06-13
Java編譯原理詞法分析
python統計英文文字中的迴文單詞數
2020-05-13
Python
精讀《用 Reduce 實現 Promise 序列執行》
2018-10-29
Promise
C++實現以秒為單位的計數器
2020-12-27
C++
統計英文名著中單詞出現頻率
2018-06-03
Flink 熱詞統計(1): 基礎功能實現
2019-05-01
Spark-stream基礎---sparkStreaming和Kafka整合wordCount單詞計數
2019-04-12
SparkKafka
zzulioj:1133:單詞個數統計(python)我有點皮！！嘿嘿
2020-12-17
Python
期末大作業關於利用hadoop來統計單詞數目
2020-12-20
Hadoop
reduce實現filter,map 陣列扁平化等
2019-04-30
Filter陣列
計數排序 -- GoLang實現
2020-11-07
排序Golang
在Linux中呼叫MapReduce對檔案中各個單詞出現次數進行統計
2020-12-20
Linux
使用Selenium+POI實現Excel自動化批量查單詞
2018-11-23
Excel
使用 FastText 實現詞嵌入
2024-05-15
AST
LeetCode-434-字串中的單詞數
2021-10-17
LeetCode字串
Java引用計數與實現
2018-08-04
Java
單詞
2024-10-12
高亮：單關鍵詞、多關鍵詞、多組多關鍵詞，從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
2018-12-27
Python中的Map、Reduce和Filter函數語言程式設計
2021-09-13
PythonFilter函數程式設計
JS Array.reduce 實現 Array.map 和 Array.filter
2018-12-08
JSFilter
Pig 實現關鍵詞匹配
2020-03-02
如何實現一個詞雲
2021-09-23
瓦爾登湖單詞統計+排序
2020-11-15
排序
分散式計算與Map Reduce
2021-01-03
分散式

Hadoop--map/reduce實現單詞計數

相關文章