map/reduce實現資料去重

林六天發表於2014-07-07

  1 import java.io.IOException;
  2 
  3 import org.apache.hadoop.conf.Configuration;
  4 import org.apache.hadoop.conf.Configured;
  5 import org.apache.hadoop.fs.Path;
  6 import org.apache.hadoop.io.LongWritable;
  7 import org.apache.hadoop.io.Text;
  8 import org.apache.hadoop.mapreduce.Job;
  9 import org.apache.hadoop.mapreduce.Mapper;
 10 import org.apache.hadoop.mapreduce.Reducer;
 11 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 12 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
 13 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 14 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 15 import org.apache.hadoop.util.Tool;
 16 import org.apache.hadoop.util.ToolRunner;
 17 public class Dedpu extends Configured implements Tool {
 18 /**
 19  * 資料去重
 20  * 資料樣例：
 21  * 輸入資料
 22  * 2006-6-9 a
 23  * 2006-6-10 b
 24  * 2006-6-9 a
 25  * 結果資料
 26  * 2006-6-9 a
 27  * 2006-6-10 b
 28  * 設計思路：
 29  * Map階段 <時間，字元>
 30  * Reduce階段輸入<時間，list<字元>>，去除重複的字元，輸出
 31  * 
 32  * **/
 33     public static class Map extends Mapper<LongWritable,Text,Text,Text>{
 34         public void map(LongWritable key,Text value,Context context)throws IOException, InterruptedException{
 35             String line=value.toString();
 36             Text myvalue=new Text("");
 37             context.write(new Text(line), myvalue);
 38 //            StringTokenizer tokenizer=new StringTokenizer(line);
 39 //            String datestr="",datastr="";
 40 //            while(tokenizer.hasMoreTokens())
 41 //            {
 42 //                datestr=tokenizer.nextToken();
 43 //                datastr=tokenizer.nextToken();
 44 //                context.write(new Text(datestr), new Text(datastr));
 45 //                
 46 //            }
 47         }
 48         
 49     }
 50     
 51     public static class Reduce extends Reducer<Text,Text,Text,Text>{
 52         public void reduce(Text key,Iterable<Text>values,Context context)throws IOException,InterruptedException{
 53 
 54             context.write(key, new Text(""));
 55 //            ArrayList  arr=new ArrayList();
 56 //            Text mykey=key;
 57 //            for(Text txt:values)
 58 //            {
 59 //                
 60 //                if(!arr.contains(txt.toString())){
 61 //                    arr.add(txt.toString());
 62 //                }
 63 //                    
 64 //                
 65 //            }
 66 //            for(int i=0;i<arr.size();i++){
 67 //                context.write(mykey, new Text(arr.get(i).toString()));
 68 //                
 69 //            }
 70             
 71         
 72             
 73         }
 74         
 75     }
 76     
 77     public int run(String[] args)throws Exception
 78     {
 79         Configuration conf=new Configuration();
 80         Job job=new Job(conf,"Data Depution");
 81         job.setJarByClass(Dedpu.class);
 82         
 83         job.setMapperClass(Map.class);
 84         job.setCombinerClass(Reduce.class);
 85         job.setReducerClass(Reduce.class);
 86         
 87         job.setOutputKeyClass(Text.class);
 88         job.setOutputValueClass(Text.class);
 89         
 90         job.setInputFormatClass(TextInputFormat.class);
 91         job.setOutputFormatClass(TextOutputFormat.class);
 92         
 93         FileInputFormat.setInputPaths(job, new Path(args[0]));
 94         FileOutputFormat.setOutputPath(job, new Path(args[1]));
 95         
 96         boolean success=job.waitForCompletion(true);
 97         return success?0:1;
 98         
 99     }
100     
101     public static void main(String[] args) throws Exception{
102         int ret=ToolRunner.run(new Dedpu(), args);
103         System.exit(ret);
104     }
105 }

Map-Reduce資料分析之二
2018-11-19
reduce實現filter,map 陣列扁平化等
2019-04-30
Filter陣列
【大資料】深入原始碼解析Map Reduce的架構
2020-09-23
大資料原始碼架構
JS Array.reduce 實現 Array.map 和 Array.filter
2018-12-08
JSFilter
MySQL去重資料
2020-05-31
MySql
[翻譯]map和reduce，處理資料結構的利器
2019-02-25
資料結構
在幕後看看Swift中的Map，Filter和Reduce的實現
2019-02-21
SwiftFilter
Hadoop Map Reduce 漫談
2018-10-30
Hadoop
forEach、map、reduce比較
2018-12-10
ClickHouse 實時資料去重final+group by
2020-11-25
JS實現陣列去重
2019-04-11
JS陣列
如何實現陣列去重？
2018-10-23
陣列
C#資料去重
2024-04-27
C#
例項講解hadoop中的map/reduce查詢(python語言實現
2021-09-09
HadoopPython
JS陣列去重的實現
2020-09-09
JS陣列
JavaScript map和reduce的區別
2024-11-22
JavaScript
分散式計算與Map Reduce
2021-01-03
分散式
python內建函式 map/reduce
2019-02-16
Python函式
【Flink】基於 Flink 的流式資料實時去重
2024-10-11
MapReduce實現之Reduce端重分割槽Join操作最佳化！
2018-11-07
【資料庫】PostgreSQL中使用`SELECT DISTINCT`和`SUBSTRING`函式實現去重查詢
2024-03-28
資料庫SQL函式
7種方法實現陣列去重
2018-05-05
陣列
大資料去重（data deduplication）方案
2021-02-09
大資料
Oracle:重複資料去重，只取最新的一條資料
2024-09-27
Oracle
map、reduce、filter、for...of、for...in等總結
2019-01-23
Filter
資料校驗---記一次讀取json配置資料，資料去重，去空
2019-03-25
JSON
Java : List中根據map的某個key去重
2018-07-26
Java
五、GO程式設計模式：MAP-REDUCE
2022-02-06
Go程式設計設計模式
javascript高階函式---filter---map---reduce
2020-10-25
JavaScript函式Filter
JavaScript（1）高階函式filter、map、reduce
2021-06-30
JavaScript函式Filter
GO程式設計模式05：MAP-REDUCE
2020-12-30
Go程式設計設計模式
Python學習筆記 - filter，map，reduce，zip
2019-01-07
Python筆記Filter
python之高階函式map，reduce，filter用法
2018-08-11
Python函式Filter
python-python的sao操作 map reduce filter
2018-07-18
PythonFilter
陣列的 map, filter ，sort和 reduce 用法
2018-07-29
陣列Filter
JavaScript實現陣列去重的常見方式
2019-06-02
JavaScript陣列
[譯] 圖解 Map、Reduce 和 Filter 陣列方法
2019-04-11
圖解Filter陣列
理解Swift高階函式之map, filter, reduce
2018-03-11
Swift函式Filter
【web前端】自己實現Array.reduce()
2018-08-06
Web前端

map/reduce實現資料去重

相關文章