第七篇：經典案例：資料去重

穆晨發表於2017-05-20

需求

去除掉海量檔案中的存在著的重複資料，並將結果輸出到單個檔案中。

比如有檔案1中有以下資料：

hello

name

檔案2中有以下資料

name

檔案3中有以下資料

name

fangmeng

那麼結果檔案的內容應當如下(順序不保證一致)：

hello

name

fangmeng　　

方案制定

Map階段：

1. 獲取到輸入後，按照預設原則切分輸入。

2. 將切分後的value設定為map中間輸出的key，而map中間輸出的value為空值。

Shuffle階段讓具有相同的key的map中間輸出彙集到同一個reduce節點上

Reduce階段：

將獲取到的鍵值對的第一個鍵取出，作為reduce輸出的鍵，值依然為空，或者你也可以輸出鍵值對的個數。

注意是第一個鍵。因為會傳遞過來很多鍵值對 - 他們都有同樣的鍵，只用選取第一個鍵就夠了。

這和其他案例中需要依次遍歷Shuffle階段傳遞過來的中間鍵值對進行計算的模式是不同的。

程式碼示例

 1 package org.apache.hadoop.examples;
 2 
 3 import java.io.IOException;
 4 
 5 //匯入各種Hadoop包
 6 import org.apache.hadoop.conf.Configuration;
 7 import org.apache.hadoop.fs.Path;
 8 import org.apache.hadoop.io.Text;
 9 import org.apache.hadoop.mapreduce.Job;
10 import org.apache.hadoop.mapreduce.Mapper;
11 import org.apache.hadoop.mapreduce.Reducer;
12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
13 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
14 import org.apache.hadoop.util.GenericOptionsParser;
15 
16 // 主類
17 public class Dedup {
18         
19     // Mapper類
20     public static class Map extends Mapper<Object, Text, Text, Text>{
21         
22         // new一個值為空的Text物件
23         private static Text line = new Text();
24                 
25         // 實現map函式
26         public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
27             
28             // 將切分後的value作為中間輸出的key
29             line = value;
30             context.write(line, new Text(""));
31         }
32     }
33         
34     // Reducer類
35     public static class Reduce extends Reducer<Text,Text,Text,Text> {
36     
37         // 實現reduce函式
38         public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
39                 
40             // 僅僅輸出第一個Key
41             context.write(key, new Text(""));
42         }
43     }
44 
45     // 主函式
46     public static void main(String[] args) throws Exception {
47     
48         // 獲取配置引數
49         Configuration conf = new Configuration();
50         String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
51                 
52         // 檢查命令語法
53         if (otherArgs.length != 2) {
54             System.err.println("Usage: Dedup <in> <out>");
55             System.exit(2);
56         }
57 
58         // 定義作業物件
59         Job job = new Job(conf, "Dedup");
60         // 註冊分散式類
61         job.setJarByClass(Dedup.class);
62         // 註冊Mapper類
63         job.setMapperClass(Map.class);
64         // 註冊合併類
65         job.setCombinerClass(Reduce.class);
66         // 註冊Reducer類
67         job.setReducerClass(Reduce.class);
68         // 註冊輸出格式類
69         job.setOutputKeyClass(Text.class);
70         job.setOutputValueClass(Text.class);
71         // 設定輸入輸出路徑
72         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
73         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
74                 
75         // 執行程式
76         System.exit(job.waitForCompletion(true) ? 0 : 1);
77     }
78 }

執行結果

小結

去重在日誌分析中有非常廣泛的應用，本例也是MapReduce程式的一個經典範例。

全球十大農業大資料經典案例
2018-11-16
大資料
MySQL去重資料
2020-05-31
MySql
JavaScript經典案例（二）
2018-08-27
JavaScript
MySQL經典案例分析
2021-10-17
MySql
C#資料去重
2024-04-27
C#
Java基礎經典案例
2021-01-04
Java
MySQL 資料庫“十宗罪”（十大經典錯誤案例）
2018-12-21
MySql資料庫
Python入門經典案例一
2018-09-24
Python
C++ 經典案例1例
2023-11-02
C++
Linux 【Shell指令碼經典案例】
2020-09-15
Linux指令碼
OpenCV之C++經典案例
2022-11-24
OpenCVC++
資料恢復經典案例分析-raid兩塊硬碟離線恢復
2018-12-03
資料恢復AI硬碟
資料安全秘籍：500強企業的經典傳輸案例大揭秘
2024-11-05
大資料去重（data deduplication）方案
2021-02-09
大資料
Oracle:重複資料去重，只取最新的一條資料
2024-09-27
Oracle
資料校驗---記一次讀取json配置資料，資料去重，去空
2019-03-25
JSON
【MySQL經典案例分析】關於資料行溢位由淺至深的探討
2018-12-27
MySql
深入理解負載均衡經典案例
2019-03-01
負載
關於AWK的10個經典案例
2019-08-21
大資料經典學習路線
2019-01-23
大資料
經典資料分析應用介紹
2023-12-11
ClickHouse 實時資料去重final+group by
2020-11-25
解析postgresql 刪除重複資料案例
2022-01-12
SQL
JavaScript經典案例：鍵盤控制元素移動
2020-11-25
JavaScript
大資料經典學習路線，必看！！
2019-04-11
大資料
人工智慧領域經典資料集
2018-06-12
人工智慧
MySQL多列欄位去重的案例實踐
2023-05-16
MySql
KaiwuDB 時序引擎資料去重功能詳解
2023-12-25
AI
【資料結構與演算法】三個經典案例帶你瞭解動態規劃
2020-10-17
資料結構演算法動態規劃
【經典案例】Python詳解設計模式：策略模式
2019-04-22
Python設計模式
資料探勘十大經典演算法
2020-11-03
演算法
10W資料匯入該如何與庫中資料去重？
2024-08-16
【Flink】基於 Flink 的流式資料實時去重
2024-10-11
【vsan資料恢復】vsan資料重構失敗的資料恢復案例
2022-12-30
資料恢復
5大資料經典模型詳解——資料分析師必須掌握
2021-03-16
大資料模型
30個關於Shell指令碼的經典案例（中）
2019-09-10
指令碼
30個關於Shell指令碼的經典案例（上）
2019-09-06
指令碼
30個關於Shell指令碼的經典案例（下）
2019-09-14
指令碼
09_ClickHouse,ReplacingMergeTree,案例,根據排序鍵去重,使用版本引數的去重(學習筆記)
2020-12-09
排序筆記

第七篇：經典案例：資料去重

需求

方案制定

程式碼示例

執行結果

小結

相關文章