MapReduce之自定義分割槽器Partitioner

孫晨c發表於2020-07-21

原文網址 : https://www.cnblogs.com/sunbr/p/13356378.html

問題引出

要求將統計結果按照條件輸出到不同檔案中（分割槽）。

比如：將統計結果按照手機歸屬地不同省份輸出到不同檔案中（分割槽）

預設Partitioner分割槽

public class HashPartitioner<K,V> extends Partitioner<K,V>{
	public int getPartition(K key,V value, int numReduceTasks){
		return (key.hashCode() & Integer.MAX VALUE) & numReduceTasks;
	}
}

預設分割槽是根據key的hashCode對ReduceTasks個數取模得到的。
使用者沒法控制哪個key儲存到哪個分割槽。

自定義Partitioner步驟

自定義類繼承Partitioner，重寫getPartition()方法

public class CustomPartitioner extends Partitioner<Text，FlowBea>{
	@Override 
	public int getPartition(Text key，FlowBean value，int numPartitions){
		//控制分割槽程式碼邏輯
		……
		return partition；
	}
}

在Job驅動類中，設定自定義Partitioner

job.setPartitionerClass(CustomPartitioner.class)

自定義Partition後，要根據自定義Partitioner的邏輯設定相應數量的ReduceTask

 job.setNumReduceTask(5);//假設需要分5個區

Partition分割槽案例實操

將統計結果按照手機歸屬地不同省份輸出到不同檔案中（分割槽）

輸入資料：
在這裡插入圖片描述

期望輸出資料：
手機號136、137、138、139開頭都分別放到一個獨立的4個檔案中，其他開頭的放到一個檔案中。所以總共分為5個檔案，也就是五個區。

相比於之前的自定義flowbean，這次自定義分割槽，只需要多編寫一個分割槽器，以及在job驅動類中設定分割槽器，mapper和reducer類不改變

MyPartitioner.java

/*
 * KEY, VALUE: Mapper輸出的Key-value型別
 */
public class MyPartitioner extends Partitioner<Text, FlowBean>{

	// 計算分割槽  numPartitions為總的分割槽數，reduceTask的數量
	// 分割槽號必須為int型的值，且必須符合 0<= partitionNum < numPartitions
	@Override
	public int getPartition(Text key, FlowBean value, int numPartitions) {
		
		String suffix = key.toString().substring(0, 3);//前開後閉，取手機號前三位數
		
		int partitionNum=0;//分割槽編號
		
		
		switch (suffix) {
		case "136":
			partitionNum=numPartitions-1;//由於分割槽編號不能大於分割槽總數，所以用這種方法比較好
			break;
		case "137":
			partitionNum=numPartitions-2;
			break;
		case "138":
			partitionNum=numPartitions-3;
			break;
		case "139":
			partitionNum=numPartitions-4;
			break;

		default:
			break;
		}

		return partitionNum;
	}

}

FlowBeanDriver.java

public class FlowBeanDriver {
	
	public static void main(String[] args) throws Exception {
		
		Path inputPath=new Path("e:/mrinput/flowbean");
		Path outputPath=new Path("e:/mroutput/partitionflowbean");
		
		//作為整個Job的配置
		Configuration conf = new Configuration();
		
		//保證輸出目錄不存在
		FileSystem fs=FileSystem.get(conf);
		
		if (fs.exists(outputPath)) {
			fs.delete(outputPath, true);
		}
		
		// ①建立Job
		Job job = Job.getInstance(conf);
		
		// ②設定Job
		// 設定Job執行的Mapper，Reducer型別，Mapper,Reducer輸出的key-value型別
		job.setMapperClass(FlowBeanMapper.class);
		job.setReducerClass(FlowBeanReducer.class);
		
		// Job需要根據Mapper和Reducer輸出的Key-value型別準備序列化器，通過序列化器對輸出的key-value進行序列化和反序列化
		// 如果Mapper和Reducer輸出的Key-value型別一致，直接設定Job最終的輸出型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		// 設定輸入目錄和輸出目錄
		FileInputFormat.setInputPaths(job, inputPath);
		FileOutputFormat.setOutputPath(job, outputPath);
		
		// 設定ReduceTask的數量為5
		job.setNumReduceTasks(5);
		
		// 設定使用自定義的分割槽器
		job.setPartitionerClass(MyPartitioner.class);
		
		// ③執行Job
		job.waitForCompletion(true);
		
	}
}

FlowBeanMapper.java

/*
 * 1. 統計手機號(String)的上行(long,int)，下行(long,int)，總流量(long,int)
 * 
 * 手機號為key,Bean{上行(long,int)，下行(long,int)，總流量(long,int)}為value
 * 		
 * 
 * 
 * 
 */
public class FlowBeanMapper extends Mapper<LongWritable, Text, Text, FlowBean>{
	
	private Text out_key=new Text();
	private FlowBean out_value=new FlowBean();
	
	// (0,1	13736230513	192.196.100.1	www.atguigu.com	2481	24681	200)
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context)
			throws IOException, InterruptedException {
		
		String[] words = value.toString().split("\t");
		
		//封裝手機號
		out_key.set(words[1]);
		// 封裝上行
		out_value.setUpFlow(Long.parseLong(words[words.length-3]));
		// 封裝下行
		out_value.setDownFlow(Long.parseLong(words[words.length-2]));

		context.write(out_key, out_value);
	}
}

FlowBeanReducer.java

public class FlowBeanReducer extends Reducer<Text, FlowBean, Text, FlowBean>{
	
	private FlowBean out_value=new FlowBean();
	
	@Override
	protected void reduce(Text key, Iterable<FlowBean> values, Reducer<Text, FlowBean, Text, FlowBean>.Context context)
			throws IOException, InterruptedException {
		
		long sumUpFlow=0;
		long sumDownFlow=0;
		
		for (FlowBean flowBean : values) {
			
			sumUpFlow+=flowBean.getUpFlow();
			sumDownFlow+=flowBean.getDownFlow();
			
		}
		
		out_value.setUpFlow(sumUpFlow);
		out_value.setDownFlow(sumDownFlow);
		out_value.setSumFlow(sumDownFlow+sumUpFlow);
		
		context.write(key, out_value);
		
	}
}

FlowBean.java

public class FlowBean implements Writable{
	
	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	public FlowBean() {
		
	}

	public long getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}

	public long getDownFlow() {
		return downFlow;
	}

	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}

	public long getSumFlow() {
		return sumFlow;
	}

	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}

	// 序列化   在寫出屬性時，如果為引用資料型別，屬性不能為null
	@Override
	public void write(DataOutput out) throws IOException {
		
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);
		
		
	}

	//反序列化   序列化和反序列化的順序要一致
	@Override
	public void readFields(DataInput in) throws IOException {
		upFlow=in.readLong();
		downFlow=in.readLong();
		sumFlow=in.readLong();
		
	}

	@Override
	public String toString() {
		return  upFlow + "\t" + downFlow + "\t" + sumFlow;
	}
}

輸出結果：
總共五個檔案
在這裡插入圖片描述
一號區：

二號區：

三號區：

四號區：
在這裡插入圖片描述

其他號碼為第五號區：
在這裡插入圖片描述

分割槽總結

如果ReduceTask的數量 > getPartition的結果數，則會多產生幾個空的輸出檔案part-r-000xx
如果Reduceask的數量 < getPartition的結果數，則有一部分分割槽資料無處安放，會Exception
如果ReduceTask的數量 = 1，則不管MapTask端輸出多少個分割槽檔案，最終結果都交給這一個ReduceTask，最終也就只會產生一個結果檔案partr-00000

以剛才的案例分析：
例如：假設自定義分割槽數為5，則

job.setlNlurmReduce Task(1)；會正常執行，只不過會產生一個輸出檔案
job.setlNlunReduce Task(2)，會報錯
job.setNumReduceTasks(6)；大於5，程式會正常執行，會產生空檔案

Kafka - 自定義分割槽器
2023-03-15
Kafka
hadoop mapreducez自定義分割槽
2018-09-03
Hadoop
MapReduce之自定義OutputFormat
2020-08-05
ORM
MapReduce之自定義InputFormat
2020-07-19
ORM
spark:自定義分割槽，自定義排序，spark與jdbc，廣播變數等
2018-10-13
Spark排序JDBC變數
MapReduce實現之Reduce端重分割槽Join操作最佳化！
2018-11-07
MySql資料分割槽操作之新增分割槽操作
2021-09-09
MySql
分割槽表之自動增加分割槽（11G）
2018-04-26
Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略
2020-10-31
SQL
Linux分割槽之parted命令
2018-12-11
Linux
linux之硬碟分割槽管理
2018-09-05
Linux硬碟
oracle 線上重新定義，普通表改變分割槽表，分割槽表可以更改型別、分割槽欄位等
2020-08-19
Oracle型別
Linux核心之磁碟和分割槽
2020-12-22
Linux
Linux分割槽方案、分割槽建議
2024-11-04
Linux
Oracle 12.2之後ALTER TABLE .. MODIFY轉換非分割槽表為分割槽表
2020-04-14
Oracle
oracle分割槽表和分割槽表exchange
2024-03-15
Oracle
PostgreSQL/LightDB 分割槽表之分割槽裁剪
2022-07-14
SQL
Windows伺服器如何磁碟分割槽，Windows伺服器磁碟分割槽常見的三種
2021-07-12
Windows伺服器
Linux 分割槽擴容（根分割槽擴容，SWAP 分割槽擴容，掛載新分割槽為目錄）
2021-08-27
Linux
Spring Boot之自定義JSON轉換器
2019-04-28
Spring BootJSON
Oracle分割槽表基礎運維-07增加分割槽(2 HASH分割槽)
2020-05-18
Oracle運維
oracle分割槽表和非分割槽表exchange
2024-03-15
Oracle
非分割槽錶轉換成分割槽表
2022-07-09
[oracle] expdp 匯出分割槽表的分割槽
2021-01-28
Oracle
Oracle分割槽表基礎運維-07增加分割槽(1範圍分割槽)
2020-05-18
Oracle運維
openGauss 分割槽
2024-03-30
mysql 分割槽
2019-07-15
MySql
分割槽Partition
2024-11-14
lvs 分割槽
2022-10-21
Kafka 分割槽
2022-05-30
Kafka
黑猴子的家：HBase 自定義HBase-MapReduce案列一
2018-10-05
Hive的靜態分割槽與動態分割槽
2018-05-03
Hive
Linux 新增LVM分割槽及LVM分割槽擴容
2024-04-19
LinuxLVM
Oracle分割槽表基礎運維-07增加分割槽(3列表分割槽)
2020-05-18
Oracle運維
Oracle12c：建立主分割槽、子分割槽，實現自動分割槽插入效果
2020-04-04
Oracle
Android自定義View之區塊選擇器
2019-02-26
AndroidView
netty系列之:自定義編碼解碼器
2021-08-16
Netty
【Linux】MBR磁碟分割槽表只能有四個分割槽？
2018-04-26
Linux