MapReduce之----往hbase資料庫寫入資料時, 出現資料異常

_Karl發表於2018-06-23

原文網址 : https://blog.csdn.net/txd751466382/article/details/80778772

問題 :

寫入HBase的資料不對

如

讀入的資料是

hello   nihao   hadoop  hehe    byebye
hello   nihao   hadoop
spark   scale

存入資料庫就成了

hbase(main):038:0> scan 't_user2'
ROW                   COLUMN+CELL                                                  
 byebye               column=MR_column:wordcount, timestamp=1529670719617, value=1 
 hadoop               column=MR_column:wordcount, timestamp=1529670719617, value=2 
 heheop               column=MR_column:wordcount, timestamp=1529670719617, value=1 
 hellop               column=MR_column:wordcount, timestamp=1529670719617, value=2 
 nihaop               column=MR_column:wordcount, timestamp=1529670719617, value=2 
 scalep               column=MR_column:wordcount, timestamp=1529670719617, value=1 
 sparkp               column=MR_column:wordcount, timestamp=1529670719617, value=1

資料出現了異常, 有沒有看到前面的rowkey長度都是一致的 ... 且與hadoop長度不一致的全在最後面補全hadoop後面的字母 ?

原因如下:

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class MRWriterToHbaseTableDriver {
static class MRWriterToHbaseTableMapper extends

Mapper<LongWritable, Text, Text, IntWritable> {

@Override
protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
String line = value.toString();
String[] arr = line.split("\t");
for (String name : arr) {
context.write(new Text(name), new IntWritable(1));
}
}
}

static class MRWriterToHbaseTableReducer extends

TableReducer<Text, IntWritable, ImmutableBytesWritable> {

@Override
protected void reduce(Text key, Iterable<IntWritable> value,
Context context) throws IOException, InterruptedException {
int count = 0;
for (IntWritable iw : value) {
count += iw.get();
}

// Put put = new Put(key.getBytes());

// 這裡就是異常所在,換成下面語句即可解決

Put put = new Put(key.toString().getBytes()); //新增rowkey
put.addColumn("MR_column".getBytes(), "wordcount".getBytes(),
(count + "").getBytes()); //新增列族,列限定符和值

// context.write(new ImmutableBytesWritable(key.getBytes()), put);

// 括號裡面的ImmutableBytesWritable可以換成其他型別,例如null, Text型別都可以

// 只要和上面的keyout泛型一致即可

context.write(new ImmutableBytesWritable(key.toString().getBytes()), put);
}
}

public static void main(String[] args) throws IOException,
ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
conf.set("hbase.zookeeper.quorum", "min1");

Job job = Job.getInstance(conf, "myjob");
job.setJarByClass(MRWriterToHbaseTableDriver.class);

job.setMapperClass(MRWriterToHbaseTableMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);

FileInputFormat.setInputPaths(job, "/aa");
TableMapReduceUtil.initTableReducerJob("t_user2",
MRWriterToHbaseTableReducer.class, job);

boolean waitForCompletion = job.waitForCompletion(true);
System.exit(waitForCompletion ? 0 : 1);
}
}

分析 :

Put型別裡String.getBytes() 和 Text.getBytes()兩個方法得到的位元組陣列的長度不同, String.getBytes()會動態獲得當前位元組陣列的長度,該是多長就是多長; Text.getBytes()獲得的是當前位元組陣列, 但是會與上一個獲得的位元組陣列長度進行比較, 當長度比上一個短時會自動補全上一個位元組後面的內容至當前位元組, 若長度比上一個長時會獲得當前位元組陣列內容 . 再看下面的表進行驗證:

String.getBytes()寫入到hbase後內容:

 byebye               column=MR_column:wordcount, timestamp=1529674870277, value=1 
 hadoop               column=MR_column:wordcount, timestamp=1529674870277, value=2 
 hehe                 column=MR_column:wordcount, timestamp=1529674870277, value=1 
 hello                column=MR_column:wordcount, timestamp=1529674870277, value=2 
 looperqu             column=MR_column:wordcount, timestamp=1529674870277, value=1 
 nihao                column=MR_column:wordcount, timestamp=1529674870277, value=2 
 scale                column=MR_column:wordcount, timestamp=1529674870277, value=1 
 spark                column=MR_column:wordcount, timestamp=1529674870277, value=1 
 zookeeper            column=MR_column:wordcount, timestamp=1529674870277, value=1

Text.getBytes()寫入到hbase後內容 :

 byebye               column=MR_column:wordcount, timestamp=1529675062950, value=1 
 hadoop               column=MR_column:wordcount, timestamp=1529675062950, value=2 
 heheop               column=MR_column:wordcount, timestamp=1529675062950, value=1 
 hellop               column=MR_column:wordcount, timestamp=1529675062950, value=2 
 looperqu             column=MR_column:wordcount, timestamp=1529675062950, value=1 
 nihaorqu             column=MR_column:wordcount, timestamp=1529675062950, value=2 
 scalerqu             column=MR_column:wordcount, timestamp=1529675062950, value=1 
 sparkrqu             column=MR_column:wordcount, timestamp=1529675062950, value=1 
 zookeeper            column=MR_column:wordcount, timestamp=1529675062950, value=1

如何將 EXCEL 資料寫入資料庫
2020-06-16
Excel資料庫
HBase BulkLoad批量寫入資料實戰
2018-08-19
MySQLNonTransientConnectionException資料庫連線異常
2020-10-12
MySqlException資料庫
資料庫 MySQL 資料匯入匯出
2021-08-10
資料庫MySql
MYSQL資料庫匯入資料時出現亂碼的解決辦法
2021-09-09
MySql資料庫
Spring系列之不同資料庫異常如何抽象的？
2021-09-06
Spring資料庫抽象
Oracle資料庫——資料匯出時出現匯出成功終止, 但出現警告。
2020-09-29
Oracle資料庫
HBase資料的讀寫流程
2022-01-14
Apache HBase 1.7.1 釋出，分散式資料庫
2021-07-25
Apache分散式資料庫
Sqoop匯入資料異常處理
2019-01-30
OOP
做資料庫分離讀寫時，sqlServer資料庫資料同步的問題：
2020-04-06
資料庫SQLServer
DataIntegrityViolationException異常：java利用mymatis連線資料庫異常
2018-08-22
AIExceptionJava資料庫
Hbase資料庫安裝部署
2022-05-15
資料庫
使用scrapy框架把資料非同步寫入資料庫
2018-07-16
框架非同步資料庫
實時資料庫與時序資料庫
2020-11-28
資料庫
[python] 基於PyOD庫實現資料異常檢測
2024-10-01
Python
資料庫連線異常處理思路
2022-10-11
資料庫
資料庫異常智慧分析與診斷
2022-05-10
資料庫
資料庫連線異常故障報告
2021-05-06
資料庫
往hdfs寫資料無許可權
2019-01-22
資料匯入終章：如何將HBase的資料匯入HDFS？
2018-10-15
【YashanDB知識庫】資料庫審計shutdown immediate操作導致資料庫異常退出
2024-07-16
資料庫
10.註冊和登入功能實現（3）—— 註冊資料寫入資料庫
2019-02-16
資料庫
【資料庫資料恢復】MS SQL資料庫附加資料庫出錯怎麼恢復資料？
2022-12-08
資料庫資料恢復SQL
Spring系列之JDBC對不同資料庫異常如何抽象的？
2021-09-06
SpringJDBC資料庫抽象
常見資料庫
2018-05-13
資料庫
《分散式資料庫HBase案例教程》
2022-04-26
分散式資料庫
HBase資料庫效能調優OW
2022-03-21
資料庫
每一個異常資料
2024-08-29
【資料庫資料恢復】Oracle資料庫檔案出現壞塊報錯的資料恢復案例
2022-09-05
資料庫資料恢復Oracle
PostgreSQL資料庫匯入大量資料時如何最佳化
2022-09-01
SQL資料庫
oracle 備份資料庫，匯出資料庫
2018-06-27
Oracle資料庫
資料庫升級之-資料泵
2020-08-11
資料庫
關於PHP往mysql資料庫中批次插入資料例項教程
2019-01-22
PHPMySql資料庫
YII2 一次性往資料庫插入多行資料
2018-09-13
資料庫
前腳剛往資料庫插入資料，後腳就查不出來？
2020-10-16
資料庫
淺談時序資料庫核心：如何用單機扛住億級資料寫入
2021-10-19
資料庫
【北亞資料恢復】異常斷電導致Oracle資料庫報錯的oracle資料恢復
2022-01-18
資料恢復Oracle資料庫

MapReduce之----往hbase資料庫寫入資料時, 出現資料異常

問題 :

原因如下:

分析 :

相關文章