HBase BulkLoad批量寫入資料實戰

哥不是小蘿莉發表於2018-08-19

原文網址 : https://www.cnblogs.com/smartloli/p/9501887.html

1.概述

在進行資料傳輸中，批量載入資料到HBase叢集有多種方式，比如通過HBase API進行批量寫入資料、使用Sqoop工具批量導數到HBase叢集、使用MapReduce批量匯入等。這些方式，在匯入資料的過程中，如果資料量過大，可能耗時會比較嚴重或者佔用HBase叢集資源較多（如磁碟IO、HBase Handler數等）。今天這篇部落格筆者將為大家分享使用HBase BulkLoad的方式來進行海量資料批量寫入到HBase叢集。

2.內容

在使用BulkLoad之前，我們先來了解一下HBase的儲存機制。HBase儲存資料其底層使用的是HDFS來作為儲存介質，HBase的每一張表對應的HDFS目錄上的一個資料夾，資料夾名以HBase表進行命名（如果沒有使用名稱空間，則預設在default目錄下），在表資料夾下存放在若干個Region命名的資料夾，Region資料夾中的每個列簇也是用資料夾進行儲存的，每個列簇中儲存就是實際的資料，以HFile的形式存在。路徑格式如下：

/hbase/data/default/<tbl_name>/<region_id>/<cf>/<hfile_id>

2.1 實現原理

按照HBase儲存資料按照HFile格式儲存在HDFS的原理，使用MapReduce直接生成HFile格式的資料檔案，然後在通過RegionServer將HFile資料檔案移動到相應的Region上去。流程如下圖所示：

2.2. 生成HFile檔案

HFile檔案的生成，可以使用MapReduce來進行實現，將資料來源準備好，上傳到HDFS進行儲存，然後在程式中讀取HDFS上的資料來源，進行自定義封裝，組裝RowKey，然後將封裝後的資料在回寫到HDFS上，以HFile的形式儲存到HDFS指定的目錄中。實現程式碼如下：

/**
 * Read DataSource from hdfs & Gemerator hfile.
 * 
 * @author smartloli.
 *
 *         Created by Aug 19, 2018
 */
public class GemeratorHFile2 {
    static class HFileImportMapper2 extends Mapper<LongWritable, Text, ImmutableBytesWritable, KeyValue> {
        
        protected final String CF_KQ = "cf";

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            System.out.println("line : " + line);
            String[] datas = line.split(" ");
            String row = new Date().getTime() + "_" + datas[1];
            ImmutableBytesWritable rowkey = new ImmutableBytesWritable(Bytes.toBytes(row));
            KeyValue kv = new KeyValue(Bytes.toBytes(row), this.CF_KQ.getBytes(), datas[1].getBytes(), datas[2].getBytes());
            context.write(rowkey, kv);
        }
    }

    public static void main(String[] args) {
        if (args.length != 1) {
            System.out.println("<Usage>Please input hbase-site.xml path.</Usage>");
            return;
        }
        Configuration conf = new Configuration();
        conf.addResource(new Path(args[0]));
        conf.set("hbase.fs.tmp.dir", "partitions_" + UUID.randomUUID());
        String tableName = "person";
        String input = "hdfs://nna:9000/tmp/person.txt";
        String output = "hdfs://nna:9000/tmp/pres";
        System.out.println("table : " + tableName);
        HTable table;
        try {
            try {
                FileSystem fs = FileSystem.get(URI.create(output), conf);
                fs.delete(new Path(output), true);
                fs.close();
            } catch (IOException e1) {
                e1.printStackTrace();
            }

            Connection conn = ConnectionFactory.createConnection(conf);
            table = (HTable) conn.getTable(TableName.valueOf(tableName));
            Job job = Job.getInstance(conf);
            job.setJobName("Generate HFile");

            job.setJarByClass(GemeratorHFile2.class);
            job.setInputFormatClass(TextInputFormat.class);
            job.setMapperClass(HFileImportMapper2.class);
            FileInputFormat.setInputPaths(job, input);
            FileOutputFormat.setOutputPath(job, new Path(output));

            HFileOutputFormat2.configureIncrementalLoad(job, table);
            try {
                job.waitForCompletion(true);
            } catch (InterruptedException e) {
                e.printStackTrace();
            } catch (ClassNotFoundException e) {
                e.printStackTrace();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

    }
}

在HDFS目錄/tmp/person.txt中，準備資料來源如下：

1 smartloli 100
2 smartloli2 101
3 smartloli3 102

然後，將上述程式碼編譯打包成jar，上傳到Hadoop叢集進行執行，執行命令如下：

hadoop jar GemeratorHFile2.jar /data/soft/new/apps/hbaseapp/hbase-site.xml

如果在執行命令的過程中，出現找不到類的異常資訊，可能是本地沒有載入HBase依賴JAR包，在當前使用者中配置如下環境變數資訊：

export HADOOP_CLASSPATH=$HBASE_HOME/lib/*:classpath

然後，執行source命令使配置的內容立即生生效。

2.3. 執行預覽

在成功提交任務後，Linux控制檯會列印執行任務進度，也可以到YARN的資源監控介面檢視執行進度，結果如下所示：

等待任務的執行，執行完成後，在對應HDFS路徑上會生成相應的HFile資料檔案，如下圖所示：

2.4 使用BulkLoad匯入到HBase

然後，在使用BulkLoad的方式將生成的HFile檔案匯入到HBase叢集中，這裡有2種方式。一種是寫程式碼實現匯入，另一種是使用HBase命令進行匯入。

2.4.1 程式碼實現匯入

通過LoadIncrementalHFiles類來實現匯入，具體程式碼如下：

/**
* Use BulkLoad inport hfile from hdfs to hbase.
* 
* @author smartloli.
*
* Created by Aug 19, 2018
*/
public class BulkLoad2HBase {

    public static void main(String[] args) throws Exception {
        if (args.length != 1) {
            System.out.println("<Usage>Please input hbase-site.xml path.</Usage>");
            return;
        }
        String output = "hdfs://cluster1/tmp/pres";
        Configuration conf = new Configuration();
        conf.addResource(new Path(args[0]));
        HTable table = new HTable(conf, "person");
        LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);
        loader.doBulkLoad(new Path(output), table);
    }
    
}

執行上述程式碼，執行結果如下：

2.4.2 使用HBase命令進行匯入

先將生成好的HFile檔案遷移到目標叢集（即HBase叢集所在的HDFS上），然後在使用HBase命令進行匯入，執行命令如下：

# 先使用distcp遷移hfile
hadoop distcp -Dmapreduce.job.queuename=queue_1024_01 -update -skipcrccheck -m 10 /tmp/pres hdfs://nns:9000/tmp/pres

# 使用bulkload方式匯入資料
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/pres person

最後，我們可以到指定的RegionServer節點上檢視匯入的日誌資訊，如下所示為匯入成功的日誌資訊：

2018-08-19 16:30:34,969 INFO  [B.defaultRpcServer.handler=7,queue=1,port=16020] regionserver.HStore: Successfully loaded store file hdfs://cluster1/tmp/pres/cf/7b455535f660444695589edf509935e9 into store cf (new location: hdfs://cluster1/hbase/data/default/person/2d7483d4abd6d20acdf16533a3fdf18f/cf/d72c8846327d42e2a00780ac2facf95b_SeqId_4_)

2.5 驗證

使用BulkLoad方式匯入資料後，可以進入到HBase叢集，使用HBase Shell來檢視資料是否匯入成功，預覽結果如下：

3.總結

本篇部落格為了演示實戰效果，將生成HFile檔案和使用BulkLoad方式匯入HFile到HBase叢集的步驟進行了分解，實際情況中，可以將這兩個步驟合併為一個，實現自動化生成與HFile自動匯入。如果在執行的過程中出現RpcRetryingCaller的異常，可以到對應RegionServer節點檢視日誌資訊，這裡面記錄了出現這種異常的詳細原因。

4.結束語

這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

另外，博主出書了《Hadoop大資料探勘從入門到進階實戰》，喜歡的朋友或同學，可以在公告欄那裡點選購買連結購買博主的書進行學習，在此感謝大家的支援。

Hadoop大資料實戰系列文章之HBase
2020-11-11
Hadoop大資料
HBase資料的讀寫流程
2022-01-14
MapReduce之----往hbase資料庫寫入資料時, 出現資料異常
2018-06-23
資料庫
實戰 | 將Apache Hudi資料集寫入阿里雲OSS
2020-04-25
Apache阿里
HBase2實戰：HBase Flink和Kafka整合
2019-01-09
Kafka
一條資料HBase之旅，簡明HBase入門教程開篇
2018-06-15
資料匯入終章：如何將HBase的資料匯入HDFS？
2018-10-15
如何使用HBase？大資料儲存的兩個實戰場景
2018-09-04
大資料
HBase最佳化實戰
2018-08-31
Spark 如何寫入HBase/Redis/MySQL/Kafka
2021-09-09
SparkRedisMySqlKafka
效能提升 48 倍! python redis 批量寫入大量資料優化過程
2020-09-14
PythonRedis優化
HBase海量資料高效入倉解決方案
2022-03-15
Elasticsearch批量匯入資料指令碼（python）
2018-08-11
Elasticsearch指令碼Python
小程式預載入資料實戰
2022-05-24
實戰|使用Spark Streaming寫入Hudi
2020-04-18
Spark
《從0到1學習Flink》—— Flink 讀取 Kafka 資料批量寫入到 MySQL
2019-02-24
KafkaMySql
Hive資料匯入HBase引起資料膨脹引發的思考
2020-12-08
Hive
Python 寫了一個批量生成資料夾和批量重新命名的工具
2020-12-23
Python
JDBC連線批量處理資料入庫
2020-11-30
JDBC
藉助雲開發輕鬆實現後臺資料批量匯出丨實戰
2019-09-10
實時數倉之Flink消費kafka訊息佇列資料入hbase
2024-03-26
Kafka佇列
kafka connect，將資料批量寫到hdfs完整過程
2018-03-23
Kafka
實時資料併發寫入 Redis 優化
2019-11-12
Redis優化
hbase與phoenix整合(使用phoenix操作hbase資料)
2019-03-17
spark寫入hive資料
2019-04-09
SparkHive
MongoDB寫入資料策略
2023-03-02
MongoDB
圖資料庫 Nebula 在 HBase 的分享實錄
2019-07-29
資料庫
Flink CDC 系列 - 實現 MySQL 資料實時寫入 Apache Doris
2021-12-09
MySqlApache
使用Mybatis批量插入大量資料的實踐
2022-01-03
MyBatis
如何將 EXCEL 資料寫入資料庫
2020-06-16
Excel資料庫
大資料——HBase基礎
2020-09-24
大資料
大資料技術 - Hbase
2023-02-24
大資料
10.註冊和登入功能實現（3）—— 註冊資料寫入資料庫
2019-02-16
資料庫
Flink 實踐教程-入門（6）：讀取 PG 資料寫入 ClickHouse
2021-11-14
Python爬蟲入門實戰之貓眼電影資料抓取（實戰篇）
2019-04-07
Python爬蟲
mybatis插入資料、批量插入資料
2021-12-08
MyBatis
Elasticsearch 資料寫入原理分析
2019-09-06
Elasticsearch
indexedDB 批量新增資料
2019-07-17
Index