關於hive RegexSerDe的原始碼分析薦

菜菜光發表於2014-07-30

最近有個業務建表使用了 RegexSerDe，之前雖然也它來解析nginx日誌，但是沒有做深入的瞭解。這次看了下其實現方式。

建表語句：

CREATE external TABLE ods_cart_log
(
time_local STRING,
request_json  STRING,
trace_id_num STRING
)
PARTITIONED BY
(
dt string,
hour string
)
ROW FORMAT SERDE `org.apache.hadoop.hive.contrib.serde2.RegexSerDe`
WITH SERDEPROPERTIES
("input.regex" =
"\[(.*?)\] .*\|(.*?) (.*?) \[(.*?)\]",
"output.format.string" ="%1$s %2$s  %4$s")
STORED AS TEXTFILE;

測試資料：

[2014-07-24 15:54:54] [6] OperationData.php: 
:89|{"action":"add","redis_key_hash":9,"time":"1406188494.73745500","source":"web",
"mars_cid":"","session_id":"","info":{"cart_id":26885,"user_id":4,"size_id":"2784145",
"num":"1","warehouse":"VIP_NH","brand_id":"7379","cart_record_id":26885,"channel":"te"}}
 trace_id [40618849399972881308]

這裡trace_id_num按照猜想應該是第4個欄位（即40618849399972881308），但是實際輸出了第3個欄位（trace_id）

檢視其程式碼實現：

RegexSerDe主要由下面三個引數：

1）input.regex 正則

2）output.format.string 輸出格式

3）input.regex.case.insensitive 大小寫是否敏感

其中input.regex用在反序列化方法中，即資料的讀取（hive讀取hdfs檔案），相對的output.format.string 用在序列化的方法中，即資料的寫入（hive寫入hdfs檔案）。

在反序列化的方法deserialize中有如下程式碼，用於返回代表匹配欄位的資料：

   for (int c = 0; c < numColumns; c++) {   //numColumns是按表中column的數量算的（
   比如這個例子columnNames 是[time_local, request_json, trace_id_num]   | numColumns = columnNames.size();
      try {
        row.set(c, m.group(c + 1));  //可以看到欄位的匹配從0開始，中間不會有跳躍，
        所以這裡select  trace_id_num 欄位是正則裡面的第3個組，而和output.format.string沒有關係
          } catch (RuntimeException e) {
        partialMatchedRows++;
        if (partialMatchedRows >= nextPartialMatchedRows) {
          nextPartialMatchedRows = getNextNumberToDisplay(nextPartialMatchedRows);
          // Report the row
          LOG.warn("" + partialMatchedRows
              + " partially unmatched rows are found, " + " cannot find group "
              + c + ": " + rowText);
        }
        row.set(c, null);
      }
    }

work around的方法有兩個，1個是把所有正則匹配的欄位列出，另一個就是更改正則的分組，只拿自己care的分組，比如上面可以改為

\[(.*?)\] .*\|(.*?) .*? \[(.*?)\]

這裡output.format.string的設定仔細想想貌似沒什麼用，首先RegexSerDe的方式只在textfile下生效，即可以用load向hive的表中匯入資料，但是load是一個hdfs層面的檔案操作，不涉及到序列化，如果想使用序列化，需要使用insert into select的方式插入資料，但是這種方式插入的資料又和select的資料有關係，和output.format.string沒什麼關係了。。

其實regexserde類有兩個

分別位於

./serde/src/java/org/apache/hadoop/hive/serde2/RegexSerDe.java 和

./contrib/src/java/org/apache/hadoop/hive/contrib/serde2/RegexSerDe.java

都是擴充套件了AbstractSerDe這個抽象類。通過程式碼可以看到contrib下的這個類是實現了serialize 和 deserialize 方法，而上面這個只實現了deserialize 方法，由此看來RegexSerDe中的serialize 方法可能是沒什麼用的。。

另外需要注意幾點：

1.如果一行匹配不上，整個行的欄位輸出都是null

 if (!m.matches()) {
      unmatchedRows++;
      if (unmatchedRows >= nextUnmatchedRows) {
        nextUnmatchedRows = getNextNumberToDisplay(nextUnmatchedRows);
        // Report the row
        LOG.warn("" + unmatchedRows + " unmatched rows are found: " + rowText);
      }
      return null;
    }

2.表的欄位型別必須都是string，否則會報錯,如果需要別的欄位，可以在select中使用cast做轉換

    for ( int c = 0; c < numColumns ; c++) {
      if (!columnTypes.get(c).equals( TypeInfoFactory.stringTypeInfo)) {
        throw new SerDeException(getClass().getName()
            + " only accepts string columns, but column[" + c + "] named "
            + columnNames.get(c) + " has type " + columnTypes.get(c));
      }
    }

關於hive的基礎
2021-07-19
Hive
關於hive核心
2021-07-24
Hive
Hive原始碼解析
2024-08-29
Hive原始碼
關於SIP的原始碼地址
2010-07-08
原始碼
關於JIVE原始碼！
2008-08-03
原始碼
Hive原始碼分析(1)——HiveServer2啟動過程
2021-03-15
Hive原始碼Server
關於jdon原始碼的問題
2004-07-20
原始碼
關於原始碼學習
2008-05-16
原始碼
關於原始碼問題。
2004-08-28
原始碼
Hive原始碼閱讀之路
2020-11-08
Hive原始碼
Mybatis【2.2】-- Mybatis關於建立SqlSession原始碼分析的幾點疑問？
2020-11-28
MyBatisSQLSession原始碼
關於Asp.net core配置資訊讀取的原始碼分析梳理
2021-11-05
ASP.NET原始碼
原始碼分析系列1：HashMap原始碼分析（基於JDK1.8）
2021-09-09
原始碼HashMapJDK
PriorityQueue原理分析——基於原始碼
2020-11-13
原始碼
關於日曆程式原始碼
2015-07-04
原始碼
超讚！推薦一個專注於Java後端原始碼分析的Github專案！
2020-04-05
Java後端原始碼Github
基於Hive的大資料分析系統
2024-07-28
Hive大資料
基於原始碼分析Vue的nextTick
2021-01-28
原始碼Vue
從原始碼中分析關於phpredis中的連線池可持有數目
2020-10-26
原始碼PHPRedis
關於 webpack 你可能忽略的細節（附原始碼分析）| 掘金技術徵文
2016-12-25
Web原始碼
Android原始碼分析相關工具
2018-02-08
Android原始碼
關於如何看原始碼的一點思考
2019-01-27
原始碼
關於JBoss Group 原始碼存放方式的疑惑
2003-06-18
原始碼
FCKeditor原始碼分析(一)—–fckeditor.js的中文註釋分析（原創）薦
2010-04-20
原始碼JS
關於Python量化合約系統開發（原始碼分析搭建）
2023-03-24
Python原始碼
請問關於本書原始碼……
2004-09-18
原始碼
Retrofit原始碼分析三原始碼分析
2018-05-17
原始碼
關於分投趣fintoch系統開發原始碼邏輯分析方案
2023-02-27
原始碼
關於創業的思考薦
2008-10-09
創業
原始碼分析 —— AsyncTask 完全解析（基於7.0）
2018-01-03
原始碼
陪玩原始碼，與時間、日期相關的程式碼分析
2024-07-20
原始碼
集合原始碼分析[2]-AbstractList 原始碼分析
2019-04-11
原始碼
集合原始碼分析[1]-Collection 原始碼分析
2019-03-23
原始碼
集合原始碼分析[3]-ArrayList 原始碼分析
2019-04-12
原始碼
Guava 原始碼分析之 EventBus 原始碼分析
2018-08-01
Guava原始碼
hive原始碼編譯(失敗記錄)
2020-12-20
Hive原始碼編譯
.關於CAS SSO單點登入服務端環境搭建原始碼分析
2022-03-24
服務端原始碼
關於CAS SSO單點登入客戶端環境搭建原始碼分析
2022-04-12
客戶端原始碼

關於hive RegexSerDe的原始碼分析薦

相關文章