Hive學習之五《Hive進階—UDF操作案例》詳解

木子小僧發表於2016-03-28

原文網址 : http://www.cnblogs.com/invban/p/5331159.html

Hive

hive—UDF操作

udf的操作過程：

在HIVE會話中add 自定義函式的jar檔案，然後建立function，繼而使用函式。

下面就以下面課題為例：

課題：統計每個活動的PV和UV

一、Java通過正規表示式，擷取標題名稱。

以連結，擷取標紅的字串。

http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H

為例。

核心程式碼如下，

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.hadoop.hive.ql.exec.UDF;

public class GetCommentNameOrId extends UDF {
    public String evaluate(String url,String flag){
        String str = null;
        Pattern p = Pattern.compile(flag+"/[a-zA-Z0-9]+");
        Matcher m = p.matcher(url);
        if(m.find()){
            str = m.group(0).toLowerCase().split("/")[1];
        }
        return str;
    }
    
    public static void main(String[] args) {
        String url = "http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H";
        GetCommentNameOrId gs = new GetCommentNameOrId();
        System.out.println(gs.evaluate(url,"sale"));
    }
}

傳參：

url：http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H

flag:sale

最後得到的結果是：vtxqCLCzfto

二、UDF操作

　　1、在rptest庫中建立表

create table rptest.rpt_sale_daily(
huodong string,
pv bigint,
uv bigint) partitioned by (ds string,hour string);

　　2、打jar包，並上傳到制定的路徑

　　add jar /opt/litong/lib/hiveUDF.jar

　　3、指定屬性類，建立function

　　create temporary function GetCommentNameOrId as 'com.litong.hive.udf.GetCommentNameOrId';

　　4、新增資料到表rpt_sale_daily中　

insert overwrite table rptest.rpt_sale_daily partition (ds='2015-08-28',hour='18')
select GetCommentNameOrId(url,"sale") huodong,count(url) pv,count(distinct guid) uv from default.track_log a 
where ds='2015-08-28' and hour='18'
group by ds,GetCommentNameOrId(url,"sale");

insert overwrite table rptest.rpt_sale_daily partition (ds='2015-08-28',hour='19')
select GetCommentNameOrId(url,"sale") huodong,count(url) pv,count(distinct guid) uv from default.track_log a 
where ds='2015-08-28' and hour='19'
group by ds,GetCommentNameOrId(u

　　5、檢查資料是否插入成功

OK，資料新增成功。

Hive中的UDF詳解
2020-12-21
Hive
hive學習筆記之九：基礎UDF
2021-09-09
Hive筆記
Hive學習之基本操作
2018-11-30
Hive
Hive UDF，就這
2022-01-10
Hive
Hive學習之Hive的安裝
2018-11-30
Hive
hive學習筆記之五：分桶
2021-07-03
Hive筆記
HIVE學習之（三）
2018-07-25
Hive
Hive高階操作-查詢操作
2024-06-28
Hive
Hive分桶之BUCKET詳解
2019-03-24
Hive
hive03_高階操作
2024-07-26
Hive
Hive學習
2019-04-14
Hive
Hive學習之JDBC訪問
2018-11-30
HiveJDBC
hive編寫udf實踐記錄
2020-11-10
Hive
hive學習之四:hive檔案格式以及壓縮編碼
2018-05-22
Hive
Hive學習之常用互動命令
2018-11-30
Hive
Hive學習之型別轉化
2018-12-02
Hive型別
hive學習筆記之八：Sqoop
2021-07-07
Hive筆記OOP
hive學習筆記之十一：UDTF
2021-07-11
Hive筆記
Hive語法及其進階(二)
2021-09-29
Hive
hive學習之五:java通過zookeeper獲取active namenode地址。
2018-05-22
HiveJava
Hive 常用操作
2018-08-20
Hive
Hive學習之常見屬性配置
2018-11-30
Hive
Hive sql語法詳解
2019-03-24
HiveSQL
Flume和Hive整合之hive sink
2020-12-19
Hive
hive學習筆記之四：分割槽表
2021-07-02
Hive筆記
hive學習筆記之六：HiveQL基礎
2021-07-05
Hive筆記
Hive動態分割槽詳解
2020-12-23
Hive
Hive -------- hive常見查詢練習
2018-11-13
Hive
hive學習筆記之七：內建函式
2021-07-06
Hive筆記函式
Hive（五）常用函式
2024-10-09
Hive函式
Hive高階優化
2018-03-13
Hive優化
Presto 與 Hive 語法學習
2022-04-16
RESTHive
hive04_DQL操作
2024-08-08
Hive
hive02_SQL操作
2024-07-26
HiveSQL
Hive表的基本操作
2021-01-10
Hive
Hue-hive sql常用函式詳解
2020-04-05
HiveSQL函式
Hive入門學習隨筆（二）
2018-07-20
Hive
Spring進階案例之註解和IoC案例
2020-07-30
Spring
Hadoop實戰：Hive操作使用
2019-01-14
HadoopHive

Hive學習之五 《Hive進階—UDF操作案例》 詳解

相關文章

Hive學習之五《Hive進階—UDF操作案例》詳解