7.Flink實時專案之獨立訪客開發

選手一號位發表於2022-03-05

原文網址 : https://www.cnblogs.com/zhangbaohpu/p/15969765.html

1.架構說明

在上6節當中，我們已經完成了從ods層到dwd層的轉換，包括日誌資料和業務資料，下面我們開始做dwm層的任務。

DWM 層主要服務 DWS，因為部分需求直接從 DWD 層到DWS 層中間會有一定的計算量，而且這部分計算的結果很有可能被多個 DWS 層主題複用，所以部分 DWD 會形成一層 DWM，我們這裡主要涉及業務：

訪問UV計算
跳出明細計算
訂單寬表
支付寬表

因為實時計算與離線不同，實時計算的開發和運維成本都是非常高的，要結合實際情況考慮是否有必要象離線數倉一樣，建一個大而全的中間層。如果沒有必要大而全，這時候就需要大體規劃一下要實時計算出的指標需求了。把這些指標以主題寬表的形式輸出就是我們的 DWS 層。

統計主題	需求指標	輸出方式	計算來源	來源層級
訪客	pv	視覺化大屏	page_log直接可求	dwd
	uv	視覺化大屏	需要用page_log過濾去重	dwm
	跳出率	視覺化大屏	需要用page_log行為判斷	dwm
	進入頁面數	視覺化大屏	需要識別開始訪問標識	dwd
	連續訪問時長	視覺化大屏	page_log直接可求	dwd
商品	點選	多維分析	page_log直接可求	dwd
	收藏	多維分析	收藏表	dwd
	加入購物車	多維分析	購物車表	dwd
	下單	視覺化大屏	訂單寬表	dwm
	支付	多維分析	支付寬表	dwm
	退款	多維分析	退款表	dwd
	評論	多維分析	評論表	dwd
地區	pv	多維分析	page_log直接可求	dwd
	uv	多維分析	需要page_log過濾去重	dwm
	下單	視覺化大屏	訂單寬表	dwm
關鍵詞	搜尋關鍵詞	視覺化大屏	page_log直接可求	dwd
	點選商品關鍵詞	視覺化大屏	商品主題下單再次聚合	dws
	下單商品關鍵詞	視覺化大屏	商品主題下單再次聚合	dws

2. 訪客UV計算

UV，全稱是 Unique Visitor，即獨立訪客，對於實時計算中，也可以稱為 DAU(Daily Active User)，即每日活躍使用者，因為實時計算中的uv通常是指當日的訪客數。那麼如何從使用者行為日誌中識別出當日的訪客，那麼有兩點：

其一，是識別出該訪客開啟的第一個頁面，表示這個訪客開始進入我們的應用
其二，由於訪客可以在一天中多次進入應用，所以我們要在一天的範圍內進行去重

程式碼，新建任務UniqueVisitApp.java，我們要從kafka的ods層消費資料，主題為：dwd_page_log

package com.zhangbao.gmall.realtime.app.dwm;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.zhangbao.gmall.realtime.utils.MyKafkaUtil;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

/**
 * @author: zhangbao
 * @date: 2021/9/12 19:51
 * @desc: uv 計算
 **/
public class UniqueVisitApp {
    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());
        //設定並行度
        env.setParallelism(4);
        //設定檢查點
        env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        env.setStateBackend(new FsStateBackend("hdfs://hadoop101:9000/gmall/flink/checkpoint/uniqueVisit"));
        //指定哪個使用者讀取hdfs檔案
        System.setProperty("HADOOP_USER_NAME","zhangbao");

        //從kafka讀取資料來源
        String sourceTopic = "dwd_page_log";
        String group = "unique_visit_app_group";
        FlinkKafkaConsumer<String> kafkaSource = MyKafkaUtil.getKafkaSource(sourceTopic, group);
        DataStreamSource<String> kafkaDs = env.addSource(kafkaSource);

        //資料轉換
        SingleOutputStreamOperator<JSONObject> jsonObjDs = kafkaDs.map(obj -> JSON.parseObject(obj));

        jsonObjDs.print("jsonObjDs >>>");
        try {
            env.execute("task uniqueVisitApp");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

測試從kafka消費資料

啟動服務：zk，kf，logger.sh ，hadoop
執行任務：BaseLogTask.java，UniqueVisitApp.java
執行日誌生成伺服器
檢視控制檯輸出

目前任務執行流程

7.Flink實時專案之獨立訪客開發

UniqueVisitApp程式接收到的資料

{
  "common": {
    "ar": "440000",
    "uid": "48",
    "os": "Android 11.0",
    "ch": "xiaomi",
    "is_new": "0",
    "md": "Sumsung Galaxy S20",
    "mid": "mid_9",
    "vc": "v2.1.134",
    "ba": "Sumsung"
  },
  "page": {
    "page_id": "login",
    "during_time": 4621,
    "last_page_id": "good_detail"
  },
  "ts": 1631460110000
}

3. 核心過濾流程

從kafka的ods層取出資料之後，就該做具體的uv處理了。

1.首先用 keyby 按照 mid 進行分組，每組表示當前裝置的訪問情況

2.分組後使用 keystate 狀態，記錄使用者進入時間，實現 RichFilterFunction 完成過濾

3.重寫 open 方法用來初始化狀態

4.重寫 filter 方法進行過濾

可以直接篩掉 last_page_id 不為空的欄位，因為只要有上一頁，說明這條不是這個使用者進入的首個頁面。
狀態用來記錄使用者的進入時間，只要這個 lastVisitDate 是今天，就說明使用者今天已經訪問過了所以篩除掉。如果為空或者不是今天，說明今天還沒訪問過，則保留。
因為狀態值主要用於篩選是否今天來過，所以這個記錄過了今天基本上沒有用了，這裡 enableTimeToLive 設定了 1 天的過期時間，避免狀態過大。

package com.zhangbao.gmall.realtime.app.dwm;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.zhangbao.gmall.realtime.utils.MyKafkaUtil;
import org.apache.flink.api.common.functions.RichFilterFunction;
import org.apache.flink.api.common.state.StateTtlConfig;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.time.Time;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import java.text.SimpleDateFormat;
import java.util.Date;

/**
 * @author: zhangbao
 * @date: 2021/9/12 19:51
 * @desc: uv 計算
 **/

public class UniqueVisitApp {
    public static void main(String[] args) {
        //webui模式，需要新增pom依賴
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());
//        StreamExecutionEnvironment env1 = StreamExecutionEnvironment.createLocalEnvironment();
        //設定並行度
        env.setParallelism(4);
        //設定檢查點
        env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        env.setStateBackend(new FsStateBackend("hdfs://hadoop101:9000/gmall/flink/checkpoint/uniqueVisit"));
        //指定哪個使用者讀取hdfs檔案
        System.setProperty("HADOOP_USER_NAME","zhangbao");

        //從kafka讀取資料來源
        String sourceTopic = "dwd_page_log";
        String group = "unique_visit_app_group";
        FlinkKafkaConsumer<String> kafkaSource = MyKafkaUtil.getKafkaSource(sourceTopic, group);
        DataStreamSource<String> kafkaDs = env.addSource(kafkaSource);

        //資料轉換
        SingleOutputStreamOperator<JSONObject> jsonObjDs = kafkaDs.map(obj -> JSON.parseObject(obj));

        //按照裝置id分組
        KeyedStream<JSONObject, String> keyByMid = jsonObjDs.keyBy(jsonObject -> jsonObject.getJSONObject("common").getString("mid"));

        //過濾
        SingleOutputStreamOperator<JSONObject> filterDs = keyByMid.filter(new RichFilterFunction<JSONObject>() {
            ValueState<String> lastVisitDate = null;
            SimpleDateFormat sdf = null;
            @Override
            public void open(Configuration parameters) throws Exception {
                //初始化時間
                sdf = new SimpleDateFormat("yyyyMMdd");
                //初始化狀態
                ValueStateDescriptor<String> lastVisitDateDesc = new ValueStateDescriptor<>("lastVisitDate", String.class);
                //統計日活dau，狀態資料儲存一天，過一天即失效
                StateTtlConfig stateTtlConfig = StateTtlConfig.newBuilder(Time.days(1)).build();
                lastVisitDateDesc.enableTimeToLive(stateTtlConfig);
                this.lastVisitDate = getRuntimeContext().getState(lastVisitDateDesc);

            }

            @Override
            public boolean filter(JSONObject jsonObject) throws Exception {
                //上一個頁面如果有值，則不是首次訪問
                String lastPageId = jsonObject.getJSONObject("page").getString("last_page_id");
                if(lastPageId != null && lastPageId.length()>0){
                    return false;
                }
                //獲取使用者訪問日期
                Long ts = jsonObject.getLong("ts");
                String mid = jsonObject.getJSONObject("common").getString("mid");
                String lastDate = sdf.format(new Date(ts));
                //獲取狀態日期
                String lastDateState = lastVisitDate.value();
                if(lastDateState != null && lastDateState.length()>0 && lastDateState.equals(lastDate)){
                    System.out.println(String.format("已訪問! mid：%s，lastDate：%s",mid,lastDate));
                    return false;
                }else {
                    lastVisitDate.update(lastDate);
                    System.out.println(String.format("未訪問! mid：%s，lastDate：%s",mid,lastDate));
                    return true;
                }
            }
        });

        filterDs.print("filterDs >>>");

        try {
            env.execute("task uniqueVisitApp");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

注：1.在測試時，發現uv沒有資料，所以把BaseLogTask任務的側輸出流改一下，如下圖所示：

7.Flink實時專案之獨立訪客開發

2.webui模式新增pom依賴

<!-- flink webui -->
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-runtime-web_2.12</artifactId>
    <version>1.12.0</version>
</dependency>

4. 測試

啟動zk，kafka，logger.sh，hdfs，BaseLogTask，UniqueVisitApp
執行流程
- 模擬生成的日誌jar >> nginx >> 日誌採集服務 >> kafka(ods) >> baseLogApp(分流) >> kafka(dwd) >> UniqueVisitApp(獨立訪客) >> dwm_unique_visit

經測試，流程已通。

8.Flink實時專案之CEP計算訪客跳出
2022-03-09
Django 專案配置拆分獨立
2021-11-18
Django
徐開源：我為什麼辭職去做獨立開發者 | 掘金專訪 003
2018-08-08
釋出 UIAutomatorViewer 獨立包開源工程專案
2020-10-10
UIView
IT168 專訪 | OceanBase 獨立這一年
2021-01-12
iOS開發之登入與訪客
2018-03-22
iOS
獨立開發挑戰
2020-06-01
Marvelous 旗下日本首個「獨立遊戲孵化器」專案成立訪談
2021-03-18
遊戲
思否獨立開發者丨@盧燦偉：做死三個專案，累到生了一場大病，為何還要做獨立開發者
2020-08-26
《暗影之手》開發者談獨立遊戲專案管理的10點經驗
2018-10-16
遊戲專案管理
Android專案中獨立Git專案分庫後的編譯除錯時Gradle的配置
2019-01-03
AndroidGit編譯除錯Gradle
【獨立開發】耗時百天獨立開發一款免費的跨瀏覽器書籤同步工具網
2022-05-09
瀏覽器
專訪《拉吉：遠古傳奇》的聯合創作者：獨立遊戲開發者Shruti Ghosh
2022-03-16
遊戲開發
獨立遊戲發行商 PLAYISM 負責人專訪：從採摘者到培育者
2020-02-04
遊戲
實戰獨立專案「幾行字」：從想法到上線全過程
2022-05-04
專訪CiGA創始人Simon，“獨立遊戲”向前一步
2021-02-04
遊戲
獨立遊戲《PICO PARK》開發者專訪：探究從默默無聞到一舉爆火的祕密
2021-10-18
遊戲
獨立遊戲開發入門指南
2019-12-11
遊戲開發
Xbox：獨立開發者已經通過Game Pass專案獲得25億美元版稅
2022-05-14
GAM
《沙石鎮時光》：模擬經營RPG的IP化開發構想 | 獨立遊戲製作人訪談
2021-09-10
遊戲
如何用 Laravel Mix 單獨開發 Vue 專案？
2020-04-20
LaravelVue
專案立項時如何制訂專案目標
2021-07-09
專訪騰訊獨立遊戲孵化器負責人：獨立遊戲“白銀”年代，究竟要孵化什麼？
2021-03-24
遊戲
全球獨立開發者鼓舞人心的開發故事
2021-04-06
[提問交流]自定義獨立模型出現空白專案
2020-04-04
模型
mockjs讓前端開發獨立於後端
2019-02-16
MockJS前端後端
Price Tag | INTERVIEW 04 | 獨立開發者 Larry
2019-03-03
View
2.week 獨立開發第二週
2020-06-14
1.week 獨立開發初體驗
2020-06-08
B站上的獨立遊戲開發者
2020-11-10
遊戲開發
5.week 獨立開發第五週
2020-07-05
求一個獨立模型的開發示例
2019-05-11
模型
Playdew：在巴基斯坦開發獨立遊戲
2022-04-14
遊戲
flask 專案開發實戰
2020-04-19
Flask
被Facebook開除的獨立遊戲開發者
2019-11-04
遊戲開發
【教你賺錢】安卓開發者如何走向獨立開發
2018-08-14
安卓
基於.NetCore開發部落格專案 StarBlog - (11) 實現訪問統計
2022-06-06
NetCore
拒絕Epic Games Store獨佔協議的獨立開發者
2019-08-29
GAM協議

7.Flink實時專案之獨立訪客開發

1.架構說明

2. 訪客UV計算

3. 核心過濾流程

4. 測試

相關文章