PV(訪問量):即Page View, 即頁面瀏覽量或點選量,使用者每次重新整理即被計算一次。
UV(獨立訪客):即Unique Visitor,訪問您網站的一臺電腦客戶端為一個訪客。00:00-24:00內相同的客戶端只被計算一次。
計算網站App的實時pv和uv,是很常見的統計需求,這裡提供通用的計算方法,不同的業務需求只需要小改即可拿來即用。
需求
利用Flink實時統計,從0點到當前的pv、uv。
一、需求分析
從Kafka
傳送過來的資料含有:時間戳
、時間
、維度
、使用者id
,需要從不同維度統計從0點到當前時間的pv
和uv
,第二天0點重新開始計數第二天的。
二、技術方案
Kafka
資料可能會有延遲亂序,這裡引入watermark
;- 通過
keyBy
分流進不同的滾動window
,每個視窗內計算pv
、uv
; - 由於需要儲存一天的狀態,
process
裡面使用ValueState儲存pv
、uv
; - 使用
BitMap
型別ValueState
,佔記憶體很小,引入支援bitmap
的依賴; - 儲存狀態需要設定
ttl
過期時間,第二天把第一天的過期,避免記憶體佔用過大。
三、資料準備
這裡假設是使用者訂單資料,資料格式如下:
{"time":"2021-10-31 22:00:01","timestamp":"1635228001","product":"蘋果手機","uid":255420}
{"time":"2021-10-31 22:00:02","timestamp":"1635228001","product":"MacBook Pro","uid":255421}
四、程式碼實現
整個工程程式碼截圖如下(抹去了一些不方便公開的資訊):
1. 環境
kafka
:1.0.0;
Flink
:1.11.0;
2. 傳送測試資料
首先傳送資料到kafka
測試叢集,maven
依賴:
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>2.4.1</version>
</dependency>
傳送程式碼:
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import jodd.util.ThreadUtil;
import org.apache.commons.lang3.StringUtils;
import org.junit.Test;
import java.io.*;
public class SendDataToKafka {
@Test
public void sendData() throws IOException {
String inpath = "E:\\我的檔案\\click.txt";
String topic = "click_test";
int cnt = 0;
String line;
InputStream inputStream = new FileInputStream(inpath);
Reader reader = new InputStreamReader(inputStream);
LineNumberReader lnr = new LineNumberReader(reader);
while ((line = lnr.readLine()) != null) {
// 這裡的KafkaUtil是個生產者、消費者工具類,可以自行實現
KafkaUtil.sendDataToKafka(topic, String.valueOf(cnt), line);
cnt = cnt + 1;
ThreadUtil.sleep(100);
}
}
}
3. 主要程式
先定義個pojo
:
@NoArgsConstructor
@AllArgsConstructor
@Data
@ToString
public class UserClickModel {
private String date;
private String product;
private int uid;
private int pv;
private int uv;
}
接著就是使用Flink
消費kafka,指定Watermark
,通過KeyBy
分流,進入滾動視窗
函式通過狀態儲存pv
和uv
。
public class UserClickMain {
private static final Map<String, String> config = Configuration.initConfig("commons.xml");
public static void main(String[] args) throws Exception {
// 初始化環境,配置相關屬性
StreamExecutionEnvironment senv = StreamExecutionEnvironment.getExecutionEnvironment();
senv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
senv.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
senv.setStateBackend(new FsStateBackend("hdfs://bigdata/flink/checkpoints/userClick"));
// 讀取kafka
Properties kafkaProps = new Properties();
kafkaProps.setProperty("bootstrap.servers", config.get("kafka-ipport"));
kafkaProps.setProperty("group.id", config.get("kafka-groupid"));
// kafkaProps.setProperty("auto.offset.reset", "earliest");
// watrmark 允許資料延遲時間
long maxOutOfOrderness = 5 * 1000L;
SingleOutputStreamOperator<UserClickModel> dataStream = senv.addSource(
new FlinkKafkaConsumer<>(
config.get("kafka-topic"),
new SimpleStringSchema(),
kafkaProps
))
//設定watermark
.assignTimestampsAndWatermarks(WatermarkStrategy.<String>forBoundedOutOfOrderness(Duration.ofMillis(maxOutOfOrderness))
.withTimestampAssigner((element, recordTimestamp) -> {
// 時間戳須為毫秒
return Long.valueOf(JSON.parseObject(element).getString("timestamp")) * 1000;
})).map(new FCClickMapFunction()).returns(TypeInformation.of(new TypeHint<UserClickModel>() {
}));
// 按照 (date, product) 分組
dataStream.keyBy(new KeySelector<UserClickModel, Tuple2<String, String>>() {
@Override
public Tuple2<String, String> getKey(UserClickModel value) throws Exception {
return Tuple2.of(value.getDate(), value.getProduct());
}
})
// 一天為視窗,指定時間起點比時間戳時間早8個小時
.window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8)))
// 10s觸發一次計算,更新統計結果
.trigger(ContinuousEventTimeTrigger.of(Time.seconds(10)))
// 計算pv uv
.process(new MyProcessWindowFunctionBitMap())
// 儲存結果到mysql
.addSink(new FCClickSinkFunction());
senv.execute(UserClickMain.class.getSimpleName());
}
}
程式碼都是一些常規程式碼,但是還是有幾點需要注意的。
注意
- 設定watermark,flink1.11中使用WatermarkStrategy,老的已經廢棄了;
- 我的資料裡面時間戳是秒,需要乘以1000,flink提取時間欄位,必須為
毫秒
; .window
只傳入一個引數,表明是滾動視窗,TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))
這裡指定了視窗的大小為一天,由於中國北京時間是東8區
,比國際時間早8個小時,需要引入offset
,可以自行進入該方法原始碼檢視英文註釋。
Rather than that,if you are living in somewhere which is not using UTC±00:00 time,
* such as China which is using UTC+08:00,and you want a time window with size of one day,
* and window begins at every 00:00:00 of local time,you may use {@code of(Time.days(1),Time.hours(-8))}.
* The parameter of offset is {@code Time.hours(-8))} since UTC+08:00 is 8 hours earlier than UTC time.
- 一天大小的視窗,根據
watermark
機制一天觸發計算一次,顯然是不合理的,需要用trigger
函式指定觸發間隔為10s
一次,這樣我們的pv
和uv
就是10s
更新一次結果。
4. 關鍵程式碼,計算uv
由於這裡使用者id
剛好是數字,可以使用bitmap
去重,簡單原理是:把 user_id 作為 bit 的偏移量 offset,設定為 1 表示有訪問,使用 1 MB的空間就可以存放 800 多萬使用者的一天訪問計數情況
。
redis
是自帶bit
資料結構的,不過為了儘量少依賴外部儲存媒介,這裡自己實現bit
,引入相應maven
依賴即可:
<dependency>
<groupId>org.roaringbitmap</groupId>
<artifactId>RoaringBitmap</artifactId>
<version>0.8.0</version>
</dependency>
計算pv、uv的程式碼其實都是通用的,可以根據自己的實際業務情況快速修改的:
public class MyProcessWindowFunctionBitMap extends ProcessWindowFunction<UserClickModel, UserClickModel, Tuple<String, String>, TimeWindow> {
private transient ValueState<Integer> pvState;
private transient ValueState<Roaring64NavigableMap> bitMapState;
@Override
public void open(Configuration parameters) throws Exception {
super.open(parameters);
ValueStateDescriptor<Integer> pvStateDescriptor = new ValueStateDescriptor<>("pv", Integer.class);
ValueStateDescriptor<Roaring64NavigableMap> bitMapStateDescriptor = new ValueStateDescriptor("bitMap"
, TypeInformation.of(new TypeHint<Roaring64NavigableMap>() {}));
// 過期狀態清除
StateTtlConfig stateTtlConfig = StateTtlConfig
.newBuilder(Time.days(1))
.setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
.setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
.build();
// 開啟ttl
pvStateDescriptor.enableTimeToLive(stateTtlConfig);
bitMapStateDescriptor.enableTimeToLive(stateTtlConfig);
pvState = this.getRuntimeContext().getState(pvStateDescriptor);
bitMapState = this.getRuntimeContext().getState(bitMapStateDescriptor);
}
@Override
public void process(Tuple2<String, String> key, Context context, Iterable<UserClickModel> elements, Collector<UserClickModel> out) throws Exception {
// 當前狀態的pv uv
Integer pv = pvState.value();
Roaring64NavigableMap bitMap = bitMapState.value();
if(bitMap == null){
bitMap = new Roaring64NavigableMap();
pv = 0;
}
Iterator<UserClickModel> iterator = elements.iterator();
while (iterator.hasNext()){
pv = pv + 1;
int uid = iterator.next().getUid();
//如果userId可以轉成long
bitMap.add(uid);
}
// 更新pv
pvState.update(pv);
UserClickModel UserClickModel = new UserClickModel();
UserClickModel.setDate(key.f0);
UserClickModel.setProduct(key.f1);
UserClickModel.setPv(pv);
UserClickModel.setUv(bitMap.getIntCardinality());
out.collect(UserClickModel);
}
}
注意
- 由於計算
uv
第二天的時候,就不需要第一天資料了,要及時清理記憶體中前一天
的狀態,通過ttl
機制過期; - 最終結果儲存到mysql裡面,如果資料結果分類聚合太多,要注意
mysql壓力
,這塊可以自行優化;
五、其它方法
除了使用bitmap
去重外,還可以使用Flink SQL
,編碼更簡潔,還可以藉助外面的媒介Redis
去重:
- 基於 set
- 基於 bit
- 基於 HyperLogLog
- 基於bloomfilter
具體思路是,計算pv
、uv
都塞入redis裡面,然後再獲取值儲存統計結果,也是比較常用的。
猜你喜歡
HDFS的快照講解
Hadoop 資料遷移用法詳解
Hbase修復工具Hbck
數倉建模分層理論
一文搞懂Hive的資料儲存與壓縮
大資料元件重點學習這幾個