準備資料集用於flink學習

程式設計師欣宸發表於2020-11-14

原文網址 : https://www.cnblogs.com/bolingcavalry/p/13973046.html

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

在學習和開發flink的過程中，經常需要準備資料集用來驗證我們的程式，阿里雲天池公開資料集中有一份淘寶使用者行為資料集，稍作處理後即可用於flink學習；

下載

下載地址：
https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649
如下圖所示，點選紅框中的圖示下載(名為UserBehavior.csv.zip的檔案太大無法在excel開啟，因此下載體積小一些的UserBehavior.csv)：
該CSV檔案的內容，一共有五列，每列的含義如下表：

列名稱	說明
使用者ID	整數型別，序列化後的使用者ID
商品ID	整數型別，序列化後的商品ID
商品類目ID	整數型別，序列化後的商品所屬類目ID
行為型別	字串，列舉型別，包括('pv', 'buy', 'cart', 'fav')
時間戳	行為發生的時間戳
時間字串	根據時間戳欄位生成的時間字串

下載完畢後用excel開啟，如下圖所示：

增加一個欄位

為了便於檢查資料，接下來在時間戳欄位之後新增一個欄位，內容是將該行的時間戳轉成時間字串

如下圖，在F列的第一行位置輸入表示式，將E1的時間戳轉成字串：
上圖紅框中的表示式內容如下：

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

！！！有個問題要格外注意！！！：上述表示式中，由於8*3600的作用，得到的時間字串實際上是東八區時區的時間，在flink sql中，如果用DATE_FORMAT函式計算timestamp也能得到時間字串，但是這個字串是格林尼治時區，此時兩個時間字串的值就不同了，例如從F列看2017/11/12和2017/11/13各一條記錄，但是DATE_FORMAT函式計算timestamp得到的卻是2017/11/12有兩條記錄，解決這個問題的辦法就是將表示式中的8*3600去掉，大家都用格林尼治時區；
表示式生效後，F1的內容就是E1的時間字串，接下來F列的所有記錄都作轉換，滑鼠放在下圖紅框位置時，會出現十字架標誌，在此標誌上雙擊滑鼠：

在這裡插入圖片描述
5. 完成後如下圖，F列的時間資訊更利於我們開發過程中核對資料：

在這裡插入圖片描述

修復亂序

此時的CSV檔案中的資料並不是按時間欄位排序的，如下圖：
flink在處理上述資料時，由於亂序問題可能會導致計算結果不準，以上圖為例，在處理紅框2中的資料時，紅框3所對應的視窗早就完成計算了，雖然flink的watermark可以容忍一定程度的亂序，但是必須將容忍時間調整為7天才能將紅框3的視窗保留下來不觸發，這樣的watermark調整會導致大量資料無法計算，因此，需要將此CSV的資料按照時間排序再拿來使用；
如下圖操作即可完成排序：

在這裡插入圖片描述
4. 完成排序後如下圖所示：

在這裡插入圖片描述
至此，一份淘寶使用者行為資料集就準備完畢了，接下來的文章將會用此資料進行flink相關的實戰；

直接下載準備好的資料

為了便於您快速使用，上述調整過的CSV檔案我已經上傳到CSDN，地址：
https://download.csdn.net/download/boling_cavalry/12381698
也可以在我的Github下載，地址：
https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z

歡迎關注公眾號：程式設計師欣宸

微信搜尋「程式設計師欣宸」，我是欣宸，期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

相關文章

【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
5.Flink實時專案之業務資料準備
2022-02-19
從零開始學機器學習——準備和視覺化資料
2024-09-27
機器學習視覺化
Openfire安裝準備-MySQL資料庫準備
2018-12-13
MySql資料庫
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 5 —— 如何為機器學習演算法準備資料？
2019-01-02
機器學習筆記演算法
Oracle DB 資料準備
2024-07-24
Oracle
機器學習入門準備
2018-04-10
機器學習
學習Linux要有哪些心理準備？
2020-09-15
Linux
Python學習筆記-StatsModels 統計迴歸（3）模型資料的準備
2021-05-07
Python筆記模型
小菜菜mysql練習50題解析——資料準備
2019-01-28
MySql
什麼是資料準備？
2024-02-29
學習程式設計前的準備
2020-10-27
程式設計
準備學習J2ME-Polish
2020-04-06
《深度學習案例精粹：基於TensorFlow與Keras》案例集用於深度學習訓練
2022-02-15
深度學習Keras
【Flink】基於 Flink 的流式資料實時去重
2024-10-11
機器學習（四）：4層BP神經網路（只用numpy不調包）用於訓練鳶尾花資料集|準確率96%
2023-04-08
機器學習神經網路
深度學習煉丹-資料標準化
2023-02-10
深度學習
研究表明：用於機器學習的資料集正在被影響壟斷 - Unite.AI
2021-12-06
機器學習AI
《從0到1學習Flink》—— Flink 讀取 Kafka 資料批量寫入到 MySQL
2019-02-24
KafkaMySql
大資料叢集搭建 – 1. CDH叢集安裝 – 環境準備
2018-07-18
大資料
準備Python環境學習OpenCV的使用
2024-03-29
PythonOpenCV
【學習】SQL基礎-001-前期準備
2018-03-29
SQL
資料清洗和準備 (待更新)
2020-06-22
Flink系列(0)——準備篇(流處理基礎)
2020-11-08
最強資料集集合：50個最佳機器學習公共資料集
2018-11-08
機器學習
大資料學習路線圖讓你精準掌握大資料技術學習
2019-07-08
大資料
ios零基礎學習準備什麼，如何去學習
2019-04-27
iOS
機器學習筆記——資料集分割
2018-09-25
機器學習筆記
33個機器學習常用資料集
2019-04-19
機器學習
分散式機器學習常用資料集
2021-11-28
分散式機器學習
Java可以用於機器學習和資料科學嗎？ - kdnuggets
2020-11-02
Java機器學習資料科學
零基礎學習 Python 之前期準備
2018-11-30
Python
Flutter學習系列之Flutter上手環境準備
2019-10-05
Flutter
Flink on Yarn三部曲之一：準備工作
2022-12-02
Yarn
學前準備工作
2024-08-10
深度學習常用的資料集，包括各種資料跟影象資料
2018-09-13
深度學習
關於STM324的一些實驗的準備資料
2020-11-15
Laravel 學習筆記之一：備份資料以及資料填充
2020-07-05
Laravel筆記