通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析

芊寶寶發表於2019-04-09

通過DataWorks歸檔日誌服務資料至MaxCompute

官方指導文件:help.aliyun.com/document_de…
但是會遇到大家在分割槽上或者DataWorks排程引數配置問題,具體拿到真實的case模擬如下:

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析

建立資料來源:

步驟1 進入資料整合,點選作業資料來源,進入Tab頁面。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


步驟2 點選右上角
新增資料來源,選擇訊息佇列 loghub。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析
通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析

步驟3 編輯LogHub資料來源中的必填項,包括資料來源名稱、LogHub
Endpoint、Project、AK資訊等,並點選 測試連通性。

建立目標表:

步驟1 在左側tab也中找到臨時查詢,並右鍵>新建ODPS SQL節點。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


步驟2 編寫建表DDL。
步驟3 點選
執行 按鈕進行建立目標表,分別為ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步驟4 直到日誌列印成本,表示三條DDL語句執行完畢。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


步驟5 可以通過desc 檢視建立的表。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


其他兩張表也可以通過desc 進行查詢。確認資料表的存在情況。

建立資料同步任務

資料來源端以及在DataWorks中的資料來源連通性都已經配置好,接下來就可以通過資料同步任務進行採集資料到MaxCompute上。
操作步驟
步驟1 點選
新建業務流程 並 確認提交,名稱為 直播日誌採集。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


步驟2 在業務流程開發皮膚中依次建立如下依賴並命名。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


依次配置資料同步任務節點配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步驟3 雙擊
web_tracking_log_syn 進入節點配置,配置項包括資料來源(資料來源和資料去向)、欄位對映(源頭表和目標表)、通道控制。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析
通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


根據採集的時間視窗自定義引數為:

當然其消費點位也可以按照自定義設定5分鐘排程一次,從00:00到23:59,startTme=[yyyymmddhh24miss−10/24/60]系統前10分鐘到endTime=[yyyymmddhh24miss-5/24/60]系統前5分鐘時間(注意與上圖消費資料定位不同),那麼應該配置為ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步驟4 可以點選高階執行進行測試。

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


可以分別手工收入自定義引數值進行測試。


通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


步驟3 使用SQL指令碼確認是否資料已經寫進來。如下圖所示:

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


日誌服務的日誌正式的被採集入庫,接下來就可以進行資料加工。
比如可以通過上述來統計熱門房間、地域分佈和卡頓率,如下所示:

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析


具體SQL邏輯不在這裡展開,可以根據具體業務需求來統計分析。依賴關係配置如上圖所示。


原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章