MaxCompute幫你五步實現使用者畫像的資料加工

weixin_33806914發表於2018-07-16

原文網址 : https://blog.csdn.net/weixin_33806914/article/details/88763184

摘要：企業最終的資料往往都隱藏在日誌背後，如果從日誌背後挖掘出有價值的資訊，勾畫出平臺或網站的使用者畫像對精準化運營有著重要的幫助。阿里雲技術專家禕休帶來阿里在處理日誌、構建數倉上的最佳實踐分享。主要從數倉開發開始談起，重點講解了資料加工使用者畫像的五大步驟，最後進行了演示解析。

企業最終的資料往往都隱藏在日誌背後，如果從日誌背後挖掘出有價值的資訊，勾畫出平臺或網站的使用者畫像對精準化運營有著重要的幫助。阿里雲技術專家禕休帶來阿里在處理日誌、構建數倉上的最佳實踐分享。主要從數倉開發開始談起，重點講解了資料加工使用者畫像的五大步驟，最後進行了演示解析。
直播視訊回顧請點選

以下是精彩視訊內容整理：

資料融合加工-數倉開發

大資料倉儲特殊引擎提供我們一站式的PB級大資料倉儲解決方案，那麼，我們如何基於MaxCompute去構建倉庫，如何去幫資料進行清洗加工，然後去挖掘出有價值的資訊？MaxCompute2.0推出了一些新功能，比如說非結構化資料的處理， MaxCompute支援非結構化資料儲存在OSS上，以前的方式是通過資料整合工具或者自己去寫一些任務，將這些資料週期性或者一次性同步到MaxCompute上來，既有開發成本，又有運維成本，在2.0裡面我們支援直接建立外部表的方式連線資料來源，直接對資料進行處理。

圖片描述

在數倉上的開發規範如圖，從日誌資料、使用者基本資訊資料等裡面去挖掘出價值資訊，然後涉及到資料開發人員做一些ETL的設計，包括我們的一些開發編碼、設定，將任務提交到線上，線上上我們會遇到過去的一些資料運維工作，這些運維工作是不是可以在Dataworks裡面去完成？下面我們一起來了解操作細節。

需求分析

圖片描述

通常情況下會以一個這樣的鏈路圖去做使用者畫像，可以看到，使用者畫像通常情況下會包含兩個部分，動態資料和靜態資料。動態資料包括行為資料、頁面行為、交易資料，比如說你的使用者點選瀏覽資料等都可以放在動態的資料裡面去，比如說在我們的網站整個的訪問深度，是不是在頁面上形成了時長有多少，在某一整個鏈路上註冊開通再到資料開發的跳失率是多少等等；靜態資料更多的是關於人的一些屬性，比如說姓名、星座、年齡、長居地以及通常使用什麼樣的裝置去訪問我們的網站等等，所以有一些終端裝置的偏好資訊。

數倉建立

圖片描述

做數倉要進行數倉分層，底層是ODS層，通常情況下將原始的資料先採集到MaxCompute上來，對一些非結構化資料進行一定的結構化，包括一些資料的規範化， DWD層有我們的一些明細資料，我們要在這些資料之間能夠產生一些價值，做一些資料清潔工作、資料交換工作，將資料進行打包，再向上我們要根據資料去做一些公共指標加工和應用指標加工，比如PVUV的訪問、裝置的訪問等等。

原始日誌分析

圖片描述

原始資料可以通過這些欄位裡面去獲得什麼樣的資訊？一個日誌資訊裡面，包含使用者來訪問網站或者平臺IP地址、使用者登入名，然後通過一些欄位可以分析裝置資訊，比如說我們可以從使用者真實的資料裡面看到IP地址，包括什麼時間去訪問，訪問了我們哪一個頁面，使用了什麼樣的瀏覽器，瀏覽器內容是什麼，有的直接用手機端等等，我們可以通過這些資訊去挖掘出更多的資訊，比如說可以通過IP地址知道使用者長居住在哪個城市來訪問我們網站，通過user_agent欄位可以獲取裝置資訊，因為我們去訪問終端一些版本，設定可以通過這些資料進行一個結構化，然後把資料抽象處理。

圖片描述

使用者資訊表就是一張結構化的二維表，通常會包含一些使用者的資訊、性別、年齡、星座等等。

圖片描述

通過已有的這些資料，再去做使用者畫像時候可以看到，深色是已有資料，可以去刻畫出使用者在我們網站的瀏覽性，比如說整個網站的PVUV等等，通常訪問哪個頁面更高，然後在什麼時候去訪問。

資料開發

圖片描述

接下來進入資料開發階段，資料開發階段要去實現如圖邏輯，左邊ods_log_info_d這張表存著我們的日誌資訊，我們要去公開一個結構，將使用者IP地址解析出來一個一個地域資訊。右邊ods_log_info_d使用者的基本資訊已經是結構化了，這兩個資料通過UID進行關聯，JOIN成一張大表，原封未動的將我們的資料採集到MaxCompute上來，然後在DW層裡面做更多的關聯，關聯出一張使用者去訪問我們廣泛基本資訊的寬表，然後基於這個寬表之上，我們有一個IP地址，要知道這個使用者PV的具體資料，比如求平均值或者求在整個網站訪問的最佳深度等。

圖片描述

在建立表的時候怎麼更全面？我們發現，所有工作流任務、節點任務，包括我們的表，命名其實都有一個規則，如果你的資料量很大，通常情況下包含資料庫的倉庫分層、業務域、資料域和資料分析時間，這張表屬於DW層，這張表刻劃了一個使用者的基本資訊，這就表示這張表的資料是一天更新一次的，通過這樣一張表可以明確知道刻劃什麼樣的業務價值，讓依賴於這張表的下游同學可以快速認識這張表的資料分析時間，描述什麼樣的資訊。

圖片描述

另外,我們的IP去轉地域資訊，在公共雲版本上面函式是沒有對外開放的，所以需要去解決自定義的函式，但有一些函式不能滿足配置，比如說大寫轉成小寫，將IP轉成region如何去做，通常情況下我們會去寫一些Java去做這樣的事情。將這些函式、資源包註冊到MaxCompute上來，通過堆頭註冊上來，然後去對函式進行解析。

最佳實踐

圖片描述

我們強調每一個節點裡面最多輸出一張表，當你有多張表的時候，比如說任務失敗了，可能是因為其中某一條處理的邏輯失敗了，當你去重跑的時候，可能整個任務都要重新去跑，另外，你的輸出表表格一定要跟你的節點名稱一樣，這樣可以快速從你的輸出運維上，快速找到這張表的資料在哪個節點上沒有產生，是因為哪一些任務失敗了。
大家都知道，大資料裡面可能會有預測的insert overwrite，比如說測試資料任務時候會加資料庫，通常情況下會造成資料重複和資料產生，如果你去使用灰色的overwrite，或者是每一次的任務重跑或失敗之後，你要去手工再把這個任務調動起來，會根據你的分割槽表資料批量進行。這樣最多的好處是每一張表資料的產生，比如說程式碼加一些註釋，比如說整個SQL邏輯是處於什麼樣的，一定要在前面去進行相關的註釋。
在操作過程中，大家儘量去減少Select*操作，因為你的計算成本比較高，在2.0裡面我們已經開啟了全表推出，使用者去進行一個選表，上個月去拜訪什麼客戶，通常情況下每個月在平臺上消費3千多，在所有檢視資料的時候，沒有加分割槽的全表掃的計算成本很高，所以建議大家在去使用的過程中多加一個分割槽排檢，可以減少我們的計算成本。

圖片描述

在公共雲上，我們有一些公共雲的服務，還有一些私有化服務，比如說安全行業、金融行業，通常都需要將大資料部署穩定，我們的專案建立的一個或者兩個如何區分？通常情況下會有開發和生成，開發就交給資料開發團隊去把資料任務開發好、除錯好，然後釋出到生產環境上去，生產環境上更新一些配置的排程資訊，比如說按天、周、月等等去運維，對他的資料開發流程要求特別嚴，通常情況下有更多的事情發生，包的開發、測試，還有一些預發環境和生產，整個程式碼環境都會去詳細的進行運維，你去建立的時候，可以在專案配置中去除錯，比如說在開發專案裡面，通常情況是不開啟排程引數，就是說你建立的客戶提交之後，不會每天自動去排程，當你把任務釋出到生產的專案上面，根據你的配置更新每天去同步。

圖片描述

排程引數方面，比如說將資料如何去寫到一個最新的分割槽，比如說分公司24號對應的分割槽裡面，25是新的一些事情，如何去起到新對應25號的分割槽裡面去，我們提供這樣的引數，當你配置這樣的系統引數時候，每次在我們排程系統的時候會自動進行切換，一些日期不需要你每次手動去建立分割槽。

實驗操作

圖片描述

通常情況下，我們先去建立所謂的三張表，每張表簡單去適應如何分層，比方說第一層ODS層，第二層是DW層，從結構上面也可以看出來，每一個節點都是相當規則，當這張資料要同步到MaxCompute上，肯定是要建一個目標表，同樣有一張表可以儲存這張資料。然後建立工作流節點，接著建立自定義UDF，最後配置SQL節點和測試執行。
本文由雲棲志願小組毛鶴整理，編輯百見

原文連結

基於MaxCompute構建企業使用者畫像
2018-09-29
基於MaxCompute構建企業使用者畫像（使用者標籤的製作）
2018-03-15
大資料智慧：金融行業使用者畫像最佳實踐
2020-04-04
大資料行業
大資料專案實戰之 --- 使用者畫像專案分析
2018-11-16
大資料
使用者畫像
2018-11-06
使用者畫像產品化——從零開始搭建實時使用者畫像(六)
2020-06-29
使用者畫像標籤體系——從零開始搭建實時使用者畫像(三)
2020-05-28
UI設計培訓之使用者畫像-帶你認清的你的使用者
2021-05-25
UI
企業如何利用資料打造精準使用者畫像？
2024-10-07
個推使用者畫像的實踐與應用
2019-01-29
做遊戲運營不懂使用者畫像怎麼行？ 5分鐘讓你讀懂使用者畫像
2019-12-03
遊戲
Hadoop資料遷移MaxCompute最佳實踐
2018-09-10
Hadoop
MySQL MaxCompute與AnalyticDB實現資料處理與轉換過程
2023-02-04
MySql
高逼格Android轉場動畫，輕鬆實現掘金使用者頭像轉場動畫
2019-02-28
Android動畫
CDP平臺:如何解決使用者畫像標籤資料不準的問題？
2024-03-06
如何構建好的使用者畫像平臺？
2023-03-14
SaaS 模式雲資料倉儲 MaxCompute 資料安全最佳實踐
2020-08-05
模式
記一個頭像高光動畫的CSS實現
2019-04-13
動畫CSS
DPM如何規劃使用者畫像
2022-05-26
[譯] 更好的資料，更明智的決策：Google Play Console 和 Firebase 幫你分析你的使用者
2018-11-12
Go
食品加工MES系統如何實現資料採集和裝置管理
2023-04-24
MobData：華為手機使用者畫像
2018-08-14
實戰案例 | 細分使用者畫像進行交叉營銷
2023-04-07
個推大資料：2019年5G手機首批使用者畫像報告
2019-09-02
大資料
精準服務並不難！Smartbi資料分析神器助你構建使用者畫像
2021-12-09
乾貨：基於使用者畫像的聚類分析
2018-05-17
聚類
從情感分析到使用者畫像，CCF大資料與計算智慧大賽作品原始碼資料整理
2018-03-09
大資料原始碼
1個好方案，幫你實現複雜資料來源中小區資訊的準確歸一化
2018-12-12
2020年抖音使用者畫像報告
2020-03-11
新能源汽車使用者畫像淺析
2020-11-05
各公司使用者畫像技術案例分享
2022-04-24
使用者畫像分析與場景應用
2021-01-14
實時標籤開發——從零開始搭建實時使用者畫像(五)
2020-06-11
消費者權益新挑戰！“大資料殺熟”的商業邏輯是“使用者畫像”？
2022-03-23
大資料
基於MaxCompute的數倉資料質量管理
2019-04-18
MaxCompute在高德大資料上的應用
2019-02-18
大資料
如何構建標籤畫像工程體系及實現方案
2022-12-26
六西格瑪幫你實現工作目標
2022-03-07

MaxCompute幫你五步實現使用者畫像的資料加工

相關文章