知道這12個功能,讓你10倍速處理運營資料

weixin_34378969發表於2018-03-23

引言

做運營總要學一些資料分析,越是高階運營,其對資料也往往越敏感,其對資料的運用能力也往往越深入。今天分享的資料處理方面的內容,尤其適用於在運營一途上,剛開始接觸資料,但又希望用資料幫助自己成為高手的小夥伴們,這12個功能,讓你比使用Excel快10倍的處理資料,從而用更高品質的資料,將更長的時間放在運營思考上。

在這裡,我們使用的工具是資料觀,重點用到的功能模組是函式表示式線上ETL

一、函式表示式

很多人都用過Excel中的函式表示式,不過菜鳥一般就用些sum、count、left、right之類的函式,頂多用到vlookup、if函式,而高手們則能借助巢狀函式實現一票牛X的自動計算。在資料觀中,也有函式,不過這裡的函式採用的是SQL的寫法。

1、case when

在處理百度統計實時訪客資料時,case when 函式多用來對來源欄位進行歸類,以便於檢視,以下3種表達形式就是在處理訪客來源時最常用的:

CASE
WHEN [來源] in (‘必應’,‘Bing’,‘Google’,‘搜狗’)THEN ‘搜尋引擎’ 
WHEN [來源]=‘直接訪問’ THEN ‘直接訪問’  
WHEN [來源] like%zhihu%’ THEN ‘知乎'
 ELSE [來源] END

In:滿足其中任意條件,均會顯示 then後面的內容
=:欄位需要完全匹配,才會顯示 then 後面的內容
Like ’%x%’:是正規表示式的一種匹配方式,簡單講相當於“包含”的效果,只要欄位中包含x字元,就會顯示then後面的內容

2、Replace

相當於Excel中的替換。

表達方式:REPLACE([欄位],‘被替換的字元’,‘用於替換的字元')

如:REPLACE([訪問時長],'s','') 即:用空值替換“s”字元,效果如下圖

3075208-b7eb8e8b7a232f93.png
資料觀-函式-replace

3、Datediff

DATEDIFF([最後登入時間],[註冊時間])  效果:“最後登入時間-註冊時間”的天數

DATEDIFF(SYSDATE(),[註冊時間])  效果:“當前時間-註冊時間”的天數

3075208-f7f11bfe02f1e978.png
資料觀-函式-Datediff

4、Substring

常用於擷取欄位,更適用於類似提取身份證中特定位置的數字,以及對詳細地址中的省、市、縣等進行拆分

SUBSTRING([入口頁面],9)   

這裡的“9”意味著左側數第9位開始擷取,保留其右邊的字元(包含第9位的字元)

3075208-b37f7ca4681c79eb.png
資料觀-函式-substring

5、Substring_index

常用於擷取欄位,更適用擷取網址等字元位置不定,但有一定規則的欄位

SUBSTRING_INDEX ([入口頁面],'//',-1)

注://指的是要擷取的字元,-1意味著從左側數第1位,保留其右邊的字元;數字的正負,意味著是保留左側的欄位還是保留右側的欄位。

3075208-145f04c0811ed7e5.png
資料觀-函式-Substring_index

6、Nullif

NULLIF([企業成員郵箱],[企業建立人郵箱])

如果後面的欄位與前面的欄位一致,則為空值,不一致,則返回前面欄位的值

3075208-8c2c76e8d9ea3103.png
資料觀-函式- Nullif  

一、線上ETL

接觸過BI的人都會對ETL工具很熟悉,它可以將企業中的分散、零亂、標準不統一的資料變成具有標準協議的資料儲存到資料倉儲中,然後在企業決策需要時快速呼叫,通常情況下,在BI專案中ETL會花掉整個專案至少1/3的時間,ETL設計的好壞直接關接到BI專案的成敗。

在資料觀中,同樣內建了這麼個功能,而且視覺化、拖拽點選式的操作方式,讓大家使用起來的技術門檻大大降低。下面,正式分享6個我在處理運營資料時常用的功能。

過濾

過濾:根據某些限定條件從總量資料中選取所需的部分資料。

在資料觀ETL中,可以新增多個過濾條件。在“所有/任意條件的資料”中,“所有”是對所有條件都滿足,結果才會出現;“任意”表示只要有一個條件能滿足時,結果就會出現。

3075208-89418e38ad59dd78.png
資料觀線上ETL-過濾

2、日期計算

日期計算:對日期型別的資料進行處理

時間,是許多趨勢分析、預測分析中非常有用的一個欄位。運營中,計算日期差是經常用到的,比如RFM模型中,R-客戶最近一次交易時間的間隔,就需要用(當前時間-最近一次交易時間)這個時間差。其它的如日期加減、周幾、一年中第幾周等也往往是減輕一些特殊日期對運營效果影響的觀察角度。

3075208-6fc27c56a8791e48.png
線上ETL-日期計算

3、分組聚合

分組聚合:將多列資料按照某個條件分組並以某種計算方式合為一列。

實際運用中,分組聚合是拼合不同來源的資料時常用的,可以輕鬆實現跨域效果追蹤。目前出現的分組方式有:按日期分組、按來源分組、按IP分組;聚合常用到的是:求和、平均、計數等。

3075208-f850680e55622aa1.png
線上ETL-分組聚合

4、排序和累計

排序和累計:對一定範圍的資料進行累計求和/計數,或排序。

想要實現定期自動更新TOPN的排名嗎?這個功能絕對是好幫手。

3075208-fa7e2e613229a799.png
線上ETL-排序和累計

5、替換文字

替換文字:相當於Excel中的查詢替換

在處理資料中數字和字母混合時很好用。如在匯出百度統計實時訪客資料後,源資料中訪問時長的表現方式為“3s”,就可以通過該功能處理為“3”,以便於之後對其進行運算。

3075208-3620565aeeaeb9f8.png
線上ETL-替換文字

6、關聯

關聯:將不同的資料表按照共同欄位拼合為一份資料

兩份資料儘量基於共同欄位一對一匹配,可以一對多,但是一定不要多對多匹配,否則拼合後的資料量將是A資料量與B資料量的乘積。

3075208-46c1b47592758f63.png
線上ETL-關聯

相關文章