對於增長黑客(Growth Hacker),行業裡有一個很清晰的定義就是資料驅動營銷,以市場指導產品,通過技術化手段貫徹增長目標的人。所以這裡有一個很核心的理念就是資料驅動營銷和增長,這個也是資料團隊的核心價值所在。經過多年的實戰經驗積累,我們沉澱了一套適用於自身業務的資料驅動方法,希望能夠拿出來跟大家做個分享,歡迎大家關注。

1. 背景

近兩年來,隨著“增長黑客”的概念從大洋彼岸的矽谷傳入國內,相關的理念和方法開始在網際網路技術圈流行起來。2015年,《增長黑客》一書的出版和流行更是把“增長黑客”這個名詞正式帶入了大眾的視野。“增長黑客”近年來興起於美國網際網路創業圈,指的是一種新型的職業或團隊角色,主要是依靠技術和資料的力量來達成營銷目標,而非傳統意義上靠砸錢來獲取使用者的市場推廣角色。因此,增長黑客有一個很重要的理念就是“資料驅動”,也就是通過對資料的分析挖掘來發現有價值的資料洞察,並推動線上的落地應用,再通過A/B test來不斷的迭代優化,最後找到最有效的策略方案,幫助業務實現持續增長。

作為公司歷史最悠久的資料團隊之一,SNG資料中心早在2008年就開始建設專門的資料團隊,9年來一直致力於大資料的分析和挖掘,通過資料來支援SNG業務的發展。在這個過程中,我們也積累了不少的理論方法和實戰經驗,希望能夠拿出來跟大家做個分享。我們的分享計劃分批展開,涉及的內容包括資料基礎能力建設、大盤指標預測、使用者增長分析、營收增長分析、產品優化分析等。後面我們會有相關係列文章陸續發出,這篇文章算是一篇開篇的綜述,旨在讓大家能夠對我們的經驗方法有個整體的瞭解。當然,資料涉及到的知識體系和領域太過龐大,我們的分享也只是冰山一角,希望能夠給大家帶來一些啟發,歡迎大家關注。

2. 基礎能力建設

問渠那得清如許,為有源頭活水來。資料行當裡面有一句老話叫做“Garbage in,garbage out(垃圾進,垃圾出)”,指的就是要從源頭上確保資料的及時和準確,以保證上層的分析和挖掘能夠得出正確的、有價值的結論。SNG的資料異構現象突出,業務上包含了即時通訊(QQ)、社交平臺(QQ空間)、增值產品(QQ會員、黃鑽等)、遊戲(手Q遊戲、空間頁遊)等龐雜的業務體系,而且個個都是海量的資料,不僅如此,隨著公司組織架構的調整我們還經歷過大範圍的PC資料和移動端資料的整合,有大量的歷史遺留問題要解決,複雜程度可想而知。這一節將為大家介紹我們為了管理和維護這麼多紛繁複雜的業務資料是如何建設基礎的資料能力的。

2.1 資料上報通道建設

對於大部分的資料探勘工程師來說,對資料的理解和應用都是從資料倉儲開始的,殊不知,使用者在產品上的每一次操作行為要上報到資料倉儲成為某個庫表中的一行記錄都要經過Agent部署、埋點、上報、轉發、清洗、排程入庫等多個步驟,每一個步驟都需要嚴格保證資料的一致和穩定。在資料量小、資料結構簡單的情況下,這或許不是一件太難的事情,但是面對SNG海量異構的複雜資料環境,要保證好資料的一致、穩定、實時,絕不是一項容易的工作。為了更好的應對海量複雜的資料上報問題,早在2012年,我們就開始了新一代資料上報通道DataCollector(簡稱DC)的建設。經過4年多的持續迭代優化,DC現在每天要支援1P+大小,1萬億+記錄條數的資料的穩定上報,為SNG的底層資料建設立下了汗馬功勞。DC通道的架構可以參考圖1:

圖1:DC資料上報通道架構圖

按照DC資料上報通道的架構,我們只需要六步即可完成一次新的資料上報:

第一步:安裝及檢查DCAgent版本

第二步:按照API文件進行資料上報埋點

第三步:建立新的資料介面

第四步:檢查上報通道

第五步:查詢流水資料

第六步:檢視入庫情況

2.2 資料體系建設

完善的資料上報通道的建設解決了資料來源的問題,但是海量的資料在上報到資料倉儲的過程中以及上報之後如果沒有科學有效的治理,後果將是災難性的,就像洪水來襲時沒有防洪工程,任由洪水氾濫一樣恐怖。比如在日常的資料工作中,我們經常遇到這樣的情況:資料庫表沒有說明文件,欄位定義和統計邏輯不清晰,業務核心指標口徑不統一,庫表搜尋難度大,等等。這些問題都是由於缺乏科學合理的後設資料管理和資料體系導致的。SNG在多年的資料工作中也是深受這些問題的困擾。痛定思痛,我們通過規範資料上報、建立標準化介面、規範資料字典等一系列優化措施的執行,針對即時通訊、社交平臺、包月增值等業務,沉澱了一套適合SNG業務特點的資料體系建設的方法。

以社交平臺為例,我們總結了一套適用於社交產品使用者寫操作行為的資料體系如表1以及寫操作維表如表2:

寫操作時間 QQ號碼 寫操作來源 一級操作ID 二級操作ID 寫操作次數
20170313 123456 1(PC) 5 822 5
20170313 123456 2(iOS) 5 823 10
20170313 123456 3(Android) 5 36 15

表1:社交平臺寫操作行為資料體系示例

 

一級操作ID 一級操作名 二級操作ID 二級操作名
5 UGC操作 822 原創
5 UGC操作 823 轉發
5 UGC操作 36 評論回覆

表2:社交平臺寫操作維表示例

該資料體系及維表體系建設起來之後,縱使業務變幻,萬變不離其宗,有新的寫操作功能特性發布之後,只需要按照約定好的資料體系進行埋點上報,同時在維表裡新增新的寫操作ID的對映關係,報表即可自動生成,不需要資料分析師再額外開發,可見一個科學的資料體系的重要性,可以大大減少人力成本,提升開發效率。

       2.3 指標體系建設

曾經聽一個從鵝廠出去創業的同事講過他自己親身經歷的一個創業故事。在他們的產品上線初期,公司最大的目標就是獲取更多的安裝使用者。為了達成這個目標,他組建了一個龐大的線下團隊在各個網點做地推,同時線上也在購買各種渠道和廣告,進行品牌宣傳。一段時間的運營下來,成效顯著,安裝使用者數每天都在成倍甚至十幾倍的增長。就在整個公司上下都在為安裝使用者數的大漲而歡呼雀躍的時候,他自己卻陷入了極大的恐慌之中。因為他發現,在龐大的安裝使用者裡,日均活躍使用者數(DAU)非常少,也就是說公司花費了巨大的精力和成本獲取來的使用者,最終卻沒有在產品中留存下來。在接下來的時間裡,他迅速調整了公司目標,開始以提升DAU為導向指導運營思路,最終成功的提高了使用者的留存,DAU也隨之改變了之前的頹勢,開始穩步上漲。

同樣的故事在矽谷也發生過。早在 Facebook 成立之前,美國社交網路的老大是MySpace。MySpace 歷史久,使用者多,還有東家加大金主新聞集團撐腰,從任何一個角度看都應該可以輕易碾壓由幾個大學輟學生創辦的 Facebook,最終卻輸得一敗塗地。其中的原因當然不只一個,但是有一個有趣的區別是:MySpace 公司運營的主要指標是註冊“使用者數”,而 Facebook 在 Mark 的指引下,在成立的早期就把“月活躍使用者數”作為對外匯報和內部運營的主要指標。

相比之下,從“使用者數”到“月活躍使用者數”,看起來只是多了三個字,卻確保了 Facebook 內部的任何決策都是指向真實持續的活躍使用者增長。

這樣的故事背後,其實考驗的是一家公司或者一個產品的指標體系規劃和建設能力。在“增長黑客”的理念當中,有一個“北極星指標(North Star Metric)”的概念,指的就是有一個唯一重要的的指標,像北極星一樣掛在天空中,指引著全公司上上下下,向著同一個方向邁進。當然,不同的產品形態會有不同的北極星指標,平臺產品關注的是活躍使用者數、活躍留存率這類指標,營收產品關注的是付費使用者數、付費滲透率等等。在不同的產品發展階段,指標體系的規劃也會有所不同。我們對不同的產品形態及產品發展階段的指標體系進行多年的研究之後,針對產品從灰度上線到穩定期的各個階段總結了一套適用於大多數產品的不同發展階段的指標體系,如圖3:

圖3:產品各發展階段的指標體系規劃

3. 使用者增長分析

前面介紹了我們在資料上報、資料體系、指標體系等方面做的基礎建設工作。面對每天上報的1P+大小,1萬億+記錄條數的海量資料,我們當然不會止步於報表開發層面,更加不會讓這些有巨大價值的資料躺在倉庫裡面睡大覺。特別是在人口紅利衰減,業務增長乏力的大環境下,如何從海量的資料中挖掘出對使用者、對產品有價值的資訊助力業務增長,成了我們資料團隊每天都在思考的問題,這也是“增長黑客”的核心使命。在本節中,我將通過使用者生命週期管理(CLM)和使用者分群兩個在資料精細化運營中經常用到的方法來介紹我們是如何通過資料來驅動業務增長的。

       3.1 使用者生命週期管理(CLM)

任何一名產品運營人員,每天思考的無非是這三個哲學上的終極問題:使用者是誰,使用者從哪裡來,使用者要到哪裡去。為了解決好這三個問題,使用者生命週期管理(Customer Life-Cycle Management)方法應運而生。傳統的使用者生命週期管理基本上包含五個階段:獲取、提升、成熟、衰退、離網,使用者在不同的生命週期階段會有不同的訴求,產品運營上也會有不同的方案和側重點:

圖4:使用者生命週期

這裡有很多資料可以發揮巨大價值的地方,以新使用者獲取為例,通過對歷史新進使用者的特徵進行分析和資料建模,我們能夠建立一個預測使用者轉化概率的精準拉新模型,在推廣資源有限的情況下,鎖定高轉化概率的潛在使用者進行資源投放,大大提升投放效率。從我們實際應用的情況來看,通過模型篩選出來的潛在使用者,在轉化率上往往比通過人工經驗判斷篩選出來的使用者有20%-60%的提升,比隨機篩選出來的使用者更是有成倍甚至幾倍的提升。

我們對CLM方法的研究和應用,最早始於2012年,當時跟麥肯錫的駐場團隊一起封閉開發,以新使用者獲取為切入點,整理了8億使用者的近千個特徵欄位,進行了詳細的資料分析,近十輪的模型迭代,在多個渠道進行了200多次的活動投放試點,試驗使用者群+渠道+文案+活動形式的各種組合,期間還陸陸續續邀請了近百個QQ使用者參加深度訪談調研,驗證我們的資料結論,最終使得實驗組的點選率比對照組的提升穩定在40%-110%以上。隨後,我們又把在新使用者獲取專案中沉澱下來的經驗和方法複用到了活躍使用者流失預警以及流失使用者拉回的運營活動中,效果都有了顯著的提升,資料在增長分析中的價值得到了有利的驗證。自此,整套的使用者生命週期管理方法就此打磨成型。接下來,我們把這套方法先後在QQ會員遊戲聯運專案、空間頁遊專案、手Q遊戲運營專案中進行了推廣和複用,進一步放大了資料的價值。到今天,CLM的方法和理念已經滲透到了SNG的多個重要業務中,並且還在持續的探索和優化。以手Q遊戲運營為例,我們每天都會通過QQ手遊公眾號投放數以億計的精準拉新、拉付費、關懷等型別的CLM訊息,並且能夠自動採集資料進行效果監控,徹底改變了以前“產品經理提號碼包需求->資料團隊提包(排期)->產品經理上傳號碼包->投放->產品經理提效果統計監控需求->資料團隊開發報表(排期)”的傳統而又痛苦的模式,不僅大大提高了資源使用效率,也幫助業務大大減少了運營成本。

在推廣CLM方法,擴充業務場景的同時,為了更好的服務業務,我們自身的能力建設也沒有停下腳步,特徵庫、演算法庫、AB test工具等已經日趨完善和成熟,另外值得一提的是,我們近期上線的lookalike功能使得需求的響應速度又有了進一步的提升。以前業務有一個拉新的需求,需要先跟我們溝通需求,我們瞭解需求之後要經過資料準備、取樣、模型訓練/驗證/部署等過程,這麼一個過程下來,快則一兩個星期,慢則一個月,模型才能上線使用,這個對於需求緊急、心情急迫的運營同學來說顯然是不能忍的。現在,運營同學只需要上傳一個種子使用者號碼包就可以通過lookalike功能進行人群擴散,返回跟種子使用者相似的其他使用者進行運營活動的投放,前後只需要一個小時左右,速度有了質的飛躍,當然這也得益於我們投入了很多精力進行基礎特徵庫的建設。

       3.2 使用者分群

CLM模型建立之後,我們可以通過模型找到更加精準的目標使用者,但是為了把運營活動做的更加精細,我們還需要考慮這些問題:我們的目標使用者的人群屬性怎樣?有什麼行為特點和興趣愛好?根據這些應該怎樣設計運營活動。這就要用到使用者分群了。使用者分群從語義上理解就是對使用者群進行細分,不同的使用者群有不同的特徵,好的分群能夠幫助業務充分認識群體使用者的差異化特徵,從而找到正確的營銷機會、運營方向。所以在資料分析行業裡,有一句老話叫做“不細分,毋寧死”,講的就是這個道理。既然使用者分群這麼重要,那我們要怎麼做呢?使用者分群常見的維度包括以下幾個:

1.    統計指標:年齡,性別,地域

2.    付費狀態:免費,試用,付費使用者

3.    購買歷史:未付費使用者,一次付費使用者,多次付費使用者

4.    訪問位置:使用者使用產品的區域位置

5.    使用頻率:使用者使用產品的頻率

6.    使用深度:輕度,中度,重度使用者

7.    廣告點選:使用者點選了廣告 vs 未點選廣告

在維度少的情況下,使用者分群是很好做的,比如年齡維度,我們經常會按照人生不同的生命階段進行劃分,再比如活躍維度,我們可以劃分成低活躍、中活躍、高活躍使用者群體。但是當維度增加到幾十個甚至幾百個維度時,人腦就完全處理不過來了,這個時候無監督聚類的方法就派上用場啦。舉個例子,我們採集了以下10幾個維度的資料,需要對使用者進行分群。

圖5:使用者特徵維度

就算經驗再豐富的運營同學,面對這十幾個複雜的資料維度,相信也很難對使用者群進行準確的劃分。而我們藉助無監督聚類分析的方法,可以很快的把使用者分成以下幾類:

圖6:使用者無監督聚類結果

當然這裡的結果都是數值資訊,還不能直接指導運營方向和思路。但是結合業務理解對資料進行提煉和解讀,我們很容易將資料轉化成人可以理解的使用者分群:

聚類1特徵:年齡未知或低齡,好友少,活躍度和使用粘性都極低【低端低齡群體】

聚類2特徵:年齡偏小,前臺線上和訊息活躍均比較高【學生活躍群體】

聚類3特徵:平均27歲左右,PC端和手機端活躍度均非常高  【職場高粘性群體】

聚類4特徵:平均28歲左右,前臺線上和訊息活躍都極低【職場低粘性群體】

聚類5特徵:年齡較高,手機線上時長高,但訊息溝通極少   【高齡低活躍群體】

當運營同學拿到這樣一個科學、可理解的使用者分群結果時,就可以針對不同使用者群體的特徵設計符合該群體特點和需求的文案、道具和活動形式。運營活動也必將取得事半功倍的效果。

4. 總結

正如文章開頭所說,資料涉及到的知識體系和領域太過龐大,這裡的介紹只是冰山一角,海量的資料中蘊含著豐富的金礦還等著我們去開採。回顧這些年的資料工作,我們在資料型別上,從結構化的使用者行為資料挖到LBS軌跡資料,從關係鏈的圖資料挖到文字資料,在系統架構上,我們也在不斷完善和優化我們的資料系統及架構,為業務提供更好的資料服務。我們一直相信,通過資料驅動來幫助業務增長是資料團隊最大的使命和價值,我們會在這條道路上持續探索,不忘初心,砥礪前行。

來源:騰訊QQ大資料