楊列昂:騰訊移動分析與服務架構

騰訊雲加社群發表於2018-06-01

歡迎大家前往騰訊雲+社群,獲取更多騰訊海量技術實踐乾貨哦~

作者:楊列昂,騰訊大資料高階工程師,2011年加入騰訊,前後負責騰訊大資料產品、海量使用者畫像、騰訊移動分析(MTA)、騰訊移動推送(信鴿)等核心產品的設計研發工作,專注於產品價值挖掘,系統架構優化等方向。

img

大家好,我今天分享的題目是騰訊移動分析與產品運營。首先是自我介紹,我是來自騰訊大資料,2011年加入騰訊,先後負責過騰訊大資料的海量應用畫像,騰訊移動分析、騰訊移動推送等各個產品的設計和研發工作,主要專注於產品的價值挖掘、系統架構優化。

img

今天分享的主題大概有三個

  • 首先是移動分析工具能為我們做哪些事情,它的價值在哪裡。
  • 二是作為一站式的產品營銷平臺,我們如何改善產品營銷推廣的過程。
  • 三是藉助於騰訊的資料積累和大資料的能力,賦能企業建立一個互利共生的服務生態。

移動分析工具

移動分析進化論

img

移動APP的分析需求,可以分為四個階段。首先是最基礎指標、報表、移動畫像,不同平臺的資料都能接入進來,協同做分析。等到APP發展到一定階段,開始出現付費,有了自己的盈利模式之後,我們就需要更專注於精細化的運營,這個時候我們更加關注使用者流失和潛在付費這些特點的群體。

到了APP的推廣環節之後,更加關注的是從APP推廣的點選、下載到最終的啟用,乃至註冊、付費整個流程,以及關注營銷推廣的效果。做完以上這些事情,其實還可以多做一步,應該就是利用大資料的能力,來去解決行業上的一些痛點,比如說金融領域的評估模型,希望能輸出一整套的行業解決方案來幫助新進的一些企業和使用者能更快地進入他的行業,解決一些運營上的痛點。

回頭來看整個過程,其實是從知道、瞭解業務整體的狀態,到有針對性的洞察特定的目標群體,採取動作,最後成為一個行業專家的過程。

業務指標和價值評估體系

img

關於業務指標,企業在不同階段可能他們關注的重點會有所不同,在產品最小价值階段,也就是MVP階段,企業可能更關注的是能撬動使用者需求的功能點。而到了快速增長階段,我們就更加專注於使用者的拉新和留存。到了付費的階段,我們就會更加的去留意一個盈利週期、渠道轉化等等指標。我們根據海盜模型,我們熟知的2A3R的營銷理論建立了一整套的業務指標體系,包括使用者獲取、使用者活躍、留存、傳播、收入,再結合渠道效果分析、使用者生命週期管理、事件分析等等搭建出一整套APP的體系。

此外還要結合業界競品和行業趨勢,比如現在火的AI或者區塊鏈的一些行業,身處這些行業中的一些企業,它未來的發展狀況相比夕陽產業所待的企業,大家就更加看好一些。結合APP自身、競品和行業趨勢,推出一個九維的價值評估體系,能更加立刻、客觀地來刻畫APP整體的運營狀態。

多平臺接入

img

業務資料存在形式多種多樣,在不同平臺上,給出了特定的一個解決方案。首先是移動端,兩大主流作業系統,安卓和IOS,我們都提供了十分鐘快速接入的能力,目前這一塊的接入已經被精簡到一行程式碼就可以解決。HTML5作為移動端特有的一個開發模式,它的開發週期更短,可移植性好、更新也快,普遍應用移動公眾號、Web網頁等等,我們也針對H5推出了一整套的分析框架。也有一些APP,比如微信裡面整合了H5的容器,我們在這方面做了一些努力打通H5和Hybrid。

微信小程式,我們也推出了自己的統計分析工具,這一塊也有很多行業標杆在使用。說到智慧硬體,谷歌和蘋果最近幾年開始發力,推出了自己的一些軟體開發包,我們也在這裡做了一些佈局。還有一些資料是從服務端更新的,比如一些使用者帳號的內部的狀態更新,我們因此也是提供了伺服器端的接入方式。

移動裝置畫像

img

接入到M他的使用者經常會問一個問題,我們如何知道使用者的分佈狀態,這就不得不提到我們的移動使用者畫像。做資料平臺的,其實最基礎的也就是要有自己的畫像體系,我們知道騰訊的業務線是非常廣泛的,它在社交、新聞、文娛、金融等各個領域,都有很多的佈局。很多APP有數億甚至數十億的使用者規模,每年產生千億級的資料流水。如何對這些資料做一個有效的規整,打通資料孤島,也是我們來解決的一個難題。

資料經過連線、分析,最終得到一個標準化的結果。其中既包括結構化的資料,比如使用者屬性,使用者的商業興趣,行為特徵。也包括一些非結構化的資料,比如語料、聲音、圖象等資訊。再經過整個的處理流程之後,轉化成騰訊多維海量的資料資產。這其中涉及到很多的演算法和特定的領域問題,其中最基礎的,就是涉及到裝置特徵的識別。

裝置識別

img

提到裝置識別,安卓系統可以通過API獲取IMEI的標識,但是這個有缺陷,市場山寨機的IMEI是一樣的。還有一種情況,終端的模擬器,也會對我們的統計造成干擾,還有一些使用者篡改裝置號的行為,比如現在市面有很多在安卓root的情況下可以修改IMEI。還有是可能報一些攻擊,偽造日誌請求,篡改裡面的裝置號欄位。

以上這些情況,都是我們能拿到裝置號,但裝置號可能不夠準確,或者可用性比較差。還有一種情況因為受限於系統許可權根本拿不到裝置號,比如安卓6.0以後,裝置號的管理許可權也是收的越來越緊。隨著大眾對使用者隱私的意識、關注度越來越高,谷歌的play商店禁止採集IMEI,歐盟也是在近期不斷更新自己的個人資訊採集的標準。也是在禁止APP在非必要的情況下去獲取裝置的IMEI資訊。

基於以上事實,我們推出自己的一套方案通過移動端的裝置識別,裝置指紋資訊,在伺服器端加密下發的方式,解決了在不同場景下裝置識別的問題。我們稱之為MID。另外通過一套離線的分析系統,可以把裝置、刷機、重置裝置而重複分配的MID關聯起來,從而實現最終的一致性。前面講的這些,都是我們在指標統計,在一整套的裝置畫像上的建設。

歸因分析

等企業進入到一個精細化運營的階段,這時候最重要的是歸因分析。這裡舉個例子,以一個遊戲行業的使用者流失為例。某個知名遊戲APP經過分析發現它的流失使用者可以分為三種:

  • 一是感覺成長有障礙,無論怎麼樣去努力,都感不上大玩家,所以憤而離去。
  • 二是遊戲負擔太重了,覺得每天花好幾個小時耗在這裡,每天的玩法都比較單一,枯燥乏味。
  • 三是在PVP的場合遇到了一些障礙,比如官方打擊外掛不利,或者有一些幫派的壟斷。

img

img

針對這種不同原因造成的使用者流失,我們採取的策略顯然是各不相同的。這個APP的運營方,如果在成本最大化的同時,來去解決這些使用者流失的問題。難道給每一個人發一個調查問卷嗎?這就需要一個歸因分析的能力。我們這裡提供了多種手段方法,比如細分流失使用者的特徵,通過一些方式來建模,最後去對潛在流失使用者做一個預測,我們有一個專門的團隊做這樣的事。

營銷推廣與效果監測

img

前面是講移動分析能提供的一些服務,接下來重點關注一下在營銷推廣和廣告效果監測的環節中,我們又有哪些流程可以改進。

廣告效果監測

img

在使用者獲取環節,我們其實有很多的方式,最傳統的是付費廣告,廣告推廣的形式。我們從廣告推廣的四個流程來改進整個的效果。

  • 首先是人群的選取,我們如何把要推廣的這些人選出來,更好的標定我們的目標使用者。
  • 二是廣告投放環節,能一鍵快速無縫投放到廣告平臺。
  • 三是效果監測。
  • 四是流量清洗,把異常的流量剔除,來去更好地節約投放方的成本。

使用者分群

img

使用者分群,這裡會提供基於規則和基於演算法的兩種模型,基於規則包括活躍、非活躍使用者,或者已知的自定義實踐、使用者和裝置畫像,都可以在這個基礎上做一些與或非做一些規則的分群。

基於演算法,預測流失使用者、預測高潛力使用者的分群。

相似人群擴充

img

如果對前面分群的效果不滿意,或者希望擴充新的使用者,這裡也提供了一個lookalike的形式。這裡是某汽車行業線下lookalike的場景,通過和大盤使用者的關聯,疊加的排序,可以找到它的目標人群在不同興趣類目上的關聯度,可以注意到在一些平常認知不到的類目上,比如家居建材、建築工程這些行業感興趣的人群,其實跟它的目標使用者的重合度,反而比較高。

這就是一次從線下到線上的一次有效推廣,我們藉助於Lookalike的能力,為每一個接入的客戶提供更好的分析。

資料開放 一鍵匯出

img

最後可以一鍵匯出到騰訊內部的廣告平臺上,這是實際操作的介面,可以看到4月份的活躍使用者已經推送到了廣點通平臺。

定製化渠道對接方案

img

廣告界有一句很有名的話,我知道我的廣告費有一半都浪費掉了,但我不知道是哪一半。所以廣告效果的跟蹤是非常非常重要的,這裡其實不僅是對接了top10的平臺,包括騰訊、愛奇藝、百度、今日頭條、陌陌等一些標準的廣告渠道,還支援了定製化的平臺對接。因為這個渠道對接,在PC端通過用cookie關聯資料,因為流量端、分發中心和應用啟用分屬在不同的層面或者APP,很難串聯起來的。

MMA標準:異常流量識別

img

這時候提供兩套方案,一是渠道安裝包的可擴充套件的動態簽名方案,在下載安裝包的過程中實時對應渠道的安裝包。還有一種採用關聯演算法,通過採集到了LBS資訊、指紋資訊來蒐集下載安裝、啟用這兩部分的行為。

提到移動流量分發,不可避免會想到異常流量的問題,現在有很多的黑產或者商業利益的關係,MMA標準是國內移動廣告業通用的標準,裡面對異常流量的型別做了簡單的分類。通過異常本身是否容易被識別,它的誤判和漏判率的高低,可以簡單分為常規無效流量和複雜無效流量兩個部分。

流量清洗

img

我們在實現常規無效流量這些場景的同時,更關注到的是認為刷量這一部分,也就是我們俗稱的五毛黨。他們可能通過網上的派單,通過一些付費的,他們去自己手工的完成整個APP的下載、安裝乃至後續的啟用註冊的流程。我們聯合騰訊內部專門做打擊黑產的團隊,合作完成了這一塊資料的識別。

流量清洗模組,大概分為三個部分,規則的識別、建模以及最終應用。這個地方隨著黑產的技術在不斷地提升,有很多自動化的手段可以去模仿人工的啟用,以及後續的註冊等等流程。所以這一塊我們也是在引入對抗網路和複雜的神經演算法來去加強這一塊的能力。

互利共生的服務生態

我們如何去利用騰訊的海量資料和計算能力,來賦能企業,建立一個互利共生的服務生態。大資料可以幫助企業洞察使用者、行業變遷和資本走向,來輔助公司的戰略佈局和決策,但應用大資料過程中面臨很多的挑戰,如何建設底層能力的支撐,如何培養專業的人才梯隊等等。我們這裡有一些實踐經驗可以分享。

資料驅動產品運營

img

img

可以看到現在我們的指標有很多,我們對它做了一個分級的處理,其中有一些全量的指標,關係到一些歷史的狀態特徵,就比如說一些累計使用者留存性的問題,我們採用離線分析的模組。對使用者分群的分析,有自己多維實時分析的計算模式。另外還有潛在使用者流失,潛在付費使用者的線上預測模型,以及基於監控指標和診斷指標的秒級實時分析。

基礎技術架構

img

為了去實現前面的這一些功能和架構,我們也有一套底層的支撐,首先是內部的docker系統,可以給我們提供強大的底層支撐能力。中間實時計算用到這些hadoop、spark等平臺,最後暴露給使用者的是使用者畫像、關鍵指標資料、自定義計算事件上卷和下鑽的分析,外層進行了多種多樣的接入方式。

賦能企業大資料能力

img

騰訊經過多年的建設,在儲存、計算和排程平臺上,都有自己的一些元件上的積累,構建企業大資料的能力需要經過三個部分,首先資料採集,然後是建模,以及分析。我們這裡提供了兩種方案,一種是可以經過視覺化的操作,利用現有的途徑降低門檻。或者這些平臺也對外開放,企業可以協作或者自建。

img

企業大資料的建設,涉及到資料採集,演算法運用模型和資料透視,以及資料資產管理等多個方面,我們可以直接使用大資料產品化的一個元件,比如騰訊移動分析和黃金眼自助報表等,也可以企業自建平臺,利用私有云上用我們的大資料套件去完成整套的分析過程。

img

單一企業無法滿足使用者所有的訴求,未來將會有更多的協同合作。我們希望能以MTA為橋樑,對這些基礎設施、商業平臺和資料服務,加速企業在大資料佈局上的能力,大家可以攜手共建一個健康完善智慧的資料生態,讓企業能在大資料中獲益,給使用者提供更加優質的服務。

我的分享就到這裡,謝謝大家。

Q/A:

Q:這個使用者監測的資料是哪裡產生的?比如使用者監測,這個使用者監測只是我這個APP的使用者進行監測,還是說可能還有一些其它的支援用來完善這個大資料產生的使用者監測的結果。

A:我們在整個分析過程中,剛才提到移動畫像,移動畫像可能涉及到更多的整個生態產生的資料,不僅包括騰訊內,也包括騰訊系外部的一些資料,這一塊就會有APP採集的資料之外的。我們也希望藉助這個平臺來完善整個的服務生態,希望大家都能從中獲益。

Q:我們也做一些移動端開發,您提出MID的概念,MID裡面有很多像記憶體或者指紋,都是動態變化的,怎麼去識別這個使用者是唯一的,保證他的有效性呢?

A:可能現有的機制不能百分之百保證,我們也是儘可能完善這個事。確實有一些終端指紋是比較固定的,比如我們用過H5的指紋,這個在不同終端上拿到的就會不一樣,但是相同終端、相同瀏覽器下使用會得到一個唯一的結果,我們就可以藉助這種類似的指紋資訊來標定唯一裝置。

Q:剛才也提到這個裝置可能涉及到一些許可權的問題,可能終端的許可權會動態調整,這是一個增量的過程嗎?這個裝置已經有記憶體或者其它幾項資訊了,但增量過程中是不是也能保證這個裝置是唯一的?比如說他增加指紋或者增加其他的許可權了。

A:我們在採集裝置唯一指紋特徵的時候,就會考慮到許可權也是其中一個考量的很重要的點。如果他易於獲得,我們就更容易採納這項特徵。你剛才提到的情況是說,這個許可權有可能之前沒有,後面再獲得,這個時候需要一些離線修正的部分,我們怎麼樣把不同的MID的裝置關聯起來,做一個後臺的去重。

Q:比如有一些黑客通過模擬器或者其他的手段,來偽造一些資料,以我們現有的技術,我們們後端就像微信公眾號上閱讀原文一樣是可以去刷這些流量的,打比方微信公眾號,現在後臺有辦法識別出來嗎?因為它是完全模擬人工的操作去實現,我們有辦法識別嗎?

A:其實是提到黑產的一個場景,可能會僱傭一些真人完成整個真實的點選、註冊的流程,在這種情況下我們是有可能做得到的。為什麼能做得到?因為做這些的人,往往刷了這個單,還會再接其他的任務,刷了這個APP,又刷另外一個APP,通過不同APP的識別,比如在另外一個APP上識別出有端倪,可以關聯這個裝置對應的其它APP,也認為它是異常的狀態。

還有是利用騰訊本身的一些帳號體系,對於已知的一些加入到黑產產業鏈的帳號,或者他們的一些裝置特徵去做一個記錄和跟蹤。其實一句話來講,因為他們的違法成本,黑產整個的成本,如果要做到完全沒有辦法去跟蹤,完全沒有辦法識別到的話,他的成本會無限高,因為他本身也要做一些成本的考量,他的收益在哪裡,所以我們現在有辦法識別到的。

更多相關資料,請點選下方連結獲取:

騰訊移動分析與產品運營-楊列昂.pdf


問答

如何從客戶端通過藍芽將字串傳送到移動伺服器?

相關閱讀

胡澤銳:移動開發即服務——騰訊雲移動開發平臺技術分享

甘恆通:騰訊信鴿海量移動推送服務構建

董朝:打造雲端儲存服務——移動端資料儲存與分發


此文已由作者授權騰訊雲+社群釋出,原文連結:https://cloud.tencent.com/developer/article/1138506?fromSource=waitui

歡迎大家前往騰訊雲+社群或關注雲加社群微信公眾號(QcloudCommunity),第一時間獲取更多海量技術實踐乾貨哦~

相關文章