7000字長文 | 資料分析師能力模型

qing_yun發表於2022-06-16

為什麼要學習資料分析?

「過去」以往在增量時代,每天都有新的領域、新的市場被開發。尤其是在網際網路、電商等領域的紅利期,似乎只要做好單點的突破就能獲得市場。這個蠻荒時代,業務運營主要依靠是經驗和直覺驅動。比如跨境電商領域初期,憑藉世界工廠平臺的優勢,國內廠家似乎只需基於經驗選品即可大賣。

「現在」但是隨著規則的成熟,更多玩家的進入,市場從藍海變為紅海,進入到存量期,僅靠經驗驅動的增長模式不再有效。還是拿跨境電商舉例,由於賣家的劇增,海外市場的飽和,跨境電商就進入存量運營時代,已經不存在絕對的藍海市場,每個細分領域都有許多競爭對手。此時,要求商家從粗放運營轉為精細化運營,也就是用資料分析報告決定市場是否值得投入,用資料選品,用資料做經營分析,用資料庫存管理。

當然,不是說純定量的資料分析決定了一切,經驗就不重要了。而是說在決策的過程中,資料結論佔據的比例與以往相比更大,同時業務經驗也是必不可少的部分。

「未來」網際網路逐漸成為“傳統行業”的未來,人工智慧、元宇宙等由資料驅動的行業越來越依賴資料分析。 還有眾多製造業亟待數字化轉型,以期在全球供應鏈中提高製造環節的附加值。也就是說,在未來,資料驅動業務將更頻繁。

資料分析的底層邏輯

資料分析的本質是「沙盤演練」:戰場上,指揮員們在指揮部的地形模型前「推演」敵我雙方的趨勢確定作戰方案;商場上,管理層透過資料間的運算關係「推斷」運營的發展進而做決策。

基於這樣的定義可以知道資料分析的目的是為了做對當下運營發展有利的決策,那它是如何做到的呢?為了解答這個問題,可以從前面的定義中引申出幾個關鍵概念:資料,運算關係,推斷,決策。

什麼是資料?

最通用的理解,資料是被儲存起來的資訊。從應用的角度,資料是把事物做量化處理的工具,萬物皆可資料化:數值數字是資料,文字、影像、影片等同樣都是資料。

按欄位型別劃分,可以把資料分為:

  • 文字類:常用於描述性欄位,如姓名、地址、備註等

  • 數值類:最為常見,用於描述量化屬性,如成交金額、商品數量等

  • 時間類:僅用於描述時間發生的時間,是重要的分析維度(如同比、環比、累計等)

按結構劃分,可以把資料分為:

  • 結構化資料:通常指關聯式資料庫方式記錄的資料

  • 半結構化資料:如日誌、網頁資料

  • 非結構化資料:指語音、圖片、影片等形式的資料

根據資料連續的屬性不同,還可以分為:

  • 連續型資料:在任意區間可以無限取值,比如年齡、身高

  • 離散型資料:常見的分類資料,比如性別、年級

資料間的「運算關係」

孤立的資料往往沒有參考價值,比如量化一個人,身高是180cm,並不能意味什麼。比如網易雲音樂的使用者,每個使用者的年齡是資料,對使用產品的人群年齡進行分段比如18-24歲,該年齡段人數佔比的指標對網易雲音樂來說才有價值。從資料到指標的計算過程,就是資料間的「運算關係」,也叫「指標」。

  • 指標的作用在於「度量」業務的發展:

  • 比如使用者指標,度量使用者業務的發展,使用者數

  • 比如產品指標,度量產品業務的發展,

  • 比如經營指標,度量業務的發展,銷售額、毛利率、ROI等

這些指標(點)透過一定的結構可以編織而成指標體系(線、面)衡量區域性、甚至是全域性的業務。

「推斷」業務的發展

「沙盤演練」中,指揮員透過軍事沙盤上的地形,及敵我雙方的工事、兵力部署、火器配置等情況,分析敵情,制定作戰方案。資料把現實中的運營抽象到數字世界中,透過指標體系,應用各種分析方法(業務分析、產品分析、使用者分析、經營分析......),幫助經營做決策。

如何做決策?

趙括熟讀兵書,卻不能活用,淪為紙上談兵的笑話。所以獲得分析能力後,不能照本宣科,要結合實際業務場景做決策。

資料分析落地涉及流程創新、變革管理,用新的思維解決業務問題。 但這個過程並不是強迫變革,需要藉助對業務的理解及軟性的能力來使分析平滑落地。

如何開始?

站在“前人”的肩膀上,可以走得更遠。餅乾哥哥根據多年資料分析工作經驗沉澱出了資料分析師能力模型,跟著它“按圖索驥”,補充自身缺失的能力,最終形成獨立、落地的資料分析能力。

資料分析師能力模型

完整的資料分析師能力體系應該包括底層認知、業務場景及能力三板斧。

底層認知

在建立資料分析思維之前,應該先在底層認知達成共識。

什麼是認知?是對事物底層邏輯的瞭解,是對世界萬物的判斷,認知的本質就是做決定。 也就是說,為了幫助資料分析中每個決策的有效性(選擇什麼指標、分析方法?接下來做什麼?等等),需要先建立底層認知。

這一步,我們需要去明確資料分析的定義:資料分析是什麼?目的/產出?分析流程?

資料分析是什麼

同學們在求職過程中會發現,同樣是資料分析師崗位,但是面試的內容千差萬別,有考察機器學習、統計學等專業能力的,也有考察市場/行業分析的,還有考察產品分析的。

此時就有同學問,這些真的是資料分析該做的嗎?

我們從字面上拆解,資料分析 = 資料×分析,進一步拆:

  • 資料能力 = 統計學 ∪ 機器學習 ∪ 建模能力 ∪ 工具使用 ∪ ...

  • 分析能力 = 經營分析 ∪ 使用者分析 ∪ 產品分析 ∪ ...

這就是認知上的偏差:當一些同學認為資料分析就是用Excel做表、python寫指令碼、機器學習建模時(其實這些只是組成資料分析能力的一部分),求職市場對資料分析師的要求更為完整。

回過頭來看,資料分析到底是什麼?筆者認為,資料分析是一個過程,是利用資料能力做分析的過程:從發現問題、分析原因,到落地建議;這還是一個“解構”的過程:從整體拆到區域性,從一般到特殊,從面到線到點,不斷下鑽剖析,找到具體可落地的點。

資料分析產出是什麼?

瞭解完什麼是資料分析後,深入思考一個問題:這個過程的最終產出的交付物是什麼?

要回答這個問題,我們需要回到資料分析的本質:解決業務問題。 也就是回到業務層面的需求是什麼,才能決定最後落地交付物:

1. 解決問題

最常見的資料分析場景,就是業務發現銷售額下降、使用者流失、產品跳失率高,也就是業務層面出現了一個問題待解決,此時需要資料分析師介入幫助從資料層面挖掘原因、給出解決建議。

分析過程可能是做一些探索性資料分析、統計分析、機器學習建模,甚至是做AB測試實驗,最終交付分析報告,或者模型部署上線。

2. 理解現象

有時業務可能並不存在確切的“問題”,更多旨在透過加深對現有場景的理解,來提高現有業務模型、策略的效果;比如,現在業務使用的是客單價平均值將客戶分為高、低兩個人群進行營銷,此時資料分析師透過對消費者的洞察分析,給予更精準的人群劃分方案:利用客單價分位數,將客戶分為三個人群,這樣業務利用更新後的策略進行營銷設計,提高轉化效果。

分析過程可能是做相關分析、迴歸分析,甚至是無監督的聚類,來對現狀進行解釋。

3. 支援診斷

按照需求的時效性,可以把業務需求分為臨時需求和常規需求,而前面兩者屬於業務的臨時需求,或者說是專項分析需求。對於常規需求,主要旨在提高業務流程的效率,比如對於電商運營中的商品庫存管理業務,運營需要及時查詢庫存情況,並結合銷售趨勢對低庫存量的商品進行補單;此時,資料分析師可以透過交付“低庫存預警報表”來幫助最佳化該流程效率。

支援診斷的內容主要集中在自動化的報表,甚至是商業智慧(BI)體系的搭建。

4. 探索發現

如果說前面是基於已知模式的分析,那麼業務中還存在一種需求,就是對未知的探索。最為典型的場景則是對市場、對消費者的洞察後,給出品牌及業務增長的策略。

分析過程更多是基於行業、基於市場,使用如PEST、SWOT、波特五力等商業分析模型。

分析生命週期

至此,我們知道了資料分析是什麼,以及最終的產出交付物,那這個過程如何實現的呢?從落地的角度來看,資料分析是一個從發散到收斂的過程:業務理解-資料探索-分析模型-落地交付-產品生命週期

業務理解

資料分析是從業務到資料再回到業務的過程,所以理解業務是資料分析的起點。

1. 業務場景

“無場景不分析”、“脫離業務場景的分析都是耍流氓”等資深資料分析師的建議無不說明業務場景的重要性。資料分析能力模型中的業務場景模型:使用者-產品-場景,就是為了幫助讀者理解業務場景而設計的,在這裡不贅述。

2. 問題定義

不知道讀者有沒這樣的體驗?就是領導交代任務給你,或者是朋友有求於你時,執行力強的人很快就完成了任務請求,但是最後卻被告知這結果並不是對方想要的?這種情況很常發生在初入資料分析崗位的新同學身上,原因歸根結底就是沒有做好問題定義!

在理解了需求所處的業務場景後,可以藉助邏輯樹工具來對問題進行拆解,拆解的過程儘量要遵循MECE、“相互獨立,完全窮盡”的金字塔原理。

3. 預期價值

其實,很多企業都在討論資料分析師的價值在哪?從這一現象可以看出資料分析師需要時刻關注價值產出,圍繞價值的開展工作。

如果說前面定義問題是明確做什麼,那在這一步就是要明確做到什麼程度?

比如面對銷售額下降的問題,做資料分析,最終是產出一份資料分析報告就好了,還是說需要介入到測試實驗,給出增長策略?如果是後者,那對銷售額的提升幅度要提升多少才有價值?是不痛不癢的1%還是要達到顯著的10%?

如果不在價值層面做思考,並付諸價值落地的行動,最後很容易產生“價值在哪”的靈魂拷問,面臨被最佳化的風險。

資料探索

在業務理解階段,我們是站在業務層面與需求方溝通,但是資料分析的核心部分都是在資料層面進行的。所以在正式開始分析之前,我們需要把業務需求轉成資料需求,這個過程就是資料探索。

1. 資料初探與探索性驗證

拿到業務需求時的定義問題階段,需要資料的輔助:用資料透視業務,判斷現狀與描述是否一致。比如,業務說銷售額下降了需要分析,但是這個下降是和誰比?環比下降但是同比提升,同比下降,但是和競品相比是提升的。

這個步驟比較多的是使用探索性資料分析(Exploratory data analysis),或者說透過常見的統計指標來對資料現狀進行剖析。

2. 資料需求

如果說第一步是在用資料驗證需求的有效性,那這一步則是真正把業務問題轉為資料需求。

此外,還需要判斷資料質量及能做的特徵工程,比如某些欄位缺失率太高,這會影響特徵的構建。

分析模型

瞭解業務、明確資料需求後,就可以挑選合適的武器(分析方法、模型框架)上陣。

概括來說,有四種分析方法:

1. 比較分析

指標的好壞、特徵是否顯著等都可以透過比較分析的方法來實現,比如常見的歸因業務場景,本質就是做比較,透過橫向、縱向的比較找出原因。

分析方法:比如T檢驗、方差分析、同比環比、同期群分析等

2. 相關分析

分析變數之間的相關性是重要的分析場景。比如業務中想知道提高廣告預算是否能、甚至是能提升多少的銷售業績?這樣的相關性分析或許能找到最優投放ROI的配置方案。

分析方法:卡方、皮爾遜(Pearson)相關係數、斯皮爾曼(Spearman)相關係數、結構分析等

3. 預測(有監督)

不論是對企業銷售的預測、還是對使用者行為的預測,都能幫助提升業務效率,比如常見的預測使用者流失分析,及時得到高機率流失的人群名單,運營透過提前營銷干預,提高使用者留存率;常見的銷售預測能幫助企業在供應鏈側做準備。這類場景主要應用的是機器學習中的有監督分類模型。

分析方法:線性/邏輯迴歸、決策樹、時間序列分析、貝葉斯等;

4. 發現(無監督)

前面三種都是基於企業已知模式的分析邏輯,還有一種分析方法——無監督的機器學習模型,可以應對未知模式的分析。比如不知道應該把現有人群分成多少個組來進行營銷最合適,就可以對人群基於核心特徵做無監督的聚類分析,得出有效分組的界限。

分析方法:Kmeans聚類、DBScan聚類等;

交付落地

交付落地的最佳實踐是讓資料和分析從理論滲透到業務中,對流程進行變革提效。

1. 方案評估

在交付給業務之前,需要先對給出的解決方案做有效性評估:

  • 模型驗證與落地評價

分析如果涉及模型的開發使用,需要透過AB測試,或者ROC等指標來證明模型在資料層面上的有效。在資料層面完成驗證後,回到業務分析需求,評估交付的方案在業務層面上的有效落地。

  • 影響預估

資料分析是圍繞業務價值而展開的,所以在最後的落地,也得就價值進行討論,回答這個方案解決業務問題的途徑和程度:

A. 途徑是對流程的最佳化(降本提效)還是對資料的最佳化(資料體系效率、資料質量)?

B. 這方式能多大程度上幫助解決?比如對業務的提升是10%還是30%?是對單次專案的應用,還是說可以部署到日常流程中,在更長時間、更廣範圍內影響業務?

C. 此外,要實現這樣的效果,需要投入的資源是什麼

2. 講故事

分析專案的落地需要多方參與,即使是業務能力豐富的分析師,由於流程邊界的存在也不可能每步都參與執行。因此,確保專案能否有效落地的一個重要因素則是能否和業務達成共識。

如何做到?講資料故事:起因(需求定義)、過程(分析邏輯)、結局(重要結論)是否引人入勝(被認可)。

這個過程需要製作PPT向上彙報、與業務溝通,甚至是做跨部門的演講。

3. 模型實施

不論是業務模型還是演算法模型,最終都有一個“靴子落地”的過程--落地實施。模型測試有效、與業務達成共識後就到了模型的部署上線階段:

  • 對於業務模型,如RFM,則是部署到業務流程中,應用在會員管理、活動營銷等環節

  • 對於演算法模型,如推薦演算法,則是部署到產品功能上線,可以以內建演算法、REST介面等形式落地

產品生命週期

接在分析生命週期最後的是分析產品的生命週期:以產品的思維看待資料分析,交付至業務落地的模型應用就是產品。資料分析這個過程並不是靜態、單次的,而是一個PDCA不斷迭代升級的過程。(這個分析產品的定義包括分析服務、資料產品。)

1. 流程再造

從產品思維的角度,分析結論落地到業務流程中,對流程進行再造,提高運營效率。

2. 資料產品

當資料分析流程成熟後,大量重複執行的流程可以抽取出來,形成自動化的產品,用於服務資料分析(主要物件為資料分析師,也包括運營),這就是資料產品。分析師的結論模型就可以部署到現有的資料產品中,最佳化分析效率。

3. 持續改進

之所以要從產品思維的角度來看資料分析過程,是因為要像迭代產品那樣去迭代分析模型:不論是最佳化演算法引數,還是調整分析框架,都能得到更優的結論。

業務場景

在資料分析生命週期第一步的“理解業務”中,我們提到業務場景的重要性。

根據業務經驗,筆者沉澱了一套便於理解的模型:業務場景 = 使用者 × 產品 × 場景

也就是說,要理解業務,就要了解使用者,熟悉產品,明確分析所處的上下文場景。它們決定了分析的目標、處理邏輯以及落地建議。

更詳細的討論見:迴歸到營銷理論,談談到底什麼是業務場景?

能力三板斧

對資料分析有了底層認知、瞭解業務場景後,就需要有看得見摸得著的“招式”來行動:思維方法、工具技術和專案能力這三板斧能組成不同招式應對多變的問題。

經常看到有人說資料分析如做飯,如果是這樣的話,在資料分析這個廚房裡,工具技術就是鍋鏟、鐵鍋、勺子等器皿,思維方法就是切配、烹飪、打荷等技藝手法,專案能力則是最後的裝盤上菜。

思維方法

很多人學做飯,可能是因為在抖音或B站看到某個美食影片,然後就開始按照影片步驟備料烹飪。這個過程,也就是資料分析中學習思維方法的過程。資料分析也是先有思維方法,才能談得上是分析。

剛開始學做飯時,通常先學基礎的煎、炒、炸、烤、煮、蒸、燜、拌烹飪方式。這些基礎的能力在資料分析中就是統計學、相關分析、歸因分析等通用分析思維。

正如美食有八大菜系,分別滿足不同地域人群的口味,資料分析在不同場景下,也有不同的“分析”招式來滿足不同的業務需求:

  • 使用者分析:同期群分析、漏斗分析、RFM使用者分層模型等

  • 產品分析:競品分析、帕累託分析等

  • 商業分析:PEST分析、SWOT分析等

  • ...

工具技術

習得了做飯的方法後,就可以選擇幾件趁手的器皿,來提高烹飪效率。

之所以不是先選擇器皿再研究做飯流程,是因為工具始終是工具,完成同一個目標或許有多種工具可以實現,再不濟我用原始的土灶也能燒飯。

不過對於部分複雜的烹飪需求,也是需要選擇特定的器皿才能完成。

常見的工具技術及應用:

  • 表格工具Excel:是幾乎所有人第一個接觸的分析工具,可以做簡單的分析及視覺化圖表製作,但對於量級較大的資料處理起來顯得力不從心;

  • 資料庫SQL:“巧婦難為無米之炊”,對資料分析師來說沒有資料就談不上分析,對於絕大數企業來說,資料儲存在資料庫中,因此有必要學習資料庫語言SQL來對資料進行抽取、清洗、甚至是分析。

  • 指令碼語言Python/R:程式設計是與機器交流的方式,同時也是新的思考方式。學習程式語言的作用在於利用機器幫我們處理工作,比如自動化辦公、複雜業務分析邏輯、以及重要的機器學習演算法模型等。

  • SPSS:說到機器學習演算法的應用,不得不提到SPSS工具,它不僅能實現大部分統計方法,還能透過簡單的點選實現機器學習演算法的計算。

  • PowerBI/Tableau:商業智慧工具做視覺化儀表盤也是資料分析中常見的落地形式;與Excel相比,PowerBI/Tableau能實現更復雜的圖表,且可實現互動、動態報表。

專案能力

菜做好後一定要及時出鍋、裝盤、上菜,要不然再美味的菜餚也只是空中閣樓。

專案能力強調的是資料分析專案的落地。理論的分析方法如何在業務場景中落地賦能,體現資料價值?這是很多企業資料團隊在討論的課題。

說專案能力像是烹飪最後的上菜階段,其實不太嚴謹,因為落地能力是一種軟性的能力,貫穿分析專案的整個過程:

  1. 需求管理:這個過程也是價值管理的過程,將有限的分析資源(時間、精力)分配到更有價值的需求上

  2. 專案計劃:形成從提出問題到落地實施的完整SOP流程,製作可落地的專案計劃可有效指引分析落地工作

  3. 橫向連線:推動跨部門協作的溝通能力本質就是在連線不同資源,尤其是在實驗過程中,需要連線比如零售行業中使用者運營部門的人群觸達資源、產品部門的供應資源、銷售管理部門的價格折扣資源等來推動落地

  4. 向上管理:在企業中,必要領導才有能力推動專案,如何利用管理手段幫助推動落地是一門有趣的學問

  5. 結論報告:同樣的分析內容,如何透過結構化地呈現?透過製作體現價值的分析報告把資料故事講出來很重要,因為只有這樣才能把分析形成閉環。

來自 “ 餅乾哥哥資料分析 ”, 原文作者:餅乾哥哥;原文連結:https://mp.weixin.qq.com/s/C4wjVGwLWfp1c8yJxIewAQ,如有侵權,請聯絡管理員刪除。

相關文章