資料分析應有的邏輯思維及分析方法

weixin_48127787發表於2020-12-17

超級長文!資料分析應有的邏輯思維及分析方法

資料分析的下限,取決於邏輯歸納。與其說提高分析質量,不如說提升邏輯歸納能力。

邏輯歸納,需要擁有良好的邏輯思維,並結合領域知識形成該領域的分析方法。而領域方法,進一步歸納則能夠成為通用了方法論。

關於資料分析,本文將從邏輯思維和分析方法2個角度進行解讀,其中分析方法會介紹資料分析前的準備以及資料如何為我們創造長期價值。

一、資料分析應有的邏輯思維
邏輯思維,是在認識事物的過程中藉助概念、判斷、推理等思維形式反映客觀現實的理性認識過程。藉助邏輯思維,能夠確立執行方向,減少方向的偏移度以及分析的誤差。

原始的資料並沒有太多的價值,它是已經發生的事實或者結果。從中發掘價值則是資料分析的目的。

在資料分析中,其過程是與邏輯歸納相近的,過程如下:
提出問題➟分析問題➟提出假設➟驗證假設➟輸出結論

只有具備了良好邏輯思維,才能更好的幫助我們資料分析。

認識邏輯,先從邏輯論證的三要素開始,如下圖所示:

在訓練自己邏輯思維時,首先要保證資訊的完整性,其次才是討論準確性。如果陳述和提問不夠清晰,後續論證是沒有意義的。

初步瞭解了邏輯,接下來將與各位分享4種思維方式以及其運用方法,分別是目標、結構化、推理、逆向思維。

01 目標思維
目標思維,作用是明確目標的定義及完整性,校準執行的方向。

從邏輯論證的要素來看,目標只是一個論點,而判斷論點是否有效、正確,則需要細究其論據和論證方式。

將目標對映至三要素並進行結構化拆解,會變成我們熟悉的需求4要素,再次延伸又會變成5W2H法。

熟練運用目標思維,不僅能幫助我們分析問題,還能運用於生活的許多方面。

在陳述問題時所使用的KWIC方法,其實也是邏輯要素的延伸:
1)K(KEY):核心觀點
2)W(Widen):擴充套件核心觀點包含的內容
3)I(Illustrate):舉例說明佐證觀點
4)C(Conclude):總結

資訊越全面,溝通的成本越低,後續的論證質量才能更高。

02 結構化思維
目標思維強調的是方向,結構化思維強調的是拆解和延伸。

在上一節中目標的拆解和延伸使用的就是結構化的思維,它能夠幫助我們將無序、散亂的資訊進行聚焦、歸納、分類。

2-1、問題樹
問題樹,是大家較為熟悉的方法,也是我們常使用的“腦圖”。它是一種以樹狀圖形來分析存在的問題及其相互關係的方法,也是邏輯樹的一種型別。

在邏輯樹中,每一層都是下一層的總結概括,同樹幹內的延伸範圍相同,不同樹幹的延伸範圍相互獨立。

在使用問題樹時將一個已知問題當成樹幹,然後根據相關問題增加樹幹或樹枝,它能夠幫助我們更全面的找到相關項。

設定第一條樹幹時有兩種方式,自上而下以及自下而上。

自上而下其實是以終為始,通過最終的目標進行拆解;自下而上則常見於頭腦風暴,當缺少拆解思路時,我們可以將資訊完全羅列,並對其進行歸類逐層向上聚合。

在拆解時,我們應注意樹幹間的平衡,假設某個樹幹上的樹枝過多或過長,其上層的拆解維度可能是不正確的。

2-2、公式法及過程法
公式法,是問題樹的一種延伸。

公式在橫向表示時,我們也稱為金字塔原理。

在邏輯樹的使用場景下,公式法不太關注細分場景以及整體漏斗。在進行細化分析時結合場景、操作流程,對公式進行進一步的細化。

在結合過程法時,須注意的點是完全窮舉。

舉個例子:
在活動中分析成交時,會使用訪問人數、點選購買按鈕人數、成交人數去分析漏斗。但漏斗資料往往是不完整的,這會影響推斷的準確性。

結合場景、操作流程並輸出公式進行資料分析,會比漏斗更為直觀。

以下載app後使用者的註冊流程為例,通過上圖,可以拆解出以下公式:

a、app註冊人數=手機號註冊人數+微信註冊人數

b、微信註冊人數=進入註冊頁面人數+瀏覽其他頁面引流進入人數-進入註冊頁面人數*跳失率-登入人數-點選手機號登入註冊人數

c、手機號註冊人數=進入註冊頁面人數+瀏覽其他頁面引流進入人數-進入註冊頁面人數跳失率-登入人數-點選微信登入註冊人數-進入手機號登入頁面人數跳失率-輸入手機號未獲取驗證碼人數-獲取驗證碼未輸入人數-輸入驗證碼未登入人數

公式羅列清楚後,代入資料就能夠了解是哪個資料和我們的預期不同,然後再根據資料優化我們的互動。

2-3、二分法及矩陣法
這兩種結構化方式,其實不太適合用於資料分析,但能夠幫助我們梳理思路便於全域性思考。

二分法不適用於資料分析的原因是,世界不是非黑即白的,它很難將某個資料指標的值列舉完畢。

而矩陣法所呈現的是結果資料,難以細化。

以時間管理中的四象限法為例:

四個象限能夠很好的用於任務分類,關於“重要”和“緊急”的程度,我們也可以使用座標軸的值進行標記,但如果要細究哪個元素影響了”重要“和”緊急“的值,矩陣法就難以承載了。

03 推理思維
確認論點,結構化論據,下一步是論證。在論證中運用推理思維能夠幫助我們迅速找到問題的異同點,從而發現它們的規律。

推理主要使用的方法是歸納、演繹、類比法,而在推理過程中還貫穿著對因果的辯證。

3-1、歸納法
歸納法,指從特殊(部分樣本)到一般(全量樣本)的過程,通俗的說是從個別的經驗歸納出普遍規律的方法。它更偏感性思維,其推理方式不夠嚴謹,常用於開拓思路。

在產品工作中我們會遇見許多使用歸納法的情景,如:“很多使用者都需要這個功能,所以我們應該儘快實現。”

通過歸納法拆解後如下圖所示:

這實質上是以偏概全的方法,一旦有一個使用者不滿足這個前提,這個結論就無法成立。

這裡並不是說如果有使用者不需要這個功能需求就不承接了,而是要增加更多的衡量維度,如樣本數量、樣本佔比、投入產出比等。

在輸出結論之前需要判斷樣本是否足夠有代表性,判斷是必然事件還是隨機事件。

這也是為什麼資料分析需要長時間的收集樣本並觀察資料,樣本量太小會使其代表性不足,觀察週期太短會被資料的波動所迷惑,很容易讓我們做出錯誤的判斷。

3-2、演繹法
演繹法則與歸納法相反,是從既有經證實的普遍性結論,推匯出個別性結論的一種方法,常見的表現形式是邏輯三段論。

邏輯三段論的格式為:大前提、小前提、結論。

假設大前提為真,小前提為真,那結論一定為真。演繹法追求的是前後一致,不自相矛盾,但大部分人都倒在了第一步,即大前提本身是不成立的。

不成立的原因是,大前提並非經證實的普遍性結論,而是通過歸納法輸出的結論。要避開歸納法的陷阱,我們則需要對其因果進行辯證。

3-3、因果關係分析法
因果辯證,同時適用於演繹和歸納法,它們都是由因及果的過程。

近期網際網路保險的營銷活動由於監管原因,無法使用現金及優惠券獎品促進成交,一定程度上減少了活動的數量。

我們試著拆解出可能的因果關係:

拆解完畢後先不進行辯證,而是先對因果關係進行列舉:

列舉完畢後,辯證時提問3個問題:
1)原因是否真實?
2)結果是否真實
3)這個原因一定會引起這個結果嗎?是否有其他的原因?

在上述的案例中假設原因和結果都為真,套入第3點做出以下提問:
1)使用現金及優惠券獎品,一定會使成交效果更好嗎,是否有其他的方式?
2)不使用這2種獎品,活動一定不能做嗎,是否有其他的獎品?
3)活動沒法做,一定不能促進成交嗎,是否有其他的方式?

看到這裡,我們會發現這些原因只是結果的必要不充分條件。

在推理中,論證完畢也不應蓋棺定論。

我們應先對結論提出假設,並設計實驗或採取其他的手段驗證假設,最終驗證後的結果才是真正的結論。

04 逆向思維法
”反過來想,總是反過來想。“
— — 查理·芒格

逆向思維,同時具有聚焦和發散兩種作用。

聚焦,是以終為始,問題樹中的“自上而下”拆解是其表現形式之一。

發散,是因為從正向思考變為逆向思考,思考習慣的改變能夠開拓我們的思路,並幫助我們補全邏輯。

在資料分析中,我們能夠怎麼使用逆向思維呢?

個人總結的逆向方法如下:
1)主賓反轉
正向:使用者購買商品數量提升了,為什麼?
逆向:商品被使用者購買的數量提升了,為什麼?

從使用者出發並沒有錯誤,從商品出發能幫助我們補全分析的維度。

2)謂語反轉
正向:活躍度降低了,分析使用者進入活動入口
逆向:活躍度降低了,分析使用者的跳出原因

同樣是活躍度降低,”進入“這個詞會從入口出發,分析其流量情況。從”跳出“出發,則會從互動、設計層面出發分析。

3)次序反轉
正向:引導使用者成交,捐款後獲得獎品
逆向:給予使用者獎品後,引導使用者成交

這裡的逆向主要是為了開拓思路,並不是說要直接給予使用者獎品。在開拓思路後進一步延伸,方案可以調整為,給予使用者部分獎品,成交後再給予另一部分。

小結
校正方向,使用目標思維;分解問題和提出假設,使用結構化思維;邏輯推理用於論證,而逆向思維則用於補全我們的邏輯。

良好的邏輯思維,結合領域知識能夠幫助我們快速形成不同領域的方法,並解決問題。

二、資料分析的方法
01 資料分析前的準備
資料分析前的準備過程,在我看來比實際的分析更為重要。

假設目標是錯的,我們就不應該執行。而目標不同,分析型別和分析內容也不同,同時執行多個方向,很容易使自己陷入混亂。

1-1、分清楚目標和指標
資料分析,能幫助我們瞭解業務執行狀況,並從中發現問題、優化問題。其次,還能夠幫助洞察下一個增長點。

但資料分析的意義,往往在資料產生之前。我們應圍繞產品目標,進行產品設計以及運營策劃。如果最開始的目標及指標設定錯誤,後續的工作將難以為繼。

目標是結果,而指標是對結果分拆的具體要求,是對目標的衡量。

假設我們的目標是提升年度成交金額,那衡量這個目標的方法是什麼呢?

根據衡量的方法我們才能定向的設定調整產品設計及運營策略。如果缺少可衡量目標的單位和方法,目標會難以達成。

而圍繞目標設定資料的採集方案,可以大大節省資料過濾和清洗的時間。

甚至於在明確指標後再最開始就設定好分析模型,通過監測模型中的資料情況更及時的發現問題,做出更高質、高效的決策。

1-2、辨別指標的目的
辨別了目標和指標,下一步則是運用結構化思維進行拆解、延伸。

在拆解之前,需要對自己提問:拆解出的指標目的是什麼?根據目的我們才能有傾向性的分析。

根據指標目的,可以分為結果指標、過程指標以及觀察指標。

結果指標用於衡量目標,過程指標用於體現如何完成。觀察指標則指的受影響指標,其是否會受到自變數(結果指標)的影響,導致上升或下降。

在上圖中,基於成交訂單數,設定過程指標為訂單平均金額及商品分佈能幫助我們瞭解完成的方式。

而觀察指標的設定,是為了跳出框架思考。

上圖的使用者付費率,可以監測成交訂單數上升,是否帶動使用者付費率的上升,從而判斷是區域性還是整體上升;而成交深度及ARPU/LTV則可以幫助我們考察下一個增長點是什麼。

在設定結果指標時,除了核心指標,還應輔以制衡性指標,它的目的是希望核心指標完成的更為健康。

核心指標和制衡性指標所延展的過程、觀察指標是不同的。

1-3、確認分析型別
完成了目標和指標的設定,接下來是對每個指標進行細化分析,分析型別包含:描述性分析、預測性分析和規範性分析。型別不同,作用也不同。

1)描述性分析
表現形式:資料包表

資料包表能夠幫助我們描述事件發展的情況,但很難解釋某種結果發生的原因和未來可能的趨勢。

它更偏向結果性的描述,此前的結果對此後是不具備太多參考意義的。

2)預測性分析
表現形式:使用者相似度及物品相似度計算、使用者購買飽和度、使用者成交影響因子

預測性分析可以理解為對結果和變數的關係進行預測的過程,包含相似度、相關性分析、迴歸分析等。

相似度多用於推薦演算法,通過計算使用者的相似度和商品相似度從而推薦給使用者。而相關分析用於預測變數的關聯性,如使用者的成交會受什麼因素影響。

3)實證性分析及規範性分析
表現形式:A/B實驗

實證性分析,指是什麼,偏向於客觀;規範性分析指應當做什麼,偏向於主觀。

在實際使用過程,上述的4種分析型別常常會被混合使用,混合使用時應明確不同型別我們應採取的分析維度。

資料分析是有順承關係的,先採集事實,再根據事實或者預測,提出我們的假設。逐步灰度地驗證假設,最終才輸出我們的結論。

不能將主觀猜測強加於事實之上,已經發生的結果並不一定是未來的結果

02 資料分析如何帶來長期價值
學習了方法,做好了準備,終於進入了分析的環節。

筆者此前面向的資料分析,常常是“一錘子買賣”,花了很大的力氣採集資料卻沒有了下文。

為了使有用功更多,下文將從使用者和收益2個維度分享資料如何為我們沉澱長期價值。

2-1、瞭解我們的使用者
這一步是為了讓我們知道完成指標的使用者是誰,常常以產品的會員體系作為切入點。會員體系越清晰,分析效果越好。

本節將以電商產品為例,和各位分享如何基於使用者的延伸分析。

1)基礎資訊

基礎資訊,指使用者本身的屬性。

身份特徵,可以從自然屬性、社會屬性向下細分,包含使用者的性別、年齡、職業、教育等。

渠道屬性,指使用者的註冊時間、註冊平臺、註冊來源等。

2)決策型別

決策型別,主要分為決策週期、品類偏好、促銷偏好、物件偏好,這是使用者分析中常常被忽略的一方面。

決策週期中的首次訪問,指的首次觸及該商品的時間。結合次數、時長以及成交時間,從而瞭解使用者的決策週期。

品類偏好,結合品牌和歷史成交單數,能夠幫助我們獲悉品牌、價格綜合對使用者的影響。

而成交品類、商品、單數則是幫助我們理解其品類購買深度及路徑,用於進行關聯推薦和評判使用者的價值。

促銷偏好,結合品類和折扣金額瞭解使用者的敏感度,能更好的提高其轉化率。物件偏好,同樣是瞭解購買深度及路徑,不過維度不同。

在使用者層面的分析,此前接觸的一些朋友都非常熱衷於使用RFM模型,在使用過程中也應“因地制宜”。

3)購買路徑

品類深度、物件深度是影響決策型別的因子,當它們在購買路徑時則聚焦於次序。

根據次序,制定運營的發力點,再遵循使用者的購買路徑制定轉化路徑。

在使用者分佈相對穩定的前提下,應順從使用者的購買規律而非傾力於另一條主線。

一專多強的前提是專,只有聚焦優勢品類或主題建立了優勢,才能為其他的方向供應炮彈。

4)增長觀察

前面解決的問題是:他是誰,買什麼以及怎麼買。最後一點,則是增長觀察。

購買路徑聚焦於次序,增長觀察聚焦於深度。購買的次序是運營的主線,購買的深度用於精細化運營。

瞭解使用者在品類和物件的購買深度,再輔以ARPU與LTV的比對,從使用者的剩餘潛力尋找平臺增長點的方式。

2-2、建立你的使用者模型
瞭解使用者的下一步,是建立使用者模型。

在一次交流會上,前輩阿翹對我提問:“你所負責的產品,使用者畫像是怎麼樣的?”

當時我把平臺使用者的地域、年齡、性別等分佈介紹了一番。緊接著他提問:“根據這樣的畫像你能夠做什麼呢?”

再後來,我才學會了把資料聚合成特徵,把特徵集合成模型。

基於對使用者的認識建立模型,以上一小節的決策模型為例。

將決策型別、品類偏好、物件偏好、促銷偏好4個因子的關聯,並輔以使用者的基礎資訊進行組合。

如:“精打細算、專注大牌、疼愛孩子的母親”。

這樣一來冰冷的資料也被賦予了情感化的表達,無論是產品設計、互動設計、產品運營都會變得容易的多。

建立起使用者模型,才能夠更好地進行情感化設計、精細化運營。

2-3、分析與收益相關的行為
收益,常用成交或ROI進行衡量。那我們怎麼判斷與收益相關的行為呢?有關程度又有多高?

判斷相關性及其程度時,使用的方法是:相關性分析。

相關性分析主要用於:
a、判斷兩個或多個變數之間的統計學關聯;
b、如果存在關聯,進一步分析關聯強度和方向。

根據資料的型別不同,所採取分析方法不同。

關於收益及影響收益的行為,二者都屬於無序分類變數,此類資料的分析方法是卡方校驗。

卡方檢驗,用於統計樣本的實際觀測值與理論推斷值之間的偏離程度,如果卡方值越大,實際觀測值與理論推斷值偏差程度越大。

反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。

在實際分析時,會先進行假設,並通過計算判定其假設成立的概率從而反推其不成立的概率。

以判定關注與成交行為是否有關為例,介紹卡方校驗。

1)提出假設
假設:關注與成交無關

2)計算實際觀測資料及理論推測資料
將關注及成交的相關資料進行統計,可得出下表:

根據表格,可計算出綜合的成交率等於58.3%。

假設關注與成交行為無關,成交率應不隨關注行為變化而變化,或資料抖動較小。

將觀測的成交率代入原表,並得出理論推斷值。

完成了這一步,就可以進行卡方檢驗的計算了。

3)卡方校驗計算

繼續代入公式

當我們計算出卡方值時,可以初步判定由於卡方值較大,實際觀測值與理論推斷值差異較為明顯,原假設關注與成交無關成立的可能性是比較小的。

4)計算自由度及P值
而到了判定可能性具體的程度,則是根據P值(用於判斷判定假設檢驗結果)進行校驗,P值越小,原假設關注與成交無關的概率也越小。

由於其自由度等於1,結合卡方值再查詢卡方分佈表可得P<0.01,所以原假設成立的可能也越小,即關注與成交有關的概率非常大。

在實際使用時,同樣的也須兼顧樣本和觀測時間週期,樣本包含準確性和數量,觀測時間週期則用於分辨其抖動性。這2者較為基礎也就不過多描述了。

相關性分析,用於代表相關程度,只能說明有關但並不能說明因果性。

對變數之間的依賴關係進行定量關係及因果關係的研究,我們還會使用迴歸分析進行計算。但由於計算方式並非本文的重心,在此也不過多的贅述了。

本小節,也有較多的概念並未在本文提及,此部分將附在文末。

小結
個人認為數學方法是非常重要的領域知識,很多時候不是不會資料分析,而是不知道使用什麼方法分析。因為不曾見過,所以也未曾往陌生的方向思考。

遇到這樣的問題時,先運用逆向思維確認分析目標,其次再進行結構化的拆解,再逐層學習分析時應該使用的方法。

若時間寬裕,還是建議閱讀統計學相關的書籍。耐下性子閱讀,工具書的收益會比大部分同領域的文章都大。

參考資料
1、相關性分析
https://zhuanlan.zhihu.com/p/94070722
2、資料的型別
https://blog.csdn.net/weixin_34203832/article/details/88687669
3、統計學——卡方檢驗和卡方分佈
https://blog.csdn.net/snowdroptulip/article/details/78770088
4、自由度計算
https://www.cnblogs.com/mahailuo/p/10932026.html
5、什麼是P值
https://baike.baidu.com/item/P%E5%80%BC/7083622?fr=aladdin
6、什麼是A/B測試
https://www.zhihu.com/question/20045543
7、迴歸分析
https://www.jianshu.com/p/bbe0c702b5ad

閱讀 1597
贊10
在看9

相關文章