常見的資料分析誤區

大資料小知識發表於2022-05-30

  在很多人的心裡,資料就代表著科學,科學就意味著真相。“資料不會騙人”,也成了說服別人時常用的口頭禪,事實果真如此嗎?讓我們來談談那些常見的誤區。

  1.控制變數謬誤

  在做A/B測試時沒有控制好變數,導致測試結果不能反映實驗結果。或者在進行資料對比時,兩個指標沒有可比性。舉個例子,為測試不同營銷時間點對下的轉化的影響,但A實驗使用簡訊營銷、B實驗使用電話營銷,未控制變數(營銷方式),導致實驗無法得出結論。

  2.樣本謬誤

  (1)樣本量不夠

  統計學的基礎理論基石之一就是大數定律,只有當資料量達到一定程度後,才能反映出特定的規律。如果出現樣本量極少的情況,建議把時間線拉長,獲得足量的樣本。或者將不重要的限定條件去掉,增加樣本數。

  (2)存在選擇性偏見或者倖存者偏見

  統計學的另一大理論基石是中心極限定理。簡單描述就是,總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍。

  舉個例子,在應用升級期間,衡量登入使用者數、交易使用者數等指標,來判斷使用者對新版本的喜歡是否優於老版本。聽上去非常合理,但這裡實際就隱藏了選擇性偏見,因為新版本釋出時,第一批升級上來的使用者往往就是最活躍的使用者,往往這批使用者的指標較好,但不代表新版本更好。

  (3)混入髒資料

  這種資料的破壞性比較大,可能得出錯誤的結論。通常我們會採用資料校驗的手段,遮蔽掉校驗失敗的資料。同時,在分析具體業務時,也要針對特定業務,對所使用的資料進行合理性限定,過濾掉異常離群值,來確保擁有比較好的資料質量。

  3.因果相關謬誤

  會誤把相關當因果,忽略中介變數。比如,有人發現雪糕的銷量和河溪溺死的兒童數量呈明顯相關,就下令削減雪糕銷量。其實可能只是因為這兩者都是發生在天氣炎熱的夏天。天氣炎熱,購買雪糕的人就越多,而去河裡游泳的人也顯著增多。

  4.辛普森悖論

  簡單來說,就是在兩個相差較多的分組資料相加時,在分組比較中都佔優勢的一方,會在總評中反而是失勢的一方。

  5.個人認知謬誤

  主觀臆斷、經驗當事實、個體當整體、特徵當全貌、眼見當事實。

  舉個主觀臆斷的例子:某個產品A頁面到B頁面的轉化率30%,直接判斷為很低,推匯出可以提高到75%。但實際類似產品或者使用者行為決定頁面的轉化率就只有這麼高,得出一個錯誤的結論。標準至關重要,資料+標準=判斷。有了判斷才能深入分析。通過分組對比找標準(象限法、多維法、二八法、對比法),有標準通過分析對比,找到“好/壞”的點

  統計學規律和理論不會錯,犯錯的是使用它的人。因此,我們在進行資料分析時,一定要格外小心,錯誤的資料,披上科學的外衣,就很難分辨了。

  常見的資料分析誤區.中琛魔方大資料平臺表示大資料時代,企業的資料體量不斷擴大,業務需求不斷變化,資料分析的環境也不斷變化。我們要實時更新知識和工具庫,也要警惕和避免踩中上面這些資料分析的誤區。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69936596/viewspace-2897894/,如需轉載,請註明出處,否則將追究法律責任。

相關文章