資料分析中會常犯哪些錯誤,如何解決?

data_cola發表於2020-10-09

這篇文章從資料分析的幾個階段,總結了14個我們可能會犯的一些錯誤,以及如何避免。

資料獲取階段

在資料採集/獲取階段,容易犯的錯誤:

NO.1 取樣偏差

在資料採集的時候,如果不能獲取到總體的資料,那就要採集到可以代表總體的樣本,抽樣就顯得尤其重要,如果樣本不具有代表性,那麼得出的結論一定是有失偏頗的。

舉個例子 ->
小紅書的使用者群體是年輕的女性使用者為主,如果用這份資料去預測一部受眾是青少年的電影票房,結果可能就不合理了。

避免的方法 ->
使樣本能夠充分代表總體。

 

NO.2 倖存者偏差

指的是隻能看到經過某種篩選而產生的結果,忽略了被篩選掉的關鍵資訊。

在二戰期間,人們發現倖存的轟炸機中,機翼中彈的數量很多,而機身中彈的卻很少。因此人們認為我們應該加固飛機的機翼,其實不然,就是因為機翼中彈多還能飛回來,所以機翼中彈並沒有影響飛機返航;而機身中彈的少則說明了子彈打中機身對飛機的影響更大,導致飛機不能返航,在這個飛機問題中,只統計到了倖存下來的飛機,以此下結論,是不正確的。

 


舉個例子 ->
在某產品開放日,邀請使用該產品的使用者到現場給產品打分,結果使用者滿意度都很高,其實就是一個倖存者偏差的例子,願意來現場打分的客戶,基本上都是忠實客戶了,得分自然就高。

 

避免的方法 ->
還是樣本不具備代表性的問題,避免主觀臆斷,用科學的方法選擇樣本。

資料處理階段

在資料處理階段,容易犯的錯誤:

NO.3 不注意資料的清洗

行百里者半九十,都說做資料分析有80%的時間都是在處理資料,其實就在告訴我們資料處理是多麼的重要,乾淨的資料來源是一切工作的前提,不然一切都要從頭開始。

NO.4 在原始資料上直接處理

儘量不要直接在原始資料上開始修改處理,最好拷貝一份,保留好原始資料。這樣做的目的是避免後續處理時出現錯誤,無法返回到原始資料的情況。

舉個例子 ->
在做異常值處理時,直接把異常值刪除了,後面發現其實不是異常值,而是一個值得注意的小概率事件,這就麻煩了,還不如一開始就在原始資料的備份上進行操作。

避免的方法 ->
在拷貝的原始資料上處理

資料分析階段

在資料分析階段,容易犯的錯誤:

NO.5 只會工具,不會分析

各種資料分析工具Excel、SQL、Python、Power BI、Tableau運用的爐火純青,但卻沒有一個分析的邏輯思維方法,沒有深入地去分析現象背後的原因。通常要搞清楚分析的目的是什麼,工具都是輔助。

避免的方法 ->
多學習和總結一些思維和方法,並能夠成功地運用,掌握其要領。

 

NO.6 過於追求高階方法/工具

在分析時,崇尚所謂高階的、時尚的方法,而不從專案自身實際出發,找到適合專案的分析方法。同樣,過分追求“高階”工具的使用,比如在資料量很少的情況下,非要用資料庫/Python,但其實Excel就可以簡單便宜地滿足分析的需求。

避免的方法 ->
合適的才是最好的。

視覺化階段

在視覺化階段,容易犯的錯誤:

NO.7 不做圖表

用文字來表達結果,肯定不如直接上圖更顯而易見。

避免的方法 ->
能用圖表展示的結論就少用文字來描述

NO.8 誤導性的圖表

比不做圖表更可怕的是做出具有誤導性的圖表。常見的比如把Y軸的刻度不從0開始計,這樣得到的圖形走勢就顯得差距非常大,給人造成一定程度上的視覺衝擊,但實際上,差距並沒有那麼大。

舉個例子 ->
下圖中淨利潤的增長可以看到Q4增長幅度非常明顯,但仔細一看可以發現,縱座標是從13%開始的,如果把縱座標調成0%開始,就會發現這個增長幅度其實並不明顯。

縱座標從13%開始

縱座標從13%開始


縱座標從0開始

縱座標從0開始

避免的方法 ->
保持客觀的態度做圖表,不要被心裡預設的結論所左右,該是什麼就是什麼。

得出結論階段

在得出結論時,容易犯的錯誤:

NO.9 主觀臆斷

完全拋棄資料,而是以自我經驗或想法來給出結論。這樣做資料分析就沒有意義了,要保持客觀的態度,不要總是“我覺得”,“我認為”,要以資料為依據。

避免的方法 ->
以資料為導向,保持一個資料人應用的科學客觀的態度。

NO.10 資料偏見

在得出結論時,僅選擇支援你宣告的資料,丟棄不支援宣告的部分。這就失去了客觀性,是建立在資料上的主觀臆斷,一定要讓資料反映出客觀事實。

舉個例子 ->
發現了啤酒和尿布的銷量一樣好,如果我只選擇性地關注啤酒的銷量,而忽視尿布,那就不會有購物籃分析了。

避免的方法 ->
客觀,客觀,還是客觀的態度。

NO.11 相關性==因果性

我們經常說相關性不等於因果性,兩個變數之間存在相關關係,並不意味著一個變數會影響另一個變數,也不意味著二者存在實際關係。

如果一個指標和另一個指標是一起變化的,說明它們是相關的,而如果是一個指標先變化從而導致了另一個指標的變化,才說明它們是有因果性的。

在資料分析時很容易將相關性判斷為因果性,這是不對的。相關性已經很好了,但因果性更佳,很多時候,我們只能發現相關性,但應永不停止尋找因果性。因為發現相關性可以幫助我們預測未來,而發現因果性意外著可以改變未來。

 

NO.12 唯資料論

由資料分析得到的結果不具備可行性,完全不考慮常識和業務需求,資料脫離了業務,也是常犯的錯誤。

避免的方法 ->
多瞭解業務,多溝通,不要一味搞技術。

其他

NO.13 先預設一個結果,再倒推原因

依據經驗常識先預設了一個結果,再從結果出發,為結果找原因,這
也是一種主觀臆斷,顛倒了資料分析的邏輯,我們應當是先分析,再結果,現在變成了先結果,再為結果找一個說辭。

避免的方法 ->
可以有假設,但假設不能等同於結論,大膽假設,小心求證。

NO.14 忽視黑天鵝事件

在發現澳大利亞的黑天鵝之前,17世紀之前的歐洲人認為天鵝都是白色的。但隨著第一隻黑天鵝的出現,這個不可動搖的觀念崩潰了。

黑天鵝的存在寓意著不可預測的重大稀有事件,它在意料之外,卻又改變著一切。人類總是過度相信經驗,而不知道一隻黑天鵝的出現就足以顛覆一切。

 

2008年美國次貸危機爆發就是一個典型的黑天鵝事件,大家用通用的風險價值模型預測投資風險,結論是美國商業銀行放貸業務崩潰發生的概率只有不到1%,結果我們都知道了,這種不到1%的小概率事件居然發生了。

避免的方法 ->
所以不要忽視小概率事件,它有可能會造成嚴重的後果。


 

相關文章