資料分析中會常犯哪些錯誤,如何解決?
這篇文章從資料分析的幾個階段,總結了14個我們可能會犯的一些錯誤,以及如何避免。
資料獲取階段
在資料採集/獲取階段,容易犯的錯誤:
NO.1 取樣偏差
在資料採集的時候,如果不能獲取到總體的資料,那就要採集到可以代表總體的樣本,抽樣就顯得尤其重要,如果樣本不具有代表性,那麼得出的結論一定是有失偏頗的。
舉個例子 ->
小紅書的使用者群體是年輕的女性使用者為主,如果用這份資料去預測一部受眾是青少年的電影票房,結果可能就不合理了。
避免的方法 ->
使樣本能夠充分代表總體。
NO.2 倖存者偏差
指的是隻能看到經過某種篩選而產生的結果,忽略了被篩選掉的關鍵資訊。
在二戰期間,人們發現倖存的轟炸機中,機翼中彈的數量很多,而機身中彈的卻很少。因此人們認為我們應該加固飛機的機翼,其實不然,就是因為機翼中彈多還能飛回來,所以機翼中彈並沒有影響飛機返航;而機身中彈的少則說明了子彈打中機身對飛機的影響更大,導致飛機不能返航,在這個飛機問題中,只統計到了倖存下來的飛機,以此下結論,是不正確的。
舉個例子 ->
在某產品開放日,邀請使用該產品的使用者到現場給產品打分,結果使用者滿意度都很高,其實就是一個倖存者偏差的例子,願意來現場打分的客戶,基本上都是忠實客戶了,得分自然就高。
避免的方法 ->
還是樣本不具備代表性的問題,避免主觀臆斷,用科學的方法選擇樣本。
資料處理階段
在資料處理階段,容易犯的錯誤:
NO.3 不注意資料的清洗
行百里者半九十,都說做資料分析有80%的時間都是在處理資料,其實就在告訴我們資料處理是多麼的重要,乾淨的資料來源是一切工作的前提,不然一切都要從頭開始。
NO.4 在原始資料上直接處理
儘量不要直接在原始資料上開始修改處理,最好拷貝一份,保留好原始資料。這樣做的目的是避免後續處理時出現錯誤,無法返回到原始資料的情況。
舉個例子 ->
在做異常值處理時,直接把異常值刪除了,後面發現其實不是異常值,而是一個值得注意的小概率事件,這就麻煩了,還不如一開始就在原始資料的備份上進行操作。
避免的方法 ->
在拷貝的原始資料上處理
資料分析階段
在資料分析階段,容易犯的錯誤:
NO.5 只會工具,不會分析
各種資料分析工具Excel、SQL、Python、Power BI、Tableau運用的爐火純青,但卻沒有一個分析的邏輯思維方法,沒有深入地去分析現象背後的原因。通常要搞清楚分析的目的是什麼,工具都是輔助。
避免的方法 ->
多學習和總結一些思維和方法,並能夠成功地運用,掌握其要領。
NO.6 過於追求高階方法/工具
在分析時,崇尚所謂高階的、時尚的方法,而不從專案自身實際出發,找到適合專案的分析方法。同樣,過分追求“高階”工具的使用,比如在資料量很少的情況下,非要用資料庫/Python,但其實Excel就可以簡單便宜地滿足分析的需求。
避免的方法 ->
合適的才是最好的。
視覺化階段
在視覺化階段,容易犯的錯誤:
NO.7 不做圖表
用文字來表達結果,肯定不如直接上圖更顯而易見。
避免的方法 ->
能用圖表展示的結論就少用文字來描述
NO.8 誤導性的圖表
比不做圖表更可怕的是做出具有誤導性的圖表。常見的比如把Y軸的刻度不從0開始計,這樣得到的圖形走勢就顯得差距非常大,給人造成一定程度上的視覺衝擊,但實際上,差距並沒有那麼大。
舉個例子 ->
下圖中淨利潤的增長可以看到Q4增長幅度非常明顯,但仔細一看可以發現,縱座標是從13%開始的,如果把縱座標調成0%開始,就會發現這個增長幅度其實並不明顯。
縱座標從13%開始
縱座標從0開始
避免的方法 ->
保持客觀的態度做圖表,不要被心裡預設的結論所左右,該是什麼就是什麼。
得出結論階段
在得出結論時,容易犯的錯誤:
NO.9 主觀臆斷
完全拋棄資料,而是以自我經驗或想法來給出結論。這樣做資料分析就沒有意義了,要保持客觀的態度,不要總是“我覺得”,“我認為”,要以資料為依據。
避免的方法 ->
以資料為導向,保持一個資料人應用的科學客觀的態度。
NO.10 資料偏見
在得出結論時,僅選擇支援你宣告的資料,丟棄不支援宣告的部分。這就失去了客觀性,是建立在資料上的主觀臆斷,一定要讓資料反映出客觀事實。
舉個例子 ->
發現了啤酒和尿布的銷量一樣好,如果我只選擇性地關注啤酒的銷量,而忽視尿布,那就不會有購物籃分析了。
避免的方法 ->
客觀,客觀,還是客觀的態度。
NO.11 相關性==因果性
我們經常說相關性不等於因果性,兩個變數之間存在相關關係,並不意味著一個變數會影響另一個變數,也不意味著二者存在實際關係。
如果一個指標和另一個指標是一起變化的,說明它們是相關的,而如果是一個指標先變化從而導致了另一個指標的變化,才說明它們是有因果性的。
在資料分析時很容易將相關性判斷為因果性,這是不對的。相關性已經很好了,但因果性更佳,很多時候,我們只能發現相關性,但應永不停止尋找因果性。因為發現相關性可以幫助我們預測未來,而發現因果性意外著可以改變未來。
NO.12 唯資料論
由資料分析得到的結果不具備可行性,完全不考慮常識和業務需求,資料脫離了業務,也是常犯的錯誤。
避免的方法 ->
多瞭解業務,多溝通,不要一味搞技術。
其他
NO.13 先預設一個結果,再倒推原因
依據經驗常識先預設了一個結果,再從結果出發,為結果找原因,這
也是一種主觀臆斷,顛倒了資料分析的邏輯,我們應當是先分析,再結果,現在變成了先結果,再為結果找一個說辭。
避免的方法 ->
可以有假設,但假設不能等同於結論,大膽假設,小心求證。
NO.14 忽視黑天鵝事件
在發現澳大利亞的黑天鵝之前,17世紀之前的歐洲人認為天鵝都是白色的。但隨著第一隻黑天鵝的出現,這個不可動搖的觀念崩潰了。
黑天鵝的存在寓意著不可預測的重大稀有事件,它在意料之外,卻又改變著一切。人類總是過度相信經驗,而不知道一隻黑天鵝的出現就足以顛覆一切。
2008年美國次貸危機爆發就是一個典型的黑天鵝事件,大家用通用的風險價值模型預測投資風險,結論是美國商業銀行放貸業務崩潰發生的概率只有不到1%,結果我們都知道了,這種不到1%的小概率事件居然發生了。
避免的方法 ->
所以不要忽視小概率事件,它有可能會造成嚴重的後果。
相關文章
- 資料庫新手常犯的 5 個錯誤資料庫
- 資料探勘中常犯的十一大錯誤
- 缺乏經驗的管理者有哪些常犯錯誤?
- 10個資料科學家常犯的程式設計錯誤(附解決方案)資料科學程式設計
- 阿里雲資料庫連線資料庫錯誤:如何解決?阿里資料庫
- Python 新手常犯的錯誤Python
- 開發者常犯的 9 個錯誤
- 資料分析中6個常規的錯誤
- IT人士常犯的17個職場錯誤
- 如何解決 VLC 影片嵌入字幕中遇到的錯誤
- 大資料分析的誤區有哪些大資料
- 常見資料分析誤區有哪些?
- 域名解析錯誤如何解決?
- GitLab 500 錯誤如何解決?Gitlab
- python開發者常犯的10個錯誤Python
- PHP開發者常犯的10個MySQL錯誤PHPMySql
- 資料庫使用者名稱和密碼錯誤:如何解決?資料庫密碼
- 爬蟲錯誤程式碼如何解決?爬蟲
- 如何解決ORA-00845錯誤
- C#幾個經常犯錯誤彙總C#
- Python開發者最常犯的10個錯誤Python
- win10系統ftp資料夾錯誤怎麼處理_win10系統ftp資料夾錯誤如何解決Win10FTP
- java開發管理者們常犯之錯誤與解決辦法Java
- 資料庫日誌中Immediate Kill Session錯誤解決方法資料庫Session
- 如何解決ORA-04031 錯誤(轉)
- 如何解決寬頻連線錯誤769
- 如何解決寬頻連線錯誤651
- 如何解決ORA-04031 錯誤(zt)
- 如何解決該錯誤?(與Struts有關)
- 【盤點】Python新手入門常犯的錯誤!Python
- Java程式設計師常犯的10個錯誤Java程式設計師
- AngularJS 開發中常犯的10個錯誤AngularJS
- 程式設計師可能常犯的 6 個錯誤程式設計師
- Web開發人員常犯的10個錯誤Web
- Rails遺留程式中最常犯的錯誤(上)AI
- Rails遺留程式中最常犯的錯誤(下)AI
- MySQL插入資料1366錯誤解決方案MySql
- 使用 Spring Framework 時常犯的十大錯誤SpringFramework