真的，不要迷信資料分析

來源：知乎

作者：Allen Sun

最近有同學問了我一個很致命的問題：資料分析真的有必要做嗎？為什麼感覺都是偽需求？怎麼確定資料分析結論是真的？

其實這個問題我也曾經想過，究竟為什麼很多人都在神化資料分析，遇到任何問題不管三七二十一，都要拿出資料來分析一通？

其實，這是過度追求資料分析的表現，資料往往不一定就是真實客觀的，做資料分析的人也會被資料給欺騙，所以很多時候太過迷信資料，反而容易出問題。

所以今天從資料來源偏差、資料解讀陷阱、人為操控誤導這三方面來聊聊資料的“坑”，希望你看完後能瞭解些套路，再看報告或資料時多個心眼，帶著懷疑的精神看資料，不要掉入陷阱。

真的，不要迷信資料分析

一、數據來源偏差

1、樣本量和代表性

你可能聽說過“黑巧克力能減肥”這個說法。2015年約翰波哈諾博士在一篇期刊上登出了這項研究成果，媒體記者們紛紛轉載。

但其實這個事件都是波哈諾杜撰出來的，他隨便找了16個人做樣本基數，然後就推匯出這麼個結論，目的就是想看看謠言怎麼變成權威媒體的頭條。研究發表後沒有一個記者來聯絡他問他這個實驗的樣本量是多少、代表性怎麼樣、過程是否合理，直接就發表和引用了“研究成果”。

所以，樣本量和代表性是決定資料結果靠不靠譜的前提條件。

大廠們雖然看起來有“大”資料，但是由於資料孤島的存在，其實資料也是有偏向的。比如阿里固然有淘寶幾億使用者的消費資料，但是也拿不到這幾億使用者的微信資料。而且大資料基本都是行為資料，和真實態度、心理預期等等態度資料還有有差別，再有就是用相關性推測因果也有不少坑。

作為非專業人士的我們，其實看報告或者看資料時主要還是留個心眼。看看有沒有提到資料來源，資料來源可能帶來哪種偏差，帶著思考去看報告。

如果看到一些資料結論和你的認知有差別、甚至是相反的，不用立刻相信結論，扭轉認知，而是先想一想這資料來源靠譜嘛，發資料的機構有目的嗎。另外，也不用太糾結於具體數字，而是去看數字背後的趨勢、比較、差異。

2、問題缺陷

剛才我們也提到大資料更多是行為資料，有時要拿到態度資料，還是要靠用問卷問問題的方式。在用問卷收集資料時，如何問對問題就很有講究了，比如這幾種情況：

曾經有個某飲料品牌打算推出新口味的飲品，推出前心裡沒底，就做調查。

他們問了一個問題“我們要推出一款口味更柔和的新產品，你會喜歡嗎？”資料收集回來以後，發現喜歡的比例高達90%，結果新品上市以後，消費者惡評如潮。現實和資料體現瞭如此大的反差，原因就在於問題中有一個很明顯的正面誘導詞“更柔和”。

所以無論是看別人的資料包告，還是自己做問卷，都得注意問的問題是不是客觀無偏向，選項是不是合理。選項一般來說要儘可能符合MECE原則。

二、資料解讀陷阱

資料解讀可以說是遍地是坑，這裡我選了比較常見和有意思的幾種。

1. 相關不等於因果

相關和因果是解讀資料繞不開的話題，特別是我們要用資料去預測趨勢，解決問題，用一件事的情況去推測和判斷另一件事，搞混相關和因果，就容易鬧笑話。

比如：

每年冰淇淋銷量一升高，游泳溺亡人數就開始增長。所以禁止銷售冰淇淋，有助於挽救生命。

其實很多時候我們都是帶著期待，帶著目的在看資料，我們希望資料能告訴我們真相，給我們解答，告訴我們為什麼，好讓我們做出決策。

所以看到兩條曲線趨勢有規律，看到兩組資料有相關，就會開始興奮，感覺自己好像抓到了答案，但這時候就往往容易過度解讀。

資料只是資料而已，所謂答案其實不是資料告訴你的，而是你自己推出來的。越是這時候就越應該冷靜一下，多思考，不要輕易下判斷。

2. 倖存者偏差

還有一個特別有名的誤讀，你可能也聽說過，就是大名鼎鼎的倖存者偏差。

倖存者偏差是怎麼來的呢？

二戰期間，美軍計劃在飛機上安裝厚鋼板來抵抗攻擊，提升飛行員生存率。但是因為重量限制，只能給最關鍵的部位安裝。他們仔細檢查了所有返航回來的飛機機身上的彈孔分佈，發現大部分都位於機翼和飛機尾部。於是大家就熱火朝天準備給機翼加鋼板。

但是這時候，數學家瓦爾德就站出來反對，他說要加強那些沒彈孔的位置，比如發動機和駕駛艙。

3. 自選擇偏差

有時我們自以為找到了支援自己想法的客觀資料，但其實我們是先有了想法，再找資料來支援自己的想法，那些不符合我們假設的資料會被忽視掉，這就是“選擇偏差”。

4. 辛普森悖論

這個就比較神奇了，我們還是先看個故事：

話說有個綜合大學招生，結果招生資料一公佈，男生們都表示反對：因為女生的錄取率比男生要高很多！

而事實上呢，其實明明兩類院系都是男生錄取率高，但是一加起來，就變成女生錄取率高了：

其實是因為文科院的女生錄取率拉高了女生整體錄取率，而理工科的男生錄取率拉低了男生整體錄取率。

這就是辛普森悖論，兩組資料分別看時都滿足某種結果/趨勢，但加起來就呈現相反結果/趨勢。

三、人為操作誤導

前面講的那些坑很多時候都是無意的。這部分就不太一樣了，很多資料其實稍加修飾，就成了一個個陷阱。

1. 放大尺度

比如你看下面這張圖，是不是增長勢頭非常猛？要是當成業績彙報給老闆豈不是分分鐘要升職加薪走上巔峰。

但其實注意Y軸，這種差異只是被人為的放大了，一旦回歸正常尺度……

2. 重新定級

川普做了民調，發現30-39歲的刁民們對自己很不友善：

這要公佈出去，豈不是要在推特上被噴爆，於是將兩個層次進行合併：

這樣一看，就好看多了。

3. 提自己，不做對比。

購買A類產品的使用者中80%都是甲類使用者，是不是就應該給甲類使用者推薦更多A類產品？

這個結論乍一看沒有問題，但是如果B類產品的使用者中90%都是甲類使用者呢？

如果B類產品只有20%是甲類使用者，但是B類產品基數遠大於A類呢？

很多時候，資料還是要對比才有意義。

4. 自定標準

只要你敢加的標籤足夠多，你就永遠是名列前茅。雖然小明考試考了班裡的40名，但是他在第四列所有身高1.7以上的學生中排第2。

所以再看到有廣告聲稱自己產品排名怎麼怎麼樣，可以想一想這排名是怎麼排出來的。

5. 片面釋放

為什麼每次平均收入一公佈，大家都覺得自己拖後腿了？

其實資料分佈情況不一樣，平均數有時並不能描述“平均情況”。還有中位數、眾數呢。

總而言之，資料也只是資料，它來幫助我們理解複雜世界中的龐大資訊，但是不是萬能的，是來幫我們解釋，而不是替我們思考的，所以“盡信資料，還不如無資料”。

真的，不要迷信資料分析

1、樣本量和代表性

相關文章