來源:知乎
作者:Allen Sun
最近有同學問了我一個很致命的問題:資料分析真的有必要做嗎?為什麼感覺都是偽需求?怎麼確定資料分析結論是真的?
其實這個問題我也曾經想過,究竟為什麼很多人都在神化資料分析,遇到任何問題不管三七二十一,都要拿出資料來分析一通?
其實,這是過度追求資料分析的表現,資料往往不一定就是真實客觀的,做資料分析的人也會被資料給欺騙,所以很多時候太過迷信資料,反而容易出問題。
所以今天從資料來源偏差、資料解讀陷阱、人為操控誤導這三方面來聊聊資料的“坑”,希望你看完後能瞭解些套路,再看報告或資料時多個心眼,帶著懷疑的精神看資料,不要掉入陷阱。
1、樣本量和代表性
你可能聽說過“黑巧克力能減肥”這個說法。2015年約翰波哈諾博士在一篇期刊上登出了這項研究成果,媒體記者們紛紛轉載。但其實這個事件都是波哈諾杜撰出來的,他隨便找了16個人做樣本基數,然後就推匯出這麼個結論,目的就是想看看謠言怎麼變成權威媒體的頭條。研究發表後沒有一個記者來聯絡他問他這個實驗的樣本量是多少、代表性怎麼樣、過程是否合理,直接就發表和引用了“研究成果”。所以,樣本量和代表性是決定資料結果靠不靠譜的前提條件。
大廠們雖然看起來有“大”資料,但是由於資料孤島的存在,其實資料也是有偏向的。比如阿里固然有淘寶幾億使用者的消費資料,但是也拿不到這幾億使用者的微信資料。而且大資料基本都是行為資料,和真實態度、心理預期等等態度資料還有有差別,再有就是用相關性推測因果也有不少坑。作為非專業人士的我們,其實看報告或者看資料時主要還是留個心眼。看看有沒有提到資料來源,資料來源可能帶來哪種偏差,帶著思考去看報告。如果看到一些資料結論和你的認知有差別、甚至是相反的,不用立刻相信結論,扭轉認知,而是先想一想這資料來源靠譜嘛,發資料的機構有目的嗎。另外,也不用太糾結於具體數字,而是去看數字背後的趨勢、比較、差異。剛才我們也提到大資料更多是行為資料,有時要拿到態度資料,還是要靠用問卷問問題的方式。在用問卷收集資料時,如何問對問題就很有講究了,比如這幾種情況:曾經有個某飲料品牌打算推出新口味的飲品,推出前心裡沒底,就做調查。他們問了一個問題“我們要推出一款口味更柔和的新產品,你會喜歡嗎?”資料收集回來以後,發現喜歡的比例高達90%,結果新品上市以後,消費者惡評如潮。現實和資料體現瞭如此大的反差,原因就在於問題中有一個很明顯的正面誘導詞“更柔和”。所以無論是看別人的資料包告,還是自己做問卷,都得注意問的問題是不是客觀無偏向,選項是不是合理。選項一般來說要儘可能符合MECE原則。資料解讀可以說是遍地是坑,這裡我選了比較常見和有意思的幾種。相關和因果是解讀資料繞不開的話題,特別是我們要用資料去預測趨勢,解決問題,用一件事的情況去推測和判斷另一件事,搞混相關和因果,就容易鬧笑話。每年冰淇淋銷量一升高,游泳溺亡人數就開始增長。所以禁止銷售冰淇淋,有助於挽救生命。
其實很多時候我們都是帶著期待,帶著目的在看資料,我們希望資料能告訴我們真相,給我們解答,告訴我們為什麼,好讓我們做出決策。所以看到兩條曲線趨勢有規律,看到兩組資料有相關,就會開始興奮,感覺自己好像抓到了答案,但這時候就往往容易過度解讀。資料只是資料而已,所謂答案其實不是資料告訴你的,而是你自己推出來的。越是這時候就越應該冷靜一下,多思考,不要輕易下判斷。還有一個特別有名的誤讀,你可能也聽說過,就是大名鼎鼎的倖存者偏差。二戰期間,美軍計劃在飛機上安裝厚鋼板來抵抗攻擊,提升飛行員生存率。但是因為重量限制,只能給最關鍵的部位安裝。他們仔細檢查了所有返航回來的飛機機身上的彈孔分佈,發現大部分都位於機翼和飛機尾部。於是大家就熱火朝天準備給機翼加鋼板。但是這時候,數學家瓦爾德就站出來反對,他說要加強那些沒彈孔的位置,比如發動機和駕駛艙。有時我們自以為找到了支援自己想法的客觀資料,但其實我們是先有了想法,再找資料來支援自己的想法,那些不符合我們假設的資料會被忽視掉,這就是“選擇偏差”。話說有個綜合大學招生,結果招生資料一公佈,男生們都表示反對:因為女生的錄取率比男生要高很多!而事實上呢,其實明明兩類院系都是男生錄取率高,但是一加起來,就變成女生錄取率高了:其實是因為文科院的女生錄取率拉高了女生整體錄取率,而理工科的男生錄取率拉低了男生整體錄取率。這就是辛普森悖論,兩組資料分別看時都滿足某種結果/趨勢,但加起來就呈現相反結果/趨勢。前面講的那些坑很多時候都是無意的。這部分就不太一樣了,很多資料其實稍加修飾,就成了一個個陷阱。比如你看下面這張圖,是不是增長勢頭非常猛?要是當成業績彙報給老闆豈不是分分鐘要升職加薪走上巔峰。但其實注意Y軸,這種差異只是被人為的放大了,一旦回歸正常尺度……川普做了民調,發現30-39歲的刁民們對自己很不友善:這要公佈出去,豈不是要在推特上被噴爆,於是將兩個層次進行合併:購買A類產品的使用者中80%都是甲類使用者,是不是就應該給甲類使用者推薦更多A類產品?這個結論乍一看沒有問題,但是如果B類產品的使用者中90%都是甲類使用者呢?如果B類產品只有20%是甲類使用者,但是B類產品基數遠大於A類呢?
只要你敢加的標籤足夠多,你就永遠是名列前茅。雖然小明考試考了班裡的40名,但是他在第四列所有身高1.7以上的學生中排第2。所以再看到有廣告聲稱自己產品排名怎麼怎麼樣,可以想一想這排名是怎麼排出來的。為什麼每次平均收入一公佈,大家都覺得自己拖後腿了?其實資料分佈情況不一樣,平均數有時並不能描述“平均情況”。還有中位數、眾數呢。總而言之,資料也只是資料,它來幫助我們理解複雜世界中的龐大資訊,但是不是萬能的,是來幫我們解釋,而不是替我們思考的,所以“盡信資料,還不如無資料”。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545816/viewspace-2694568/,如需轉載,請註明出處,否則將追究法律責任。