199IT資料中心微信賬戶:i199IT
翻譯:騰躍 校對:王晨
當今時代,大資料氾濫、資料探勘工具種類繁多,玩弄圖表遊戲已經變得不能再容易,管理者需要火眼金睛,秒殺資料間的虛假關係!
舉個例子,隨機選取統計學上相關的兩組資料,Y軸表示資料。
擷取Y軸,讓兩條線接近。看,訂閱HBR增加了WidgetCo公司的收入。
是不是感覺被忽悠了呢?!警惕虛假相關,一起新技能get√
我們都知道“相關關係並不意味著因果關係”,但當我們看到兩條線朝同樣的方向傾斜,柱狀圖中數值同時上升,或者資料點在散點圖上聚集在一起時,資料簡直在請求我們找出其中的邏輯,我們也甚至想要相信其中存在某種邏輯。
然而,統計學原則要求我們不能做這個邏輯跳躍。有些圖表利用視覺小把戲,企圖證明事物間存在密切相關性。哈佛法學院法學博士生、《虛假相關》(Spurious Correlations)一書作者泰勒·維根(Tyler Vigen),在他的網站上展示了一些荒唐可笑的“相關性”例子,比如美國人造黃油的人均消耗量和緬因州離婚率。
1 荒謬性
泰勒•維根製作網站就是為了從容量較大的資料組中,找到並描述出資料間荒謬的相關性。以下是三個例子:
2 嚴重性
我們能夠輕易發現並揭穿荒謬的例子,但當管理者碰到人為設計卻看似合理的圖表該如何做呢?
以下是三類需要留意的把戲:
(1)蘋果和橘子 比較不同的變數
表示不同數值的兩條曲線可能相似,但實際上不應放在一起比較。
當兩個數值看似相關但實際上無關時,這種曲線圖展示方式極其有害。所以最好用不同的表格表示不同的數值。
(2)扭曲座標軸 調整數值範圍從而比較資料(圖表中K代表1000)
即使兩條Y 軸表示的資料型別相同,改變數值範圍也能改變曲線走勢,進而指示虛假相關性。
左圖中,表示RetailCo 公司每月收入的兩條Y 軸,數值範圍和變化比例都不同。去除第二條Y 軸後顯示了圖表是如何被扭曲的。
(3)如果-那麼 暗示不存在的因果關係
將不相關的資料繪製在一張圖表中,讓它看起來像一個變數變化,會引發另一個變數發生變化。
我們可以根據左圖來做一個推斷——Pandora(Pandora 是美國最流行的提供線上音樂服務的軟體——譯者注)淨虧損越少,越多音樂作品受到版權保護——而實際上這只是巧合,並不存在這樣的因果關係。
哈佛商業評論
http://www.hbrchina.org/2015-07-02/3117.html