default_772_1436066540weipic5598a2ec3351c326424656_w640_h391

199IT資料中心微信賬戶:i199IT

翻譯:騰躍 校對:王晨

當今時代,大資料氾濫、資料探勘工具種類繁多,玩弄圖表遊戲已經變得不能再容易,管理者需要火眼金睛,秒殺資料間的虛假關係!

舉個例子,隨機選取統計學上相關的兩組資料,Y軸表示資料。

default_772_1436066542weipic5598a2eeb020d756720372_w297_h176
default_772_1436066548weipic5598a2f42e68c350940936_w291_h170
default_772_1436066554weipic5598a2fa33430709387702_w300_h173

擷取Y軸,讓兩條線接近。看,訂閱HBR增加了WidgetCo公司的收入。

是不是感覺被忽悠了呢?!警惕虛假相關,一起新技能get√

我們都知道“相關關係並不意味著因果關係”,但當我們看到兩條線朝同樣的方向傾斜,柱狀圖中數值同時上升,或者資料點在散點圖上聚集在一起時,資料簡直在請求我們找出其中的邏輯,我們也甚至想要相信其中存在某種邏輯。

然而,統計學原則要求我們不能做這個邏輯跳躍。有些圖表利用視覺小把戲,企圖證明事物間存在密切相關性。哈佛法學院法學博士生、《虛假相關》(Spurious Correlations)一書作者泰勒·維根(Tyler Vigen),在他的網站上展示了一些荒唐可笑的“相關性”例子,比如美國人造黃油的人均消耗量和緬因州離婚率。

1 荒謬性

泰勒•維根製作網站就是為了從容量較大的資料組中,找到並描述出資料間荒謬的相關性。以下是三個例子:

default_772_1436066555weipic5598a2fbe33bb408859860_w288_h348
default_772_1436066557weipic5598a2fd39957254222335_w309_h356
default_772_1436066559weipic5598a2ff37727752134082_w290_h351

2 嚴重性

我們能夠輕易發現並揭穿荒謬的例子,但當管理者碰到人為設計卻看似合理的圖表該如何做呢?

以下是三類需要留意的把戲:

(1)蘋果和橘子 比較不同的變數

表示不同數值的兩條曲線可能相似,但實際上不應放在一起比較。

當兩個數值看似相關但實際上無關時,這種曲線圖展示方式極其有害。所以最好用不同的表格表示不同的數值。

default_772_1436066560weipic5598a300ea305759032626_w413_h213
default_772_1436066561weipic5598a301f38df323187435_w423_h219

(2)扭曲座標軸 調整數值範圍從而比較資料(圖表中K代表1000)

即使兩條Y 軸表示的資料型別相同,改變數值範圍也能改變曲線走勢,進而指示虛假相關性。

左圖中,表示RetailCo 公司每月收入的兩條Y 軸,數值範圍和變化比例都不同。去除第二條Y 軸後顯示了圖表是如何被扭曲的。

default_772_1436066568weipic5598a308330b7371127949_w431_h228
default_772_1436066571weipic5598a30b1d418800964471_w394_h224

(3)如果-那麼 暗示不存在的因果關係

將不相關的資料繪製在一張圖表中,讓它看起來像一個變數變化,會引發另一個變數發生變化。

我們可以根據左圖來做一個推斷——Pandora(Pandora 是美國最流行的提供線上音樂服務的軟體——譯者注)淨虧損越少,越多音樂作品受到版權保護——而實際上這只是巧合,並不存在這樣的因果關係。

default_772_1436066573weipic5598a30de3f28060320207_w412_h187
default_772_1436066575weipic5598a30f2fd6c410185989_w404_h190

哈佛商業評論

http://www.hbrchina.org/2015-07-02/3117.html