資料的相關性或因果關係 - KDnuggets
為什麼蘇打水和冰淇淋都與暴力有關?本文就人們所說的“相關性並不意味著因果性”給出了最終結論。
蘇打水和冰淇淋與暴力有關?人們還從資料中得出結論:吸菸、巧克力和捲曲的薯條對你有好處。為什麼會這樣呢?
冰淇淋和鯊魚襲擊
根據資料顯示,冰淇淋的消費與鯊魚襲擊有關。為什麼呢?好吧,也許吃冰淇淋會讓你的味道更好?所以,你吃了冰淇淋,鯊魚就吃了你。但更被接受的鯊魚計劃是,它是季節性的。碰巧的是,當天氣變暖時,更多的人在吃冰淇淋,也有更多的人在海里游泳。
這就是說,無論從哪個方向看,都沒有因果關係--這些事情都沒有導致另一個,甚至是間接的。相反,它們都是由第三個因素引起的。
因此,好訊息是,我們已經在資料中發現了這兩個因素之間的聯絡,一種關聯,一種相關性--這很有價值。
這兩個因素確實是相互預測的。如果我們看到冰淇淋銷量增加,我們可以正確地確定鯊魚襲擊的機率更高,反之亦然。
但壞訊息是,當我們發現這種相關性時,往往它們的共同原因,一些第三因素,根本就不在我們的資料集中。這些資料沒有被包括在內,因為它被忽略了,或者也許它很難收集,或者成本很高。因此,我們被困在一個預測性的相關關係中,但沒有明確的因果解釋。
蘇打水和暴力
現在,蘇打水似乎也很危險。2011年,一位經濟學教授和一位健康政策研究員公開了他們的研究結果。在青少年中,他們發現,"軟飲料和暴力之間有很強的關聯......" 他們還寫道:"......每週喝超過五罐非飲食類軟飲料與參與暴力行動的機率增加9-15個百分點有關......。可能存在直接的因果關係,也許是由於軟飲料中的糖或咖啡因含量。"
蘇打水在那之後,爆發了媒體報導的喧囂,標題是:"蘇打水完全把青少年變成了殺人犯"。然後懷疑論者開始反擊。現在,他們並沒有質疑蘇打水消費和暴力之間的相關性。相反,他們質疑的是因果關係。
你看,你可以得出結論,在兩個因素之間有一個聯絡,一個連線,一個關聯,一個相關性,但不一定了解它為什麼是這樣。
而”為什麼“是涉及因果關係的:對事物如何相互影響的一些洞察力。
你不應該得出汽水導致暴力的結論。相反,這可能是飲食與社會經濟地位有關。低收入的青少年消費更多的垃圾食品,包括蘇打水,而貧困本身就是青少年暴力的一個風險因素。
現在,如果這個故事是真的,這裡顯示的因果聯絡:比如,貧窮導致暴力的確切方式。
重點是,這是一個合理的替代解釋,甚至沒有蘇打水間接導致暴力,所以對蘇打水的危險敲響警鐘是毫無道理的。
讓我換一種說法。即使暴力的人喝更多的蘇打水是真的,也沒有理由完全相信喝蘇打水會讓你更暴力。這就好比假設吃更多的冰淇淋會導致更多的鯊魚襲擊。冰淇淋和蘇打水可能對你有害,但不是以這種方式。
吃巧克力的人更苗條
總之,現在有一個好訊息:一些誘人的惡習對你有好處,如巧克力、吸菸、捲曲的薯條和早餐! ...是那些假定因果關係的人所說的。
巧克力 "更頻繁地攝入巧克力與較低的身體質量指數有關",根據發表這一發現的加利福尼亞大學醫學和經濟學研究人員的說法。他們寫道,這種關聯 "可能是因果關係",因為巧克力可能減少脂肪的沉積。
引起了媒體的狂熱。英國廣播公司(BBC)的一個標題宣佈:"巧克力'可能有助於保持人們的身材",而《華爾街日報》的一個影片在標題中寫道:"它似乎能讓你變瘦",並以 "它不會讓你變胖 "作為開場。
現在,我想說的是,人們對巧克力的狂熱熱愛催生了這種一廂情願的想法和對因果關係的大膽推測......但我又不能真正確定是什麼導致了他們的虛偽。這很有趣,因為它是真的。
相關性並不意味著因果關係
總之,發現兩個專案之間的相關性並不意味著一個導致另一個,甚至不是間接的。它只是不一定告訴我們任何因果關係的情況。大學的走廊和網際網路的聊天室裡經常回蕩著對這一最重要的、可怕的警告的提醒。
"相關關係並不意味著因果關係"。
統計學家絕對是在屋頂上大喊這條規則,就像大眾媒體和大資料駭客們經常忽略它一樣。
現在,看看巧克力消費和較低的身體質量指數,另一個合理的因果解釋是,人們在減肥時用巧克力獎勵自己。也就是說,較低的體重導致了巧克力消費,而不是反過來。
或者,可能是人們吃了更多的巧克力,因為他們一開始就沒有試圖減肥,因為他們已經很瘦了。
或者另一種可能性是,貧窮與較高的體重有關,也使巧克力變得不那麼實惠,所以收入較低的人平均體重較高,但也吃較少的巧克力。
或者可能是所有這些不同因果關係的某種組合。我們不知道。主要的一點是,你必須生活在這種不確定性中,避免在只建立了相關關係的情況下推測特定的因果關係的誘惑。調整你的大腦以接受這種知識的缺乏。
點選標題
相關文章
- 資料關係比較:相關性 vs 因果關係
- 解讀數倉中的資料物件及相關關係物件
- 統計學三大相關係數之Pearson相關係數、Spearman相關係數
- 數學建模 資料處理模型之變數相關性類(灰色相關聯、相關性分析)模型變數
- 關係型資料庫和非關係型資料庫的區別資料庫
- 大資料測試 - 相關性評估大資料
- 行業與氣象資料的相關性探索行業
- Linux檢視相關係統資訊Linux
- 從因果關係來看小樣本學習
- 關係型資料庫與非關係型資料庫介紹!資料庫
- 關係型資料庫資料庫
- 偏相關係數計算
- 關係型資料庫概要資料庫
- 關係型資料庫原理資料庫
- SQL與NoSQL(關係型與非關係型)資料庫的區別SQL資料庫
- 架構與資料庫的關係架構資料庫
- 資料庫的主外來鍵關係資料庫
- 蒐集到的Weex 相關資料
- 運維相關的資料整理運維
- matlab相關性分析Matlab
- 資料庫多對多表關係資料資料庫
- 列舉常見的關係型資料庫和非關係型都有那些?資料庫
- ACM BCB 2018 CausalTriad: 從醫學文字資料中推斷出新的因果關係假設ACM
- 不止卡方檢驗和線性相關係數,相關性分析有6種方法
- 非關係型資料庫(NOSQL)和關係型資料庫(SQL)區別詳解資料庫SQL
- 互資訊與相關性的影像配準
- 通過遞迴實現,單表父子關係資料 或者上下級關係資料的組合遞迴
- 關係型資料庫之SQL資料庫SQL
- 關係型資料庫之索引資料庫索引
- redis—非關係型資料庫Redis資料庫
- 設計資料庫關係模型資料庫模型
- SCM通道模型和SCME通道模型的matlab特性模擬,對比空間相關性,時間相關性,頻率相關性模型Matlab
- 大資料和人工智慧的關係大資料人工智慧
- 資料庫的關係代數表示式資料庫
- 區塊鏈和大資料的關係區塊鏈大資料
- mock axios vue的資料傳遞關係MockiOSVue
- 談談資料制度與資料標準的關係
- 資料庫 (相關練習)資料庫