資料分析中不進行資料分組會產生辛普森悖論 - TivadarDanka
如果不對資料進行分組,則會在您不注意時,根據資料得出的結論可能會隨時逆轉,這被稱為辛普森悖論,它在理論上和實踐中都對資料分析造成了嚴重破壞。
讓我們看一個現實生活中的例子。假設我們用 A 和 B 治療腎結石。在 350 名患者中,A 對 273 例有效,B 在 289 例中有效。(資料來源)
僅基於表面這些資料,我們可以得出結論,B 更有效。
然而,令人驚訝的是,事實並非如此。
你能想出一個合理的理由嗎?
事實證明,並非所有的腎結石都是一樣的。
我們可以將它們分成兩組:小石頭和大石頭。
在接受治療 A 的患者中,87 人有小結石,263 人有大結石。
B的比例不同:270有小石頭,80有大石頭。
透過計算每組的成功率,我們可以看到,A對小石頭和大石頭都更有效!這就是辛普森悖論。
各組出現的趨勢逆轉就是辛普森悖論。
為什麼會出現這種情況呢?
我們可以看到導致趨勢逆轉的兩個原因。
- 1.小組規模不平衡。
- 2. 更容易治療的組別(小結石)在治療B中佔的比例過高。
這不僅僅是腎結石。這裡有一個很好的影片,解釋了辛普森悖論如何使COVID疫苗接種看起來沒有效果,儘管這與事實相去甚遠。
這裡是另一個說明辛普森悖論的優秀視覺化。
相關文章
- 生產資料庫、開發資料庫、測試資料庫中的資料的區分資料庫
- 網易數帆資料生產力方法論
- 分組資料
- 快速入門pandas進行資料探勘資料分析[多維度排序、資料篩選、分組計算、透視表](一)排序
- 融會貫通,並行不悖 | 2022年8月《中國資料庫行業分析報告》精彩搶先看!並行資料庫行業
- 使用者流失分析的兩大誤區:“辛普森悖論”和“倖存者偏差”
- 迷人又詭異的辛普森悖論:同一個資料集是如何證明兩個完全相反的觀點的?
- mysqldump同步生產到生產資料MySql
- 怎麼進行資料分析
- 使用pandas進行資料分析
- 誰說萊鳥不會 資料分析
- [譯] 在 Python 中,如何運用 Dask 資料進行並行資料分析Python並行
- Go 語言之對不同型別的資料進行分組Go型別
- oracle資料分組Oracle
- 3天學會網頁爬蟲進行資料分析網頁爬蟲
- 在多資料來源中對部分資料表使用shardingsphere進行分庫分表
- OCP課程17:SQL之透過分組相關資料產生報告SQL
- 利用Tushare資料介面+pandas進行股票資料分析
- 資料分析過程六步曲—誰說菜鳥不會資料分析
- 13. 分組資料
- 資料要素形勢下,組織加速資料生產力亟需6大轉變
- mybatis中resultMap使用之返回分組資料MyBatis
- 【資料分析】針對家庭用電資料進行時序分析(1)
- 三個資料分析裡最難攻破的“悖論”,每一個都令人費解
- 揭秘!文字識別在高德地圖資料生產中的演進地圖
- 如何用Python進行資料分析?Python
- 教你用SQL進行資料分析SQL
- 如何對資料目標進行分析
- 如何更好的進行大資料分析大資料
- 企業資料孤島為什麼會產生?哪些行業容易遇到?行業
- 使用mod對資料進行進行分組解決TEMP表空間不足的問題
- 揭祕!文字識別在高德地圖資料生產中的演進地圖
- MySQL資料庫中的分組函式ROLLUPMySql資料庫函式
- 資料怎麼插不進去(資料庫)?資料庫
- PDP分組資料協議協議
- 大資料對法律行業產生的影響大資料行業
- 如何利用第三方資料進行大資料分析大資料
- 網路每分鐘產生多少資料–資料資訊圖