資料分析中不進行資料分組會產生辛普森悖論 - TivadarDanka
如果不對資料進行分組,則會在您不注意時,根據資料得出的結論可能會隨時逆轉,這被稱為辛普森悖論,它在理論上和實踐中都對資料分析造成了嚴重破壞。
讓我們看一個現實生活中的例子。假設我們用 A 和 B 治療腎結石。在 350 名患者中,A 對 273 例有效,B 在 289 例中有效。(資料來源)
僅基於表面這些資料,我們可以得出結論,B 更有效。
然而,令人驚訝的是,事實並非如此。
你能想出一個合理的理由嗎?
事實證明,並非所有的腎結石都是一樣的。
我們可以將它們分成兩組:小石頭和大石頭。
在接受治療 A 的患者中,87 人有小結石,263 人有大結石。
B的比例不同:270有小石頭,80有大石頭。
透過計算每組的成功率,我們可以看到,A對小石頭和大石頭都更有效!這就是辛普森悖論。
各組出現的趨勢逆轉就是辛普森悖論。
為什麼會出現這種情況呢?
我們可以看到導致趨勢逆轉的兩個原因。
- 1.小組規模不平衡。
- 2. 更容易治療的組別(小結石)在治療B中佔的比例過高。
這不僅僅是腎結石。這裡有一個很好的影片,解釋了辛普森悖論如何使COVID疫苗接種看起來沒有效果,儘管這與事實相去甚遠。
這裡是另一個說明辛普森悖論的優秀視覺化。
相關文章
- 融會貫通,並行不悖 | 2022年8月《中國資料庫行業分析報告》精彩搶先看!並行資料庫行業
- 生產資料庫、開發資料庫、測試資料庫中的資料的區分資料庫
- 大資料分析標準如何進行分類大資料
- [譯] 在 Python 中,如何運用 Dask 資料進行並行資料分析Python並行
- 快速入門pandas進行資料探勘資料分析[多維度排序、資料篩選、分組計算、透視表](一)排序
- 怎麼進行資料分析
- 使用pandas進行資料分析
- 大資料如何進行分析大資料
- 分組資料
- 迷人又詭異的辛普森悖論:同一個資料集是如何證明兩個完全相反的觀點的?
- 使用者流失分析的兩大誤區:“辛普森悖論”和“倖存者偏差”
- 企業內部資料如何進行資料分析
- 利用Tushare資料介面+pandas進行股票資料分析
- 在多資料來源中對部分資料表使用shardingsphere進行分庫分表
- 網易數帆資料生產力方法論
- Go 語言之對不同型別的資料進行分組Go型別
- 如何用Python進行資料分析?Python
- 大資料分析該如何進行大資料
- 3天學會網頁爬蟲進行資料分析網頁爬蟲
- 資料分析過程六步曲—誰說菜鳥不會資料分析
- 【資料分析】針對家庭用電資料進行時序分析(1)
- mysqldump同步生產到生產資料MySql
- 三個資料分析裡最難攻破的“悖論”,每一個都令人費解
- 用 Python 進行資料分析 pandas (一)Python
- 薦書 | 《利用Python進行資料分析》Python
- 如何對資料目標進行分析
- 教你用SQL進行資料分析SQL
- logminer進行資料探勘分析測試
- 如何更好的進行大資料分析大資料
- 【因果推斷論文】中國新冠死亡率更高?- 新冠死亡率的辛普森悖論
- 13. 分組資料
- [譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
- 如何利用第三方資料進行大資料分析大資料
- 資料分析---matplotlib模組
- 資料分析---pandas模組
- 資料要素形勢下,組織加速資料生產力亟需6大轉變
- 使用 Python 進行資料分析:入門指南Python
- 自動同步整個 MySQL/Oracle 資料庫以進行資料分析MySqlOracle資料庫