資料分析中不進行資料分組會產生辛普森悖論 - TivadarDanka

banq發表於2022-03-17

如果不對資料進行分組,則會在您不注意時,根據資料得出的結論可能會隨時逆轉,這被稱為辛普森悖論,它在理論上和實踐中都對資料分析造成了嚴重破壞。
讓我們看一個現實生活中的例子。假設我們用 A 和 B 治療腎結石。在 350 名患者中,A 對 273 例有效,B 在 289 例中有效。(資料來源
僅基於表面這些資料,我們可以得出結論,B 更有效。
然而,令人驚訝的是,事實並非如此。
你能想出一個合理的理由嗎?

事實證明,並非所有的腎結石都是一樣的。
我們可以將它們分成兩組:小石頭和大石頭。
在接受治療 A 的患者中,87 人有小結石,263 人有大結石。
B的比例不同:270有小石頭,80有大石頭。

透過計算每組的成功率,我們可以看到,A對小石頭和大石頭都更有效!這就是辛普森悖論。

各組出現的趨勢逆轉就是辛普森悖論。

為什麼會出現這種情況呢?
我們可以看到導致趨勢逆轉的兩個原因。
  • 1.小組規模不平衡。
  • 2. 更容易治療的組別(小結石)在治療B中佔的比例過高。

這不僅僅是腎結石。這裡有一個很好的影片,解釋了辛普森悖論如何使COVID疫苗接種看起來沒有效果,儘管這與事實相去甚遠。

這裡是另一個說明辛普森悖論的優秀視覺化。

相關文章