1、辛普森悖論
辛普森悖論是資料分析中最常見的悖論之一,舉個最實際的例子來說:
鴨堡某學期期末考試,考數學、物理、化學三科,A的數學比B高2分,物理比B高15分,化學比C高3分,請問A的總分是否比B高?
很多人會說,這不是廢話麼,問題太簡單了,當然是A的總分比B高了!

實際上很可能A的總成績低於B,別急著驚訝,我們不妨再看一個例子:
很多人都愛看NBA比賽,最近幾年的騎勇大戰,使得詹姆斯和庫裡在球迷心目中的印象非常深,有一場騎勇大戰,詹姆斯和庫裡的兩分球與三分球命中率如下表所示:

其中:
兩分球命中率 = 兩分球命中數 / 兩分球出手數 * 100%
三分球命中率 = 三分球命中數 / 三分球出手數 * 100%
那麼請問本場比賽,詹姆斯的投籃命中率,是否低於庫裡?
投籃命中率 = (兩分球命中數 + 三分球命中數) / (兩分球出手數 + 三分球出手數) * 100%
很多人也會說,這不是跟上面期末考試那個題一樣簡單嘛,這還用說嘛,肯定是詹姆斯的投籃命中率低於庫裡呀!我們把細項的資料拉出來看,確實是這樣的:

但是,這真的是廢話麼?我們再來看另一場比賽這兩位兄弟的表現吧:

這一場比賽,詹姆斯和庫裡誰的投籃命中率高呢?這次你如果還說這是廢話,當然是庫裡的投籃命中率高了,那這回你可就沒這麼幸運了,讓我們看看細項資料吧:

是的,你沒有看錯,詹姆斯的兩分球命中率也低於庫裡,三分球命中率也低於庫裡,但是彙總起來看,詹姆斯的投籃命中率是要高於庫裡的!
問題來了,這是怎麼回事呢?這不符合常理啊!
這個“不符合常理”的現象,在資料分析領域中會時不時遇到的,並且在業內有個專門的術語: 辛普森悖論(Simpson's paradox)
具體來說,就是 在進行分組研究的時候,有時在每個組比較時都佔優勢的一方,在總評中有時反而是失勢的一方的“悖論”現象就叫辛普森悖論。
現實中的很多資料,透過辛普森悖論,展現出引導性的錯誤結論。比如現實中的多幹多錯,少幹少錯,不幹不錯。
一個人經常犯錯並不能證明他就比其他更少犯錯的人能力低下,有可能是他從事更加複雜,出錯率更高的工作的時間佔比更大。
2、羅素悖論
羅素悖論屬於數理統計學中永遠無法逃避的一個悖論,這個悖論簡約、美麗、詭異,甚至導致了第三次數學危機的解決。
羅素悖論的準確表達應該是:
如果存在一個集合是由所有一切不屬於自身的集合組成的,也就是A={x | x∉ x },那麼A包含於A是否成立?如果成立,則不符合x不屬於A;而如果A不包含於A,則符合x不屬於A。
羅素怕這個悖論很多人看不懂,於是給出了一個通俗版本:
假如某個城市的所有人,都在一位理髮師那裡理髮,而這位理髮師突然說:“我只為本城市中,不給自己刮臉的人刮臉!”於是,其他人對理髮師說:那麼你給自己刮臉嗎?
倘若他不給自己刮臉,那麼他屬於“不給自己刮臉的人”,按照他的說法他就要給自己刮臉;倘若他給自己刮臉,他又屬於“給自己刮臉的人”,按照他的說法就不該給自己刮臉。

3、伯克森悖論
將不同組別的資料合併時,會導致各組原本表現出來的某種規律消失,當這種情況發生時,合併之後呈現出的新規律甚至可能與每組的原本的規律相反。

舉個例子,某種治療手段在不同的組別裡對患者的身體恢復是有害的,但是將所有組別的資料合併起來看,我們卻會發現它竟然對患者身體的恢復是有幫助的。
它是怎麼發生的?
當組成各組的成分差別較大的時候,就可能出現上述現象。
如,對病人的數量進行篩選,使得兩組試驗中病人的組成差別很大(老人、小孩、成人的比例有很大的差別)時,將資料簡單的合併之後就會得出這樣的結論:有害的治療變成了有益的治療。
假設有一個雙盲試驗(在雙盲試驗中,受試驗的物件及研究人員並不知道哪些物件屬於對照組,哪些屬於實驗組),將患者分成兩組,每組有120人,但是兩組中患者的年齡結構有很大的差異(第一組分為10人、20人、30人、60人,第二組分為60人、30人、20人、10人)。第一組的患者將接受治療,而第二組的患者不進行治療。
總體結果表明,治療對患者是有益的,接受治療的患者的身體恢復率大於沒有接受治療的患者。

然而,當你深入研究兩組中各個患者群體時,你會發現在所有的患者群體中, 沒有接受治療的患者身體恢復率提高了。

我們注意到,每組中不同年齡的患者人數是不同的,甚至是差別很大的,這就是我們得出錯誤結果的原因。在這種情況下, 如果簡單的將兩組資料合併,就容易得出錯誤的結論。
