統計學分析單位的偏差效應

weixin_34248118發表於2017-05-02

即使我們對成功的衡量標準達成了某個共識,比如說學生的考試分數,僅此一項統計還是會有充裕的欺騙空間。舉個例子,下面的兩個陳述句都可以說是正確的,但看看你是否能夠將這兩者調和在一起。

政客甲(挑戰者):“我們的教育水平正變得越來越糟!2013年有6成學校的考試成績低於2012年。"

政客乙(在任者):“我們的教育水平正變得越來越好!2013年有8成學生的考試成績高於2012年。”

給大家一點提示:並不是所有學校的學生人數都是一樣的。如果我們回過頭來再看這兩句似乎相互矛盾的陳述,你會發現政客甲將學校當作其分析單位(“有6成學校……”),而政客乙則是將學生作為其分析單位(“有8成學生……”)。在統計學中,分析單位是作為比較或描述的物件而存在的——其中一位政客選擇了學校的表現,而另一位政客選擇了學生的表現。如果成績上升的學生正好來自辦學規模非常大的學校,那麼大部分學生在學業上有所進步而大部分學校的成績正在退步,這兩者是完全有可能同時發生的。為了讓這個例子更加直觀,我們可以用美國各州的經濟情況進行說明。 政客甲(平民主義者):“我們的經濟一塌糊塗!2012年有30個州的收入都出現了下滑。”

政客乙(更接近精英派):“我們的經濟走勢一片光明。2012年有70%的美國人的收入都增加了。”

從這兩句話中,我能讀出的資訊是:諸如紐約、加利福尼亞、得克薩斯、伊利諾伊等州的經濟形勢最好,而收入下滑的那30個州更有可能是規模比較小的州,如佛蒙特、北達科他、羅德島等。由於各個州的面積大小不同,大部分州的經濟下滑和大部分美國人的收入上升是完全有可能同時存在的。關鍵就在於分清分析單位,描述的物件到底是誰(或什麼),以及不同的人口中的誰(或什麼)是不是存在差異?剛剛舉了兩個虛構的例子,而接下來的這個例子是一個真實且至關重要的統計學問題:世界各地人民的收入不均衡因為全球化的到來是改善了,還是惡化了?一種理解是,全球化只是加劇了現有的收入不均狀況,1980年時的富裕國家(以人均國內生產總值為參考)在之後的20年間的增長速度超過了貧困國家。富國會變得更富,這說明貿易、外包、外國投資以及其他全球化的組成部分淪為了已開發國家擴大經濟霸權的工具。

如果換一種分析單位,同樣的資料也可以(也應該)以一種完全不同的方式來解讀。我們不關心窮國,我們只關心窮人。恰巧世界上有絕對比例的窮人生活在中國和印度,這兩個國家都是人口大國(人口數量均超過10億),而且在1980年的時候這兩個國家都處於相對貧窮的發展階段。但是,在過去的幾十年時間裡,中國和印度的經濟都經歷了高速發展,這在很大程度上要歸功於它們與世界上其他國家日益加深的經濟一體化。《經濟學人》這樣評價中國和印度:“它們都是‘迅速的全球化者’。”考慮到我們的目的是改善人類本身的窮困,因而在衡量全球化給全世界窮人帶來的影響時,將中國(13億人口)和模里西斯(130萬人口)當成是比重相同的兩個國家來看待是不合理的。

上述例子的分析物件應該是人,而不是國家。1980〜2000年這20年的時間到底發生了什麼?回想一下剛剛那個虛構的學校例子。世界上的大部分窮人恰好都生活在兩個大國裡,而這兩個大國在融入全球化的過程中都經歷了經濟的飛速發展。正確的分析得出了一個截然不同的結論:全球化有利於全世界的窮人。《經濟學人》雜誌指出:“如果你考慮的是人而不是國家,那麼全球不平等現象正在迅速減少。”



——選自《赤裸裸的統計學》

相關文章