正態分佈的應用——基於描述性統計與分佈的推論

海資料實驗室發表於2020-09-25

內容匯入:

大家好,這裡是每天分析一點點。本期介紹描述性統計指標與分佈的基本關係,包括分佈的基本型別,集中趨勢與分佈的關係,離散趨勢與分佈的關係,再結合國民收入案例探討分佈與描述性統計分析在實際生活的應用。文章內容適合資料分析小白,內容深入淺出,案例貼合實際。下期給大家介紹偏度係數,歡迎大家關注。

概念介紹:

分佈的型別:

上期主要給大家介紹了正態分佈,其實除了正態分佈,還有很多的分佈型別,今天就給大家科普一下。標準的二分佈、均勻分佈這樣的古典概型產生的分佈,在這裡就不一一給大家介紹了。本次介紹的分佈,也是統計中較為常用的型別。

第一、T分佈。

如果已知等待分析的總體服從正態分佈,從總體中抽取容量為n的所有可能樣本,對每個樣本都計算出它們相應的T統計量,則所有T統計量的值將組成一個連續型概率分佈,這個分佈就是T分佈,T分佈的概率密度函式為:

t代表T統計量的值;v表示自由度,等於樣本容量n減去1; c為常數,使T分佈函式曲線下的面積等於1。

T分佈有什麼功能呢?大家是否聽說過係數T檢驗,樣本T檢驗。T分佈可以用來判斷兩個連續變數的顯著性,經常用於判斷線性迴歸中的係數是否顯著,如果不顯著,需要剔除該變數重新擬合。一般情況是T檢驗的雙側P值小於5%,視為顯著,大於5%視為不顯著。比如身高與年齡是否有顯著性關係,GDP與投資是否有顯著性關係。

第二、卡方(χ2 )分佈。

若n個相互獨立的隨機變數ξ₁,ξ₂,...,ξn ,均服從標準正態分佈,則這n個服從標準正態分佈的隨機變數的平方和構成一新的隨機變數,其分佈規律稱為卡方分佈。概率密度函式:

X2代表卡方統計量;e是自然底數,等於2.72; v代表自由度,等於樣本容量n-1; c代表調節常數,使得卡方分佈曲線下方的總面積等於1。

卡方分佈,是用來檢測方差的,通常檢驗一個變數兩個型別的方差是否顯著,通常用於邏輯迴歸中。舉個例子,一個班共60個人,男的35人,女的25人,分析男女身高水平是否有顯著差異,將60個身高資料用男女分開,然後應用卡方分佈進行檢驗。一般情況是卡方檢驗的雙側P值小於5%,視為顯著,大於5%視為不顯著。二分類邏輯迴歸的顯著性檢驗,應用的就是卡方檢驗。

第二、F分佈。

兩個正態分佈總體之間的方差關係。

F統計量其實可以被認為是由兩個卡方(χ2)統計量相除得到的,一般情況是預設將卡方值較大的總體作為分母,卡方值較小的總體作為分子。概率密度函式為:

v1表示F統計量分子的自由度; v2表示F統計量分母的自由度;c代表修正常數,它使得F分佈曲線下方的總面積等於1。

F分佈又是用來幹什麼的呢?做資料分析的你一定用過,但是你未必知道,F檢驗可以用來檢驗方差和函式,是的,檢驗函式,線性迴歸與邏輯迴歸的模型顯著性,就可以用F分佈進行檢驗。一般情況是F檢驗的雙側P值小於5%,視為顯著,大於5%視為不顯著。

分佈與描述性統計分析的關係:

上期問了大家幾個問題,如何描述頻度分佈圖的特點呢?

1、左邊資料多還是右邊資料多?

2、左邊陡峭還是右邊陡峭?

3、是否存在極大極小的離群值?

4、是‘凸’的還是‘凹’的?

5、總體的形狀像什麼?

分佈的資料特點已經相關的作用剛才已經給大家介紹了。分佈的形狀、陡峭程度、離群值特點與描述性通過相關指標有關。接下來,我們來進行具體的瞭解。

集中趨勢與分佈的關係:

經過前幾期的瞭解,我們知道平均值、中位數、眾數是集中趨勢的指標。但是,並不是所有資料中,平均值與中位數都代表這資料的集中趨勢。例如,想正態分佈這樣的倒U型分佈資料,平均值、中位數、眾數就可以代表資料的集中趨勢。形如U型的資料分佈,只有眾數代表集中趨勢,比如49個1,49個99,1個50這樣的資料,平均值中位數是50,眾數是1和99,這個時候只有眾數代表資料集中趨勢。

另外,平均值、中位數、眾數的位置,與分佈圖形的左右形狀有關,當均值小於中位數小於眾數時,分佈形狀是右邊隆起,左邊有長長的尾巴;當均值大於中位數大於眾數時,分佈形狀是左邊隆起,右邊有長長的尾巴。

離散趨勢與分佈的關係:

離散趨勢的指標是極差、方差與標準差,這次我們主要討論標準差。剛才給大家講了資料向左,或者向右移動的指標判斷方式;現在給大家介紹分佈是‘凸’的還是‘凹’的指標。在所有分佈中,都是方差越大,資料分佈越‘凸’,方差越小,資料分佈越‘凹’。如何判定方差是大是小呢?參照相同均值的正態分佈即可。

而且,‘凸’與‘凹’還有更進一步的應用。‘凸’代表眾數比較集中,並且兩端急速下降,展現出來後發現兩側的值與集中的值相差很大,也就意味著,存在著離群值,具體離群值在大的一邊還是小的一邊,結合資料分佈的偏向就可以看出來。‘凹’代表眾數不是很集中,兩邊下降平緩,數值差距不大,意味著資料沒有明顯離群值。

大家看明白了嗎?沒關係,我們貼心的做了小視訊,幫助各位消化理解。大家感興趣的可以關注我們的公眾號進行觀看。

綜合應用場景:

接下來我們來看個有趣的案例吧。

#國家收入水平案例

#(1)一個白領,工資水平高於周圍的人,但是小於國家統計行業工資平均水平,為什麼?

#(2)x為收入,y為對應的人數

x=['1000','2000','3000','4000','5000','6000','7000','8000','9000','10000','20000','30000','40000','50000','1000000','2000000']

y=[1000,3000,7000,10000,14000,16000,14000,8000,1000,500,100,100,100,100,50,50]

要求:計算資料眾數、中位數與平均值,解釋上述現象,並評價國家整體收入狀況。

根據資料,我們畫出圖形,計算出指標,看看到底是怎麼回事?

圖形看著比較“凸”,右側下降陡峭,平均值大於中位數和眾數,存在右側極大離群值。

結論一:我們看到的是眾數,所以收入都比他們高,當將極大值進行平均時,拉高了整體的收入水平。

結論二:平均值大於中位數與眾數,存在極大值,國家收入差距大;資料集中在眾數與中位數週圍,大多數人的收入在同一水平;整體收入水平較低,大多數人收入水平在平均值以下。

本期分享到這裡,我們會在每週持續更新,我們們下期再見,期待您的光臨。

大家好,本次我們提供了案例程式碼,請進入公眾號領取。有什麼建議,比如想了解的知識、內容中的問題、想要的資料、下次分享的內容、學習遇到的問題等,請在下方留言。如果喜歡請關注。

相關文章