正態分佈的應用——基於描述性統計與分佈的推論
內容匯入:
大家好,這裡是每天分析一點點。本期介紹描述性統計指標與分佈的基本關係,包括分佈的基本型別,集中趨勢與分佈的關係,離散趨勢與分佈的關係,再結合國民收入案例探討分佈與描述性統計分析在實際生活的應用。文章內容適合資料分析小白,內容深入淺出,案例貼合實際。下期給大家介紹偏度係數,歡迎大家關注。
概念介紹:
分佈的型別:
上期主要給大家介紹了正態分佈,其實除了正態分佈,還有很多的分佈型別,今天就給大家科普一下。標準的二分佈、均勻分佈這樣的古典概型產生的分佈,在這裡就不一一給大家介紹了。本次介紹的分佈,也是統計中較為常用的型別。
第一、T分佈。
如果已知等待分析的總體服從正態分佈,從總體中抽取容量為n的所有可能樣本,對每個樣本都計算出它們相應的T統計量,則所有T統計量的值將組成一個連續型概率分佈,這個分佈就是T分佈,T分佈的概率密度函式為:
t代表T統計量的值;v表示自由度,等於樣本容量n減去1; c為常數,使T分佈函式曲線下的面積等於1。
T分佈有什麼功能呢?大家是否聽說過係數T檢驗,樣本T檢驗。T分佈可以用來判斷兩個連續變數的顯著性,經常用於判斷線性迴歸中的係數是否顯著,如果不顯著,需要剔除該變數重新擬合。一般情況是T檢驗的雙側P值小於5%,視為顯著,大於5%視為不顯著。比如身高與年齡是否有顯著性關係,GDP與投資是否有顯著性關係。
第二、卡方(χ2 )分佈。
若n個相互獨立的隨機變數ξ₁,ξ₂,...,ξn ,均服從標準正態分佈,則這n個服從標準正態分佈的隨機變數的平方和構成一新的隨機變數,其分佈規律稱為卡方分佈。概率密度函式:
X2代表卡方統計量;e是自然底數,等於2.72; v代表自由度,等於樣本容量n-1; c代表調節常數,使得卡方分佈曲線下方的總面積等於1。
卡方分佈,是用來檢測方差的,通常檢驗一個變數兩個型別的方差是否顯著,通常用於邏輯迴歸中。舉個例子,一個班共60個人,男的35人,女的25人,分析男女身高水平是否有顯著差異,將60個身高資料用男女分開,然後應用卡方分佈進行檢驗。一般情況是卡方檢驗的雙側P值小於5%,視為顯著,大於5%視為不顯著。二分類邏輯迴歸的顯著性檢驗,應用的就是卡方檢驗。
第二、F分佈。
兩個正態分佈總體之間的方差關係。
F統計量其實可以被認為是由兩個卡方(χ2)統計量相除得到的,一般情況是預設將卡方值較大的總體作為分母,卡方值較小的總體作為分子。概率密度函式為:
v1表示F統計量分子的自由度; v2表示F統計量分母的自由度;c代表修正常數,它使得F分佈曲線下方的總面積等於1。
F分佈又是用來幹什麼的呢?做資料分析的你一定用過,但是你未必知道,F檢驗可以用來檢驗方差和函式,是的,檢驗函式,線性迴歸與邏輯迴歸的模型顯著性,就可以用F分佈進行檢驗。一般情況是F檢驗的雙側P值小於5%,視為顯著,大於5%視為不顯著。
分佈與描述性統計分析的關係:
上期問了大家幾個問題,如何描述頻度分佈圖的特點呢?
1、左邊資料多還是右邊資料多?
2、左邊陡峭還是右邊陡峭?
3、是否存在極大極小的離群值?
4、是‘凸’的還是‘凹’的?
5、總體的形狀像什麼?
分佈的資料特點已經相關的作用剛才已經給大家介紹了。分佈的形狀、陡峭程度、離群值特點與描述性通過相關指標有關。接下來,我們來進行具體的瞭解。
集中趨勢與分佈的關係:
經過前幾期的瞭解,我們知道平均值、中位數、眾數是集中趨勢的指標。但是,並不是所有資料中,平均值與中位數都代表這資料的集中趨勢。例如,想正態分佈這樣的倒U型分佈資料,平均值、中位數、眾數就可以代表資料的集中趨勢。形如U型的資料分佈,只有眾數代表集中趨勢,比如49個1,49個99,1個50這樣的資料,平均值中位數是50,眾數是1和99,這個時候只有眾數代表資料集中趨勢。
另外,平均值、中位數、眾數的位置,與分佈圖形的左右形狀有關,當均值小於中位數小於眾數時,分佈形狀是右邊隆起,左邊有長長的尾巴;當均值大於中位數大於眾數時,分佈形狀是左邊隆起,右邊有長長的尾巴。
離散趨勢與分佈的關係:
離散趨勢的指標是極差、方差與標準差,這次我們主要討論標準差。剛才給大家講了資料向左,或者向右移動的指標判斷方式;現在給大家介紹分佈是‘凸’的還是‘凹’的指標。在所有分佈中,都是方差越大,資料分佈越‘凸’,方差越小,資料分佈越‘凹’。如何判定方差是大是小呢?參照相同均值的正態分佈即可。
而且,‘凸’與‘凹’還有更進一步的應用。‘凸’代表眾數比較集中,並且兩端急速下降,展現出來後發現兩側的值與集中的值相差很大,也就意味著,存在著離群值,具體離群值在大的一邊還是小的一邊,結合資料分佈的偏向就可以看出來。‘凹’代表眾數不是很集中,兩邊下降平緩,數值差距不大,意味著資料沒有明顯離群值。
大家看明白了嗎?沒關係,我們貼心的做了小視訊,幫助各位消化理解。大家感興趣的可以關注我們的公眾號進行觀看。
綜合應用場景:
接下來我們來看個有趣的案例吧。
#國家收入水平案例
#(1)一個白領,工資水平高於周圍的人,但是小於國家統計行業工資平均水平,為什麼?
#(2)x為收入,y為對應的人數
x=['1000','2000','3000','4000','5000','6000','7000','8000','9000','10000','20000','30000','40000','50000','1000000','2000000']
y=[1000,3000,7000,10000,14000,16000,14000,8000,1000,500,100,100,100,100,50,50]
要求:計算資料眾數、中位數與平均值,解釋上述現象,並評價國家整體收入狀況。
根據資料,我們畫出圖形,計算出指標,看看到底是怎麼回事?
圖形看著比較“凸”,右側下降陡峭,平均值大於中位數和眾數,存在右側極大離群值。
結論一:我們看到的是眾數,所以收入都比他們高,當將極大值進行平均時,拉高了整體的收入水平。
結論二:平均值大於中位數與眾數,存在極大值,國家收入差距大;資料集中在眾數與中位數週圍,大多數人的收入在同一水平;整體收入水平較低,大多數人收入水平在平均值以下。
本期分享到這裡,我們會在每週持續更新,我們們下期再見,期待您的光臨。
大家好,本次我們提供了案例程式碼,請進入公眾號領取。有什麼建議,比如想了解的知識、內容中的問題、想要的資料、下次分享的內容、學習遇到的問題等,請在下方留言。如果喜歡請關注。
相關文章
- 資料並非都是正態分佈:三種常見的統計分佈及其應用
- 多元統計分析04:多元正態分佈的抽樣分佈
- 正態分佈的用法
- 動態分佈與靜態分佈的區別
- 統計公差分析--正態分佈基本概念
- 正態分佈簡述
- 多元統計分析03:多元正態分佈的引數估計
- 數理統計6:泊松分佈,泊松分佈與指數分佈的聯絡,離散分佈引數估計
- 正態分佈函式值函式
- 【scipy 基礎】--統計分佈
- 多元統計分析02:多元正態分佈的定義和性質
- 多元統計分析06:多元正態分佈的假設檢驗(2)
- NumPy 正態分佈與 Seaborn 視覺化指南視覺化
- 從變分編碼、資訊瓶頸到正態分佈:論遺忘的重要性
- 概率論——常用分佈
- 數理統計11:區間估計,t分佈,F分佈
- $\Beta$分佈推導與視覺化視覺化
- 【TensorFlow基本功】正太分佈的使用
- 數理統計02:抽樣分佈與次序統計量
- 馬爾科夫鏈的穩態分佈馬爾科夫
- 機率統計-常見分佈的均值及方差
- 資料統計分析 — 泊松分佈
- MATLAB 檢驗資料正態分佈及程式碼實現Matlab
- Beta分佈與湯普森取樣:智慧決策系統機率取樣的理論基礎
- 特殊分佈律篇6——萊斯分佈
- 關於flex佈局的應用Flex
- 玻爾茲曼能量分佈律及麥克斯韋速度分佈推導
- 空間統計(一)度量地理分佈
- 什麼是分佈分析?如何應用實踐?
- 擴散模型中的後驗分佈方差推導模型
- 考研計算機408分值分佈計算機
- greenplum分佈鍵的hash值計算分析
- 多元/多維高斯/正態分佈機率密度函式推導 (Derivation of the Multivariate/Multidimensional Normal/Gaussian Density)函式ORM
- 常見的機率分佈
- 業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!
- PRML 概率分佈概率分佈
- 三大分佈密度函式推導函式
- 在統計學中機率分佈中的機率密度函式PDF,機率質量PMF,累積分佈CD函式