圖解資料分析 | 資料分析的數學基礎

ShowMeAI發表於2022-02-25

ShowMeAI研究中心

作者:韓信子@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/33
本文地址http://www.showmeai.tech/article-detail/136
宣告:版權所有,轉載請聯絡平臺與作者並註明出處


一、一維:描述性統計

速查表

描述性統計量分為:集中趨勢、離散程度(離中趨勢)和分佈形態。

1.1 集中趨勢

資料的集中趨勢,用於度量資料分佈的中心位置。直觀地說,測量一個屬性值的大部分落在何處。描述資料集中趨勢的統計量是:平均值、中位數、眾數。

(1)平均值(Mean)

指一組資料的算術平均數,描述一組資料的平均水平,是集中趨勢中波動最小、最可靠的指標,但是均值容易受到極端值(極小值或極大值)的影響。

(2)中位數(Median)

指當一組資料按照順序排列後,位於中間位置的數,不受極端值的影響,對於定序型變數,中位數是最適合的表徵集中趨勢的指標。

(3)眾數(Mode)

指一組資料中出現次數最多的觀測值,不受極端值的影響,常用於描述定性資料的集中趨勢。

1.2 離散程度

資料的離散趨勢,用於描述資料的分散程度,描述離散趨勢的統計量是:極差、四分位數極差(IQR)、標準差、離散係數。

(1)極差(Range)

又稱全距,記作R,是一組資料中的最大觀測值和最小觀測值之差。一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。

(2)四分位數極差(Inter-Quartile Range, IQR)

又稱內距,是上四分位數和下四分位數的差值,給出資料的中間一半所覆蓋的範圍。IQR是統計分散程度的一個度量,分散程度通過需要藉助箱線圖(Box Plot)來觀察。通常把小於 \(Q1-1.5*IQR\) 或者大於 \(Q3+1.5*IQR\) 的資料點視作離群點。

(3)方差(Variance)

方差和標準差是度量資料離散程度時,最重要】最常用的指標。方差,是每個資料值與全體資料值的平均數之差的平方值的平均數,常用 \(\sigma ^{2}\)表示。

\[\sigma^{2} = \frac{\sum \left ( X - \mu \right )^{2}}{N} ​​​​ \]

(4)標準差(Standard Deviation)

又稱均方差,常用 \sigma 表示,是方差的算術平方根。計算所有數值相對均值的偏離量,反映資料在均值附近的波動程度,比方差更方便直觀。

\[\sigma = \sqrt{\frac{\sum \left ( X - \mu \right )^{2} }{N} } \]

(5)離散係數(Coefficient of Variation)

又稱變異係數,為標準差 \sigma 與平均值 \mu 之比,用於比較不同樣本資料的離散程度。離散係數大,說明資料的離散程度大;離散係數小,說明資料的離散程度也小。

\[C_{v} = \frac{\sigma}{\mu} \]

1.3 分佈形態

(1)偏度(Skewness)

用來評估一組資料分佈呈現的對稱程度。

  • 當偏度係數=0時,分佈是對稱的
  • 當偏度係數>0時,分佈呈正偏態(右偏)
  • 當偏度係數<0時,分佈呈負偏態(左偏)

(2)峰度(Kurtosis)

用來評估一組資料的分佈形狀的高低程度的指標。

  • 當峰度係數=0時,是正態分佈
  • 當峰度係數>0時,分佈形態陡峭,資料分佈更集中
  • 當峰度係數<0時,分佈形態平緩,資料分佈更分散

(3)其他資料分佈圖

分位數是觀察資料分佈的最簡單有效的方法,但分位數只能用於觀察單一屬性的資料分佈。散點圖可以用來觀察雙變數的資料分佈,聚類可以用來觀察更多變數的資料分佈。通過觀察資料的分佈,採用合理的指標,使資料的分析更全面,避免得出像平均工資這類偏離事實的的分析結果。

二、交叉維度

2.1 相關性和線性迴歸

更多詳細講解 圖解AI數學基礎 | 概率與統計

(1)相關係數

又稱簡單相關係數,常用 r 表示,反應兩個變數之間的相關關係及相關方向。

(2)線性迴歸(Linear Regression)

線性迴歸是利用數理統計中迴歸分析,確定兩種或兩種以上變數間相互依賴的定量關係。

迴歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種迴歸分析稱為一元線性迴歸分析。
如果迴歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性迴歸分析。

2.2 方差分析

(1)單因素方差分析

一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關係。

(2)多因素有互動方差分析

一項實驗有多個影響因素,分析多個影響因素與響應變數的關係,同時考慮多個影響因素之間的關係。

三、概率論

速查表

更多詳細講解 圖解AI數學基礎 | 概率與統計

3.1 概率事件

(1)獨立事件

\[P\left ( A\cap B \right ) = P(A)P(B) \]

(2)對立事件

\[P(A) = 1 - P(B) \]

(3)互斥事件

\[P\left ( A\cap B \right ) = 0 \]

(4)窮舉事件

\[P\left ( A\cup B \right ) = 1 \]

3.2 條件概率

(1)條件概率

\[P(A \mid B) = \frac{P(AB)}{P(B)} \]

(2)全概率公式

\[P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} ) \]

(3)貝葉斯定理

\[P(A \mid B) = \frac{ P(A)P(B \mid A) }{ P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } \]

3.3 排列組合

(1)排列

\[P_{n}^{N} = n! \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{ \left (N-n \right )! } \]

(2)組合

\[C_{n}^{N} = \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{n! \left (N-n \right )! } \]

3.4 概率分佈

(1)連續型概率分佈

正態分佈:正態概率分佈是連續型隨機變數中最重要的分佈,記為

\[x\sim N\left (\mu , \sigma^{2} \right) \]

經驗法則:正態隨機變數有69.3%的值在均值加減個標準差的範圍內,95.4%的值在兩個標準差內,99.7%的值在三個標準差內。

(2)離散型概率分佈

  • 伯努利分佈

進行一次實驗,若成功則隨機變數取值為1,若失敗則取值為0,成功的概率為p失敗的概率為1-p

  • 二項分佈

n個獨立的是/非實驗中,成功次數的概率分佈。n=1時,二項分佈就是伯努利分佈

  • 泊松分佈

在連續時間或空間單位上發生隨機事件次數的概率。記為$$$$

四、統計推斷

更多詳細講解 圖解AI數學基礎 | 概率與統計

4.1 抽樣

抽樣:應該滿足抽樣的隨機性原則。
抽樣方法:簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣

4.2 置信區間

4.3 假設檢驗

資料與程式碼下載

本教程系列的程式碼可以在ShowMeAI對應的github中下載,可本地python環境執行,能訪問Google的寶寶也可以直接藉助google colab一鍵執行與互動操作學習哦!
本系列教程涉及的速查表可以在以下地址下載獲取:

擴充參考資料

  • Pandas視覺化教程
  • Seaborn官方教程

ShowMeAI相關文章推薦

ShowMeAI系列教程推薦

相關文章