作者:韓信子@ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/33
本文地址:http://www.showmeai.tech/article-detail/136
宣告:版權所有,轉載請聯絡平臺與作者並註明出處
一、一維:描述性統計
速查表
描述性統計量分為:集中趨勢、離散程度(離中趨勢)和分佈形態。
1.1 集中趨勢
資料的集中趨勢,用於度量資料分佈的中心位置。直觀地說,測量一個屬性值的大部分落在何處。描述資料集中趨勢的統計量是:平均值、中位數、眾數。
(1)平均值(Mean)
指一組資料的算術平均數,描述一組資料的平均水平,是集中趨勢中波動最小、最可靠的指標,但是均值容易受到極端值(極小值或極大值)的影響。
(2)中位數(Median)
指當一組資料按照順序排列後,位於中間位置的數,不受極端值的影響,對於定序型變數,中位數是最適合的表徵集中趨勢的指標。
(3)眾數(Mode)
指一組資料中出現次數最多的觀測值,不受極端值的影響,常用於描述定性資料的集中趨勢。
1.2 離散程度
資料的離散趨勢,用於描述資料的分散程度,描述離散趨勢的統計量是:極差、四分位數極差(IQR)、標準差、離散係數。
(1)極差(Range)
又稱全距,記作R,是一組資料中的最大觀測值和最小觀測值之差。一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。
(2)四分位數極差(Inter-Quartile Range, IQR)
又稱內距,是上四分位數和下四分位數的差值,給出資料的中間一半所覆蓋的範圍。IQR是統計分散程度的一個度量,分散程度通過需要藉助箱線圖(Box Plot)來觀察。通常把小於 \(Q1-1.5*IQR\) 或者大於 \(Q3+1.5*IQR\) 的資料點視作離群點。
(3)方差(Variance)
方差和標準差是度量資料離散程度時,最重要】最常用的指標。方差,是每個資料值與全體資料值的平均數之差的平方值的平均數,常用 \(\sigma ^{2}\)表示。
(4)標準差(Standard Deviation)
又稱均方差,常用 \sigma 表示,是方差的算術平方根。計算所有數值相對均值的偏離量,反映資料在均值附近的波動程度,比方差更方便直觀。
(5)離散係數(Coefficient of Variation)
又稱變異係數,為標準差 \sigma 與平均值 \mu 之比,用於比較不同樣本資料的離散程度。離散係數大,說明資料的離散程度大;離散係數小,說明資料的離散程度也小。
1.3 分佈形態
(1)偏度(Skewness)
用來評估一組資料分佈呈現的對稱程度。
- 當偏度係數=0時,分佈是對稱的
- 當偏度係數>0時,分佈呈正偏態(右偏)
- 當偏度係數<0時,分佈呈負偏態(左偏)
(2)峰度(Kurtosis)
用來評估一組資料的分佈形狀的高低程度的指標。
- 當峰度係數=0時,是正態分佈
- 當峰度係數>0時,分佈形態陡峭,資料分佈更集中
- 當峰度係數<0時,分佈形態平緩,資料分佈更分散
(3)其他資料分佈圖
分位數是觀察資料分佈的最簡單有效的方法,但分位數只能用於觀察單一屬性的資料分佈。散點圖可以用來觀察雙變數的資料分佈,聚類可以用來觀察更多變數的資料分佈。通過觀察資料的分佈,採用合理的指標,使資料的分析更全面,避免得出像平均工資這類偏離事實的的分析結果。
二、交叉維度
2.1 相關性和線性迴歸
更多詳細講解 圖解AI數學基礎 | 概率與統計
(1)相關係數
又稱簡單相關係數,常用 r 表示,反應兩個變數之間的相關關係及相關方向。
(2)線性迴歸(Linear Regression)
線性迴歸是利用數理統計中迴歸分析,確定兩種或兩種以上變數間相互依賴的定量關係。
迴歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種迴歸分析稱為一元線性迴歸分析。
如果迴歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性迴歸分析。
2.2 方差分析
(1)單因素方差分析
一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關係。
(2)多因素有互動方差分析
一項實驗有多個影響因素,分析多個影響因素與響應變數的關係,同時考慮多個影響因素之間的關係。
三、概率論
速查表
更多詳細講解 圖解AI數學基礎 | 概率與統計
3.1 概率事件
(1)獨立事件
(2)對立事件
(3)互斥事件
(4)窮舉事件
3.2 條件概率
(1)條件概率
(2)全概率公式
(3)貝葉斯定理
3.3 排列組合
(1)排列
(2)組合
3.4 概率分佈
(1)連續型概率分佈
正態分佈:正態概率分佈是連續型隨機變數中最重要的分佈,記為
經驗法則:正態隨機變數有69.3%的值在均值加減個標準差的範圍內,95.4%的值在兩個標準差內,99.7%的值在三個標準差內。
(2)離散型概率分佈
- 伯努利分佈
進行一次實驗,若成功則隨機變數取值為1,若失敗則取值為0,成功的概率為p失敗的概率為1-p
- 二項分佈
n個獨立的是/非實驗中,成功次數的概率分佈。n=1時,二項分佈就是伯努利分佈
- 泊松分佈
在連續時間或空間單位上發生隨機事件次數的概率。記為$$$$
四、統計推斷
更多詳細講解 圖解AI數學基礎 | 概率與統計
4.1 抽樣
抽樣:應該滿足抽樣的隨機性原則。
抽樣方法:簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣
4.2 置信區間
4.3 假設檢驗
資料與程式碼下載
本教程系列的程式碼可以在ShowMeAI對應的github中下載,可本地python環境執行,能訪問Google的寶寶也可以直接藉助google colab一鍵執行與互動操作學習哦!
本系列教程涉及的速查表可以在以下地址下載獲取:
擴充參考資料
- Pandas視覺化教程
- Seaborn官方教程
ShowMeAI相關文章推薦
- 資料分析介紹
- 資料分析思維
- 資料分析的數學基礎
- 資料清洗與預處理
- 業務分析與資料探勘
- 資料分析工具地圖
- 統計與資料科學計算工具庫Numpy介紹
- Numpy與1維陣列操作
- Numpy與2維陣列操作
- Numpy與高維陣列操作
- 資料分析工具庫Pandas介紹
- 圖解Pandas核心操作函式大全
- 圖解Pandas資料變換高階函式
- Pandas資料分組與操作
- 資料視覺化原則與方法
- 基於Pandas的資料視覺化
- seaborn工具與資料視覺化