在資料科學藝術的執行中,統計可以說是一個強大的工具。從高層次來看,統計學是利用數學對資料進行分析的學科。基本的視覺化(柱狀圖等)會給受眾一些深層的資訊,但通過統計,我們可以用一種更富有資訊驅動力和更有針對性的方式對資料進行操作。統計中的數學可以幫助我們對資料形成具體的結論,而不僅僅是猜測。
通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解資料的確切結構,並在此基礎上了解如何應用其他資料科學技術來獲取更多資訊。
今天,我們來看看資料科學家需要掌握的5個基本統計概念及其應用。
統計特徵(Statistical Features)
統計特徵可能是資料科學中最常用的統計概念。它通常是你在研究資料集時使用的第一種統計技術,包括偏差(bias)、方差(variance)、平均值(mean)、中位數(median)、百分位數(percentiles)等。這很好理解,在程式碼中也非常容易實現。下圖可以說明這些特徵。
一個基本的箱須圖(box- whisker-plot)
中間的那條線是資料的中位數(median),中位數比平均值(mean)更常用,因為它更不容易受到極端數值的影響。第一四分位數(first quartile,Q1)實際上是第25%的數,換句話說,是樣本所有數值由小到大排列後第25%的數字。第三四分位數(third quartile,Q3)是第75%的數,即樣本所有數值由小到大排列後第75%的數字。上限和下限即樣本資料非異常範圍內的最大值和最小值。第一四分位數和第三四分位陣列成箱須圖中的箱子(box plot),第一四分位數-下限以及第三四分位數-上限連線的線段即須(whisker)
箱須圖完美地說明了我們可以用基本統計特徵得出什麼結論:
- 當箱子較短時,意味著樣本的資料差別不大,因為在較小範圍裡有許多值。
- 當箱子較長時,意味著樣本的資料差別很大,因為資料分散在較大範圍內。
- 如果中位數接近箱子底部,那麼就意味著樣本中更多資料的數值較小,呈左偏態分佈;如果中位數接近箱子頂部,那麼就意味著樣本中更多資料的數值較大,呈右偏態分佈。基本上,如果中位數的那條線不在箱子中間,那麼就意味著資料分佈偏態。
- “須”很長?這意味著你的樣本資料有較高的標準差和方差,換句話說,資料分佈分散。如果箱子一邊有很長的須,而另一邊較短,那麼你的資料可能只在一個方向上更為分散。
- 所有這些資訊都來自於很容易計算的簡單統計特徵!當你需要快速獲取有意義的資料統計圖時,你可以試著畫箱須圖。
概率分佈(Probability Distributions)
概率能夠反映隨機事件出現的可能性大小。在資料科學中,概率通常被量化在0-1之間,概率為0意味著不可能事件(一定條件下必然不發生的事件),概率為1表示必然事件(一定條件下必然發生的事件)。概率分佈是一個函式,表示實驗中所有可能值的概率。下圖可以幫你理解概率分佈。
常見的概率分佈。
均勻分佈(左)、正態分佈(中)、泊松分佈(右)
- 均勻分佈(Uniform Distribution)是3種概率分佈中最基本的一種。它在區間內只有一個值,也就是說在相同長度間隔的分佈概率是等可能的,範圍之外的概率都是0。相當於一個“開或關”的分佈。我們也可以把它看作是一個有兩個類別的分類變數:0或者那個一定的值。你的分類變數可能有多個值,不僅僅是0,但我們可以把它看作多重均勻分佈的分段函式。
- 正態分佈(Normal distribution),又稱高斯分佈(Gaussian Distribution),由其平均值和標準差定義。正態分佈的對稱軸是樣本平均值,隨著樣本平均值的變化在座標軸上左右移動,標準差描述了正態分佈的離散程度(即資料是廣泛分佈還是高度集中)。它由平均數所在處開始,分別向左右兩側逐漸均勻下降。與其他分佈(如泊松分佈)相比,正態分佈的標準偏差在所有方向上都是相同的。因此,通過正態分佈,我們就可以清楚知道樣本的平均值和離散程度。
- 泊松分佈(Poisson Distribution)和正態分佈相似,但多了偏斜率。如果偏度值非常小,那麼泊松分佈在各個方向上的分佈就和正態分佈相似,相對均勻。但當偏度值很大時,資料在不同方向上的分佈就不同:在一個方向上,它將非常分散;而在另一個方向上,它將高度集中。泊松分佈很適合描述單位時間內隨機事件發生的次數。
還得說一句題外話,除了上述三種分佈之外,還有其他非常多的概率分佈,你都可以深入研究,但這三種分佈已經給我們提供了相當多的價值。
我們可以用均勻分佈快速檢視和解釋分類變數。如果看到高斯分佈,那我們知道有許許多多演算法,它們在預設情況下都會執行地非常優異,我們應該選擇它們。對於泊松分佈,我們發現必須謹慎地選擇一種演算法,它擁有足夠的魯棒性應對時空的變數。
維數約簡(Dimensionality Reduction)
維數約簡這個術語很好理解:有一個資料集,我們想減少它的維度數量。在資料科學中,這個數量是特徵變數的數量。維數約簡的意義就是降低原來的維數,並保證原資料庫的完整性,在約簡後的空間中執行後續程式將大大減少運算量,提高資料探勘效率,且挖掘出來的結果與原有資料集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。看下圖獲得更詳細的解釋:
維數約簡
立方體代表我們的樣本資料集,它有三個維度,共1000個點。以現有的計算能力,1000個點很容易就能處理,但處理更大範圍的資料還是會遇到問題。然而,僅僅從二維的角度來看資料集,比如從立方體的一側來看,我們可以看到區分所有的顏色還是很容易的。通過維數約簡,我們可以將三維資料投射(project)到二維平面上。這把我們需要計算的點數減少到100,有效地節約了大量的計算時間。
另一種維數約簡的方式是特徵修剪(feature pruning)。利用特徵修剪,我們基本可以刪去對我們的分析不重要的特徵。例如,研究一個資料集之後,我們可能發現該資料集有10個特徵,其中,有7個特徵與輸出有很高的相關性,而其餘3個相關性不高。那麼這3個低相關性特徵可能就不值得計算了,我們可以在不影響輸出的情況下從分析中刪掉它們。
最常用的維數約簡方法是主成分分析(PCA),本質上是建立新的向量,這些向量可以儘可能多地反映原始變數的資訊特徵(即它們的相關性)。
PCA可用於上述兩種維數約簡方式。在這個教程中可以獲得更多相關資訊。
過取樣和欠取樣(Over and Under Sampling)
過取樣和欠取樣是用於分類問題的統計技術。有時,分類資料集可能過於偏向於一邊。例如,類別1有2000個樣本,類別2只有200個。我們能夠用來建模、預測的許多機器學習技術都沒法用了!但是,過取樣和欠取樣可以解決這個問題。請看這張圖:
欠取樣(左)和過取樣(右)
上圖裡,兩張資料圖中藍色類別的樣本比橙色多多了。在這種情況下,我們有兩個預處理選項,可以幫助訓練我們的機器學習模型。
欠取樣意味著我們從多數類中選擇一些資料,只使用和少數類數量一致的樣本。這種選擇不是隨便挑選的,而是要保證類的概率分佈不變。這很容易!我們選取少量樣本,使樣本資料集更加均勻。
過取樣意味著建立少數類樣本的副本,使少數類與多數類擁有數量一致的樣本。副本建立需要保證少數類的概率分佈不變。我們不需要收集更多的樣本就能使樣本資料集更加均勻。
貝葉斯統計(Bayesian Statistics)
想要完全理解為什麼我們要用貝葉斯統計,首先需要理解頻率統計(Frequency Statistics)的缺陷。頻率統計是大多數人聽到“概率”一次時首先會想到的一種統計型別,頻率統計檢測一個事件(或者假設)是否發生,它通過長時間的試驗計算某個事件發生的可能性(試驗是在同等條件下進行的),唯一計算的資料是先驗資料(prior data)。
可以看這個例子。假如我給你一個骰子,問你擲出6的機率是多少。大多數人會說是1/6。確實如此,如果做頻率分析,某人拋擲骰子10000次,計算每個數字出現的頻率,那麼我們可以看到結果每個數字出現的頻率大約是1/6。
但如果有人告訴你,給你的骰子不那麼規整,總是6朝上呢?由於頻率分析只考慮了之前的資料,上述分析中,骰子不規整的因素沒有被考慮進去。
而貝葉斯統計就考慮了這一點。我們可以用下圖的貝葉斯法則(Baye’s Theoram)來說明:
貝葉斯法則
方程中,H代表一個事件,E代表另一個,P即某事件發生的概率。
P(H)即先驗概率,基本上就是資料分析的結果,即之前事件H發生的概率。
P(E|H)被稱作相似度,指假設事件H成立時,事件E發生的概率。
P(E)指事件E成立的先驗概率,也被稱作標準化常量。
P(H|E)即後驗概率,指E發生後,發生H的概率。
例如,如果你想投擲骰子10000次,前1000次全擲出的是6,你很懷疑骰子不規整了。如果我告訴你骰子確實不規整,你是相信我,還是認為這是個騙局呢?
如果頻率分析沒有什麼缺陷,那麼我們會比較自信地認定接下來的投擲出現6的概率仍是1/6。而如果骰子確實不規整,或是不基於其自身的先驗概率及頻率分析,我們在預測接下來數字出現的概率時,就必須要考慮到骰子的因素。當我們不能準確知悉一個事物的本質時,可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。正如你從方程式中能能看到的,貝葉斯統計把所有因素都考慮在內了。當你覺得之前的資料不能很好地代表未來資料和結果的時候,就應該使用貝葉斯統計。
作者|George Seif
原題|The 5 Basic Statistics Concepts Data Scientists Need to Know
源自|towardsdatascience.com
轉自|36Kr