業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

大資料文摘發表於2018-12-14

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

大資料文摘出品

編譯:蔣寶尚、茶西

上圖是萬聖節的一週,在搗蛋和給糖之間,資料極客們在社交媒體上為這個可愛的網紅詞彙而竊竊私語。

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

正態分佈/超自然分佈

你覺得這是個玩笑?讓我告訴你,這不是笑料。這是嚇人的,真正的萬聖節精神!

如果我們無法假設我們的大部分資料(商業、社會、經濟或科學根源) 至少近似“正態”(即它們是由一個高斯過程或多個這樣的過程的總和產生的),那麼我們就完蛋了!

簡單來說吧,以下非常重要的概念將無效~

  • 六西格瑪的概念

  • 著名的68-95-99.7規則

  • 統計分析中p=0.05(來自2西格瑪區間)的“神聖”概念

夠嚇人了麼?那我們再多說兩句…

無所不在的正態分佈

正態分佈(高斯分佈)是最廣為人知的概率分佈。在資料科學的圈裡,資料科學家非常喜歡這個分佈。

一方面是因為,符合這個分佈的現象在自然界隨處可見。在概率統計方面,中心極限定理撐起了一片天,而中心極限定理的最重要的一個假設是資料的分佈符合中心極限定理。

最重要的一點是:簡潔。

因為無論是正態分佈的性質還是表示式都非常的簡潔:

  • 它的均值(mean)、中值(median)和眾數(mode)都相同

  • 只需要用兩個引數就可以確定整個分佈

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

所以問題在哪呢?

這看起來都挺棒的啊,有什麼問題嗎?

問題是通常是,你可能會找到特定的資料集分佈,這些分佈可能不滿足正態性,即正態分佈的性質。但由於過度依賴於常態假設,大多數業務分析框架都是為處理正態分佈資料集而量身定做的。

假設你被要求檢測來自某個流程(工程或業務)的一批新資料是否有意義。所謂“有意義”是指新的資料是否屬於它的“預期範圍”,或者在它的“預期範圍”之內。

 “期望”是什麼?如何確定範圍?

我們自動如潛意識驅使般,測量樣本資料集的均值和標準差,並繼續檢查新資料是否在一定的標準偏差範圍內。

如果我們必須在95%的置信區間下工作,那麼我們很高興看到資料在2個標準差內。如果我們需要更嚴格的界限,我們檢查3或4個標準差。我們計算Cpk,或者我們遵循六西格瑪線的ppm(每百萬零件數)的質量水平.

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

所有這些計算都是基於一個隱含的假設,即人口資料(而不是樣本)服從高斯分佈,即生成所有資料的基本過程(過去和現在)受下面左側圖的支配。但是,如果資料在遵循右側圖形會發生什麼呢?

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

左,正態:右,非正態

或者資料分佈符合下邊兩個圖形。

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

當資料非正態時,是否有更普遍的界限呢?

最終,即使資料是非正態的,我們仍然需要一種數學上完整的方法來限定我們的置信區間。這意味著,我們的計算可能會有一點變化,但我們還是應該能說出這樣的話:

“與平均值一定距離處觀察一個新的資料點的概率就是這樣和這樣的…”

顯然,我們需要尋求一個比珍貴的68-95-99.7的高斯界限更普遍的界限(對應於與平均值的1/2/3標準差距離)。

 幸運的是,還真有一個這樣的公式,叫做“切比雪夫不等式”。

什麼是切比雪夫界限,它是如何有用的?

切比雪夫不等式(也稱為Bienaymé-Chebyshev不等式)可以確保,對於一類廣泛的概率分佈,不超過某特定分段的值會比均值的特定距離大。

大學生必修課《概率論與數理統計》裡是這麼說的:

切比雪夫不等式可以使人們在隨機變數X的分佈未知的情況下,對事件|x-u|<ε概率作出估計。

表示式是這樣的:

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

其中,u為數學期望,σ為標準差,ε為任意正數


它適用於幾乎無限種型別的概率分佈,並在比正態更寬鬆的假設下工作。

如何應用

正如你現在可以猜到的,資料分析的基本機制不需要改變。你仍將收集資料樣本,並且越大越好,計算 以前也會算的均值和標準差這兩個量,然後應用新的界限,而不是68-95-99.7規則。


業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

提取樣本資料/計算:均值,標準差/應用切比雪夫界限

該表如下所示(這裡k表示許多偏離平均值的標準差):

業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!

K均值標準差內的最小百分比/超出k均值標準差的百分比

痛點在哪呢?為什麼人們不使用這種假設更弱的約束呢?

通過看錶格或數學定義痛點很明顯。切比雪夫規則在資料界的問題上比高斯規則弱得多。

首先,與正態分佈的指數下降模式相比,它遵循1/k² 的圖形。再例如,要以95%的置信度設定界限,需要包含最多4.5標準偏差的資料,而對於正態分佈只需要2個標準差。

總體來說,在資料不是正態分佈的時候還是挺有效的。

那麼,我們還有別的選擇麼?

當然,還有切諾夫界以及Hoeffding不等式,它給出了獨立隨機變數和的指數銳尾分佈。

當資料看起來非正態分佈時也可以用來代替高斯分佈,但只適用於有高置信度,且資料相互獨立的情況。

不幸的是,在許多社會和商業案例中,資料有非常強的相關性。

敲黑板,總結一下

在本文中,我們學習了一種特殊型別的統計界限,它可以應用於最廣泛的資料分佈,而不依賴於正態假設。當我們對資料的真正來源知之甚少,並且不能假定它遵循高斯分佈時,這是有用的。因此,它是分析隨意型別資料分佈的重要工具。

相關報導:

https://towardsdatascience.com/what-if-your-data-is-not-normal-d7293f7b8f0

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2285308/,如需轉載,請註明出處,否則將追究法律責任。

相關文章