優思學院|箱形圖利用1.5係數判斷異常值的理由

優思學院發表於2022-07-19

在六西格瑪眾多的工具當中,箱形圖最常見於描述資料分佈的情況。 箱形圖可以讓我們直觀地瞭解到資料的實際分佈情況,它的範圍是什麼,以及它的 偏移度怎樣。

優思學院|箱形圖利用1.5係數判斷異常值的理由

最小值是資料集中的最小值。

而最大值是資料集中的最大值。

因此,這兩者之間的差異告訴我們資料集的範圍。

中位數是資料的中位數(或中心點),也叫第二四分位數。

Q1是資料的第一個四分位數,也就是說,25%的資料位於最小值和Q1之間。

Q3是資料的第三個四分位數,也就是說,75%的資料位於最小值和Q3之間。

Q3和Q1之間的差值被稱為四分位數間範圍或IQR。

IQR = Q3 - Q1

檢測異常值的方法

為了使用這種方法檢測異常值,我們會定義了一個新的範圍,我們稱之為決策範圍,任何位於這個範圍之外的資料點都被認為是異常值,這個範圍的定義是這樣的:

下限:(Q1 - 1.5 * IQR)

上限:(Q3 + 1.5 * IQR)

任何小於下限或大於上限的資料點都被認為是異常點。

在我們的六西格瑪課程中,有很多學生都提出了同一個疑問,就是為什麼要用1.5這個值呢?

優思學院|箱形圖利用1.5係數判斷異常值的理由



的確,誰有權利去定義這個值呢?這個值顯然控制了範圍的敏感性,從而控制了決策的規則。

其實,這個值的定義,也是離不開正態分佈的原理的。

根據正態分佈:


整個資料中約有68%位於平均值(μ)的一個標準差(<1σ)之內(兩邊)。

大約95%的整體資料位於均值(μ)的兩個標準差(2σ)之內(兩邊)。

大約99.7%的資料位於平均值(μ)的三個標準差(<3σ)之內(兩邊)。

其餘0.3%的資料位於平均值(μ)的三個標準差(>3σ)之外(兩邊)。

而Q1和Q3,分別位於離平均值-0.675σ和+0.675σ。

如果我們用 " 1 " 這個值作為上下限的計算。

下限:

= Q1 - 1 * IQR

= q1 - 1 * (q3 - q1)

= -0.675σ - 1 * (0.675 - [-0.675])σ

= -0.675σ - 1 * 1.35σ

= -2.025σ

上限:

= Q3 + 1 * IQR

= Q3 + 1 * (Q3 - Q1)

= 0.675σ + 1 * (0.675 - [-0.675])σ

= 0.675σ + 1 * 1.35σ

= 2.025σ

因此,當用1時,根據IQR方法,任何資料如果超出平均值(μ)的2.025σ,在任何一邊都應被視為異常值。但是,我們知道,我們不能採取 1 作為計算,因為這使得決策範圍過於排他,也意味著會有近5%的有效資料將會被視為異常值。

如果我們用 " 2" 這個值作為上下限的計算。

下限:

= Q1 - 2 * IQR

= q1 - 2 * (q3 - q1)

= -0.675σ - 2 * (0.675 - [-0.675])σ

= -0.675σ - 2 * 1.35σ

= -3.375σ

上限:

= Q3 + 2 * IQR

= Q3 + 2 * (Q3 - Q1)

= 0.675σ + 2 * (0.675 - [-0.675])σ

= 0.675σ + 2 * 1.35σ

= 3.375σ

因此,使用2時,根據IQR方法,任何資料如果超出平均值(μ)的3.375σ,則應被視為異常值。但明顯這會使得決策範圍過於寬泛,意味著即使有異常的情況或者資料出現,也不會被定義為異常值。

如果我們用 " 1.5 " 這個值作為上下限的計算。

下限:

= q1 - 1.5 * iqr

= q1 - 1.5 * (q3 - q1)

= -0.675σ - 1.5 * (0.675 - [-0.675])σ

= -0.675σ - 1.5 * 1.35σ

= -2.7σ

上限:

= q3 + 1.5 * iqr

= q3 + 1.5 * (q3 - q1)

= 0.675σ + 1.5 * (0.675 - [-0.675])σ

= 0.675σ + 1.5 * 1.35σ

= 2.7σ

當使用1.5時,根據IQR方法,任何資料如果超出平均值(μ)的2.7σ,在任何一邊都應被視為異常。而這個決策範圍是最接近正態分佈所告訴我們的:3σ = 99.72% 的資料。

如果希望更精確的得到3σ,我們需要取值=1.7,不過1.5 是一個比較容易記得和容易使用的數值。事實上,在統計學上的決策原則是基於機會率上,但同時也要考慮操作上的便利性的。

優思學院|箱形圖利用1.5係數判斷異常值的理由


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70007154/viewspace-2906437/,如需轉載,請註明出處,否則將追究法律責任。

相關文章