在六西格瑪眾多的工具當中,箱形圖最常見於描述資料分佈的情況。 箱形圖可以讓我們直觀地瞭解到資料的實際分佈情況,它的範圍是什麼,以及它的 偏移度怎樣。
最小值是資料集中的最小值。
而最大值是資料集中的最大值。
因此,這兩者之間的差異告訴我們資料集的範圍。
中位數是資料的中位數(或中心點),也叫第二四分位數。
Q1是資料的第一個四分位數,也就是說,25%的資料位於最小值和Q1之間。
Q3是資料的第三個四分位數,也就是說,75%的資料位於最小值和Q3之間。
Q3和Q1之間的差值被稱為四分位數間範圍或IQR。
IQR = Q3 - Q1
檢測異常值的方法
為了使用這種方法檢測異常值,我們會定義了一個新的範圍,我們稱之為決策範圍,任何位於這個範圍之外的資料點都被認為是異常值,這個範圍的定義是這樣的:
下限:(Q1 - 1.5 * IQR)
上限:(Q3 + 1.5 * IQR)
任何小於下限或大於上限的資料點都被認為是異常點。
在我們的六西格瑪課程中,有很多學生都提出了同一個疑問,就是為什麼要用1.5這個值呢?
的確,誰有權利去定義這個值呢?這個值顯然控制了範圍的敏感性,從而控制了決策的規則。
其實,這個值的定義,也是離不開正態分佈的原理的。
根據正態分佈:
整個資料中約有68%位於平均值(μ)的一個標準差(<1σ)之內(兩邊)。
大約95%的整體資料位於均值(μ)的兩個標準差(2σ)之內(兩邊)。
大約99.7%的資料位於平均值(μ)的三個標準差(<3σ)之內(兩邊)。
其餘0.3%的資料位於平均值(μ)的三個標準差(>3σ)之外(兩邊)。
而Q1和Q3,分別位於離平均值-0.675σ和+0.675σ。
如果我們用 " 1 " 這個值作為上下限的計算。
下限:
= Q1 - 1 * IQR
= q1 - 1 * (q3 - q1)
= -0.675σ - 1 * (0.675 - [-0.675])σ
= -0.675σ - 1 * 1.35σ
= -2.025σ
上限:
= Q3 + 1 * IQR
= Q3 + 1 * (Q3 - Q1)
= 0.675σ + 1 * (0.675 - [-0.675])σ
= 0.675σ + 1 * 1.35σ
= 2.025σ
因此,當用1時,根據IQR方法,任何資料如果超出平均值(μ)的2.025σ,在任何一邊都應被視為異常值。但是,我們知道,我們不能採取 1 作為計算,因為這使得決策範圍過於排他,也意味著會有近5%的有效資料將會被視為異常值。
如果我們用 " 2" 這個值作為上下限的計算。
下限:
= Q1 - 2 * IQR
= q1 - 2 * (q3 - q1)
= -0.675σ - 2 * (0.675 - [-0.675])σ
= -0.675σ - 2 * 1.35σ
= -3.375σ
上限:
= Q3 + 2 * IQR
= Q3 + 2 * (Q3 - Q1)
= 0.675σ + 2 * (0.675 - [-0.675])σ
= 0.675σ + 2 * 1.35σ
= 3.375σ
因此,使用2時,根據IQR方法,任何資料如果超出平均值(μ)的3.375σ,則應被視為異常值。但明顯這會使得決策範圍過於寬泛,意味著即使有異常的情況或者資料出現,也不會被定義為異常值。
如果我們用 " 1.5 " 這個值作為上下限的計算。
下限:
= q1 - 1.5 * iqr
= q1 - 1.5 * (q3 - q1)
= -0.675σ - 1.5 * (0.675 - [-0.675])σ
= -0.675σ - 1.5 * 1.35σ
= -2.7σ
上限:
= q3 + 1.5 * iqr
= q3 + 1.5 * (q3 - q1)
= 0.675σ + 1.5 * (0.675 - [-0.675])σ
= 0.675σ + 1.5 * 1.35σ
= 2.7σ
當使用1.5時,根據IQR方法,任何資料如果超出平均值(μ)的2.7σ,在任何一邊都應被視為異常。而這個決策範圍是最接近正態分佈所告訴我們的:3σ = 99.72% 的資料。
如果希望更精確的得到3σ,我們需要取值=1.7,不過1.5 是一個比較容易記得和容易使用的數值。事實上,在統計學上的決策原則是基於機會率上,但同時也要考慮操作上的便利性的。