資料變異性的度量 - 極差、IQR、方差和標準偏差

variability被稱作變異性或者可變性，它描述了資料點彼此之間以及距分佈中心的距離。

可變性有時也稱為擴散或者分散。因為它告訴你點是傾向於聚集在中心周圍還是更廣泛地分散。

低變異性是理想的，因為這意味著可以根據樣本資料更好地預測有關總體的資訊。高可變性意味著值的一致性較低，因此更難做出預測。在統計學中，我們的目標是測量一組特定資料或一個分佈的變異性。簡單來說，如果一個分佈中的資料值是相同的，那麼它沒有變異性。

上圖中儘管資料服從正態分佈，但每個樣本都有不同的分佈。樣品 A 的變異性最大，而樣品 C 的變異性最小。

可以使用多種不同的方式對變異度進行度量

極差（Range）

極差，又稱全距，可以顯示資料從分佈中的最低值到最高值的分佈。

例如，考慮以下數字：1、3、4、5、5、6、7、11。對於這組數字，極差是 11-1 或 10。

極差的度量僅使用了 2 個數字因此受異常值影響很大，並且不會提供有關值分佈的任何資訊。所以它最好與其他方法結合使用。

四分位距又被稱作四分差，可以提供資料分佈中間的分佈。

對於從低到高排序的任何分佈，四分位距包含資料中一半的值。第一個四分位數 (Q1) 包含前 25% 的值，而第四個四分位數 (Q4) 包含最後 25% 的值。

它衡量資料如何圍繞均值分佈。基本公式為：

IQR = Q3 - Q1

就像極差一樣，四分位距在其計算中僅使用 2 個值。但是IQR受異常值的影響較小：這2個值來自資料集的中間一半，所以不太可能是極端數字。

小知識：每個分佈都可以使用五個數字摘要進行組織：

方差表示資料集的分佈範圍，但它是一個抽象數字。它反映了資料集中的分散程度。資料越分散，方差與均值的關係就越大。

標準偏差是資料集中的平均變異量。它平均表示每個資料點與平均值相差多遠。標準差越大，資料集的可變性越大。

當擁有總體資料時可以獲得總體標準差的準確值。可以從每個總體成員收集資料，因此標準差反映了分佈（總體）中的精確變異量。

但當無法獲得所有資料時，就可以對整體資料進行抽樣（抽樣方式這就不詳細介紹）。抽樣的結果就被稱作樣本，樣本的作用是對總體的資料進行統計推斷的。當使用樣本資料時，樣本標準差始終用作總體標準差的估計值。在這個公式中使用 n 往往會給你一個有偏差的估計，它總會低估可變性。

將樣本 n 減少到 n - 1 會使標準偏差人為地變大，從而提供對變異性的保守估計。雖然這不是無偏估計，但它是對標準差的偏少估計：高估而不是低估樣本的可變性更好。

標準差低 - 資料點往往接近平均值標準差高 - 資料點分佈在大極差的值上

可變性的最佳衡量標準取決於不同衡量標準和分佈水平。

對於在序數水平上測量的資料，極差和四分位距是唯一合適的變異性度量。

對於更復雜的區間和比率的資料，標準差和方差也適用。

對於正態分佈，可以使用所有度量。但標準差和方差是首選，因為它們考慮了整個資料集，但這也意味著它們很容易受到異常值的影響。

對於偏態分佈或具有異常值的資料集，四分位距是最好的度量。它受極值影響最小，因為它側重於資料集中間的部分。

作者；Ashish Kumar Singh