方框圖是資料科學武器庫中最有用的工具之一。
在 6 分鐘內,將向您傳授 6 年來使用方框圖進行 EDA 和解決問題的經驗。
什麼是方框圖?
方框圖是顯示資料分佈的標準化方法,它基於五個數字彙總:
- 最小值、
- 第一四分位數(Q1)、
- 中位數、
- 第三四分位數(Q3)和
- 最大值。
誰發明?
方框圖由約翰-塔基(John Tukey)於 1969 年發明,是他在資料視覺化領域開創性工作的一部分。
Tukey 的 EDA 強調,在對資料的基本分佈做出任何假設或應用複雜的統計模型之前,使用簡單的圖形和數字方法來開始理解資料非常重要。
方框圖就是在這一理念下產生的。Tukey的方框圖是一種快速、簡便的資料分佈視覺化方法。
使用方法
在探索階段使用方框圖。
- 首先,評估與感興趣的結果之間的相關性。
- 然後,在探索性資料分析(EDA)中探索最重要的特徵。
方框圖在 EDA 中被大量使用。
方框圖的主要特點:
透過快速視覺化,方框圖可以顯示分佈彙總、離群值、偏斜度,還便於在多個組或類別之間進行比較。
方框圖方框範圍
- 從第一四分位數(Q1)到第三四分位數(Q3)。這個範圍被稱為四分位數間距(IQR),包含了資料的中間 50%。
- 方框內的線代表中位數(第二個四分位數,Q2),它將資料集分為相等的兩半。
線:
線是從方框中延伸出來,顯示資料的範圍。常見的方法是將其分別擴充套件到第一和第三四分位數的 1.5 倍 IQR 範圍內的最小值和最大值。超出此範圍的資料點被視為異常值,有時會繪製成單獨的點。
異常值:
這些資料點位於晶須末端之外。它們不屬於資料的主體,可能表明資料中存在變異、實驗錯誤或新發現。探索這些異常值!
偏度:
如果中位數與 Q1 和 Q3 的距離不相等,或者晶須的長度不相等,則表明資料是偏斜的。
這就是關於盒狀圖/方框圖的八大概念。