什麼是方框圖?

banq發表於2024-06-28

方框圖是資料科學武器庫中最有用的工具之一。

在 6 分鐘內,將向您傳授 6 年來使用方框圖進行 EDA 和解決問題的經驗。

什麼是方框圖?
方框圖是顯示資料分佈的標準化方法,它基於五個數字彙總:

  1. 最小值、
  2. 第一四分位數(Q1)、
  3. 中位數、
  4. 第三四分位數(Q3)和
  5. 最大值。

誰發明?
方框圖由約翰-塔基(John Tukey)於 1969 年發明,是他在資料視覺化領域開創性工作的一部分。

Tukey 的 EDA 強調,在對資料的基本分佈做出任何假設或應用複雜的統計模型之前,使用簡單的圖形和數字方法來開始理解資料非常重要。

方框圖就是在這一理念下產生的。Tukey的方框圖是一種快速、簡便的資料分佈視覺化方法。

使用方法
在探索階段使用方框圖。

  • 首先,評估與感興趣的結果之間的相關性。
  • 然後,在探索性資料分析(EDA)中探索最重要的特徵。

方框圖在 EDA 中被大量使用。

方框圖的主要特點:
透過快速視覺化,方框圖可以顯示分佈彙總、離群值、偏斜度,還便於在多個組或類別之間進行比較。

方框圖方框範圍

  • 從第一四分位數(Q1)到第三四分位數(Q3)。這個範圍被稱為四分位數間距(IQR),包含了資料的中間 50%。
  • 方框內的線代表中位數(第二個四分位數,Q2),它將資料集分為相等的兩半。

線:
線是從方框中延伸出來,顯示資料的範圍。常見的方法是將其分別擴充套件到第一和第三四分位數的 1.5 倍 IQR 範圍內的最小值和最大值。超出此範圍的資料點被視為異常值,有時會繪製成單獨的點。

異常值:
這些資料點位於晶須末端之外。它們不屬於資料的主體,可能表明資料中存在變異、實驗錯誤或新發現。探索這些異常值!

偏度:
如果中位數與 Q1 和 Q3 的距離不相等,或者晶須的長度不相等,則表明資料是偏斜的。

這就是關於盒狀圖/方框圖的八大概念。
 

相關文章