【matplotlib 實戰】--箱型圖

wang_yb發表於2023-10-30

原文網址 : https://www.cnblogs.com/wang_yb/p/17797008.html

箱型圖（Box Plot），也稱為盒須圖或盒式圖，1977年由美國著名統計學家約翰·圖基（John Tukey）發明。
是一種用作顯示一組資料分佈情況的統計圖，因型狀如箱子而得名。

它能顯示出一組資料的最大值、最小值、中位數及上下四分位數。
箱子的頂端和底端，分別代表上下四分位數。
箱子中間的是中位數線，它將箱子一分為二。從箱子延伸出去的線條展現出了上下四分位數以外的資料，由於這兩根延伸出去的線像是鬍鬚，因此箱形圖也被稱為盒須圖。

箱形圖最大的優勢是，它以一種簡單的方式，概括出一個或多個數值變數的分佈，同時又不會佔據太多空間。

1. 主要元素

它主要由以下五個元素組成：

最大值：表示資料的最大值，排除了異常值後的上限。
上四分位線：資料的上四分位數，將資料分為四等份，處於上邊緣和中位數之間的資料。也稱為第三四分位數。
中位數：資料的中位數，將資料分為兩等份，處於上四分位數和下四分位數之間的資料。也稱為第二四分位數。
下四分位線：資料的下四分位數，將資料分為四等份，處於中位數和下邊緣之間的資料。也稱為第一四分位數。
最小值：表示資料的最小值，排除了異常值後的下限。

圖片來自 antv 官網

2. 適用的場景

箱型圖適用於以下分析場景：

資料分佈比較：比較不同組資料的分佈情況。透過將多個箱型圖放在一起，可以直觀地比較它們的中位數、四分位數和離群值等資訊，從而瞭解它們之間的差異。
離群值檢測：檢測資料中的離群值。離群值是與其他資料點相比明顯偏離的資料點，它們可能是資料收集或記錄過程中的異常或錯誤。箱型圖中的離群點可以幫助識別這些異常值。
資料中心趨勢和離散程度：透過中位數和四分位距（上四分位數與下四分位數之差）展示了資料的中心趨勢和離散程度。中位數提供了資料的中心位置，四分位距提供了資料的離散程度。
資料分佈形狀：提供關於資料分佈形狀的一些資訊。例如，如果箱型圖的上下邊緣和中位數都接近，箱型圖可能顯示出對稱的分佈。如果箱型圖的上邊緣比下邊緣長，中位數偏向下邊緣，可能顯示出右偏分佈。

3. 不適用的場景

箱型圖不適用於以下分析場景：

資料樣本過小：當資料樣本過小時，箱型圖可能無法提供足夠的資訊來準確描述資料的分佈情況。
資料分佈複雜：當資料分佈非常複雜或包含多個峰值時，箱型圖可能無法完全捕捉到資料的特徵。
資料缺失：如果資料中存在大量缺失值，箱型圖可能無法提供準確的分佈資訊。

4. 分析實戰

本次透過箱型圖分析我國三大產業對GDP的貢獻情況。

4.1. 資料來源

資料來自國家統計局公開的歷年資料，整理好的檔案從下面的地址下載：
https://databook.top/nation/A02

使用的是其中的 A0201.csv 檔案（國內生產總值）

fp = "d:/share/data/A0201.csv"

df = pd.read_csv(fp)
df

4.2. 資料清理

過濾出三大產業在2013年~2022年的增加值資料。

data = df[df["zb"].isin(["A020103", 
                         "A020104",
                         "A020105"])].copy()
data = data[data["sj"] > 2012]
data

其中，A020103，A020104，A020105 分別是三大產業的指標編號。

4.3. 分析結果視覺化

透過箱型圖展示三大產業的增加值情況：

fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 1, 1])

graph = ax.boxplot(
    [
        data[data["zb"] == "A020103"].loc[:, "value"],
        data[data["zb"] == "A020104"].loc[:, "value"],
        data[data["zb"] == "A020105"].loc[:, "value"],
    ],
    vert=True,
    patch_artist=True,
    labels=["第一產業", "第二產業", "第三產業"]
)
ax.set_title("2013~2022 三大產業對GDP增加值(億元)")

colors = ['pink', 'lightblue', 'lightgreen']
for patch, color in zip(graph['boxes'], colors):
    patch.set_facecolor(color)

plt.show()

從圖中可以看出，近10年來，第一產業的增加值明顯低於其他兩個產業。
第二第三產業的上下限的值相差比較大，說明增長或者下降比較明顯（看了資料，是增長明顯）。
第一產業的中位數（紅色的橫線）偏下半部分，說明多數的年份增加值比較低；
第二產業的中位數（紅色的橫線）偏上半部分，說明多數的年份增加值比較高。

【matplotlib 實戰】--餅圖
2023-10-14
【matplotlib 實戰】--柱狀圖
2023-10-07
【matplotlib 實戰】--雷達圖
2023-10-27
【matplotlib 實戰】--面積圖
2023-09-30
【matplotlib 實戰】--堆疊面積圖
2023-10-01
python-科研繪圖系列（7）-箱型圖（盒型圖）
2020-10-19
Python繪圖
【matplotlib 實戰】--平行座標系
2023-10-04
【python】Matplotlib作圖常用marker型別、線型和顏色
2020-11-28
Python型別
使用python matplotlib實現動圖繪製
2018-06-13
Python
seaborn學習筆記（四）：箱型圖、小提琴圖
2022-02-23
筆記
論文結果圖：matplotlib和seaborn實現
2020-08-07
資料視覺化之matplotlib實戰：plt.pie()函式繪製餅狀圖
2020-10-03
視覺化函式
python繪圖之matplotlib
2019-01-05
Python繪圖
Matplotlib 詳細繪圖
2020-03-15
繪圖
matplotlib繪製圖形
2020-10-15
Matplotlib繪圖基礎
2022-07-01
繪圖
Python畫圖——matplotlib（普通折線圖）
2020-10-07
Python
Matplotlib.pyplot.plot 繪圖
2023-05-18
繪圖
matplotlib的圖形後端
2024-05-26
後端
繪圖: Python matplotlib簡介
2020-02-05
繪圖Python
繪圖: matplotlib Basemap簡介
2020-02-05
繪圖
Matplotlib基礎繪圖功能
2020-10-23
繪圖
Matplotlib 繪製折線圖
2023-01-15
資料型別及拆箱裝箱
2020-11-30
資料型別
小提琴圖的繪製方法：Python matplotlib實現
2023-10-16
Python
matplotlib畫圖未顯示，以及PyCharm中 %matplotlib inline報錯
2020-11-17
PyCharminline
U盤製作微pe工具箱（實戰）
2019-04-08
箱形圖（python畫圖）
2021-01-01
Python
製造業數字化轉型的實戰路線圖
2019-08-29
【matplotlib基礎】--結合地圖
2023-09-25
地圖
matplotlib 畫圖直接寫入excel
2019-07-30
Excel
Python matplotlib繪製散點圖
2020-11-03
Python
Matplotlib直方圖繪製技巧
2022-02-03
直方圖
圖片集中箱
2018-05-17
用matplotlib散點圖用餅圖示記
2020-12-20
Python Matplotlib繪製氣溫圖表
2018-04-10
Python
【matplotlib基礎】--3D圖形
2023-09-23
3D
圖片展示 [ Numpy 處理, Matplotlib 展示 ]
2020-03-14