【matplotlib 實戰】--面積圖

wang_yb發表於2023-09-30

面積圖,或稱區域圖,是一種隨有序變數的變化,反映數值變化的統計圖表。

面積圖也可用於多個系列資料的比較。
這時,面積圖的外觀看上去類似層疊的山脈,在錯落有致的外形下表達資料的總量和趨勢。
面積圖不僅可以清晰地反映出資料的趨勢變化,也能夠強調不同類別的資料間的差距對比。

面積圖的特點在於,折線與自變數座標軸之間的區域,會由顏色或者紋理填充。
但它的劣勢在於,填充會讓形狀互相遮蓋,反而看不清變化。一種解決方法,是使用有透明度的顏色,來“讓”出覆蓋區域。

1. 主要元素

面積圖是一種用於展示資料分佈或密度的圖表型別,主要由資料點、面積、以及X軸和Y軸組成。
面積圖可以直觀地反映資料的分佈情況。

面積圖的主要構成元素包括:

  1. 資料點:表示資料的具體位置和大小
  2. 面積:表示資料的分佈或密度
  3. X軸:一般是有序變數,表示資料點的變化區間
  4. Y軸:資料點在不同時刻的值

image.png

2. 適用的場景

面積圖適用於以下分析場景:

  • 資料分佈分析:幫助分析人員瞭解資料的分佈情況,如城市的大小、人口分佈等。
  • 市場需求分析:幫助企業瞭解市場需求的變化趨勢,如銷售額的增長情況等。
  • 健康狀況分析:幫助醫生了解患者的健康狀況,如體溫、血壓等資料的變化趨勢。

3. 不適用的場景

面積圖不適用於以下分析場景:

  • 資料的精確性要求較高的分析場景:面積圖無法精確地反映資料的分佈情況,在需要精確資料的場景中不適用。
  • 需要顯示資料細節的分析場景:面積圖無法直觀地顯示資料的細節和變化趨勢,在需要顯示資料細節的場景中不適用。
  • 需要進行多維資料分析的場景:面積圖無法直接展示多維資料,在需要進行多維資料分析的場景中不適用。

4. 分析實戰

這次使用國內生產總值相關資料來實戰面積圖的分析。

4.1. 資料來源

資料來源國家統計局公開資料,已經整理好的csv檔案在:https://databook.top/nation/A02

本次分析使用其中的 A0201.csv 檔案(國內生產總值資料)。

下面的檔案路徑 fp 要換成自己實際的檔案路徑。

fp = "d:/share/A0201.csv"

df = pd.read_csv(fp)
df

image.png

4.2. 資料清理

從中過濾出國內生產總值(億元)人均國內生產總值(元),然後繪製面積圖看看有什麼發現。

key1 = "國民總收入(億元)"
df[df["zbCN"]==key1].head()

image.png

key2 = "人均國內生產總值(元)"
df[df["zbCN"]==key2].head()

image.png

4.3. 分析結果視覺化

國內生產總值(億元)的面積圖:

from matplotlib.ticker import MultipleLocator

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
    ax.xaxis.set_major_locator(MultipleLocator(4))
    ax.xaxis.set_minor_locator(MultipleLocator(2))

    data = df[df["zbCN"] == key1].copy()
    data["value"] = data["value"] / 10000
    data = data.sort_values(by="sj")
    ax.fill_between(data["sjCN"], data["value"], label="國民總收入(萬億元)")

    ax.legend(loc="upper left")

image.png

上面的程式碼把Y軸的單位改成了萬億元,原先的億元作為單位,數值太大。
面積圖來展示分析結果,不像折線圖那樣,僅僅只是變化趨勢的感覺;
透過折線下的面積不斷擴大,會感覺到國民總收入的總量在不斷變大,且2006年之後,總量增速明顯提高。

同樣分析步驟,人均收入的面積圖如下:

from matplotlib.ticker import MultipleLocator

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
    ax.xaxis.set_major_locator(MultipleLocator(4))
    ax.xaxis.set_minor_locator(MultipleLocator(2))

    data = df[df["zbCN"] == key2].copy()
    data = data.sort_values(by="sj")
    ax.fill_between(data["sjCN"], data["value"], label=key2)

    ax.legend(loc="upper left")

image.png

接下來,我們把國民總收入人均收入放在一起看,但是,這兩組資料的單位不一樣(一個是萬億元,一個是元)。
所以要用到之前 matplotlib基礎系列中介紹的雙座標軸技巧來展示。

from matplotlib.ticker import MultipleLocator

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
    ax.xaxis.set_major_locator(MultipleLocator(4))
    ax.xaxis.set_minor_locator(MultipleLocator(2))
    ax_twinx = ax.twinx()

    data = df[df["zbCN"] == key1].copy()
    data["value"] = data["value"] / 10000
    data = data.sort_values(by="sj")
    ax.fill_between(data["sjCN"], data["value"], 
                    alpha=0.5, label="國民總收入(萬億元)")

    data = df[df["zbCN"] == key2].copy()
    data = data.sort_values(by="sj")
    ax_twinx.fill_between(data["sjCN"], data["value"], 
                          color='r', alpha=0.2, label=key2)

    ax.legend(loc="upper left")
    ax_twinx.legend(loc="upper right")

image.png

兩個面積圖用了不同顏色,並加了透明度(即alpha 引數),不加透明度,顏色會互相覆蓋。
左邊的Y軸是國民總收入右邊的Y軸是人均收入
這兩個面積圖幾乎完全重合,正說明了國民總收入人均收入是強相關的。

相關文章