餅圖,或稱餅狀圖,是一個劃分為幾個扇形的圓形統計圖表。
在餅圖中,每個扇形的弧長(以及圓心角和麵積)大小,表示該種類佔總體的比例,且這些扇形合在一起剛好是一個完全的圓形。
餅圖最顯著的功能在於表現“佔比”。
習慣上,人們透過比較餅圖扇形的大小來獲得對資料的認知。
使用餅圖時,須確認各個扇形的資料加起來等於100%;
且避免扇區超過5個,扇形的排布順序,一般情況下,將最大的扇形放在12點鐘方向。
1. 主要元素
餅圖的主要元素包括:
- 餅片(扇形):餅圖由多個餅片組成,每個餅片的大小代表了對應部分在總體中的比例關係。
- 標籤:餅圖中的每個餅片通常都會有一個標籤,用於表示對應部分的具體名稱或者數值。
- 圖例:圖例是餅圖的一部分,用於解釋每個餅片所代表的含義,幫助觀察者理解圖表。
- 百分比:餅圖通常會顯示每個餅片所佔的百分比,以便更直觀地展示比例關係。
2. 適用的場景
餅圖適用的場景包括:
- 比例展示:展示一個總體中各個部分的比例關係,例如市場份額、人口比例等。
- 分類資料:展示分類資料的比例關係,例如某個產品的銷售額佔比、不同地區的人口分佈等。
- 簡單資料分析:簡單的資料分析,幫助觀察者快速瞭解資料的分佈情況和相對大小。
- 強調重點:突出某個部分的重要性,引起觀察者的注意,例如某個產品的關鍵特點或者某個地區的重要經濟指標。
3. 不適用的場景
餅圖不適用的場景包括:
- 多個分類變數:當資料包含多個分類變數時,餅圖可能會變得複雜和難以理解,不適合展示覆雜的關係。
- 資料過於細分:當資料被分成過多的小塊時,餅圖可能會變得擁擠和難以辨認,不適合展示細分資料。
- 資料差異較小:當各個部分的差異較小,比例接近時,餅圖可能無法清晰地展示差異,不適合展示相似的資料。
- 需要精確數值比較:餅圖通常只能展示相對比例關係,無法提供精確的數值比較,不適合需要準確數值的場景。
4. 分析實戰
本次用餅圖統計展示 不同人口規模的城市數量 的統計情況。
4.1. 資料來源
資料來自國家統計局公開的城市概況資料,可從下面的網址下載:
https://databook.top/nation/A0B
使用其中的 A0B01.csv
檔案(分機構型別法人單位數)
fp = "d:/share/A0B01.csv"
df = pd.read_csv(fp)
df
4.2. 資料清理
最新的2022年資料缺失較多,所以選取2021年的資料進行分析。
data = df[df["sj"] == 2021]
data
第一條資料全部城市情況,統計需要去除,另外,指標的名稱太長,統計前也可以調整下。
接著上面過濾後的資料繼續資料清洗:
data = data.reset_index() # 重置索引
data = data.iloc[1:] # 忽略第一條合計的資料
#調整指標名稱,刪除多餘的文字
data["zbCN"] = data["zbCN"].str.replace("城市市轄區年末總", "")
data["zbCN"] = data["zbCN"].str.replace("地級及以上", "")
data
最後得到的資料有6條,餅圖一般來說資料不要超過5個,6個也還行,再多就影響顯示效果了。
4.3. 分析結果視覺化
with plt.style.context("seaborn-v0_8"):
fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
ax.pie(data["value"], autopct="%1.1f%%")
ax.legend(
data["zbCN"].tolist(),
loc="center",
bbox_to_anchor=(1, 0, 0.5, 1),
)
從分析結果可看出,50萬~200萬人口的城市超過一半,是大多數的城市規模。
兩端的情況(人口20萬以下,或者400萬以上)的城市佔比最小。