50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

思源發表於2019-01-11

原文網址 : https://www.jiqizhixin.com/articles/2019-01-11-15

50 種視覺化圖原地址：https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python

介紹

該表格主要介紹了 7 種不同的 matplotlib 視覺化類別，讀者可根據目的選擇不同的圖。例如，如果你想要繪製兩個變數之間的關係，檢視下面 Correlation 部分；或者如果你想展示某個變數的動態變化，檢視下面的 Change 部分。

一個美麗的圖表應該：

提供準確、有需求的資訊，不歪曲事實；
設計簡單，獲取時不會太費力；
美感是為了支援這些資訊，而不是為了掩蓋這些資訊；
不要提供太過豐富的資訊與太過複雜的結構。

如下所示為 7 種不同型別的視覺化圖表：協相關性主要描述的是不同變數之間的相互關係；偏差主要展現出不同變數之間的差別；排序主要是一些有序的條形圖、散點圖或斜線圖等；分佈就是繪製概率與統計中的分佈圖，包括離散型的直方圖和連續型的概率密度分佈圖等。後面還有變數的時序變化圖和類別圖等常見的視覺化製圖類別。

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

配置

在繪製這 50 種視覺化圖之前，我們需要配置一下依賴項以及通用設定，當然後面有一些獨立的美圖會修改通用設定。如果讀者看中了某種視覺化圖，那麼用這些配置再加上對應的視覺化程式碼就能嵌入到我們自己的專案中。

如下所示 pandas 與 numpy 主要用於讀取和處理資料，matplotlib 與 seaborn 主要用於視覺化資料。其中 seaborn 其實是 matplotlib 上的一個高階 API 封裝，在大多數情況下使用 seaborn 就能做出很有吸引力的圖，而使用 matplotlib 能製作更具特色的圖。

# !pip install brewer2mpl
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import warnings; warnings.filterwarnings(action='once')

large = 22; med = 16; small = 12
params = {'axes.titlesize': large,
          'legend.fontsize': med,
          'figure.figsize': (16, 10),
          'axes.labelsize': med,
          'axes.titlesize': med,
          'xtick.labelsize': med,
          'ytick.labelsize': med,
          'figure.titlesize': large}
plt.rcParams.update(params)
plt.style.use('seaborn-whitegrid')
sns.set_style("white")
%matplotlib inline

# Version
print(mpl.__version__)  #> 3.0.0
print(sns.__version__)  #> 0.9.0

製圖示意

前面列出了 7 大類共 50 種不同的視覺化圖，但我們無法一一介紹，因此我們從協相關性、偏差、分佈、時序變化和群組圖中各選擇了一個示例，它們能展示不同資料在不同情況下的視覺化需求。

相關圖（Correllogram）

若有兩種變數，且它們的值為離散的，那麼二維相關圖可以表示兩個變數所有可能組合之間的相關性。當然如果是單變數，那麼自身所有可能的組合也可以組成一個相關圖：

# Import Dataset
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mtcars.csv")

# Plot
plt.figure(figsize=(12,10), dpi= 80)
sns.heatmap(df.corr(), xticklabels=df.corr().columns, yticklabels=df.corr().columns, cmap='RdYlGn', center=0, annot=True)

# Decorations
plt.title('Correlogram of mtcars', fontsize=22)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

面積圖（Area Chart）

通過使用不同的顏色表示水平軸和線之間的區域，面積圖不僅強調峰值和低谷值，同時還強調它們持續的時間：即峰值持續時間越長，面積越大。

import numpy as np
import pandas as pd

# Prepare Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/economics.csv", parse_dates=['date']).head(100)
x = np.arange(df.shape[0])
y_returns = (df.psavert.diff().fillna(0)/df.psavert.shift(1)).fillna(0) * 100

# Plot
plt.figure(figsize=(16,10), dpi= 80)
plt.fill_between(x[1:], y_returns[1:], 0, where=y_returns[1:] >= 0, facecolor='green', interpolate=True, alpha=0.7)
plt.fill_between(x[1:], y_returns[1:], 0, where=y_returns[1:] <= 0, facecolor='red', interpolate=True, alpha=0.7)

# Annotate
plt.annotate('Peak \n1975', xy=(94.0, 21.0), xytext=(88.0, 28),
             bbox=dict(boxstyle='square', fc='firebrick'),
             arrowprops=dict(facecolor='steelblue', shrink=0.05), fontsize=15, color='white')


# Decorations
xtickvals = [str(m)[:3].upper()+"-"+str(y) for y,m in zip(df.date.dt.year, df.date.dt.month_name())]
plt.gca().set_xticks(x[::6])
plt.gca().set_xticklabels(xtickvals[::6], rotation=90, fontdict={'horizontalalignment': 'center', 'verticalalignment': 'center_baseline'})
plt.ylim(-35,35)
plt.xlim(1,100)
plt.title("Month Economics Return %", fontsize=22)
plt.ylabel('Monthly returns %')
plt.grid(alpha=0.5)
plt.show()

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

密度圖（Density Plot）

在概率論與統計學習方法中，視覺化概率密度就變得非常重要了。這種密度圖正是視覺化連續型隨機變數分佈的利器，分佈曲線上的每一個點都是概率密度，分佈曲線下的每一段面積都是特定情況的概率。如下所示，通過將它們按「response」變數分組，我們可以瞭解 X 軸和 Y 軸之間的關係。

# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")

# Draw Plot
plt.figure(figsize=(16,10), dpi= 80)
sns.kdeplot(df.loc[df['cyl'] == 4, "cty"], shade=True, color="g", label="Cyl=4", alpha=.7)
sns.kdeplot(df.loc[df['cyl'] == 5, "cty"], shade=True, color="deeppink", label="Cyl=5", alpha=.7)
sns.kdeplot(df.loc[df['cyl'] == 6, "cty"], shade=True, color="dodgerblue", label="Cyl=6", alpha=.7)
sns.kdeplot(df.loc[df['cyl'] == 8, "cty"], shade=True, color="orange", label="Cyl=8", alpha=.7)

# Decoration
plt.title('Density Plot of City Mileage by n_Cylinders', fontsize=22)
plt.legend()
plt.show()

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

此外值得注意的是，深度學習，尤其是深度生成模型中的分佈極其複雜，它們是不能直接視覺化的，我們一般會通過 T-SNE 等降維方法視覺化。

時序變化圖（Time Series Plot）

時序變化圖也是機器學習中最常見的一種視覺化圖表，不論是視覺化損失函式還是準確率，都需要這種時序變化圖的幫助。這種圖主要關注某個變數怎樣隨時間變化而變化，以下展示了從 1949 到 1969 航空客運量的變化：

# Import Data
df = pd.read_csv('https://github.com/selva86/datasets/raw/master/AirPassengers.csv')

# Draw Plot
plt.figure(figsize=(16,10), dpi= 80)
plt.plot('date', 'traffic', data=df, color='tab:red')

# Decoration
plt.ylim(50, 750)
xtick_location = df.index.tolist()[::12]
xtick_labels = [x[-4:] for x in df.date.tolist()[::12]]
plt.xticks(ticks=xtick_location, labels=xtick_labels, rotation=0, fontsize=12, horizontalalignment='center', alpha=.7)
plt.yticks(fontsize=12, alpha=.7)
plt.title("Air Passengers Traffic (1949 - 1969)", fontsize=22)
plt.grid(axis='both', alpha=.3)

# Remove borders
plt.gca().spines["top"].set_alpha(0.0)    
plt.gca().spines["bottom"].set_alpha(0.3)
plt.gca().spines["right"].set_alpha(0.0)    
plt.gca().spines["left"].set_alpha(0.3)   
plt.show()

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

樹狀圖（Dendrogram）

樹狀圖是另一個比較有用的圖表，層次聚類或決策樹等演算法可以使用它完成優美的視覺化。樹形圖是以樹的圖形表示資料或模型結構，以父層和子層的結構來組織物件，是列舉法的一種表達方式。下圖展示了一種神似層次聚類演算法的圖表：

import scipy.cluster.hierarchy as shc

# Import Data
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/USArrests.csv')

# Plot
plt.figure(figsize=(16, 10), dpi= 80)  
plt.title("USArrests Dendograms", fontsize=22)  
dend = shc.dendrogram(shc.linkage(df[['Murder', 'Assault', 'UrbanPop', 'Rape']], method='ward'), labels=df.State.values, color_threshold=100)  
plt.xticks(fontsize=12)
plt.show()

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

eBay推出視覺搜尋工具，再也不用擔心找不到心儀物品
2018-04-18
視覺
再也不用擔心網頁編碼的坑了！
2019-02-16
網頁
再也不用擔心 SSH 斷開了 - tmux 命令
2020-11-02
UX
TiDB 4.0 新特性前瞻（三）再也不用擔心我的 SQL 突然變慢了
2020-03-27
TiDBSQL
「生髮」那些事兒：媽媽再也不用擔心我禿頭了！
2021-09-29
一文讀懂 flex, 媽媽再也不用擔心我的佈局了
2018-10-03
Flex
再也不用擔心蘋果資料誤刪了
2020-09-09
蘋果
教會舍友玩 Git （再也不用擔心他的學習）
2020-09-10
Git
React效能分析利器來了，媽媽再也不用擔心我的React應用慢了
2019-03-04
React
Matplotlib 視覺化最有價值的 50 個圖表
2019-02-13
視覺化
安裝一條龍，媽媽再也不用擔心我不會安裝啦
2022-03-13
炒股選智盈大師，再也不用擔心炒股虧本
2021-07-26
再也不用擔心問RecycleView了——面試真題詳解
2020-11-26
View面試
Numpy的Matplotlib視覺化
2020-10-16
視覺化
快速瞭解常用的對稱加密演算法，再也不用擔心面試官的刨根問底
2022-03-02
加密演算法面試
快速瞭解常用的訊息摘要演算法，再也不用擔心面試官的刨根問底
2022-03-04
演算法面試
快速定位無用路由媽媽再也不用擔心人工排雷了
2019-10-27
路由
保姆級神器 Maven，再也不用擔心專案構建搞崩了
2021-11-23
Maven
用Python爬取線上教程轉成PDF，媽媽再也不用擔心我的學習了！
2018-06-10
Python
快速瞭解常用的非對稱加密演算法，再也不用擔心面試官的刨根問底
2022-03-03
加密演算法面試
5種快速易用的Python Matplotlib資料視覺化方法
2019-03-03
Python視覺化
Python 線上免費批量美顏，媽媽再也不用擔心我 P 圖兩小時啦
2020-06-08
Python
媽媽再也不用擔心你不會使用執行緒池了（ThreadUtils）
2021-09-09
執行緒thread
一款SQL自動檢查神器，再也不用擔心SQL出錯了
2020-11-24
SQL
【matplotlib教程】資料視覺化
2024-08-23
視覺化
【matplotlib視覺化】樣式色彩
2020-12-24
視覺化
Matplotlib視覺化最有價值的50個圖表（附完整Python原始碼）
2019-01-15
視覺化Python原始碼
嘿！其實我們不用太過於擔心的單點故障
2018-06-08
一文吃透redis持久化，媽媽再也不擔心我面試過不了！
2020-09-04
Redis持久化面試
Android高階開發面試題目，再也不用擔心不能升職加薪了。
2019-01-05
Android面試題
內網穿透---IPv6點對點【媽媽再也不用擔心網速了】
2019-04-30
內網穿透
媽媽再也不用擔心爬蟲被封號了！手把手教你搭建Cookies池
2019-03-03
爬蟲Cookie
網站使用CDN加速服務，再也不用擔心網站開啟速度慢了！
2021-08-18
網站
👅媽媽在也不用擔心我不會寫介面了
2024-02-22
Python資料視覺化matplotlib庫
2019-03-04
Python視覺化
Matplotlib資料視覺化基礎
2022-07-01
視覺化
海豚排程監控：新增依賴缺失巡檢，上游改動再也不用擔心了！
2024-07-04
一文搞懂MySQL架構設計，再也不用擔心面試官問得太深
2022-07-18
MySql架構面試

50種常用的matplotlib視覺化，再也不用擔心模型揹著我亂跑了

相關文章