Python資料視覺化：5段程式碼搞定散點圖繪製與使用，值得收藏

資料派THU發表於2020-01-14

原文網址 : https://www.jiqizhixin.com/articles/2020-01-14-2

什麼是散點圖？可以用來呈現哪些資料關係？在資料分析過程中可以解決哪些問題？怎樣用Python繪製散點圖？本文逐一為你解答。

01 概述

散點圖（Scatter）又稱散點分佈圖，是以一個變數為橫座標，另一個變數為縱座標，利用散點（座標點）的分佈形態反映變數統計關係的一種圖形。

特點是能直觀表現出影響因素和預測物件之間的總體關係趨勢。優點是能透過直觀醒目的圖形方式反映變數間關係的變化形態，以便決定用何種數學表達方式來模擬變數之間的關係。散點圖不僅可傳遞變數間關係型別的資訊，還能反映變數間關係的明確程度。

透過觀察散點圖資料點的分佈情況，我們可以推斷出變數間的相關性。如果變數之間不存在相互關係，那麼在散點圖上就會表現為隨機分佈的離散的點，如果存在某種相關性，那麼大部分的資料點就會相對密集並以某種趨勢呈現。

資料的相關關係大體上可以分為：正相關（兩個變數值同時增長）、負相關（一個變數值增加，另一個變數值下降）、不相關、線性相關、指數相關等，表現在散點圖上的大致分佈如圖1所示。那些離點叢集較遠的點我們稱之為離群點或者異常點。

▲圖1 散點資料的相關性

在Python體系中，可使用Scipy、Statsmodels或Sklearn等對離散點進行迴歸分析，歸納現有資料並進行預測分析。對於那些變數之間存在密切關係，但是這些關係又不像數學公式和物理公式那樣能夠精確表達的，散點圖是一種很好的圖形工具，可以進行直觀展示，如圖2所示。

▲圖2 散點資料擬合（線性）

但是在分析過程中需要注意，變數之間的相關性並不等同於確定的因果關係，仍需要考慮其他影響因素。

02 例項

散點圖程式碼示例如下所示。

程式碼示例①

# 資料  
x = [1, 2, 3, 4, 5]  
y = [6, 7, 2, 4, 5]  
# 畫布：尺寸  
p = figure(plot_width=400, plot_height=400)  
# 畫圖  
p.scatter(x, y,   
          size=20, # screen units  顯示器畫素單位  
#           radius=1,  # data-space units  座標軸單位  
          marker="circle", color="navy", alpha=0.5)    
# p.circle(x, y, size=20, color="navy", alpha=0.5)  
# 顯示  
show(p)

執行結果如圖3所示。

▲圖3 程式碼示例①執行結果

程式碼示例①中第7行使用scatter方法進行散點圖繪製；第11行採用circle方法進行散點圖繪製（推薦）。關於這兩個方法的引數說明如下。

p.circle(x, y, **kwargs)引數說明。

x (str or seq[float]) : 離散點的x座標，列名或列表
y (str or seq[float]) : 離散點的y座標
size (str or list[float]) : 離散點的大小，螢幕畫素單位
marker (str, or list[str]) : 離散點標記型別名稱或名稱列表
color (color value, optional) : 填充及輪廓線的顏色
source (`~bokeh.models.sources.ColumnDataSource`) : Bokeh專屬資料格式
**kwargs: 其他自定義屬性；其中標記點型別marker預設值為：“marker="circle"”，可以用“radius”定義圓的半徑大小（單位為座標軸單位）。這在Web資料化中非常有用，不同的方式，在不同的裝置上的展示效果會有些許差異。

p.scatter(x, y, **kwargs)引數說明。

x (:class:`~bokeh.core.properties.NumberSpec` ) : x座標
y (:class:`~bokeh.core.properties.NumberSpec` ) : y座標
angle (:class:`~bokeh.core.properties.AngleSpec` ) : 旋轉角度
angle_units (:class:`~bokeh.core.enums.AngleUnits`) : (default: 'rad') 預設：弧度，也可以採用度（'degree'）
fill_alpha (:class:`~bokeh.core.properties.NumberSpec` ) : (default: 1.0) 填充透明度，預設：不透明
fill_color (:class:`~bokeh.core.properties.ColorSpec` ) : (default: 'gray') 填充顏色，預設：灰色
line_alpha (:class:`~bokeh.core.properties.NumberSpec` ) : (default: 1.0) 輪廓線透明度，預設：不透明
line_cap (:class:`~bokeh.core.enums.LineCap` ) : (default: 'butt') 線端（帽）
line_color (:class:`~bokeh.core.properties.ColorSpec` ) : (default: 'black') 輪廓線顏色，預設：黑色
line_dash (:class:`~bokeh.core.properties.DashPattern` ) : (default: []) 虛線
line_dash_offset (:class:`~bokeh.core.properties.Int` ) : (default: 0) 虛線偏移
line_join (:class:`~bokeh.core.enums.LineJoin` ) : (default: 'bevel')
line_width (:class:`~bokeh.core.properties.NumberSpec` ) : (default: 1) 線寬，預設：1

另外，Bokeh中的一些屬性，如`~bokeh.core.properties.NumberSpec `、`~bokeh.core.properties.ColorSpec`可以在Jupyter notebook中透過`import bokeh.core.properties.NumberSpec `匯入該屬性，然後再檢視其詳細的使用說明。

程式碼示例②

# 資料  
N = 4000  
x = np.random.random(size=N) * 100  # 隨機點x座標  
y = np.random.random(size=N) * 100  # 隨機點y座標  
radii = np.random.random(size=N) * 1.5  # 隨機半徑  
# 工具條  
TOOLS="hover,crosshair,pan,wheel_zoom,box_zoom,reset,tap,save,box_select,poly_select,lasso_select"  
# RGB顏色，畫布1，繪圖1  
colors2 = ["#%02x%02x%02x" % (int(r), int(g), 150) for r, g in zip(50+2*x, 30+2*y)]  
p1 = figure(width=300, height=300, tools=TOOLS)  
p1.scatter(x,y, radius=radii, fill_color=colors2, fill_alpha=0.6, line_color=None)  
# RGB顏色，畫布2，繪圖2  
colors2 = ["#%02x%02x%02x" % (150, int(g), int(b)) for g, b in zip(50+2*x, 30+2*y)]  
p2 = figure(width=300, height=300, tools=TOOLS)  
p2.scatter(x,y, radius=radii, fill_color=colors2, fill_alpha=0.6, line_color=None)  
# 直接顯示  
# show(p1)  
# show(p2)  
# 網格顯示  
from bokeh.layouts import gridplot  
grid = gridplot([[p1, p2]])   
show(grid)

執行結果如圖4所示。

▲圖4 程式碼示例②執行結果

程式碼示例②中第11行和第15行使用scatter方法進行散點圖繪製。第7行工具條中的不同工具定義，第9行資料點的不同顏色定義，第20行和第21行採用網格顯示圖形，可以提前瞭解這些技巧，具體使用方法在下文中會專門進行介紹。

程式碼示例③

from bokeh.sampledata.iris import flowers  
# 配色  
colormap = {'setosa': 'red', 'versicolor': 'green', 'virginica': 'blue'}  
colors = [colormap[x] for x in flowers['species']]  
# 畫布  
p = figure(title = "Iris Morphology")  
# 繪圖  
p.circle(flowers["petal_length"], flowers["petal_width"],  
         color=colors, fill_alpha=0.2, size=10)  
# 其他  
p.xaxis.axis_label = 'Petal Length'  
p.yaxis.axis_label = 'Petal Width'  
# 顯示  
show(p)

執行結果如圖5所示。

程式碼示例③再次對前面提到的鳶尾花的資料集進行分析，圖5中x軸為花瓣長度，y軸為花瓣寬度，據此可以將該散點資料聚類為3類。同時，該段程式碼展示了常規圖形的繪製流程，含x、y軸的標籤。

▲圖5 程式碼示例③執行結果

程式碼示例④

from bokeh.layouts import column, gridplot  
from bokeh.models import BoxSelectTool, Div  
# 資料  
x = np.linspace(0, 4*np.pi, 100)  
y = np.sin(x)  
# 工具條  
TOOLS = "wheel_zoom,save,box_select,lasso_select,reset"  
# HTML程式碼  
div = Div(text=""" 
<p>Bokeh中的畫布可透過多種佈局方式進行顯示；</p> 
<p>透過配置引數BoxSelectTool，在圖中用滑鼠選擇資料，採用不同方式進行互動。</p>
""") # HTML程式碼直接作為一個圖層顯示，也可以作為整個HTML文件  
# 檢視屬性  
opts = dict(tools=TOOLS, plot_width=350, plot_height=350)  
# 繪圖1  
p1 = figure(title="selection on mouseup", **opts)  
p1.circle(x, y, color="navy", size=6, alpha=0.6)  
# 繪圖2  
p2 = figure(title="selection on mousemove", **opts)  
p2.square(x, y, color="olive", size=6, alpha=0.6)  
p2.select_one(BoxSelectTool).select_every_mousemove = True  
# 繪圖3  
p3 = figure(title="default highlight", **opts)  
p3.circle(x, y, color="firebrick", alpha=0.5, size=6)  
# 繪圖4  
p4 = figure(title="custom highlight", **opts)  
p4.square(x, y, color="navy", size=6, alpha=0.6,  
          nonselection_color="orange", nonselection_alpha=0.6)  
# 佈局  
layout = column(div,  
                gridplot([[p1, p2], [p3, p4]], toolbar_location="right"),  
                sizing_mode="scale_width")  # sizing_mode 根據視窗寬度縮放影像  
# 繪圖  
show(layout)

Bokeh中的畫布可透過多種佈局方式進行顯示：透過配置檢視引數，在檢視中進行互動視覺化。執行結果如圖6所示。

▲圖6 程式碼示例④執行結果

程式碼示例④讓讀者感受一下Bokeh的互動效果，Div方法可以直接使用HTML標籤，其作為一個獨立的圖層進行顯示（第30行）。另外需要注意，可以透過`nonselection_`，`nonselection_alpha`或`nonselection_fill_alpha`設套索置選取資料時的散點的顏色、透明度等。

程式碼示例⑤

from bokeh.models import (  
       ColumnDataSource,  
       Range1d, DataRange1d,  
       LinearAxis, SingleIntervalTicker, FixedTicker,  
       Label, Arrow, NormalHead,  
       HoverTool, TapTool, CustomJS)  
from bokeh.sampledata.sprint import sprint  
abbrev_to_country = {  
      "USA": "United States",  
      "GBR": "Britain",  
      "JAM": "Jamaica",  
      "CAN": "Canada",  
      "TRI": "Trinidad and Tobago",  
      "AUS": "Australia",  
      "GER": "Germany",  
      "CUB": "Cuba",  
      "NAM": "Namibia",  
      "URS": "Soviet Union",  
      "BAR": "Barbados",  
      "BUL": "Bulgaria",  
      "HUN": "Hungary",  
      "NED": "Netherlands",  
      "NZL": "New Zealand",  
      "PAN": "Panama",  
      "POR": "Portugal",  
      "RSA": "South Africa",  
      "EUA": "United Team of Germany",  
}  
gold_fill   = "#efcf6d"  
gold_line   = "#c8a850"  
silver_fill = "#cccccc"  
silver_line = "#b0b0b1"  
bronze_fill = "#c59e8a"  
bronze_line = "#98715d"  
fill_color = { "gold": gold_fill, "silver": silver_fill, "bronze": bronze_fill }  
line_color = { "gold": gold_line, "silver": silver_line, "bronze": bronze_line }  
def selected_name(name, medal, year):  
    return name if medal == "gold" and year in [1988, 1968, 1936, 1896] else ""  
t0 = sprint.Time[0]  
sprint["Abbrev"]       = sprint.Country  
sprint["Country"]      = sprint.Abbrev.map(lambda abbr: abbrev_to_country[abbr])  
sprint["Medal"]        = sprint.Medal.map(lambda medal: medal.lower())  
sprint["Speed"]        = 100.0/sprint.Time  
sprint["MetersBack"]   = 100.0*(1.0 - t0/sprint.Time)  
sprint["MedalFill"]    = sprint.Medal.map(lambda medal: fill_color[medal])  
sprint["MedalLine"]    = sprint.Medal.map(lambda medal: line_color[medal])  
sprint["SelectedName"] = sprint[["Name", "Medal", "Year"]].apply(tuple, axis=1).map(lambda args: selected_name(*args))  
source = ColumnDataSource(sprint)  
xdr = Range1d(start=sprint.MetersBack.max()+2, end=0)               # XXX: +2 is poor-man's padding (otherwise misses last tick)  
ydr = DataRange1d(range_padding=4, range_padding_units="absolute")  
plot = figure(  
    x_range=xdr, y_range=ydr,  
    plot_width=1000, plot_height=600,  
    toolbar_location=None,  
    outline_line_color=None, y_axis_type=None)  
plot.title.text = "Usain Bolt vs. 116 years of Olympic sprinters"  
plot.title.text_font_size = "14pt"  
plot.xaxis.ticker = SingleIntervalTicker(interval=5, num_minor_ticks=0)  
plot.xaxis.axis_line_color = None  
plot.xaxis.major_tick_line_color = None  
plot.xgrid.grid_line_dash = "dashed"  
yticker = FixedTicker(ticks=[1900, 1912, 1924, 1936, 1952, 1964, 1976, 1988, 2000, 2012])  
yaxis = LinearAxis(ticker=yticker, major_tick_in=-5, major_tick_out=10)  
plot.add_layout(yaxis, "right")  
medal = plot.circle(x="MetersBack", y="Year", radius=dict(value=5, units="screen"),  
    fill_color="MedalFill", line_color="MedalLine", fill_alpha=0.5, source=source, level="overlay")  
plot.text(x="MetersBack", y="Year", x_offset=10, y_offset=-5, text="SelectedName",  
    text_align="left", text_baseline="middle", text_font_size="9pt", source=source)  
no_olympics_label = Label(  
    x=7.5, y=1942,  
    text="No Olympics in 1940 or 1944",  
    text_align="center", text_baseline="middle",  
    text_font_size="9pt", text_font_style="italic", text_color="silver")  
no_olympics = plot.add_layout(no_olympics_label)  
x = sprint[sprint.Year == 1900].MetersBack.min() - 0.5  
arrow = Arrow(x_start=x, x_end=5, y_start=1900, y_end=1900, start=NormalHead(fill_color="black", size=6), end=None, line_width=1.5)  
plot.add_layout(arrow)  
meters_back = Label(  
    x=5, x_offset=10, y=1900,  
    text="Meters behind 2012 Bolt",  
    text_align="left", text_baseline="middle",  
    text_font_size="10pt", text_font_style="bold")  
plot.add_layout(meters_back)  
disclaimer = Label(  
    x=0, y=0, x_units="screen", y_units="screen",  
    text="This chart includes medals for the United States and Australia in the \"Intermediary\" Games of 1906, which the I.O.C. does not formally recognize.",  
    text_font_size="8pt", text_color="silver")  
plot.add_layout(disclaimer, "below")  
tooltips = """ 
<div> 
    <span style="font-size: 15px;">@Name</span>  
    <span style="font-size: 10px; color: #666;">(@Abbrev)</span> 
</div> 
<div> 
    <span style="font-size: 17px; font-weight: bold;">@Time{0.00}</span>  
    <span style="font-size: 10px; color: #666;">@Year</span> 
</div> 
<div style="font-size: 11px; color: #666;">@{MetersBack}{0.00} meters behind</div> 
"""  
plot.add_tools(HoverTool(tooltips=tooltips, renderers=[medal]))  
open_url = CustomJS(args=dict(source=source), code=""" 
source.inspected._1d.indices.forEach(function(index) { 
    var name = source.data["Name"][index]; 
    var url = "http://en.wikipedia.org/wiki/" + encodeURIComponent(name); 
    window.open(url); 
}); 
""")  
plot.add_tools(TapTool(callback=open_url, renderers=[medal], behavior="inspect"))
show(plot)

執行結果如圖7所示。

▲圖7 程式碼示例⑤執行結果

程式碼示例⑤展示了短跑選手博爾特與116年來奧運會其他短跑選手成績的對比情況。上述程式碼包含資料預處理、自定義繪圖屬性、資料標記、互動式顯示等較為複雜的操作，不作為本文重點；讀者僅需要知道透過哪些程式碼可以實現哪些視覺化的效果即可。

本文透過5個程式碼示例展示了散點圖的繪製技巧，繪製難度也逐漸增大，與此同時，展現的效果也越來越好。讀者在學習過程中可以多思考，在這個示例中哪些資料需要互動式展示，採用哪種展示方式更好。

關於作者：屈希峰，資深Python工程師，Bokeh領域的實踐者和佈道者，對Bokeh有深入的研究。擅長Flask、MongoDB、Sklearn等技術，實踐經驗豐富。知乎多個專欄（Python中文社群、Python程式設計師、大資料分析挖掘）作者，專欄累計關注使用者十餘萬人。

本文摘編自《Python資料視覺化：基於Bokeh的視覺化繪圖》，經出版方授權釋出。

[資料分析與視覺化] Python繪製資料地圖2-GeoPandas地圖視覺化
2023-04-09
視覺化Python地圖
Python視覺化-散點圖與彩色散點圖
2018-04-24
Python視覺化
Python繪圖與視覺化
2020-02-17
Python繪圖視覺化
Python matplotlib繪製散點圖
2020-11-03
Python
Python繪製六種視覺化圖表詳解（建議收藏）
2018-08-24
Python視覺化
SoviChart資料視覺化：散點圖（Scatter plot）
2022-12-02
視覺化
如何利用散點圖矩陣進行資料視覺化
2018-05-06
矩陣視覺化
【視覺化】熱力圖繪製原理
2018-11-14
視覺化
分形、分形幾何、資料視覺化、Python繪圖
2021-03-13
視覺化Python繪圖
python資料分析與視覺化【思維導圖】
2023-01-09
Python視覺化
繪圖和視覺化知識圖譜-《利用Python進行資料分析》
2020-07-15
繪圖視覺化Python
R語言之視覺化①②熱圖繪製2
2021-09-09
R語言視覺化
2022年十大資料視覺化工具，值得收藏
2022-03-15
大資料視覺化
使用 Python 進行資料視覺化
2024-07-26
Python視覺化
R語言之視覺化①③散點圖+擬合曲線
2018-11-18
R語言視覺化
風場視覺化：繪製粒子
2022-03-05
視覺化
Python繪製六種視覺化圖表詳解，三維圖最炫酷！你覺得呢？
2019-02-16
Python視覺化
5 種使用 Python 程式碼輕鬆實現資料視覺化的方法
2018-04-28
Python視覺化
資料視覺化之matplotlib實戰：plt.pie()函式繪製餅狀圖
2020-10-03
視覺化函式
python資料分析與視覺化基礎
2024-08-02
Python視覺化
如何使用Python 進行資料視覺化
2020-12-01
Python視覺化
Python資料視覺化之Pygal圖表型別
2018-10-08
Python視覺化型別
[Python視覺化] pyecharts安裝入門及繪製中國貴州地圖
2018-04-10
Python視覺化Echarts地圖
風場視覺化：繪製軌跡
2022-03-12
視覺化
python資料視覺化——echarts
2018-10-16
Python視覺化Echarts
python 資料視覺化利器
2019-02-28
Python視覺化
Python資料科學（八）- 資料探索與資料視覺化
2019-03-02
Python資料科學視覺化
拿走不謝，資料視覺化地圖製作教程！
2022-01-07
視覺化地圖
【python資料探勘課程】二十五.Matplotlib繪製帶主題及聚類類標的散點圖
2018-07-18
Python聚類
資料視覺化詳解+程式碼演練
2018-10-11
視覺化
使用 Python 和 GNU Octave 繪製資料
2020-02-29
Python
收藏 | 資料視覺化應該避免的誤區
2022-04-22
視覺化
python對資料集進行清洗與視覺化
2021-03-25
Python視覺化
資料視覺化之模組邊框繪製，以及元件開發（一）
2020-12-25
視覺化元件
Python資料視覺化matplotlib庫
2019-03-04
Python視覺化
一個視覺化動畫演算法網站，值得收藏！
2023-05-16
視覺化動畫演算法網站
做了20套資料視覺化模板，不用敲程式碼，直接複製就能用
2021-07-02
視覺化
盤點 Django 展示視覺化圖表的多種方式（建議收藏）
2021-04-08
Django視覺化

Python資料視覺化：5段程式碼搞定散點圖繪製與使用，值得收藏

相關文章