Python 視覺化 | Seaborn5 分鐘入門 (一)——kdeplot 和 distplot

Harry_03發表於2020-01-17

微信公眾號:「Python讀財」
如有問題或建議,請公眾號留言

Seaborn是基於matplotlib的Python視覺化庫。 它提供了一個高階介面來繪製有吸引力的統計圖形。Seaborn其實是在matplotlib的基礎上進行了更高階的API封裝,從而使得作圖更加容易,不需要經過大量的調整就能使你的圖變得精緻。

image

Seaborn的安裝

>>>pip install seaborn

安裝完Seaborn包後,我們就開始進入接下來的學習啦,首先我們介紹kdeplot的畫法。

注:所有程式碼均是在IPython notebook中實現


 kdeplot(核密度估計圖)

核密度估計(kernel density estimation)是在機率論中用來估計未知的密度函式,屬於非引數檢驗方法之一。透過核密度估計圖可以比較直觀的看出資料樣本本身的分佈特徵。具體用法如下:

*seaborn.kdeplot(data,data2=None,shade=False,vertical=False,kernel='gau',bw='scott',gridsize=100,cut=3,clip=None,legend=True,cumulative=False,shade_lowest=True,cbar=False, cbar_ax=None, cbar_kws=None, ax=None, *kwargs)

我們透過一些具體的例子來學習一些引數的用法:

首先匯入相應的庫

%matplotlib inline  #IPython notebook中的魔法方法,這樣每次執行後可以直接得到影像,不再需要使用plt.show()
import numpy as np  #匯入numpy包,用於生成陣列
import seaborn as sns  #習慣上簡寫成snssns.set()           
sns.set()#切換到seaborn的預設執行配置

繪製簡單的一維kde影像

x=np.random.randn(100)  #隨機生成100個符合正態分佈的數sns.kdeplot(x)

image

cut:參數列示繪製的時候,切除頻寬往數軸極限數值的多少(預設為3)

sns.kdeplot(x,cut=0)

image

cumulative :是否繪製累積分佈

sns.kdeplot(x,cumulative=True)

image

shade:若為True,則在kde曲線下面的區域中進行陰影處理,color控制曲線及陰影的顏色

sns.kdeplot(x,shade=True,color="g")

image

vertical:表示以X軸進行繪製還是以Y軸進行繪製

sns.kdeplot(x,vertical=True)

image

二元kde影像

y=np.random.randn(100)
sns.kdeplot(x,y,shade=True)

image

cbar:引數若為True,則會新增一個顏色棒(顏色幫在二元kde影像中才有)

sns.kdeplot(x,y,shade=True,cbar=True)

image

接下來,我們接著學習功能更為強大的distplot


distplot

displot()集合了matplotlib的hist()與核函式估計kdeplot的功能,增加了rugplot分佈觀測條顯示與利用scipy庫fit擬合引數分佈的新穎用途。具體用法如下:

seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)

先介紹一下直方圖(Histograms):

直方圖又稱質量分佈圖,它是表示資料變化情況的一種主要工具。用直方圖可以解析出資料的規則性,比較直觀地看出產品質量特性的分佈狀態,對於資料分佈狀況一目瞭然,便於判斷其總體質量分佈情況。直方圖表示透過沿資料範圍形成分箱,然後繪製條以顯示落入每個分箱的觀測次數的資料分佈。

接下來還是透過具體的例子來體驗一下distplot的用法:

sns.distplot(x,color="g")

image

透過histkde引數調節是否顯示直方圖及核密度估計(預設hist,kde均為True)

import matplotlib.pyplot as pltfig,axes=plt.subplots(1,3) #建立一個一行三列的畫布
sns.distplot(x,ax=axes[0]) #左圖
sns.distplot(x,hist=False,ax=axes[1]) #中圖
sns.distplot(x,kde=False,ax=axes[2]) #右圖

imagebins:int或list,控制直方圖的劃分

fig,axes=plt.subplots(1,2) 
sns.distplot(x,kde=False,bins=20,ax=axes[0]) #左圖:分成20個區間
sns.distplot(x,kde=False,bins=[x for x in range(4)],ax=axes[1]) #右圖:以0,1,2,3為分割點,形成區間[0,1],[1,2],[2,3],區間外的值不計入。

image

rag:控制是否生成觀測數值的小細條

fig,axes=plt.subplots(1,2)
sns.distplot(x,rug=True,ax=axes[0]) #左圖
sns.distplot(x,ax=axes[1]) #右圖

image

fit:控制擬合的引數分佈圖形,能夠直觀地評估它與觀察資料的對應關係(黑色線條為確定的分佈)

from scipy.stats import *
sns.distplot(x,hist=False,fit=norm) #擬合標準正態分佈

image

hist_kws, kde_kws, rug_kws, fit_kws引數接收字典型別,可以自行定義更多高階的樣式

sns.distplot(x,kde_kws={"label":"KDE"},vertical=True,color="y")

image

norm_hist:若為True, 則直方圖高度顯示密度而非計數(含有kde影像中預設為True)

fig,axes=plt.subplots(1,2)
sns.distplot(x,norm_hist=True,kde=False,ax=axes[0]) #左圖
sns.distplot(x,kde=False,ax=axes[1]) #右圖

image

還有其他引數就不在此一一介紹了,有興趣繼續深入學習的同學可以檢視Seaborn的官方文件。以上內容是我結合官方文件和自己的一點理解寫成的,有什麼錯誤大家可以指出來並提提意見共同交流、進步,也希望我寫的這些能夠給閱讀完本文的你或多或少帶來一點幫助!

關注我的公眾號「Python讀財」,後臺回覆「py」即可獲取Python學習資源禮包,還有Python學習交流群哦!

底部二維碼.png

本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章