python資料視覺化-matplotlib入門(4)-條形圖和直方圖

PursuitingPeak發表於2022-04-27

摘要:先介紹條形圖直方圖,然後用隨機數生成一系列資料,儲存到列表中,最後統計出相關隨機資料的概率並展示

    前述介紹了由點進行劃線形成的拆線圖和散點形成的曲線圖,連點成線,主要用到了matplotlib中的plot()和scatter()這個函式,但在實際生活工作中,不僅有折線圖,還經常會出現月份經濟資料對比圖,身高統計圖等,製成圖表就很容易對比看出差異。

下面用matplotlib中bar()函式和hist()來實現條形圖和直方圖。

一、bar()函式

bar()函式的最主要的幾個引數如下:

bar(x, height, width=0.8, bottom=None, *, align='center', data=None, **kwargs)
引數1:x : 標量型,x軸上的座標。浮點數或類陣列結構。注意x可以為字串陣列
引數2:height:y軸上的座標。浮點數或類陣列結構
引數3:width:指定柱形圖的寬度。浮點數或類陣列結構。預設值為0.8
引數4:bottom:標量或標量類陣列型,y座標的起始高度
引數5:align:柱狀圖在x軸上的對齊方式,可選{‘center’, ‘edge’} center:中心對稱 edge:邊緣對稱
引數6:**kwargs:接收的關鍵字引數傳遞給關聯的Rectangle。 返回值:BarContainer例項,其patches屬性是柱體的列表

條形圖(柱狀圖)一個簡單的示例,隨便設定12個月份,並給定某些資料,程式碼如下:

plt.bar([1,2,3,4,5,6,7,8,9,10,11,12,13],[5,2,7,8,2,1,8,6,2,5,6,7,10], label="Test one", color='red') #x位置上數列[1,2,3,4,5,6,7,8,9,10,11,12,13],表示為相對y軸,柱狀圖在X軸的位置,後面一列為對應y軸的高度。
plt.legend() #執行結果裡圖例名稱顯示出來
plt.xlabel('bar number') 
plt.ylabel(
'bar height')
plt.title(
'TEST')
plt.show()

第一列中的color=‘red’表示柱狀圖全部顯示為紅,為顯示區別,做以下修改:

import matplotlib.pyplot as plt  

plt.bar([1,3,5,7,9,11],[5,7,8,6,7,10], label="Test one", color='#202204')    
plt.bar([2,4,6,8,10,12],[8,6,2,5,6,7], label="Test two", color='g') # color也可是16進位制,如上顯示的  #202204
plt.legend()  #執行結果裡圖例名稱顯示出來
plt.xlabel('bar number') 
plt.ylabel('bar height')
plt.title('TEST')
plt.show()

具體顯示結果如下:

二,hist()函式

hist(x,bins=None,range=None,density=None,weights=None,cumulative=False,bottom=None,histtype=“bar”, align=“mid”,orientation=“vertical”,rwidth=None,log=False,color=None,label=None,stacked=False,normed=None, hold=None,data=None,**kwargs)

hist()函式的基礎引數如下:

x :表示輸入值,可以是單個陣列,或者不需要相同長度的陣列序列。
bins:表示繪製條柱的個數。若給定一個整數,則返回 “bins+1” 個條柱,預設為10。
range:bins的上下範圍(最大和最小值)。
color:表示條柱的顏色,預設為None。
facecolor #直方圖顏色
edgecolor #直方圖邊框顏色
alpha # 透明度
histtype #直方圖型別,‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’
orientation # 水平或垂直方向
rwidth #柱子與柱子之間的距離,預設是0

下面通過一個例子來說明hist()函式的作用:

import matplotlib.pyplot as plt  

population_ages = [18,34,23,56,32,45,78,23,45,12,31,25,61,27,34,57,54,26,45,37,36,8,14,17,13,88,99,49,63,105,121,116] #設定一組年齡

bins = [0,10,20,30,40,50,60,80,90,100,130]  #年齡分段

plt.hist(population_ages, bins, histtype='bar', rwidth=0.8,color='#199209')

plt.xlabel('The Age Group')
plt.ylabel('The number')
plt.title('The Age Range')
plt.legend()
plt.show()

注意:bins[]中60,80和100,130中間缺少是故意為之,為了顯示區別

執行結果如下:

很明顯,hist()函式會自動根據引數bins中的區分將引數x中的資料自動進行統計。

搞事情,既然引數x(如例子中的population_ages)可能是數列,那能否用隨機函式自動生成陣列,然後在進行統計呢?當然可以。

三、資料統計

色子經常用來娛樂(用作他途造成後果與我無關),它有6個面,分別點數為1,2,3,4,5,6,可利用隨機函式(上篇中的choice函式)來隨機產生,比如choice([1,2,3,4,5,6]),產生N次(比如20萬次)並將每次結果儲存到列表中,最後統計出各點的總數或所點比例。

分析:

1)先建一個類,其功能就是執行一次,就隨機選擇6個面(點數)

2)將色子例項化,並給定一個引數(執行的次數),圖形化顯示出來。

class Sezi():
    def __init__(self,sides):#給自身定義一個面數,方便後面修改引數進行其他操作
        self.sides = sides  #色子可以是6面,也可以是8面,10面,12面,需要給定 
    def roll(self):
        return choice([1,2,3,4,5,6])#每投一次,隨機選擇一個點數

testsezi = Sezi(6) #例項化,6個面
results = []  # 定義一個空的數列,用來儲存每次投擲的點數
for roll_num in range(100): #迴圈,投100次
    result = testsezi.roll()   #將每次投擲結果儲存到變數result中
    results.append(result)     #存入到數列results
print(results) #直接列印出來

執行結果:

與此同時,為了後面方便,引入另一個隨機函式randint(x, y),這個函式的作用是產生x-y之間的數字,比如randint(1,10),就產生1到10之間的數字。

choice([1,2,3,4,5,6])可以修改為randint(1,self.sides),這樣例項化後,需要輸入隨意一個面數,就會隨機產生對應的數字。
上述還只是列印在互動欄,且類、例項還是在一個檔案中,分成不同的檔案,並資料統計用圖的形式顯示。
1,重新修改色子類
檔名sezi.py,裡面程式碼如下:
from random import *

class Sezi():
    def __init__(self,sides):#給自身定義一個面數,面數對應點數
        self.sides = sides  #色子可以是6面,也可以是8面,10面,12面,需要給定 
        self.side=0
        self.bins=[]
   
        while self.side < self.sides: #獲取面數,並得到一個面數的bins,可直接呼叫。
            self.side += 1 
            self.bins.append(self.side) 
            
    def roll(self):
        return randint(1,self.sides)#每投一次,隨機選擇一個點數   

2、新建一個名稱sezigame.py的檔案,程式碼如下

import matplotlib.pyplot as plt
from sezi import * 

testsezi = Sezi(8) #例項化,8個點
results = []  # 定義一個空的數列,用來儲存每次投擲的點數

for roll_num in range(50000): #迴圈,投50000次
    result = testsezi.roll()   #將每次投擲結果儲存到變數result中
    results.append(result)     #存入到數列results

plt.hist(results, testsezi.bins, histtype='bar', rwidth=0.8,color='#199209')   #直接呼叫testsezi.bins

執行結果:

 如果有2個相同的色子呢?

同時擲兩個骰子,最小為2,最大為12,結果分佈情況自然也就不同。

將名稱sezigame.py的檔案修改,改動後的程式碼如下:

import matplotlib.pyplot as plt
from sezi import * 

sezi_1 = Sezi(6) #例項化,6個面
sezi_2 = Sezi(6)

results = []  # 定義一個空的數列,用來儲存每次投擲的點數
for roll_num in range(50000):              #迴圈,投50000次
    result = sezi_1.roll()+sezi_2.roll()   #將兩次投擲結果儲存到變數result中
    results.append(result)                 #存入到數列results

max_result = sezi_1.sides+sezi_2.sides #2個最大值為12,最小為2 
side = 0 
new_bins = []     
while side <= max_result: 
    side += 1 
    new_bins.append(side) 

plt.xlabel('The sides')
plt.ylabel('The numbers')
plt.title('The frequency')
plt.hist(results,new_bins, histtype='bar',color='#199209',rwidth=0.618)

執行結果如下:

 是不是有點正態分佈的感覺了?

相關文章