python資料視覺化-matplotlib入門(6)-從檔案中載入資料

PursuitingPeak發表於2022-04-29

前幾篇都是手動錄入或隨機函式產生的資料。實際有許多型別的檔案,以及許多方法,用它們從檔案中提取資料來圖形化。

比如之前python基礎(12)介紹開啟檔案的方式,可直接讀取檔案中的資料,擴大了我們的資料來源。下面詳細介紹從檔案中載入資料。

一、使用內建的 csv 模組載入CSV檔案

CSV檔案是一種特殊的文字檔案,檔案中的資料以逗號作為分隔符,很適合進行資料的解析。先用excle建立如下表格和資料,另存為csv格式檔案,放到程式碼目錄下。

包含在Python標準庫中自帶CSV 模組,我們只需要import進來就能使用。比如我們需要將上面的CSV檔案都列印出來,程式碼 如下:

import csv  #import csv 用來匯入csv模組

filename = 'E:\WorkSpace\python\coding\score.csv'  #檔案儲存的絕對路徑,如果在程式碼目錄檔案下,可以直接用檔名
with open(filename) as file_csv:      #是不是忘記了如何開啟檔案?開啟檔案,並將結果檔案物件儲存在file_csv中
    reader = csv.reader(file_csv)     #直接調讀取 用csv.read()讀取檔案內容  
    for row in reader: #   用for迴圈列印每一行
        print(row)

執行結果如下:

['Name', 'Grade', 'Class', 'Age', 'mathscore', 'Englishscore']
['Lucy', '7', '2', '14', '95', '86']
['bush', '8', '1', '15', '80', '75']
['lily', '7', '3', '14', '93', '95']
['Jack', '8', '2', '14', '87', '84']
['Mary', '9', '1', '15', '85', '86']
['philip', '7', '3', '14', '90', '92']
['Liming', '9', '2', '16', '99', '87']

 1、列印檔案頭及其位置

讀入檔案,是為了獲取其中的資料,需要將相關資訊進行分離,先看看如何讀出頭即檔案的第一行, next()返回檔案中的下一行。

import csv  #import csv 用來匯入csv模組

filename = 'E:\WorkSpace\python\coding\score.csv'  #檔案儲存的絕對路徑
with open(filename) as file_csv:      #是不是忘記了如何開啟檔案?開啟檔案,並將結果檔案物件儲存在file_csv中
    reader = csv.reader(file_csv)     #直接調讀取 用csv.read()讀取檔案內容  
    header_row = next(reader)   #模組csv包含函式 next() ,呼叫它並將閱讀器物件傳遞給它時,它將返回檔案中的下一行
                                #呼叫了next()一次,因此得到的是檔案的第一行,其中包含檔案頭

      #for row in reader: # 用for迴圈列印每一行
       # print(row)

    for index, column_header in enumerate(header_row):  #對列表呼叫了enumerate()來獲取每個元素的索引及其值
        print(index, column_header)  

執行後的結果如下所示:

0 Name
1 Grade
2 Class
3 Age
4 mathscore
5 Englishscore

 提取其中索引,即name的索引為0,Grade的索引為1,知道了索引便可以讀取其中的任何資料,比如我們要列印出mathscore,索引為4,於是程式碼如下:

    scores =[] 定義一個空的list
    for row in reader:
        scores.append(int(row[4])) #讀取的檔案,預設為字串,用int()轉換為數字。
    print(scores)

執行結果:

[95, 80, 93, 87, 85, 90, 99]

 接下來,製作圖表展示一下,先把mathscore和englishscore分數做個柱狀對比。程式碼如下:

import matplotlib.pyplot as plt
import csv  #import csv 用來匯入csv模組

filename = 'E:\WorkSpace\python\coding\score.csv'  #檔案儲存的絕對路徑
with open(filename) as file_csv:      #是不是忘記了如何開啟檔案?開啟檔案,並將結果檔案物件儲存在file_csv中
    reader = csv.reader(file_csv)     #直接調讀取 用csv.read()讀取檔案內容   
    header_row = next(reader)   #模組csv包含函式 next() ,呼叫它並將閱讀器物件傳遞給它時,它將返回檔案中的下一行。
                                #呼叫了 next() 一次,因此得到的是檔案的第一行,其中包含檔案頭
    mathscores =[] #定義兩個列表
    englishscores=[]
    for row in reader:
        mathscores.append(int(row[4]))     #讀取索引為4的資料,預設為字串,用int()轉換為數字。
        englishscores.append(int(row[5]))  #讀取索引為5的資料,用int()轉換為數字。
        
plt.bar([1,3,5,7,9,11,13],mathscores,label='math',color='#FF2204')     
plt.bar([2,4,6,8,10,12,14],englishscores, label='englis', color='g')
plt.legend()
plt.title('scores') 
plt.show()

已將那些列印相關程式碼刪除。看執行結果:

 接下來,我們讀取檔案 ,並根據檔案中的時間來繪製圖表

新建一個年份的資料(真的是胡編亂造的資料),第一列是年份,第二列每年畢業的人數,第三列是每年申請人數,如圖所示:

要求:

1,按年份分別顯示出每年兩者的人數,並用不同的顏色表示;

2、兩者間也用其他顏色進行填充。

完成程式碼如下:

import matplotlib.pyplot as plt
import csv  #import csv 用來匯入csv模組
from datetime import datetime #引入時間相關模組

filename = 'E:\WorkSpace\python\coding\graduatesNumbers.csv'  #檔案儲存的絕對路徑
with open(filename) as file_csv:      #是不是忘記了如何開啟檔案?開啟檔案,並將結果檔案物件儲存在file_csv中
    reader = csv.reader(file_csv)     #直接調讀取 用csv.read()讀取檔案內容   
    header_row = next(reader)   
    dates=[]                            
    numbers=[]
    application_numbers=[]
    for row in reader: 
        current_date = datetime.strptime(row[0], "%Y/%m/%d") #年份,strptime()日期格式轉化為字串格式的函式
        dates.append(current_date)
        numbers.append(int(row[1]))      #讀取索引為1的資料,預設為字串,用int()轉換為數字,即Numbers of graduates 。
        application_numbers.append(int(row[2])) #讀取索引為2的資料,即Number of applicants
        
plt.plot(dates,numbers,label='Numbers of graduate', c='red') #顯示第一條線
plt.plot(dates,application_numbers,label='Number of applicant', c='green')  #顯示第二條線application_numbers折線
plt.fill_between(dates,numbers, application_numbers, facecolor='blue', alpha=0.5)   #在兩線之間填充顏色  alpha透明度
    
plt.title("The numbers of graduate",fontsize=24)
plt.xlabel('Years', fontsize=16)
plt.ylabel("The numbers", fontsize=16)
plt.legend()
plt.show()

實際執行結果如下:

 除了直接讀取檔案外,資料還有眾多其他來源,比如後期涉及的爬蟲等。

 

相關文章