3-10部落格

xiaolllllin發表於2024-03-10

今天完成了第一次資料篩查作業

用idea清洗資料,用python完成分析

# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt

# 從CSV檔案中讀取資料
data = pd.read_csv('zongbiao.csv', encoding='utf-8')

# 設定中文字型
plt.rcParams['font.sans-serif'] = ['SimHei']

# 按地域分別篩選資料
hebei_data = data[data['地域'] == '河北']
tianjin_data = data[data['地域'] == '天津']
beijing_data = data[data['地域'] == '北京']

# 繪製各省份科技成果行業分佈柱狀圖
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
hebei_counts = hebei_data['行業'].value_counts()
hebei_counts[:10].plot(kind='bar')
plt.title('河北省科技成果行業分佈')

plt.subplot(1, 3, 2)
tianjin_counts = tianjin_data['行業'].value_counts()
tianjin_counts[:10].plot(kind='bar')
plt.title('天津市科技成果行業分佈')

plt.subplot(1, 3, 3)
beijing_counts = beijing_data['行業'].value_counts()
beijing_counts[:10].plot(kind='bar')
plt.title('北京市科技成果行業分佈')

plt.tight_layout()
plt.show()

# 繪製各省份科技成果行業分佈餅狀圖
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
hebei_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('河北省科技成果行業分佈')

plt.subplot(1, 3, 2)
tianjin_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('天津市科技成果行業分佈')

plt.subplot(1, 3, 3)
beijing_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('北京市科技成果行業分佈')

plt.tight_layout()
plt.show()