當你擁有地域相關資料時,首先想到的製作工具是什麼呢?Echarts、basemap(後期更新)、pyecharts、matplotlib、seaborn等等?不過今天我們先以pyecharts實現。
1.pyecharts 介紹
pyecharts用於生成Echarts圖示的類庫,Echarts是百度開源的一個資料視覺化JS庫 pyecharts 相關基礎可參考 用python做資料視覺化之pyecharts基礎 pyecharts 官方文件可參考 pyecharts中文文件
2.地圖底圖下載
自從 v0.3.2 開始,為了縮減專案本身的體積以及維持 pyecharts 專案的輕量化執行,pyecharts 將不再自帶地圖 js 檔案。如使用者需要用到地圖圖表,可自行安裝對應的地圖檔案包。下面介紹如何安裝。
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg
pip install echarts-china-counties-pypkg
pip install echarts-china-misc-pypkg
複製程式碼
-
- 全球國家地圖: echarts-countries-pypkg (1.9MB): 世界地圖和 213 個國家,包括中國地圖-
-
- 中國省級地圖: echarts-china-provinces-pypkg (730KB):23 個省,5 個自治區
-
- 中國市級地圖: echarts-china-cities-pypkg (3.8MB):370 箇中國城市
-
- 中國縣區級地圖: echarts-china-counties-pypkg (4.1MB):2882 箇中國縣·區
-
- 中國區域地圖: echarts-china-misc-pypkg (148KB):11 箇中國區域地圖,比如華南、華北。
3. pandas 相關知識點概述
- merge預設按相同欄位合併,且取兩個都有的。
import pandas as pd df1=pd.DataFrame({'name':['kate','herz','catherine','sally'], 'age':[25,28,39,35]}) df2=pd.DataFrame({'name':['kate','herz','sally'], 'score':[70,60,90]}) # 1.merge預設按相同欄位合併,且取兩個都有的。 pd.merge(df1,df2) # 2. 當左右連線欄位不相同時,使用left_on,right_on pd.merge(df1,df2,left_on="name",right_on='call_name') # 3. 合併後,刪除重複的列 pd.merge(df1,df2,left_on='name',right_on='call_name').drop('name',axis=1) # 4.引數how的使用 1).預設:inner 內連線,取交集 2).outer 外連線,取並集,並用nan填充” pd.merge(df1,df2,on='name',how='inner') df3=pd.DataFrame({'name':['kate','herz','sally','cristin'], 'score':[70,60,90,30]}) pd.merge(df1,df3,on='name',how='outer') 複製程式碼
- set_index 可以設定單索引和複合索引。
DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) # append新增新索引,drop為False,inplace為True時,索引將會還原為列 複製程式碼
- reset_index可以還原索引,從新變為預設的整型索引
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=”) # level控制了具體要還原的那個等級的索引 # drop為False則索引列會被還原為普通列,否則會丟失 複製程式碼
- loc、iloc、ix 區別
# 如果你知道column names 和index,且兩者都很好輸入,可以選擇 .loc df.loc[0, 'a'] df.loc[0:3, ['a', 'b']] df.loc[[1, 5], ['b', 'c']] # iloc 使得我們可以對column使用slice(切片)的方法對資料進行選取。 df.iloc[1,1] df.iloc[0:3, [0,1]] df.iloc[[0, 3, 5], 0:2] # ix 的功能就更強大了,它允許我們混合使用下標和名稱進行選取 複製程式碼
4.資料處理
- 整理全國部分城市2009-2018年平均房價資料anjuekefangjia.csv
5.例項展示
資料檔案讀取
df = pd.read_csv(csv檔案)
local = df.set_value(index)
複製程式碼
- 1.全國部分城市2009-2018平均房價極座標圖
from pyecharts import Polar radius = [u"2009年", u"2010年", u"2011年", u"2012年", u"2013年",u"2014年",u"2015年",u"2016年",u"2017年",u"2018年"] # polar = Polar(u"2009-2018部分城市房價變化趨勢", width=1200, height=1100) polar = Polar( width=1200, height=1100) for name in df.city_name: if len(local.ix[name][2:])<5: continue polar.add(name, local.ix[name][2:], radius_data=radius, type='barRadius', is_stack=True) polar.render() 複製程式碼
- 效果展示
-
- 全國部分城市2018年平均房價熱力圖
from pyecharts import Map map = Map("", width=1200, height=600) map.add("2018年全國主要城市房價均值", df.province, df.price, maptype='china',visual_text_color='#000',is_visualmap=True, is_label_show=True) map.render() 複製程式碼
- 效果展示
- 3.全國部分城市2009-2018房價均值趨勢折線圖
from pyecharts import Line attr = [u"2009年", u"2010年", u"2011年", u"2012年",u"2013年", u"2014年",u"2015年",u"2016年",u"2017年",u"2018年"] line = Line(u"全國部分城市房價變化趨勢",height=1000,width = 1200) for name in df.city_name: if len(local.ix[name][2:]) < 10: continue line.add(name, attr,local.ix[name][2:], mark_point=["max", "min"], mark_line=["average"], yaxis_formatter="元/m²") line.render() 複製程式碼
- 效果展示