python大資料-統計北京各區二手市場活躍度
目標
統計北京各區二手市場活躍度
工作流程
清洗資料;更新資料,整理思路;視覺化資料
具體方法
import charts
import pymongo
client = pymongo.MongoClient('localhost', 27017)
ceshi = client['ceshi']
item_info = ceshi['item_infoS']
# 資料庫內的資料是這個樣子的
for i in item_info.find().limit(300):
print(i)
下面為列印結果:{'pub_date': '2016.01.12', 'time': 0, '_id': ObjectId('5698f524a98063dbe9e91ca8'), 'price': 450, 'url': 'http://bj.58.com/jiadian/24541664530488x.shtml', 'look': '-', 'cates': ['北京58同城', '北京二手市場', '北京二手家電', '北京二手冰櫃'], 'title': '【圖】95成新小冰櫃轉讓 - 朝陽高碑店二手家電 - 北京58同城', 'area': ['朝陽', '高碑店']} {'pub_date': '2016.01.14', 'time': 2, '_id': ObjectId('5698f525a98063dbe4e91ca8'), 'price': 1500, 'url': 'http://bj.58.com/jiadian/24349380911041x.shtml', 'look': '-', 'cates': ['北京58同城', '北京二手市場', '北京二手家電', '北京二手洗衣機'], 'title': '【圖】洗衣機,小冰箱,小冰櫃,冷飲機 - 朝陽定福莊二手家電 - 北京58同城', 'area': ['朝陽', '定福莊']}
pipeline = [
{'$match':{'$and':[{'pub_date':{'$in':['2015.12.25','2015.12.27']}},{'time':1}]}}, # 篩選函式,這裡篩選條件是pub_date和time
{'$group':{'_id':{'$slice':['$area',1]},'counts':{'$sum':1}}}, # group接收2個引數,_id表示你以什麼作為分組,counts為命名,後來跟函式表示你要做什麼,sum表示發現一個加1,即計數作用。 主要用於資料的組團計算的,$price區別其他的$,它是表示呼叫原來的price
{'$sort' :{'counts':-1}}, # 1表示從小到大正序排列,-1反之
#{'$limit':3} # 篩選出出現頻率最高三組數
]
# {'pub_date':'2015.12.24'}
for i in item_info.aggregate(pipeline):
print(i)
列印結果如下:
{'_id': ['朝陽'], 'counts': 60} # 列印結果,非程式
{'_id': ['不明'], 'counts': 59}
{'_id': ['海淀'], 'counts': 38}
{'_id': ['豐臺'], 'counts': 26}
{'_id': ['昌平'], 'counts': 18}
def data_gen(date,time): # 定義成函式
pipeline = [
{'$match':{'$and':[{'pub_date':{'$in':date}},{'time':time}]}},
{'$group':{'_id':{'$slice':['$area',1]},'counts':{'$sum':1}}},
{'$sort' :{'counts':-1}},
]
for i in item_info.aggregate(pipeline):
yield [i['_id'][0],i['counts']]
for i in data_gen(['2015.12.25','2015.12.27'],1):
print(i)
列印出的結果如下:
['朝陽', 60] # 列印結果,這種格式正式圖示化所需要的
['不明', 59]
['海淀', 38]
['豐臺', 26]
['昌平', 18]
['通州', 13]
['大興', 13]
['房山', 9]
['西城', 7]
圖示化結果:
options = { # 這些都是套路,在highchart 的js程式碼裡找到
'chart' : {'zoomType':'xy'},
'title' : {'text': '餅圖'},
'subtitle': {'text': '城區交易量分佈'},
}
series = [{
'type': 'pie',
'name': 'pie charts',
'data':[i for i in data_gen(['2015.12.25','2015.12.27'],1)]
}]
charts.plot(series,options=options,show='inline')
相關文章
- 韓國遊戲市場:韓漫市場擴張,網漫改編活躍遊戲
- 北京市人社局:2020年北京市人力資源市場薪酬大資料包告大資料
- 北京城市活躍報告:玩轉278個地鐵站點吃住行大資料大資料
- 拓端:二手交易市場資料快照
- 北京市人力資源和社會保障局:2021年北京人力資源市場薪酬大資料大資料
- 2015年北京市演出市場統計與分析
- 雲房資料:2017年北京二手住宅量價最全年度統計
- 北京市統計局:2016年1-2月北京市房地產市場執行情況
- Laravel-China Composer 國內映象,月獲活躍地區統計圖Laravel
- 大資料分析——市場風向標大資料
- Redis如何儲存和計算一億使用者的活躍度Redis
- IPIDEA助力Python爬蟲精準分析市場大資料IdeaPython爬蟲大資料
- Win10系統活躍裝置超過3.5億臺:企業市場表現不錯Win10
- 2024年Q1英國二手車市場主要地區銷量(附原資料表)
- 2024年Q3英國二手車市場主要地區銷量(附原資料表)
- 新型菜場:智慧農貿市場大資料視覺化管理系統大資料視覺化
- 歐洲冷凍食品市場——統計資料和事實
- 大資料已成市北園區“新名片”——“全國首個大資料試驗場聯盟”成立大會在園區舉行大資料
- Twitter面臨使用者活躍度下降困局
- Real Data:2018年10月北京二手房市場資料包告
- 大資料與個人徵信市場發展大資料
- DT財經:2017深圳城市大資料活躍報告(附下載)大資料
- 利用Python對鏈家網北京二手房進行簡單資料分析Python
- 大資料 + VR 全景技術重塑“二手車買車場景”大資料VR
- 大資料市場:小型科技企業的大機遇大資料
- 當 Python 和 R 遇上北京二手房Python
- Redis 點陣圖基礎到統計活躍使用者Redis
- 華為領跑中國政務大資料市場大資料
- sql統計各種奇葩的資料庫表資料SQL資料庫
- ComScore:英國移動遊戲玩家月活躍量2000萬 日活躍量600萬——資料資訊圖遊戲
- 疫情期間中國App使用者活躍度變化APP
- Nielsen:Facebook和Twitter使用者活躍度大幅增長
- 大資料發展步入快車道 不懂大資料將被市場淘汰大資料
- 資料市場觀察(一)我們為什麼要大資料?大資料
- 構建隱私計算三大生態,百度點石為政務資料要素市場護航
- Counterpoint:資料顯示iPhone統治著大多數大國市場iPhone
- Python採集3000條北京二手房資料,看我都分析出了啥?Python
- 微軟、IBM大資料市場針鋒相對微軟IBM大資料