資料概覽
本次專案使用到的資料包括:一卡通消費資料、校園網wifi資料、上海市閔行區氣象資料。具體來說包括:
- 商戶資訊:共134項觀測,包含32個商戶系統、85個子商戶;
- 使用者資訊:共30861項觀測,包含30861個一卡通賬戶、30812個學號,即有49名學生擁有兩個一卡通賬戶;
- 交易記錄:共7915289項交易記錄,時間跨度為2014-09-01至2015-01-31;
- 氣象記錄:共26660項氣象記錄,時間跨度為2014-08-15至2015-03-25;
- 校園網記錄:共12736408項校園網記錄,時間跨度為2014-09-01至2015-01-31。
我的工作
我的工作主要針對一卡通消費資料。
首先是對資料的概要統計,包括使用者群分佈、商戶結構、歷史降雨和校園網紀錄。
接著從消費類別總額、消費類別次數、消費類別均值、男生消費總額和女生消費總額等角度統計食堂就餐紀錄,並且以第三餐飲學生餐廳為例,分析其歷史就餐總額變化趨勢、雨天和晴天就餐情況對比、一天中不同時段的就餐密度等內容,從而研究食堂就餐量和降雨量、校園網活躍人數等因素之間的關係。
最後,分析了不同類別使用者在各個消費類別和商戶的消費分佈,包括消費總額和消費次數等,並建立了橫向模式和縱向模式兩種模型來分析不同類別使用者的就餐模式。
作品升級
後來我覺得,自己不應僅僅停留於產出一份資料分析報告,而是更希望能呈現出一款完備的應用級系統;資料來源也不再只是一卡通消費資料,而是做到了對一卡通消費和校園網wifi資料的360度全面分析。
經過一個月的艱苦奮鬥,我的產品逐漸成型,一款以構建智慧校園資料生態系統為願景的實時監測和分析統計系統——Elite。
Elite的意思是“精英”,即我們致於提取資料中最精華的部分給使用者,同時“E”表示數字化和資訊化,“lite”和“life”相近,即智慧校園中的資料生活。
總的來說,Elite的功能包括以下幾個方面,校園實時監測、餐飲分析、學務管理、教學統計、個人顧問、Elite助手、資訊共享等。
- 實時監測:包括實時人群監測、人群遷移趨勢和就餐人數預測等;
- 餐飲分析:包括各大商戶今日就餐總額和就餐次數等實時統計、實時就餐總額和歷史日均總額的計算、餐飲人群組成和各大食堂佔比的分析;
- 學務管理:包括男女生上閘道器鍵詞彙總、不同年級學生對不同關鍵詞的關注程度分析、本碩博學生不同場景不同時間wifi流量分佈統計、學生在一卡通消費和wifi用網量上的分佈、浴室人群流量實時監測和預測;
- 教學統計:包括校園裝置、科研裝置、教學裝置統計,科研立項、科研到款、科研著作、論文發表統計,各大校區硬性指標對比,和各類別學生數量統計;
- 個人顧問:根據匿名處理後的學號獲取該學生的一卡通消費和校園網wifi資料,從勤奮係數、就餐係數、睡眠係數、清潔係數、恩格爾係數、個人評價、個人關注、使用者群分類等角度展示個性化統計結果;
- Elite助手:提供針對使用者個人定製化的推薦和建議,包括生活預警、學習預警、活動推薦、課程推薦、動態記錄等;
- 資訊共享:包括“活動”、“點評”、“比賽”、“二手”、“租房”、“實習”、“校車”七大模組,聚集校園裡各個方面的動態資訊。
對於Elite的定位,我覺得它是智慧校園中資料source和sink之間的聯結器。更具體的來說,在智慧校園這個不斷進行資料迴圈流動的生態系統中,學生和校方是資料的生產者,學生、校方以及商戶都是資料的消費者,而Elite則是資料的分解者。Elite實現了資料的處理加工和資源的整合重用,使得生態系統中的各個角色都能互助共贏。
我使用prezi製作了一份產品的介紹和分享。Elite部署在這裡,程式碼託管於我的Github,在裡面可以找到產品介紹和分享的prezi。
總結
經過這次的嘗試,我掌握了R的基本使用和資料分析的流程,強化了自己資料視覺化的能力。作品成果也從一開始簡單的統計分析逐步改善,最終成長為完善強大的智慧校園資料分析系統,工作量很大,算是一次不錯的開發經歷。