石家莊鐵道大學2024年春季
2020 級課堂測試試卷—資料分析練習
課程名稱: 大資料庫技術與應用 任課教師: 王建民 考試時間: 實現為止 分鐘
一、 原始資料:
二、 地域維度標準化:
地域屬性在科技成果分析中作為一個重要維度,其標準取值非常必要,目前我國採用的標準行政區劃程式碼由兩部分組成,一部分為行政區劃編碼,六位數字組成,前兩位表示省編碼,中間兩位代表市編碼,後兩位表示所屬市的區或縣編碼。一部分為行政區劃名稱。兩部分在資料分析中經常用到,行政區劃編碼的樹形結構在實現資料統計時的上鑽和下卷功能尤其方便。
行政區劃是國家標準,中間有調整,需要根據年度確定該年度執行的國家標準。
要求在上次結果表的基礎之上完成地域取值標準化。
(1) 增加行政區劃編碼列,具體取值與國家釋出的行政區劃標準相對應,例如130102表示河北省石家莊市長安區;
(2) 規範地域取值,統一命名規則為:河北省石家莊市長安區。沒有地域屬性要根據單位名稱或單位地址確定地域數值,儘量規範到區縣一級,如果不行至少到市一級。參考方法:可以透過百度地圖或高德地圖介面查詢或者透過網路爬取方式補充完整地域屬性資訊。
三、 資料初級分析-分類
1.1京津冀科技成果表中欄位比較完整其中關鍵字、應用行業欄位、行業程式碼在科技成果資料分析中經常使用。1.2河北科技成果2015年第1-2-3期(技術)表中有行業欄位,缺少關鍵字、行業程式碼。1.3天津科技成果(技術)表中上述三個欄位就沒有,表中的所屬技術領域欄位與行業相似,但並不是國家標準規範。
(1)補充關鍵字欄位,從專案簡介中提取關鍵字,補充完成1.2、1.3表中的關鍵字欄位。
(2)補充應用行業欄位和行業程式碼。行業為國家標準《國民經濟行業分類與程式碼》,中間有調整,需要根據年度確定該年度執行的國家標準。
根據1.1和1.2表中行業分類,根據專案名稱、關鍵字、專案簡介欄位,採用機器學習相關演算法,補充1.3表中的行業分類和行業程式碼。
四、 資料視覺化展示
(1) 根據地域屬性實現資料的視覺化展示,可以看到省-市-區縣三級資料下鑽呈現的專案數量。
(2) 結合行業分類,顯示省-市-區縣不同的專案型別的數量。
(3) 分析京津冀三個省市科技成果中存在的優勢和劣勢。