考研大資料爬取與分析工具二次開發進行中。。。
考研大資料爬取與分析工具二次開發進行中
開原始碼倉:https://github.com/COCO5666/Graduate_admissions_data_analysis_tool
有興趣的可以一起來
目前,第一階段的資料採集工作已完畢,共採集13.4萬多個網頁
下面將進入第二階段的資料分析工作
以下是歷史版本:
考研大資料爬取與分析工具V0.0.0 (發行日期2018.09.02)
產品下載:
考研大資料爬取與分析工具V0.0.0(本版本爬取與分析研招網18年的13.82萬個招生詳情網頁無問題,後續19、20等的招生資料爬取工作我會跟進)下載地址:
https://www.lanzous.com/i1sfxah(不建議使用,因為爬取與分析太浪費時間,可以直接下載下面我已經分析好的生成的表格)
考研大資料分析報表V0.0.0(基於研招網18年的13.82萬個招生詳情網頁,18年的180個學科類別(或專業領域)的資料都進行了分析,並且每個學科類別都生成了一個Excel工作簿檔案)
https://www.lanzous.com/i1sfx9g(建議用電腦檢視,手機檢視需要會解壓縮,具體可百度,Excel工作簿檔案可以用WPS檢視)
有問題請郵件zj175@139.com,轉載資料和軟體請註明出處。
產品介紹:
第一階段:爬取資訊。
程式全自動從研招網上爬取當年每一個招生詳情網頁的資訊。
我爬取的時候研招網上是18年的招生資料,程式內收錄了180個學科類別(或專業領域)的程式碼及程式碼對應的名稱,180個學科類別的所有與之相關的網頁共13.82萬個,啟動程式的話會先爬取資料(不過不建議爬,因為爬取後分析成的報表我已經發布了,因此除非嘗試的興趣,否則沒必要啟動程式的,直接拿現成的分析好後的資料就行了)。
所有已收錄門類的爬取招生詳情網頁的資訊,並將這些網頁儲存在本地。
本程式可以實現全自動爬取從研招網上爬取招生詳情網頁的資訊,並將這些網頁儲存在本地。
第二階段:資料分析。
分析過程我就不贅述了,下面只介紹一下分析後的每一個Excel工作簿中的每一個工作表的含義。
先介紹幾個比較實用的工作表。
Sheet 2_2 中按照學校的統招總人數從多到少排列的資訊的,因此你可以通過Sheet2-2這個表格看出本學科類別(或專業領域)哪個學校統招人數最多。
Sheet 3-3(概要工作表):
計算出考試政治時某科目的招生機構總數,並以這些招生機構加起來的總統招人數數量從多到少排序資訊。
外語、業務課一、業務課二也按照這樣處理,通過這個表格可以看出備考哪個科目將來的選擇面比較寬。
另外你也可以手動再Sheet 3這個表格中搜尋一下(Ctrl + F)看考某一科的都有哪些學校。
Sheet 3(爬取每一個學校的每一個方向的招生頁面的原始資料):
學校名、院系所名、專業名、研究方向名、政治、外語、數學、專業課、政治詳情、外語詳情、數學詳情、專業課詳情、指導老師、備註、詳情連結、學校連結
下面是所有工作表的介紹:
每一個學科類別的Excel工作簿中儲存的工作表為:
Sheet 1(每一個學校招生頁面的原始資料):
學校名、院系所、專業、研究方向、學習方式、擬招生人數(原始資訊)、擬招收總人數、推免人數、統招人數、統招人數型別、詳情檢視連結、學校連結為一條資訊
Sheet 2(根據Sheet 1處理後的資料,可以檢視某校的院系所總數、專業總數、研究方向總數、擬招收總人數、推免總人數、統招總人數):
學校名、院系所數、專業數、研究方向數、擬招收總人數、推免人數、統招人數、學校連結、所在頁碼、位置序號為一條資訊
Sheet 2_2 (資料與Sheet2一樣,不過排序方式是按照學校的統招總人數從多到少排列的):
學校名、院系所數、專業數、研究方向數、擬招收總人數、推免人數、統招人數、學校連結、所在頁碼、位置序號
Sheet 2_3(概要工作表):
本學科類別的招生機構總數、招生院系總數、專業總數、研究方向總數、擬招收人數總數、推免人數總數、統招人數總數,統招比重(統招生人數/擬招收總人數)
Sheet 3(爬取每一個學校的每一個方向的招生頁面的原始資料):
學校名、院系所名、專業名、研究方向名、政治、外語、數學、專業課、政治詳情、外語詳情、數學詳情、專業課詳情、指導老師、備註、詳情連結、學校連結
Sheet 3-2(概要工作表):
計算出政治有多少科目。
外語、業務課一、業務課二也按照這樣處理。
將要完成開發的資料處理任務:
Sheet 3-3(概要工作表):
計算出考試政治時某科目的招生機構總數及對應的機構名列表,並以這些招生機構加起來的總統招人數數量從多到少排序資訊。
外語、業務課一、業務課二也按照這樣處理。
大資料彙總工作簿:
Sheet 1(以擬招收總人數排序):
每一個學科類別招生擬招收總數各是多少。
Sheet 2(以統招生總人數排序):
每一個學科類別招生擬招收總數各是多少。
Sheet 2(以統招生比重排序):
每一個學科類別招生擬招收總數各是多少。
相關文章
- 大資料如何進行分析大資料
- 如何用 Scrapy 爬取網站資料並在 Easysearch 中進行儲存檢索分析網站
- 使用Python進行Web爬取和資料提取PythonWeb
- 大資料分析該如何進行大資料
- 【python】爬取疫情資料並進行視覺化Python視覺化
- Python爬蟲之小說資訊爬取與資料視覺化分析Python爬蟲視覺化
- 如何更好的進行大資料分析大資料
- 使用selenium進行爬取掘金前端小冊的資料前端
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- Python爬取豆瓣電影的短評資料並進行詞雲分析處理Python
- bi資料分析工具中的鑽取分析是什麼?
- 3天學會網頁爬蟲進行資料分析網頁爬蟲
- 大資料軟體工具租賃 BI大資料分析平臺定製開發大資料
- 12 爬取目標的資料分析
- 如何爬取 python 進行多執行緒跑資料的內容Python執行緒
- 爬蟲爬取資料如何繞開限制?爬蟲
- 基於Spark對消費者行為資料進行資料分析開發案例Spark
- TOP 3大開源Python資料分析工具!Python
- 考研大資料爬取與分析工具V0.0.0程式內已收錄的研招網學科類別(或專業領域)程式碼及對應的名稱和序號。大資料
- 大資料分析標準如何進行分類大資料
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 使用 useNuxtData 進行高效的資料獲取與管理UX
- Python爬蟲框架:scrapy爬取高考派大學資料Python爬蟲框架
- 如何利用第三方資料進行大資料分析大資料
- 【Python3網路爬蟲開發實戰】6-Ajax資料爬取-4-分析Ajax爬取今日頭條街拍美圖Python爬蟲
- 《資料分析與資料探勘》--天津大學公開課
- 在進行大資料視覺化分析時,到底要如何進行呢?大資料視覺化
- [譯] 在 Python 中,如何運用 Dask 資料進行並行資料分析Python並行
- 怎麼進行資料分析
- 使用pandas進行資料分析
- python爬蟲利用代理IP分析大資料Python爬蟲大資料
- 大眾點評餐飲資料爬取(2020.11)
- 爬取豆瓣電影Top250和資料分析
- 大資料分析工具有哪些特性大資料
- 如何使用python進行網頁爬取?Python網頁
- 利用d3.js對大資料資料進行視覺化分析JS大資料視覺化
- 使用Mysql工具進行資料清洗MySql
- python爬取前程無憂和拉勾資料分析崗位並分析Python