考研大資料爬取與分析工具二次開發進行中。。。

COCO56發表於2018-09-02

考研大資料爬取與分析工具二次開發進行中

開原始碼倉:https://github.com/COCO5666/Graduate_admissions_data_analysis_tool

有興趣的可以一起來

目前,第一階段的資料採集工作已完畢,共採集13.4萬多個網頁
下面將進入第二階段的資料分析工作

以下是歷史版本:

考研大資料爬取與分析工具V0.0.0 (發行日期2018.09.02)

產品下載:

考研大資料爬取與分析工具V0.0.0(本版本爬取與分析研招網18年的13.82萬個招生詳情網頁無問題,後續19、20等的招生資料爬取工作我會跟進)下載地址:

https://www.lanzous.com/i1sfxah(不建議使用,因為爬取與分析太浪費時間,可以直接下載下面我已經分析好的生成的表格)

考研大資料分析報表V0.0.0(基於研招網18年的13.82萬個招生詳情網頁,18年的180個學科類別(或專業領域)的資料都進行了分析,並且每個學科類別都生成了一個Excel工作簿檔案)

https://www.lanzous.com/i1sfx9g(建議用電腦檢視,手機檢視需要會解壓縮,具體可百度,Excel工作簿檔案可以用WPS檢視)

有問題請郵件zj175@139.com,轉載資料和軟體請註明出處。

產品介紹:

第一階段:爬取資訊。

程式全自動從研招網上爬取當年每一個招生詳情網頁的資訊。

我爬取的時候研招網上是18年的招生資料,程式內收錄了180個學科類別(或專業領域)的程式碼及程式碼對應的名稱,180個學科類別的所有與之相關的網頁共13.82萬個,啟動程式的話會先爬取資料(不過不建議爬,因為爬取後分析成的報表我已經發布了,因此除非嘗試的興趣,否則沒必要啟動程式的,直接拿現成的分析好後的資料就行了)。

 

所有已收錄門類的爬取招生詳情網頁的資訊,並將這些網頁儲存在本地。

本程式可以實現全自動爬取從研招網上爬取招生詳情網頁的資訊,並將這些網頁儲存在本地。

 

第二階段:資料分析。

分析過程我就不贅述了,下面只介紹一下分析後的每一個Excel工作簿中的每一個工作表的含義。

先介紹幾個比較實用的工作表。

Sheet 2_2 中按照學校的統招總人數從多到少排列的資訊的,因此你可以通過Sheet2-2這個表格看出本學科類別(或專業領域)哪個學校統招人數最多。

Sheet 3-3(概要工作表):
計算出考試政治時某科目的招生機構總數,並以這些招生機構加起來的總統招人數數量從多到少排序資訊。
外語、業務課一、業務課二也按照這樣處理,通過這個表格可以看出備考哪個科目將來的選擇面比較寬。

另外你也可以手動再Sheet 3這個表格中搜尋一下(Ctrl + F)看考某一科的都有哪些學校。

Sheet 3(爬取每一個學校的每一個方向的招生頁面的原始資料):
學校名、院系所名、專業名、研究方向名、政治、外語、數學、專業課、政治詳情、外語詳情、數學詳情、專業課詳情、指導老師、備註、詳情連結、學校連結

下面是所有工作表的介紹:

每一個學科類別的Excel工作簿中儲存的工作表為:
Sheet 1(每一個學校招生頁面的原始資料):
學校名、院系所、專業、研究方向、學習方式、擬招生人數(原始資訊)、擬招收總人數、推免人數、統招人數、統招人數型別、詳情檢視連結、學校連結為一條資訊

Sheet 2(根據Sheet 1處理後的資料,可以檢視某校的院系所總數、專業總數、研究方向總數、擬招收總人數、推免總人數、統招總人數):
學校名、院系所數、專業數、研究方向數、擬招收總人數、推免人數、統招人數、學校連結、所在頁碼、位置序號為一條資訊

Sheet 2_2 (資料與Sheet2一樣,不過排序方式是按照學校的統招總人數從多到少排列的):
學校名、院系所數、專業數、研究方向數、擬招收總人數、推免人數、統招人數、學校連結、所在頁碼、位置序號

Sheet 2_3(概要工作表):
本學科類別的招生機構總數、招生院系總數、專業總數、研究方向總數、擬招收人數總數、推免人數總數、統招人數總數,統招比重(統招生人數/擬招收總人數)

Sheet 3(爬取每一個學校的每一個方向的招生頁面的原始資料):
學校名、院系所名、專業名、研究方向名、政治、外語、數學、專業課、政治詳情、外語詳情、數學詳情、專業課詳情、指導老師、備註、詳情連結、學校連結

Sheet 3-2(概要工作表):
計算出政治有多少科目。
外語、業務課一、業務課二也按照這樣處理。

將要完成開發的資料處理任務:

Sheet 3-3(概要工作表):
計算出考試政治時某科目的招生機構總數及對應的機構名列表,並以這些招生機構加起來的總統招人數數量從多到少排序資訊。
外語、業務課一、業務課二也按照這樣處理。

大資料彙總工作簿:


Sheet 1(以擬招收總人數排序):
每一個學科類別招生擬招收總數各是多少。

Sheet 2(以統招生總人數排序):
每一個學科類別招生擬招收總數各是多少。

Sheet 2(以統招生比重排序):
每一個學科類別招生擬招收總數各是多少。

相關文章