【從零開始學爬蟲】採集全國高校導師資料

前嗅大資料發表於2022-12-28

l 採集網站

【場景描述】採集全國高校研究生導師資料。

【源網站介紹】考研派涵蓋各大院校研招資訊、研究生專業庫、考研經驗、考研資料、考研輔導、考研問答、找研友、考研論壇等功能板塊。

【使用工具】前嗅ForeSpider資料採集系統,免費下載:

【入口網址】

【採集內容】

採集考研派上的全國所有高校研究生導師資料。

【採集效果】

如下圖所示:

l 思路分析

配置思路概覽:

l 配置步驟

1.新建採集任務

選擇【採集配置】,點選任務列表右上方【+】號可新建採集任務,將採集入口地址填寫在【採集地址】框中,【任務名稱】自定義即可,點選下一步。

2.獲取翻頁連結

採用連結過濾的方法來抽取城市連結,具體如下所示:

①點選採集預覽,先觀察城市連結規律,找到規律,很明顯城市連結中都包含:list_1221_

②設定地址過濾,過濾包含“list_1221_”的連結,這樣就把城市連結過濾出來了。

3.抽取高校連結

①在模板01下再新建一個連結抽取,改名為【高校連結】。

②關聯模板,將翻頁連結抽取,關聯模板01。

③使用連結過濾的方法來獲取高校連結

先採集預覽,開啟高校連結預覽結果,找到高校連結並觀察規律,發現其中都包括:“一串數字.html”。

③設定地址過濾,過濾包含“\d.html”的連結,\d表示一串數字,這樣就把高校連結過濾出來了。

4.抽取導師連結

①新建模板02,在其下新建一個資料抽取模板,改名為:導師連結,具體操作如下所示:

②關聯模板

把模板01中的高校連結,關聯至模板02,具體操作如下所示:

③採集預覽,如下圖所示,觀察導師連結規律,發現導師連結中都包含“一串字母/一串字母_一串數字.html”

④設定地址過濾,過濾包含“\c/\c_\d.html”的連結,\d表示一串數字,\c表示一串字母,這樣就把導師連結過濾出來了。

5.抽取導師資料

①新建模板03,在模板03下新建一個資料抽取。

②資料建表,按照下圖所示建資料表。(注意欄位屬性等應嚴格按照下圖進行設定)

③將新建好的資料表,關聯到模板中去,如下圖所示:

④填寫示例地址

採集預覽,複製任意一條導師連結。

⑤將連結貼上到本模板示例地址中,並雙擊內建瀏覽器空白部分,載入本連結。

⑥關聯模板

將模板導師連結抽取模板關聯模板03,如下圖所示:

⑦資料取值

使用定位取值和資料清洗的方法,college欄位如下所示:

Name_欄位如下所示:

text欄位如下所示:

tel欄位如下所示,挖掘手機號碼規則為:{#n:[11,11]}

email欄位如下所示,挖掘郵箱規則為:{#(ncC\_\-):(2,32)}@{#(ncC):[1,16]}.{#(ncC):[1,16]}<.{#(ncC):[1,16]}><.{#(ncC):[1,16]}>

⑧採集預覽

採集預覽如下圖所示,說明配置成功,可以開始採集。如果有哪個欄位或者資料沒有出來,再次檢查之前配置,正確配置模板。

l 採集步驟

模板配置完成,採集預覽沒有問題後,可以進行資料採集。

①建立資料表單:

選擇【資料建表】,點選【表單列表】中該模板的表單,在【關聯資料表】中選擇【建立】,表名稱自定義,這裡命名為【daoshiku】(注意命名不能用數字和特殊符號),點選【確定】。建立完成,勾選資料表,並點選右上角儲存按鈕。

②開始採集

選擇【資料採集】,勾選任務名稱,點選【開始採集】,則正式開始採集。

③匯出資料

採集結束後,可以在【資料瀏覽】中,選擇資料表檢視採集資料,並可以匯出資料。

④匯出的檔案開啟如下圖所示:

本教程僅供教學使用,嚴禁用於商業用途!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2929893/,如需轉載,請註明出處,否則將追究法律責任。

相關文章