【從零開始學爬蟲】採集全國高校導師資料
l 採集網站
【場景描述】採集全國高校研究生導師資料。
【源網站介紹】考研派涵蓋各大院校研招資訊、研究生專業庫、考研經驗、考研資料、考研輔導、考研問答、找研友、考研論壇等功能板塊。
【使用工具】前嗅ForeSpider資料採集系統,免費下載:
【入口網址】
【採集內容】
採集考研派上的全國所有高校研究生導師資料。
【採集效果】
如下圖所示:
l 思路分析
配置思路概覽:
l 配置步驟
1.新建採集任務
選擇【採集配置】,點選任務列表右上方【+】號可新建採集任務,將採集入口地址填寫在【採集地址】框中,【任務名稱】自定義即可,點選下一步。
2.獲取翻頁連結
採用連結過濾的方法來抽取城市連結,具體如下所示:
①點選採集預覽,先觀察城市連結規律,找到規律,很明顯城市連結中都包含:list_1221_
②設定地址過濾,過濾包含“list_1221_”的連結,這樣就把城市連結過濾出來了。
3.抽取高校連結
①在模板01下再新建一個連結抽取,改名為【高校連結】。
②關聯模板,將翻頁連結抽取,關聯模板01。
③使用連結過濾的方法來獲取高校連結
先採集預覽,開啟高校連結預覽結果,找到高校連結並觀察規律,發現其中都包括:“一串數字.html”。
③設定地址過濾,過濾包含“\d.html”的連結,\d表示一串數字,這樣就把高校連結過濾出來了。
4.抽取導師連結
①新建模板02,在其下新建一個資料抽取模板,改名為:導師連結,具體操作如下所示:
②關聯模板
把模板01中的高校連結,關聯至模板02,具體操作如下所示:
③採集預覽,如下圖所示,觀察導師連結規律,發現導師連結中都包含“一串字母/一串字母_一串數字.html”
④設定地址過濾,過濾包含“\c/\c_\d.html”的連結,\d表示一串數字,\c表示一串字母,這樣就把導師連結過濾出來了。
5.抽取導師資料
①新建模板03,在模板03下新建一個資料抽取。
②資料建表,按照下圖所示建資料表。(注意欄位屬性等應嚴格按照下圖進行設定)
③將新建好的資料表,關聯到模板中去,如下圖所示:
④填寫示例地址
採集預覽,複製任意一條導師連結。
⑤將連結貼上到本模板示例地址中,並雙擊內建瀏覽器空白部分,載入本連結。
⑥關聯模板
將模板導師連結抽取模板關聯模板03,如下圖所示:
⑦資料取值
使用定位取值和資料清洗的方法,college欄位如下所示:
Name_欄位如下所示:
text欄位如下所示:
tel欄位如下所示,挖掘手機號碼規則為:{#n:[11,11]}
email欄位如下所示,挖掘郵箱規則為:{#(ncC\_\-):(2,32)}@{#(ncC):[1,16]}.{#(ncC):[1,16]}<.{#(ncC):[1,16]}><.{#(ncC):[1,16]}>
⑧採集預覽
採集預覽如下圖所示,說明配置成功,可以開始採集。如果有哪個欄位或者資料沒有出來,再次檢查之前配置,正確配置模板。
l 採集步驟
模板配置完成,採集預覽沒有問題後,可以進行資料採集。
①建立資料表單:
選擇【資料建表】,點選【表單列表】中該模板的表單,在【關聯資料表】中選擇【建立】,表名稱自定義,這裡命名為【daoshiku】(注意命名不能用數字和特殊符號),點選【確定】。建立完成,勾選資料表,並點選右上角儲存按鈕。
②開始採集
選擇【資料採集】,勾選任務名稱,點選【開始採集】,則正式開始採集。
③匯出資料
採集結束後,可以在【資料瀏覽】中,選擇資料表檢視採集資料,並可以匯出資料。
④匯出的檔案開啟如下圖所示:
本教程僅供教學使用,嚴禁用於商業用途!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2929893/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【從零開始學爬蟲】採集全國曆史天氣資料爬蟲
- 【從零開始學爬蟲】採集收視率排行資料爬蟲
- 【從零開始學爬蟲】採集丁香醫生新冠問答資料爬蟲
- 從零開始寫一個node爬蟲(上)—— 資料採集篇爬蟲
- 【從零開始學爬蟲】建立模板爬蟲
- 《從零開始學Python網路爬蟲》概要Python爬蟲
- 《從零開始學習Python爬蟲:頂點小說全網爬取實戰》Python爬蟲
- 【從零開始學爬蟲】對任務的操作爬蟲
- 【從零開始學爬蟲】模板的高階選項爬蟲
- 從零開始的爬蟲專案(一)爬蟲
- Python爬蟲初學二(網路資料採集)Python爬蟲
- 爬蟲資料採集的工作原理爬蟲
- 【從零開始學爬蟲】模板的複製與貼上爬蟲
- 從零開始寫一個node爬蟲(一)爬蟲
- PYTHON系列-從零開始的爬蟲入門指南Python爬蟲
- 從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲Python爬蟲
- 【從零開始學爬蟲】任務屬性配置中的兩點技巧爬蟲
- 資料採集爬蟲ip代理基本原理爬蟲
- 網站如何判斷爬蟲在採集資料?網站爬蟲
- 從零開始,如何用puppeteer寫一個爬蟲指令碼爬蟲指令碼
- python爬蟲 之 scrapy框架採集2000期彩票資料Python爬蟲框架
- 想做資料科學家/工程師?從零開始系統規劃大資料學習之路資料科學工程師大資料
- 從零開始學Spring Boot系列-返回json資料Spring BootJSON
- Python 從零開始爬蟲(六)——動態爬取解決方案 之 手動分析Python爬蟲
- 如何提高爬取爬蟲採集的效率?爬蟲
- 從零開始學PythonPython
- 【從零開始學習 MySql 資料庫】(2) 函式MySql資料庫函式
- 大資料學習路線(自己制定,從零開始)大資料
- 【python爬蟲實戰】使用Selenium webdriver採集山東招考資料Python爬蟲Web
- Python網路爬蟲資料採集實戰:Requests和Re庫Python爬蟲
- 從零開始學Java,如何拿高工資?Java
- 從零開始學 Spring BootSpring Boot
- 從零開始學正則
- 從零開始學習laravelLaravel
- 從零開始學習KafkaKafka
- 【ROS】從零開始學ROSROS
- HTTP代理如何助力爬蟲採集工作?HTTP爬蟲
- 從零開始JAVA資料結構學習筆記(一)Java資料結構筆記