【從零開始學爬蟲】採集全國曆史天氣資料
l 採集網站
【場景描述】 採集全國曆史 天氣資料。
【源網站介紹】 天氣後報網提供全國曆史天氣查詢、歷史天氣預報溫度記錄查詢,歷史天氣資料包含全國各城市區縣的最高溫度、最低氣溫、天氣狀況、風力風向等天氣指標。
【使用工具】 前嗅ForeSpide r資料 採 集系統, 免費下載:
【採集內容】
採集天氣後報上的全國各城市的歷史 天氣資料。
【採集效果】
如下圖所示:
l 思路分析
配置思路概覽:
l 配置步驟
1.新建採集任務
選擇【採集配置】,點選任務列表右上方【+】號可新建採集任務,將採集入口地址填寫在【採集地址】框中,【任務名稱】自定義即可,點選下一步。
2.獲取城市連結
採用連結過濾的方法來抽取城市連結,具體如下所示:
①點選採集預覽,先觀察城市連結規律,找到規律,很明顯城市連結中都包含:城市名全拼.html
②設定地址過濾,過濾包含“\c.html”的連結,\c表示一串英文字母,這樣就把城市連結過濾出來了。
3.抽取各月連結
①新建模板02,在模板02下新建一個連結抽取,改名為【月份連結】。
②關聯模板,將城市連結抽取,關聯模板02。
③使用連結過濾的方法來獲取列表連結,先採集預覽,開啟列表連結預覽結果,找到月份連結並觀察規律,發現其中都包括:“城市名全拼/month/月份日期.html”
③設定地址過濾,過濾包含“\c/month/\d.html”的連結,\c表示一串英文字母,\d表示一串數字,這樣就把月份連結過濾出來了。
4.抽取歷史天氣資料
①新建模板03,在其下新建一個資料抽取模板,具體操作如下所示:
②資料建表,按照下圖所示建資料表。(注意欄位屬性等應嚴格按照下圖進行設定)
③將新建好的資料表,關聯到模板中去,如下圖所示:
④填寫示例地址
採集預覽,複製任意一條月份連結。
⑤將連結貼上到本模板示例地址中,並雙擊內建瀏覽器空白部分,載入本連結。
⑥關聯模板
將模板月份連結抽取模板關聯模板03,如下圖所示:
⑦識別列表
選擇資料抽取模板,然後如下圖所示,識別列表。
⑧資料取值
使用定位取值和資料清洗的方法,title欄位如下所示:
Date_欄位如下所示:
trend欄位如下所示:
Weather欄位如下所示:
Temp_欄位如下所示:
⑧採集預覽
採集預覽如下圖所示,說明配置成功,可以開始採集。如果有哪個欄位或者資料沒有出來,再次檢查之前配置,正確配置模板。
l 採集步驟
模板配置完成,採集預覽沒有問題後,可以進行資料採集。
1.建立資料表單
選擇【資料建表】,點選【表單列表】中該模板的表單,在【關聯資料表】中選擇【建立】,表名稱自定義,這裡命名為【tianqi】(注意命名不能用數字和特殊符號),點選【確定】。建立完成,勾選資料表,並點選右上角儲存按鈕。
2.開始採集
選擇【資料採集】,勾選任務名稱,點選【開始採集】,則正式開始採集。
3.匯出資料
採集結束後,可以在【資料瀏覽】中,選擇資料表檢視採集資料,並可以匯出資料。
匯出的檔案開啟如下圖所示:
本教程僅供教學使用,嚴禁用於商業用途!
l 前嗅簡介
前嗅大資料,國內領先的研發型大資料專家,多年來致力於為大資料技術的研究與開發,自主研發了一整套從資料採集、分析、處理、管理到應用、營銷的大資料產品。前嗅致力於打造國內第一家深度大資料平臺!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2929057/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【從零開始學爬蟲】採集全國高校導師資料爬蟲
- 【從零開始學爬蟲】採集收視率排行資料爬蟲
- 【從零開始學爬蟲】採集丁香醫生新冠問答資料爬蟲
- 從零開始寫一個node爬蟲(上)—— 資料採集篇爬蟲
- 從零開始學爬蟲(3):通過MongoDB資料庫獲取爬蟲資料爬蟲MongoDB資料庫
- 【從零開始學爬蟲】建立模板爬蟲
- 《從零開始學Python網路爬蟲》概要Python爬蟲
- 【從零開始學爬蟲】對任務的操作爬蟲
- 利用Python爬蟲爬取天氣資料Python爬蟲
- 【從零開始學爬蟲】模板的高階選項爬蟲
- 從零開始的爬蟲專案(一)爬蟲
- Python簡單兩步實現天氣爬蟲採集器Python爬蟲
- 【從零開始學爬蟲】模板的複製與貼上爬蟲
- 爬蟲資料採集的工作原理爬蟲
- 從零開始寫一個node爬蟲(一)爬蟲
- 從零開始的Python爬蟲速成指南Python爬蟲
- Python爬蟲初學二(網路資料採集)Python爬蟲
- Python網路資料採集(爬蟲)Python爬蟲
- 30天從零開始學習SwiftSwift
- 《從零開始學習Python爬蟲:頂點小說全網爬取實戰》Python爬蟲
- PYTHON系列-從零開始的爬蟲入門指南Python爬蟲
- 從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲Python爬蟲
- 【從零開始學爬蟲】任務屬性配置中的兩點技巧爬蟲
- python爬蟲獲取天氣網實時資料Python爬蟲
- 從零開始,如何用puppeteer寫一個爬蟲指令碼爬蟲指令碼
- 資料採集爬蟲ip代理基本原理爬蟲
- 網站如何判斷爬蟲在採集資料?網站爬蟲
- 社會化海量資料採集爬蟲框架搭建爬蟲框架
- Python爬蟲學習之旅-從基礎開始Python爬蟲
- Rust採集天氣預報資訊並實時更新資料Rust
- 用Python和Pandas以及爬蟲技術統計歷史天氣Python爬蟲
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 如何提高爬取爬蟲採集的效率?爬蟲
- 求助 | 天氣預報資料採集,更新入庫的問題!
- 【從零開始學習 MySql 資料庫】(2) 函式MySql資料庫函式
- 大資料學習路線(自己制定,從零開始)大資料
- 【從零開始學習Oracle資料庫】(2)函式Oracle資料庫函式
- Python 從零開始爬蟲(六)——動態爬取解決方案 之 手動分析Python爬蟲