【從零開始學爬蟲】採集全國曆史天氣資料

前嗅大資料發表於2022-12-22

l 採集網站

【場景描述】 採集全國曆史 天氣資料。

【源網站介紹】 天氣後報網提供全國曆史天氣查詢、歷史天氣預報溫度記錄查詢,歷史天氣資料包含全國各城市區縣的最高溫度、最低氣溫、天氣狀況、風力風向等天氣指標。

【使用工具】 前嗅ForeSpide r資料 集系統, 免費下載:

【入口網址】

【採集內容】

採集天氣後報上的全國各城市的歷史 天氣資料。


【採集效果】

如下圖所示:



思路分析

配置思路概覽:

配置步驟

1.新建採集任務

選擇【採集配置】,點選任務列表右上方【+】號可新建採集任務,將採集入口地址填寫在【採集地址】框中,【任務名稱】自定義即可,點選下一步。


2.獲取城市連結

採用連結過濾的方法來抽取城市連結,具體如下所示:
①點選採集預覽,先觀察城市連結規律,找到規律,很明顯城市連結中都包含:城市名全拼.html

 

②設定地址過濾,過濾包含“\c.html”的連結,\c表示一串英文字母,這樣就把城市連結過濾出來了。

 

3.抽取各月連結

①新建模板02,在模板02下新建一個連結抽取,改名為【月份連結】。

 

②關聯模板,將城市連結抽取,關聯模板02。

 

③使用連結過濾的方法來獲取列表連結,先採集預覽,開啟列表連結預覽結果,找到月份連結並觀察規律,發現其中都包括:“城市名全拼/month/月份日期.html”

 

③設定地址過濾,過濾包含“\c/month/\d.html”的連結,\c表示一串英文字母,\d表示一串數字,這樣就把月份連結過濾出來了。

 

4.抽取歷史天氣資料

①新建模板03,在其下新建一個資料抽取模板,具體操作如下所示:

 

②資料建表,按照下圖所示建資料表。(注意欄位屬性等應嚴格按照下圖進行設定)

 

③將新建好的資料表,關聯到模板中去,如下圖所示:

 

④填寫示例地址

採集預覽,複製任意一條月份連結。

⑤將連結貼上到本模板示例地址中,並雙擊內建瀏覽器空白部分,載入本連結。

 

⑥關聯模板

將模板月份連結抽取模板關聯模板03,如下圖所示:

 

⑦識別列表

選擇資料抽取模板,然後如下圖所示,識別列表。

 

 

⑧資料取值

使用定位取值和資料清洗的方法,title欄位如下所示:

 

Date_欄位如下所示:



trend欄位如下所示:


Weather欄位如下所示:


Temp_欄位如下所示:

 

⑧採集預覽

採集預覽如下圖所示,說明配置成功,可以開始採集。如果有哪個欄位或者資料沒有出來,再次檢查之前配置,正確配置模板。


採集步驟

模板配置完成,採集預覽沒有問題後,可以進行資料採集。

1.建立資料表單

選擇【資料建表】,點選【表單列表】中該模板的表單,在【關聯資料表】中選擇【建立】,表名稱自定義,這裡命名為【tianqi】(注意命名不能用數字和特殊符號),點選【確定】。建立完成,勾選資料表,並點選右上角儲存按鈕。


2.開始採集

選擇【資料採集】,勾選任務名稱,點選【開始採集】,則正式開始採集。

 

3.匯出資料

採集結束後,可以在【資料瀏覽】中,選擇資料表檢視採集資料,並可以匯出資料。

 


匯出的檔案開啟如下圖所示:


本教程僅供教學使用,嚴禁用於商業用途!


l 前嗅簡介

前嗅大資料,國內領先的研發型大資料專家,多年來致力於為大資料技術的研究與開發,自主研發了一整套從資料採集、分析、處理、管理到應用、營銷的大資料產品。前嗅致力於打造國內第一家深度大資料平臺!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2929057/,如需轉載,請註明出處,否則將追究法律責任。

相關文章