爬蟲分享風雲2號衛星氣象照片

opengps發表於2020-01-27

爬蟲概述

早在2016年,我用我的 上執行了一個長期性質的爬蟲程式,內容是採集風雲二號氣象衛星照片,現在假期終於有時間回來檢視結果,簡單統計如下(附圖):

圖片總數:45869 個檔案

最早檔案:201609131345.jpg

最晚檔案:201910091415.jpg

爬蟲分享風雲2號衛星氣象照片


爬蟲執行過程

1,資料來源:

當時意外獲得一個長期有效的資料來源,其URL引數,為時間格式,也就是說有著明顯的規律。適合爬蟲執行

2,爬蟲執行:

這個爬蟲的執行條件其實有2個:1定時下載;2不停機執行;

既然是氣象資料,當然得定時抓取,所以我寫了一個windows服務,置於後臺連續執行。雖然中間由於伺服器其他問題導致中斷過幾次,不過架不住時間長久,因此還是成功連續採集了很多資料。

還有個要求就是不能關機,程式需要連續執行。我的最終方案就是使用 部署執行。避免使用個人PC長期開機來執行。

3,處理儲存:

首先,這個程式既然要長期執行,那麼非常避諱的一點就是所有結果都集中在一個本地資料夾裡,因此我選用了阿里雲物件儲存OSS,同時由於我需要不關機,所以我最終是 + ,ECS和OSS使用了同地域的,因此內網打通傳輸很快。這樣我就只在本地做一個臨時儲存,轉存OSS後不再佔用本地硬碟,這樣一來我才可以放心啟動後“免維護”執行這好幾年。

4,爬蟲關停

爬蟲的關停並非我本意,是我假期期間檢視日誌才知道資料來源已經失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效資料來源,但是由於老資料我都沒用好,那麼新的資料就暫時先不去尋找了。


爬蟲工作完成,最終成果下載

我選用了阿里雲推薦的OSS客戶端工具,由於我提前規劃好了ECS和OSS同地域,因此可以直接內網下載到我的ECS,速度還是很快的,工具顯示大於60MB/s。工具部分截圖如圖:

爬蟲分享風雲2號衛星氣象照片


為了避免OSS公網下載流量的費用支出(其實是窮:直接下載6G大小檔案,忙時價格為1塊5毛錢),我將OSS資料內網下載後,走ECS的出頻寬下載回我PC本地。本地檢視:

爬蟲分享風雲2號衛星氣象照片


原文地址:   文章的更新編輯依此連結為準。歡迎關注源站原創文章!



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913627/viewspace-2674305/,如需轉載,請註明出處,否則將追究法律責任。

相關文章