爬蟲分享風雲2號衛星氣象照片
爬蟲概述
早在2016年,我用我的 上執行了一個長期性質的爬蟲程式,內容是採集風雲二號氣象衛星照片,現在假期終於有時間回來檢視結果,簡單統計如下(附圖):
圖片總數:45869 個檔案
最早檔案:201609131345.jpg
最晚檔案:201910091415.jpg
爬蟲執行過程
1,資料來源:
當時意外獲得一個長期有效的資料來源,其URL引數,為時間格式,也就是說有著明顯的規律。適合爬蟲執行
2,爬蟲執行:
這個爬蟲的執行條件其實有2個:1定時下載;2不停機執行;
既然是氣象資料,當然得定時抓取,所以我寫了一個windows服務,置於後臺連續執行。雖然中間由於伺服器其他問題導致中斷過幾次,不過架不住時間長久,因此還是成功連續採集了很多資料。
還有個要求就是不能關機,程式需要連續執行。我的最終方案就是使用 部署執行。避免使用個人PC長期開機來執行。
3,處理儲存:
首先,這個程式既然要長期執行,那麼非常避諱的一點就是所有結果都集中在一個本地資料夾裡,因此我選用了阿里雲物件儲存OSS,同時由於我需要不關機,所以我最終是 + ,ECS和OSS使用了同地域的,因此內網打通傳輸很快。這樣我就只在本地做一個臨時儲存,轉存OSS後不再佔用本地硬碟,這樣一來我才可以放心啟動後“免維護”執行這好幾年。
4,爬蟲關停
爬蟲的關停並非我本意,是我假期期間檢視日誌才知道資料來源已經失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效資料來源,但是由於老資料我都沒用好,那麼新的資料就暫時先不去尋找了。
爬蟲工作完成,最終成果下載
我選用了阿里雲推薦的OSS客戶端工具,由於我提前規劃好了ECS和OSS同地域,因此可以直接內網下載到我的ECS,速度還是很快的,工具顯示大於60MB/s。工具部分截圖如圖:
為了避免OSS公網下載流量的費用支出(其實是窮:直接下載6G大小檔案,忙時價格為1塊5毛錢),我將OSS資料內網下載後,走ECS的出頻寬下載回我PC本地。本地檢視:
原文地址:
文章的更新編輯依此連結為準。歡迎關注源站原創文章!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913627/viewspace-2674305/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python爬蟲2Python爬蟲
- Python爬蟲--2Python爬蟲
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- Python爬蟲教程+書籍分享Python爬蟲
- python爬蟲庫技術分享Python爬蟲
- 2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲Python爬蟲框架分散式
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 歐科微“翔雲”衛星星座-低軌衛星通訊星座
- 分享個人開源爬蟲框架爬蟲框架
- 工業物聯網解決方案:風沙氣象資料實時上雲監控
- 基於Python的簡單天氣爬蟲程式Python爬蟲
- 2、爬蟲-安裝anaconda工具爬蟲
- 手把手教你寫網路爬蟲(2):迷你爬蟲架構爬蟲架構
- 爬蟲百戰穿山甲(2):百度翻譯爬蟲爬蟲
- 2024,氣象院排行
- 【定位不準的煩心事系列】第2篇:衛星訊號弱到底是咋回事
- 2019最新Python爬蟲教程+書籍分享Python爬蟲
- 8個高效的Python爬蟲框架分享!Python爬蟲框架
- python爬蟲獲取天氣網實時資料Python爬蟲
- 爬蟲:多程式爬蟲爬蟲
- “創新雷神號”衛星成功發射,華為雲分散式雲原生“天地一體”首次組網成功分散式
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 網易雲音樂評論爬蟲(1):全部熱門歌曲及其 id 號爬蟲
- 雷達氣象學(7)——反射率因子圖分析(氣象回波篇)反射
- 雷達氣象學(4)——雷達引數和雷達氣象方程
- nodejs + koa2 實現爬蟲NodeJS爬蟲
- python爬蟲—學習筆記-2Python爬蟲筆記
- 網易雲音樂評論爬蟲(2):歌曲的全部評論爬蟲
- 通用爬蟲與聚焦爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- 個人分享 | 我的常規爬蟲流程爬蟲
- 乾貨分享!Python網路爬蟲實戰Python爬蟲
- Python爬蟲實踐--爬取網易雲音樂Python爬蟲
- SpaceX發射46顆星鏈衛星
- 爬蟲(6) - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用爬蟲網頁
- 爬蟲進階:反反爬蟲技巧爬蟲
- 反爬蟲之字型反爬蟲爬蟲
- 雷達氣象學(2)——雷達電磁波的衰減