Python簡單兩步實現天氣爬蟲採集器

pythontab發表於2013-01-26

說道爬蟲大家或許感覺非常神秘，其實它沒有我們想象的那麼神奇（當然，google和baidu的爬蟲是一場複雜和強大的，它的強大不是爬蟲本身強大，而是後臺的資料處理和資料探勘演算法非常強大），今天我們就來揭開它神秘的面紗。呵呵，簡單兩步就可以實現一個網頁天氣爬蟲程式。。。

爬蟲簡單說來包括兩個部分：1.獲得網頁文字資訊。2.資料分析，獲取其中我們想要的資料。

1、獲得網頁文字資訊。

python在獲取html方面十分方便，有了urllib庫的幫助，只需要幾行程式碼就可以實現我們需要的功能。

#引入urllib庫
import urllib 
def getHtml(url): 
page = urllib.urlopen(url) 
html = page.read() 
page.close() 
return html

這裡返回的就是網頁的原始碼，也就是html程式碼。

那我們如何從中得到我們想要的資訊呢？那就需要用到在網頁分析裡面最最常用的工具 - 正規表示式了。

2、根據正規表示式等獲得需要的內容。

使用正規表示式時需要仔細觀察該網頁資訊的結構，並寫出正確的正規表示式。

python正規表示式的使用也很簡潔：

#引入正規表示式庫
import re
def getWeather(html): 
reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>'
weatherList = re.compile(reg).findall(html) 
return weatherList

說明：

其中reg是正規表示式，html是第一步獲得的文字。findall的作用是找到html中所有符合正則匹配的字串並存放到weatherList中。之後再列舉weatheList中的資料輸出即可。

這裡的正規表示式reg有兩個地方要注意。

一個是“(.*?)”。只要是（）中的內容都是我們將要獲得的內容，如果有多個括號，那麼findall的每個結果就都包含這幾個括號中的內容。上面有三個括號，分別對應城市、最低溫和最高溫。

另一個是“.*?”。python的正則匹配預設是貪婪的，即預設儘可能多地匹配字串。如果在末尾加上問號，則表示非貪婪模式，即儘可能少地匹配字串。在這裡，由於有多個城市的資訊需要匹配，所以需要使用非貪婪模式，否則匹配結果只剩下一個，且是不正確的。

基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
【從零開始學爬蟲】採集全國曆史天氣資料
2022-12-22
爬蟲
利用Python爬蟲爬取天氣資料
2018-02-06
Python爬蟲
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
python爬蟲獲取天氣網實時資料
2022-11-29
Python爬蟲
python 爬蟲簡單實現百度翻譯
2020-04-14
Python爬蟲
運用node實現簡單爬蟲
2018-02-03
爬蟲
Python網路資料採集（爬蟲）
2017-10-15
Python爬蟲
Python爬蟲的兩套解析方法和四種爬蟲實現
2018-07-03
Python爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
BeautifulSoup與正則_簡單爬蟲python3實現
2017-06-12
爬蟲Python
python如何實現簡單的爬蟲功能?Python學習教程!
2021-01-12
Python爬蟲
urllib2實現簡單爬蟲
2014-06-16
爬蟲
使用爬蟲實現拼多多商家電話採集軟體
2023-09-26
爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
Python簡單爬蟲專案
2017-12-26
Python爬蟲
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
Python爬蟲實戰系列4：天眼查公司工商資訊採集
2024-03-20
Python爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
誰說爬蟲只能Python？看我用C#快速簡單實現爬蟲開發和演示！
2024-05-27
爬蟲PythonC#
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
簡單的Python爬蟲就是這麼簡單
2017-12-14
Python爬蟲
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記
Python網路爬蟲資料採集實戰：Requests和Re庫
2020-03-22
Python爬蟲
Python爬蟲初學二（網路資料採集）
2020-05-03
Python爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
分析淘寶店商家電話採集軟體如何用爬蟲實現
2023-10-17
爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
Python爬蟲學習（5）: 簡單的爬取
2016-10-20
Python爬蟲
【python爬蟲實戰】使用Selenium webdriver採集山東招考資料
2020-07-02
Python爬蟲Web
Python爬蟲實戰系列3：今日BBNews程式設計新聞採集
2024-03-15
Python爬蟲程式設計
一篇文章教會你利用Python網路爬蟲實現豆瓣電影採集
2021-09-09
Python爬蟲
HTTP代理如何助力爬蟲採集工作？
2022-05-16
HTTP爬蟲
爬蟲資料採集的工作原理
2022-06-29
爬蟲
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
一個簡單的python爬蟲程式
2016-05-13
Python爬蟲

Python簡單兩步實現天氣爬蟲採集器

1、獲得網頁文字資訊。

2、根據正規表示式等獲得需要的內容。

相關文章