python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）

weixin_30639719發表於2020-04-05

python 爬蟲 爬取哈爾濱天氣資訊 - http://www.weather.com.cn/weather/101050101.shtml

環境：

windows7

python3.4（pip install requests；pip install BeautifulSoup4）

程式碼：（親測可以正確執行）

 1 # coding:utf-8
 2 """
 3 總結一下，從網頁上抓取內容大致分3步：
 4 1、模擬瀏覽器訪問，獲取html原始碼
 5 2、通過正則匹配，獲取指定標籤中的內容
 6 3、將獲取到的內容寫到檔案中
 7 """
 8 import requests  # 用來抓取網頁的html原始碼
 9 import csv  # 將資料寫入到csv檔案中
10 import random  # 取隨機數
11 import time  # 時間相關操作
12 import socket  # 用於異常處理
13 import http.client  # 用於異常處理
14 from bs4 import BeautifulSoup  # 用來代替正則式取原始碼中相應標籤中的內容
15 
16 
17 # 獲取網頁中的html程式碼
18 def get_content(url, data=None):
19     header = {
20         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
21         'Accept-Encoding': 'gzip, deflate',
22         'Accept-Language': 'zh-CN,zh;q=0.9',
23         'Connection': 'keep-alive',
24         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
25     }
26     timeout = random.choice(range(80, 180))  # timeout是設定的一個超時時間，取隨機數是因為防止被網站認定為網路爬蟲
27     while True:
28         try:
29             rep = requests.get(url, headers=header, timeout=timeout)
30             rep.encoding = 'utf-8'  # rep.encoding = ‘utf-8’是將原始碼的編碼格式改為utf-8
31             break
32         except socket.timeout as e:
33             print('3:', e)
34             time.sleep(random.choice(range(8, 15)))
35 
36         except socket.error as e:
37             print('4:', e)
38             time.sleep(random.choice(range(20, 60)))
39 
40         except http.client.BadStatusLine as e:
41             print('5:', e)
42             time.sleep(random.choice(range(30, 80)))
43 
44         except http.client.IncompleteRead as e:
45             print('6:', e)
46             time.sleep(random.choice(range(5, 15)))
47 
48     return rep.text
49 
50 
51 # 獲取html中我們所需要的欄位
52 def get_data(html_text):
53     final = []
54     bs = BeautifulSoup(html_text, "html.parser")  # 建立BeautifulSoup物件
55     body = bs.body  # 獲取body部分
56     data = body.find('div', {'id': '7d'})  # 找到id為7d的div
57     ul = data.find('ul')  # 獲取ul部分
58     li = ul.find_all('li')  # 獲取所有的li
59 
60     for day in li:  # 對每個li標籤中的內容進行遍歷
61         temp = []
62         date = day.find('h1').string  # 找到日期
63         temp.append(date)  # 新增到temp中
64         inf = day.find_all('p')  # 找到li中的所有p標籤
65         temp.append(inf[0].string, )  # 第一個p標籤中的內容（天氣狀況）加到temp中
66         if inf[1].find('span') is None:
67             temperature_highest = None  # 天氣預報可能沒有當天的最高氣溫（到了傍晚，就是這樣），需要加個判斷語句,來輸出最低氣溫
68         else:
69             temperature_highest = inf[1].find('span').string  # 找到最高溫
70             temperature_highest = temperature_highest.replace('℃', '')  # 到了晚上網站會變，最高溫度後面也有個℃
71         temperature_lowest = inf[1].find('i').string  # 找到最低溫
72         temperature_lowest = temperature_lowest.replace('℃', '')  # 最低溫度後面有個℃，去掉這個符號
73         temp.append(temperature_highest)  # 將最高溫新增到temp中
74         temp.append(temperature_lowest)  # 將最低溫新增到temp中
75         final.append(temp)  # 將temp加到final中
76 
77     return final
78 
79 
80 # 寫入檔案csv
81 def write_data(data, name):
82     file_name = name
83     with open(file_name, 'a', errors='ignore', newline='') as f:
84         f_csv = csv.writer(f)
85         f_csv.writerows(data)
86 
87 
88 if __name__ == '__main__':
89     url = 'http://www.weather.com.cn/weather/101050101.shtml'
90     html = get_content(url)
91     result = get_data(html)
92     write_data(result, 'weather.csv')

講解：

python標準庫-----內建函式open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函式作用：開啟一個檔案並返回檔案物件。如果檔案不能開啟，丟擲異常OSError。
file：是一個字串的檔名稱，或者是一個陣列表示的檔名稱。檔名稱可以是相對當前目錄的路徑，也可以是絕對路徑表示。
mode：是指開啟檔案的模式。

1）‘r’表示開啟檔案只讀，不能寫。

2）‘w’表示開啟檔案只寫，並且清空檔案。

3）‘x’表示獨佔開啟檔案，如果檔案已經存開啟就會失敗。

4）‘a’表示開啟檔案寫，不清空檔案，在檔案後尾追加的方式寫入。

5）‘b’表示二進位制的模式開啟檔案。

6）‘t’表示文字模式，預設情況下就是這種模式。

7）‘+’開啟檔案更新（讀取或寫入）。

8）預設時的模式就相當於’rt’。比如’w+b’就是開啟檔案進入讀寫，把檔案清空；’r+b’開啟檔案，但不把檔案清空。

引數buffering是一個可選的引數，用來表示緩衝區的策略選擇。設定為0時，表示不使用緩衝區，直接讀寫，僅在二進位制模式下有效。設定為1時，表示在文字模式下使用行緩衝區方式。設定為大於1時，表示緩衝區的設定大小。如果引數buffering沒有給出，使用預設時，會採用下面策略來選擇：

1）對於二進位制檔案模式時，採用固定塊記憶體緩衝區方式，記憶體塊的大小根據系統裝置的分配的磁碟塊來決定，如果獲取系統磁碟塊的大小失敗，就使用內部常量io.DEFAULT_BUFFER_SIZE定義的大小。一般的作業系統上，塊的大小是4096或者8192位元組大小。

2）對於互動的文字檔案（採用isatty()判斷為True）時，採用一行緩衝區的方式。其它文字檔案使用跟二進位制一樣的方式。
引數encoding是指明對檔案編碼，僅適用於文字檔案。如果不明編碼方式，預設是使用locale.getpreferredencoding()函式返回的編碼方式。
引數errors是用來指明編碼和解碼錯誤時怎麼樣處理。不能在二進位制的模式下使用。

1）當指明為’strict’時，編碼出錯則丟擲異常ValueError。

2）當指明為’ignore’時，忽略錯誤。

3）當指明為’replace’時，使用某字元進行替代模式，比如使用’?’來替換出錯的。

4）其它相應還有surrogateescape/xmlcharrefreplacs/backslashreplace。
引數newline是用來控制文字模式之下，一行的結束字元。可以是None，’’，\n，\r，\r\n等。

1）當在讀取模式下，如果新行符為None，那麼就作為通用換行符模式工作，意思就是說當遇到\n，\r或\r\n都可以作為換行標識，並且統一轉換為\n作為文字輸入的換行符。當設定為空’’時，也是通用換行符模式工作，但不作轉換為\n，輸入什麼樣的，就保持原樣全輸入。當設定為其它相應字元時，就會判斷到相應的字元作為換行符，並保持原樣輸入到文字。

2）當在輸出模式時，如果新行符為None，那麼所有輸出文字都是採用\n作為換行符。如果設定為’’或者\n時，不作任何的替換動作。如果是其它字元，會在字元後面新增\n作為換行符。

轉載於:https://www.cnblogs.com/sunshine-blog/p/9292875.html

Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
python爬蟲之抓取小說(逆天邪神)
2022-03-10
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
python爬蟲獲取天氣網實時資料
2022-11-29
Python爬蟲
python爬蟲--招聘資訊
2018-11-03
Python爬蟲
爬蟲app資訊抓取之apk反編譯抓取
2019-05-10
爬蟲APPAPK編譯
爬蟲原理與資料抓取
2020-12-17
爬蟲
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
python爬蟲第四天
2019-01-28
Python爬蟲
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
python 爬蟲
2024-04-20
Python爬蟲
python爬蟲
2024-06-13
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
21 天搞定 Python 分佈爬蟲
2019-02-16
Python爬蟲
Python爬蟲入門教程 53-100 Python3爬蟲獲取三亞天氣做旅遊參照
2019-03-21
Python爬蟲
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲
Python爬蟲如何去抓取qq音樂的歌手資料？
2021-03-19
Python爬蟲

python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）

相關文章