python 爬蟲 爬取哈爾濱天氣資訊 - http://www.weather.com.cn/weather/101050101.shtml
環境:
windows7
python3.4(pip install requests;pip install BeautifulSoup4)
程式碼:(親測可以正確執行)
1 # coding:utf-8 2 """ 3 總結一下,從網頁上抓取內容大致分3步: 4 1、模擬瀏覽器訪問,獲取html原始碼 5 2、通過正則匹配,獲取指定標籤中的內容 6 3、將獲取到的內容寫到檔案中 7 """ 8 import requests # 用來抓取網頁的html原始碼 9 import csv # 將資料寫入到csv檔案中 10 import random # 取隨機數 11 import time # 時間相關操作 12 import socket # 用於異常處理 13 import http.client # 用於異常處理 14 from bs4 import BeautifulSoup # 用來代替正則式取原始碼中相應標籤中的內容 15 16 17 # 獲取網頁中的html程式碼 18 def get_content(url, data=None): 19 header = { 20 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 21 'Accept-Encoding': 'gzip, deflate', 22 'Accept-Language': 'zh-CN,zh;q=0.9', 23 'Connection': 'keep-alive', 24 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 25 } 26 timeout = random.choice(range(80, 180)) # timeout是設定的一個超時時間,取隨機數是因為防止被網站認定為網路爬蟲 27 while True: 28 try: 29 rep = requests.get(url, headers=header, timeout=timeout) 30 rep.encoding = 'utf-8' # rep.encoding = ‘utf-8’是將原始碼的編碼格式改為utf-8 31 break 32 except socket.timeout as e: 33 print('3:', e) 34 time.sleep(random.choice(range(8, 15))) 35 36 except socket.error as e: 37 print('4:', e) 38 time.sleep(random.choice(range(20, 60))) 39 40 except http.client.BadStatusLine as e: 41 print('5:', e) 42 time.sleep(random.choice(range(30, 80))) 43 44 except http.client.IncompleteRead as e: 45 print('6:', e) 46 time.sleep(random.choice(range(5, 15))) 47 48 return rep.text 49 50 51 # 獲取html中我們所需要的欄位 52 def get_data(html_text): 53 final = [] 54 bs = BeautifulSoup(html_text, "html.parser") # 建立BeautifulSoup物件 55 body = bs.body # 獲取body部分 56 data = body.find('div', {'id': '7d'}) # 找到id為7d的div 57 ul = data.find('ul') # 獲取ul部分 58 li = ul.find_all('li') # 獲取所有的li 59 60 for day in li: # 對每個li標籤中的內容進行遍歷 61 temp = [] 62 date = day.find('h1').string # 找到日期 63 temp.append(date) # 新增到temp中 64 inf = day.find_all('p') # 找到li中的所有p標籤 65 temp.append(inf[0].string, ) # 第一個p標籤中的內容(天氣狀況)加到temp中 66 if inf[1].find('span') is None: 67 temperature_highest = None # 天氣預報可能沒有當天的最高氣溫(到了傍晚,就是這樣),需要加個判斷語句,來輸出最低氣溫 68 else: 69 temperature_highest = inf[1].find('span').string # 找到最高溫 70 temperature_highest = temperature_highest.replace('℃', '') # 到了晚上網站會變,最高溫度後面也有個℃ 71 temperature_lowest = inf[1].find('i').string # 找到最低溫 72 temperature_lowest = temperature_lowest.replace('℃', '') # 最低溫度後面有個℃,去掉這個符號 73 temp.append(temperature_highest) # 將最高溫新增到temp中 74 temp.append(temperature_lowest) # 將最低溫新增到temp中 75 final.append(temp) # 將temp加到final中 76 77 return final 78 79 80 # 寫入檔案csv 81 def write_data(data, name): 82 file_name = name 83 with open(file_name, 'a', errors='ignore', newline='') as f: 84 f_csv = csv.writer(f) 85 f_csv.writerows(data) 86 87 88 if __name__ == '__main__': 89 url = 'http://www.weather.com.cn/weather/101050101.shtml' 90 html = get_content(url) 91 result = get_data(html) 92 write_data(result, 'weather.csv')
講解:
python標準庫-----內建函式open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)
- 函式作用:開啟一個檔案並返回檔案物件。如果檔案不能開啟,丟擲異常OSError。
- file:是一個字串的檔名稱,或者是一個陣列表示的檔名稱。檔名稱可以是相對當前目錄的路徑,也可以是絕對路徑表示。
- mode:是指開啟檔案的模式。
1)‘r’表示開啟檔案只讀,不能寫。
2)‘w’表示開啟檔案只寫,並且清空檔案。
3)‘x’表示獨佔開啟檔案,如果檔案已經存開啟就會失敗。
4)‘a’表示開啟檔案寫,不清空檔案,在檔案後尾追加的方式寫入。
5)‘b’表示二進位制的模式開啟檔案。
6)‘t’表示文字模式,預設情況下就是這種模式。
7)‘+’開啟檔案更新(讀取或寫入)。
8)預設時的模式就相當於’rt’。比如’w+b’就是開啟檔案進入讀寫,把檔案清空;’r+b’開啟檔案,但不把檔案 清空。
-
引數buffering是一個可選的引數,用來表示緩衝區的策略選擇。設定為0時,表示不使用緩衝區,直接讀寫,僅在二進位制模式下有效。設定為1時,表示在文字模式下使用行緩衝區方式。設定為大於1時,表示緩衝區的設定大小。如果引數buffering沒有給出,使用預設時,會採用下面策略來選擇:
1)對於二進位制檔案模式時,採用固定塊記憶體緩衝區方式,記憶體塊的大小根據系統裝置的分配的磁碟塊來決定,如果獲取系統磁碟塊的大小失敗,就使用內部常量io.DEFAULT_BUFFER_SIZE定義的大小。一般的作業系統上,塊的大小是4096或者8192位元組大小。
2)對於互動的文字檔案(採用isatty()判斷為True)時,採用一行緩衝區的方式。其它文字檔案使用跟二進位制一樣的方式。
- 引數encoding是指明對檔案編碼,僅適用於文字檔案。如果不明編碼方式,預設是使用locale.getpreferredencoding()函式返回的編碼方式。
-
引數errors是用來指明編碼和解碼錯誤時怎麼樣處理。不能在二進位制的模式下使用。
1)當指明為’strict’時,編碼出錯則丟擲異常ValueError。
2)當指明為’ignore’時,忽略錯誤。
3)當指明為’replace’時,使用某字元進行替代模式,比如使用’?’來替換出錯的。
4)其它相應還有surrogateescape/xmlcharrefreplacs/backslashreplace。
-
引數newline是用來控制文字模式之下,一行的結束字元。可以是None,’’,\n,\r,\r\n等。
1)當在讀取模式下,如果新行符為None,那麼就作為通用換行符模式工作,意思就是說當遇到\n,\r或\r\n都可以作為換行標識,並且統一轉換為\n作為文字輸入的換行符。當設定為空’’時,也是通用換行符模式工作,但不作轉換為\n,輸入什麼樣的,就保持原樣全輸入。當設定為其它相應字元時,就會判斷到相應的字元作為換行符,並保持原樣輸入到文字。
2)當在輸出模式時,如果新行符為None,那麼所有輸出文字都是採用\n作為換行符。如果設定為’’或者\n時,不作任何的替換動作。如果是其它字元,會在字元後面新增\n作為換行符。