爬蟲入門基礎-Python

Laical發表於2020-05-09

原文網址 : https://learnku.com/articles/44304

爬取資料

這一步，你要明確要得到的內容是什麼？是HTML原始碼，還是Json格式的字串等。

1. 最基本的爬取

抓取大多數情況屬於get請求，即直接從對方伺服器上獲取資料。

首先，Python中自帶urllib及urllib2這兩個模組，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

import requests url = current.ip.16yun.cn:802 response = requests.get(url) content = requests.get(url).content print(“response headers:”, response.headers) print(“content:”, content)

此外，對於帶有查詢欄位的url，get請求一般會將來請求的資料附在url之後，以?分割url和傳輸資料，多個引數用&連線。

import requests data = {‘wd’:’nike’, ‘ie’:’utf-8’} url=’https://www.baidu.com' response = requests.get(url=url, params=data)

2. 對於登陸情況的處理

2.1 使用表單登陸

這種情況屬於post請求，即先向伺服器傳送表單資料，伺服器再將返回的cookie存入本地。

import requests data = {‘data1’:’XXXXX’, ‘data2’:’XXXXX’} response = requests.post(url=url, data=data)

2.2 使用cookie登陸

使用cookie登陸，伺服器會認為你是一個已登陸的使用者，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

#! -- encoding:utf-8 -- import requests import random import requests.adapters # 要訪問的目標頁面 targetUrlList = [ “https://httpbin.org/ip", “https://httpbin.org/headers", “https://httpbin.org/user-agent", ] # 代理伺服器(產品官網 www.16yun.cn) proxyHost = “t.16yun.cn” proxyPort = “31111” # 代理隧道驗證資訊 proxyUser = “username” proxyPass = “password” proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % { “host”: proxyHost, “port”: proxyPort, “user”: proxyUser, “pass”: proxyPass, } # 設定 http和https訪問都是用HTTP代理 proxies = { “http”: proxyMeta, “https”: proxyMeta, } # 訪問三次網站，使用相同的Session(keep-alive)，均能夠保持相同的外網IP s = requests.session() # 設定cookie cookie_dict = {“JSESSION”:”123456789”} cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True) s.cookies = cookies for i in range(3): for url in targetUrlList: r = s.get(url, proxies=proxies) print r.text

若存在驗證碼，此時採用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies) response1 = requests.get(url_login) # 未登陸 response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！ response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

3. 對於反爬蟲機制的處理

3.1 使用代理

適用情況：大部分網站均限制了IP的訪問量

對於“頻繁點選”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

#! -- encoding:utf-8 -- import requests import random # 要訪問的目標頁面 targetUrl = “http://httpbin.org/ip" # 要訪問的目標HTTPS頁面 # targetUrl = “https://httpbin.org/ip" # 代理伺服器(產品官網 www.16yun.cn) proxyHost = “t.16yun.cn” proxyPort = “31111” # 代理隧道驗證資訊 proxyUser = “username” proxyPass = “password” proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % { “host” : proxyHost, “port” : proxyPort, “user” : proxyUser, “pass” : proxyPass, } # 設定 http和https訪問都是用HTTP代理 proxies = { “http” : proxyMeta, “https” : proxyMeta, } # 設定IP切換頭 tunnel = random.randint(1,10000) headers = {“Proxy-Tunnel”: str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text

3.2 時間設定

適用情況：限制頻率情況。大部分網站有頻率限制，比如搜尋後需要一定間隔才能獲取詳情頁面等。

我們可以用sleep方式來做出以下延遲。

import time time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer資訊還會檢查你的Referer是否合法，一般再加上Referer。

User-Agent可以用億牛雲提供給的真實庫，Referer的來源可以偽裝成百度搜尋來的。

headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36’, ‘Referer’:’https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'} response = requests.get(url=url, headers=headers)

4. 對於Ajax請求的處理

對於“載入更多”情況，使用Ajax來傳輸很多資料。

它的工作原理是：從網頁的url載入網頁的原始碼之後，會在瀏覽器裡執行JavaScript程式。這些程式會載入更多的內容，“填充”到網頁裡。這就是為什麼如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。

這裡，若使用Google Chrome分析”請求“對應的連結(方法：右鍵→審查元素→Network→清空，點選”載入更多“，出現對應的GET連結尋找Type為text/html的，點選，檢視get引數或者複製Request URL)，迴圈過程。

如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax地址的資料。
對返回的json格式資料(str)進行正則匹配。json格式資料中，需從’\uxxxx’形式的unicode_escape編碼轉換成u’\uxxxx’的unicode編碼。

爬取有兩個需要注意的問題：

如何處理js生成的cookie
如何控制頻率和利用代理破除反爬限制

本作品採用《CC 協議》，轉載必須註明作者和本文連結

爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
Python：基礎&爬蟲
2023-10-29
Python爬蟲
python-爬蟲入門
2024-09-22
Python爬蟲
python爬蟲基礎概念
2020-05-11
Python爬蟲
python_爬蟲基礎
2024-07-30
Python爬蟲
爬蟲開發知識入門基礎（1）
2020-06-22
爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
Python爬蟲從入門到精通系列──第1課基礎知識
2019-01-17
Python爬蟲
python3 爬蟲入門
2021-09-09
Python爬蟲
Python爬蟲基礎之selenium
2022-07-13
Python爬蟲
python爬蟲基礎之urllib
2020-11-26
Python爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
零基礎入門學習Python爬蟲必備的知識點！
2018-09-26
Python爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲入門
2024-04-13
爬蟲
爬蟲基礎
2019-03-30
爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
Python3 爬蟲快速入門攻略
2018-12-07
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
python入門之爬蟲工具有哪些？
2021-09-11
Python爬蟲
python爬蟲基礎與http協議
2019-03-25
Python爬蟲HTTP協議
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
【總結】10款Python爬蟲框架！Python入門
2021-05-20
Python爬蟲框架
爬蟲基礎---1
2019-01-06
爬蟲
爬蟲基礎篇
2020-07-31
爬蟲
Python 從入門到爬蟲極簡教程
2019-02-16
Python爬蟲