那些年，我爬過的北科(六)——反反爬蟲之js渲染

叄公子KCN發表於2019-03-01

原文網址 : https://flycode.co/archives/267664

爬蟲JS

反爬蟲和反反爬蟲？

從本章開始，我們將要進入反反爬蟲篇的內容。

感覺如果是第一聽到這個名字的讀者肯定是懵逼的狀態。現在我們先來介紹一下什麼是爬蟲、反爬蟲、反反爬蟲。

爬蟲其實就是我們前面所學的程式碼，直接使用requests.get("http://xxx.com")就能拿到網站的原始碼。

但是很多時候，我們獲取的都是有價值的資料，而網站開發者就不想讓我們拿到他們的資料，就有了很多反爬蟲的策略，不讓我們那麼容易的爬取到資料。反爬蟲的策略其實其實主要就是三個方面：

①JS加密：HTML是用js程式碼生成的，不讓我們拿到html。
②禁IP：我們寫爬蟲的時候，一般用一個ip爬取，如果訪問頻率過高，網站開發者可以不讓我們這個ip訪問網站。
③驗證碼：獲取資料之前要先輸入驗證碼。

當然，除了這三個，還有些別的東西，比如說User-Agent識別這樣的就屬於比較基本的了，我們這裡就不展開了。

而反反爬蟲，其實就是針對上面的三個方面給出解決方案：

①針對JS加密：我們可以使用無頭瀏覽器渲染js，再解析渲染後的html程式碼。
②針對禁IP：我們可以使用代理ip等方式，用不同的ip訪問網站。
③針對驗證碼：我們可以對驗證碼進行識別，也可以使用雲打碼這種人工驗證碼平臺。

關於爬蟲、反爬蟲、反反爬蟲的故事，知乎上的這個回答描繪的非常形象。

如何應對網站反爬蟲策略？如何高效地爬大量資料? - 申玉寶的回答 - 知乎 www.zhihu.com/question/28…

本章內容

通過上面的介紹，讀者應該對反反爬蟲有了一個基本的認識了。本章將要對反爬蟲的第一個方案：JS加密，進行反反爬蟲。

嘗試爬取 baidu.com

在介紹反反爬蟲方法之前，我們先拿百度測試一下。這裡假設我們想爬一爬百度搜尋美女的搜尋結果，也就是這個連結：www.baidu.com/s?wd=%E7%BE…（注：這裡URL進行了url編碼）

我們先用之前超級好用的requests庫試一下。

稍微懂點兒html的就知道，這裡沒看到所謂的美女圖，反而還讓我們跳轉回www.baidu.com/。

什麼是無頭瀏覽器？

上面我們用requests.get什麼都沒看到，但我們用瀏覽器訪問www.baidu.com/s?wd=%E7%BE…的時候，的的確確看到了搜尋結果的。

用requests不行，明顯是百度的後臺識別出來我們是低劣的爬蟲程式，鄙視我們，什麼都不給我們。

既然用瀏覽器可以，我們是不是可以通過Api呼叫我們的瀏覽器然後爬取搜尋結果呢？

確實是可以，而且還有種瀏覽器叫：Headless Browser，也就是無頭瀏覽器，沒有介面的瀏覽器。如果有介面的話，我們可能還要用顯示卡去渲染圖形頁面，非常耗費欄位，這簡直是專門為爬蟲開發者設計的。

Phantomjs

我們這裡主要介紹的一款無頭瀏覽器名叫：PhantomJS。雖然它現在已經不更新了，但不妨礙我們繼續使用它。

下載PhantomJS

我們首先下載安裝PhantomJS，下載連結為：phantomjs.org/download.ht…。

下載後解壓可以看到在bin目錄下面有一個phantomjs的可執行檔案。（如果是windows的話就是phantomjs.exe）

安裝selenium

接下來我們需要安裝selenium，直接使用pip命令即可。

pip install selenium
複製程式碼

selenium是一個用於Web應用程式測試的工具。它相容各種瀏覽器，包括：PhantomJS、Chrome、FireFox等。

phantomjs預設的話要用JavaScript寫程式碼。安裝了selenium，我們就可以使用python進行操作了。

使用PhantomJS爬取百度

以上安裝好了之後，我們再嘗試使用phantomjs爬取一下百度。程式碼如下：

from selenium import webdriver

exe_path = "/usr/bin/phantomjs"
driver = webdriver.PhantomJS(executable_path=exe_path)

driver.get("https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3")

driver.save_screenshot("screenshot.png")  # 截個圖
print(driver.page_source)  # 列印原始碼

driver.quit()
複製程式碼

這裡需要根據自己phantomjs的下載路徑配置exe_path。然後首先建立一個driver物件，呼叫get訪問頁面，就會自動渲染內部的js，顯示出結果。

注意：在不使用了之後，要呼叫driver.quit()退出，要不然後臺會有很多phantomjs程式。

這裡我們呼叫selenium的截圖方法看下結果。

可以看到我們連網頁的截圖都弄出來了。selenium除了截圖之外，還支援很多使用js才能完成的操作，比如說：模擬點選、滾動等等。如果讀者感興趣可以自己去研究。

修改PhantomJS的UA

PhantomJS預設的User-Agent使用的是：PhantomJS。如果我們帶著這個會很容易被網站檢測出來，我們可以在建立driver的時候加入配置修改PhantomJS的UA，讓它偽裝成Chrome瀏覽器。程式碼實現如下：

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')
exe_path = "/usr/bin/phantomjs"
driver = webdriver.PhantomJS(executable_path=exe_path, desired_capabilities=dcap)
複製程式碼

Chrome的無頭模式

PhantomJS訪客檢測

當然，有的時候，你會發現有些網站你用了PhantomJS還是爬不了，筆者就遇到過這樣的場景。這是因為PhantomJS建立在Qt框架。而Qt實現HTTP棧的方式使它和其他現代瀏覽器不一樣。

在Chrome中，發出Http請求的head如下：

GET / HTTP/1.1
Host: localhost:1337
Connection: keep-alive
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36
Accept-Encoding: gzip, deflate, sdch
Accept-Language: en-US,en;q=0.8,ru;q=0.6
複製程式碼

然而在PhantomJS，相同的HTTP請求是這樣的：

GET / HTTP/1.1
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X) AppleWebKit/534.34 (KHTML, like Gecko) PhantomJS/1.9.8 Safari/534.34
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Connection: Keep-Alive
Accept-Encoding: gzip
Accept-Language: en-US,*
Host: localhost:1337
複製程式碼

你會注意到PhantomJS頭是不同於Chrome(事實證明,其他所有現代瀏覽器)有一些微妙的不同:

主機（host）出現最後一行
連線頭（Connection）是大小寫混合
唯一的接受編碼值是gzip

在伺服器上檢查這些HTTP頭的變化，它應該可以識別PhantomJS瀏覽器。

Selenium+Chrome

如果讀者真的碰到這種情況的話，就可以考慮用別的無頭瀏覽器了，比如說Chrome的無頭模式。

Chrome的無頭模式和selenium也可以結合在一起使用。這裡首先需要下載chromedriver，然後通過selenium的API使用即可。以下為簡單的示例，如果讀者對這個感興趣，可以查閱自行百度查詢教程。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path='/usr/bin/chromedriver')
複製程式碼

另一個工具：Splash

這裡還有一款工具叫Splash，它是一個JavaScript渲染服務，基於Twisted和QT5，提供了Http的API。

相比PhantomJS和Chrome的無頭模式，Splash的效能會好很多，而且可以支援併發渲染，不過需要跑Docker。

兩個比較火的Python爬蟲框架：Scrapy以及PySpider就是使用Splash作為JS渲染引擎。

這裡筆者只是簡單進行介紹，如果讀者對這個感興趣，可以查閱自行百度查詢教程。

Reference

反爬蟲之檢測 PhantomJS 訪客

那些年，我爬過的北科(八)——反反爬蟲之驗證碼識別
2018-12-08
爬蟲
那些年，我爬過的北科(序)——我和爬蟲的緣分
2018-12-08
爬蟲
那些年，我爬過的北科(二)——爬蟲基礎之session登陸
2018-12-08
爬蟲Session
那些年，我爬過的北科(四)——爬蟲進階之極簡併行爬蟲框架開發
2019-03-04
爬蟲框架
那些年，我爬過的北科(一)——爬蟲基礎之環境搭建與入門
2019-02-15
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
反爬與反反爬
2024-07-05
python爬蟲之JS逆向
2022-06-11
Python爬蟲JS
爬蟲案例（六）
2020-11-03
爬蟲
python爬蟲之js逆向（三）
2020-01-06
Python爬蟲JS
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
爬一爬那些年你硬碟存過的“老師”
2019-03-02
硬碟
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
Python爬蟲之JS逆向分析技巧
2020-04-17
Python爬蟲JS
Python反反爬蟲實戰，JS解密入門案例，詳解呼叫有道翻譯
2020-10-22
Python爬蟲JS解密
常見的6種應用層反反爬蟲的技術
2019-01-23
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲之股票定向爬取
2018-12-06
爬蟲
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
python爬蟲js逆向
2019-09-22
Python爬蟲JS
六種高效爬蟲框架
2022-06-07
爬蟲框架
我去！爬蟲遇到字型反爬，哭了
2021-06-07
爬蟲
python爬蟲十二：middlewares的使用，爬取糗事百科
2018-05-31
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
我爬取了爬蟲崗位薪資，分析後發現爬蟲真香
2020-12-09
爬蟲
爬蟲中網路請求的那些事之urllib庫
2022-03-19
爬蟲
我常用的puppeteer爬蟲api
2018-05-25
爬蟲API
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
爬蟲之xpath的使用
2024-04-02
爬蟲
Python爬蟲進階之JS逆向入門
2019-05-29
Python爬蟲JS
Python爬蟲js處理
2020-03-31
Python爬蟲JS
爬蟲學習日記（六）
2019-01-14
爬蟲
爬蟲學習日記（六）完成第一個爬蟲任務
2019-01-10
爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
當我遇到了爬蟲
2024-06-03
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲：多程式爬蟲
2021-05-19
爬蟲