[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用

崔慶才丨靜覓發表於2019-02-28

原文網址 : https://flycode.co/archives/288741

在前一章中，我們瞭解了Ajax的分析和抓取方式，這其實也是JavaScript動態渲染的頁面的一種情形，通過直接分析Ajax，我們仍然可以藉助requests或urllib來實現資料爬取。

不過JavaScript動態渲染的頁面不止Ajax這一種。比如中國青年網（詳見news.youth.cn/gn/），它的分頁部分是由JavaScript生成的，並非原始HTML程式碼，這其中並不包含Ajax請求。比如ECharts的官方例項（詳見echarts.baidu.com/demo.html#b…），其圖形都是經過JavaScript計算之後生成的。再有淘寶這種頁面，它即使是Ajax獲取的資料，但是其Ajax介面含有很多加密引數，我們難以直接找出其規律，也很難直接分析Ajax來抓取。

為了解決這些問題，我們可以直接使用模擬瀏覽器執行的方式來實現，這樣就可以做到在瀏覽器中看到是什麼樣，抓取的原始碼就是什麼樣，也就是可見即可爬。這樣我們就不用再去管網頁內部的JavaScript用了什麼演算法渲染頁面，不用管網頁後臺的Ajax介面到底有哪些引數。

Python提供了許多模擬瀏覽器執行的庫，如Selenium、Splash、PyV8、Ghost等。本章中，我們就來介紹一下Selenium和Splash的用法。有了它們，就不用再為動態渲染的頁面發愁了。

Selenium是一個自動化測試工具，利用它可以驅動瀏覽器執行特定的動作，如點選、下拉等操作，同時還可以獲取瀏覽器當前呈現的頁面的原始碼，做到可見即可爬。對於一些JavaScript動態渲染的頁面來說，此種抓取方式非常有效。本節中，就讓我們來感受一下它的強大之處吧。

1. 準備工作

本節以Chrome為例來講解Selenium的用法。在開始之前，請確保已經正確安裝好了Chrome瀏覽器並配置好了ChromeDriver。另外，還需要正確安裝好Python的Selenium庫，詳細的安裝和配置過程可以參考第1章。

2. 基本使用

準備工作做好之後，首先來大體看一下Selenium有一些怎樣的功能。示例如下：

from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait browser = webdriver.Chrome()try:    browser.get('https://www.baidu.com')    input = browser.find_element_by_id('kw')    input.send_keys('Python')    input.send_keys(Keys.ENTER)    wait = WebDriverWait(browser, 10)    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))    print(browser.current_url)    print(browser.get_cookies())    print(browser.page_source)finally:    browser.close()複製程式碼

執行程式碼後發現，會自動彈出一個Chrome瀏覽器。瀏覽器首先會跳轉到百度，然後在搜尋框中輸入Python，接著跳轉到搜尋結果頁，如圖7-1所示。

圖7-1 執行結果

搜尋結果載入出來後，控制檯分別會輸出當前的URL、當前的Cookies和網頁原始碼：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=Python&rsv_pq=c94d0df9000a72d0&rsv_t=07099xvun1ZmC0bf6eQvygJ43IUTTUOl5FCJVPgwG2YREs70GplJjH2F%2BCQ&rqlang=cn&rsv_enter=1&rsv_sug3=6&rsv_sug2=0&inputT=87&rsv_sug4=87

[{'secure': False, 'value': 'B490B5EBF6F3CD402E515D22BCDA1598', 'domain': '.baidu.com', 'path': '/', 'httpOnly': False, 'name': 'BDORZ', 'expiry': 1491688071.707553}, {'secure': False, 'value': '22473_1441_21084_17001', 'domain': '.baidu.com', 'path': '/', 'httpOnly': False, 'name': 'H_PS_PSSID'}, {'secure': False, 'value': '12883875381399993259_00_0_I_R_2_0303_C02F_N_I_I_0', 'domain': '.www.baidu.com', 'path': '/', 'httpOnly': False, 'name': '__bsi', 'expiry': 1491601676.69722}]

<!DOCTYPE html>...</html>

原始碼過長，在此省略。可以看到，我們得到的當前URL、Cookies和原始碼都是瀏覽器中的真實內容。

所以說，如果用Selenium來驅動瀏覽器載入網頁的話，就可以直接拿到JavaScript渲染的結果了，不用擔心使用的是什麼加密系統。

下面來詳細瞭解一下Selenium的用法。

3. 宣告瀏覽器物件

Selenium支援非常多的瀏覽器，如Chrome、Firefox、Edge等，還有Android、BlackBerry等手機端的瀏覽器。另外，也支援無介面瀏覽器PhantomJS。

此外，我們可以用如下方式初始化：

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

這樣就完成了瀏覽器物件的初始化並將其賦值為browser物件。接下來，我們要做的就是呼叫browser物件，讓其執行各個動作以模擬瀏覽器操作。

4. 訪問頁面

我們可以用get()方法來請求網頁，引數傳入連結URL即可。比如，這裡用get()方法訪問淘寶，然後列印出原始碼，程式碼如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

print(browser.page_source)

browser.close()

執行後發現，彈出了Chrome瀏覽器並且自動訪問了淘寶，然後控制檯輸出了淘寶頁面的原始碼，隨後瀏覽器關閉。

通過這幾行簡單的程式碼，我們可以實現瀏覽器的驅動並獲取網頁原始碼，非常便捷。

5. 查詢節點

Selenium可以驅動瀏覽器完成各種操作，比如填充表單、模擬點選等。比如，我們想要完成向某個輸入框輸入文字的操作，總需要知道這個輸入框在哪裡吧？而Selenium提供了一系列查詢節點的方法，我們可以用這些方法來獲取想要的節點，以便下一步執行一些動作或者提取資訊。

單個節點

比如，想要從淘寶頁面中提取搜尋框這個節點，首先要觀察它的原始碼，如圖7-2所示。

圖7-2 原始碼

可以發現，它的id是q，name也是q。此外，還有許多其他屬性，此時我們就可以用多種方式獲取它了。比如，find_element_by_name()是根據name值獲取，find_element_by_id()是根據id獲取。另外，還有根據XPath、CSS選擇器等獲取的方式。

我們用程式碼實現一下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element_by_id('q')

input_second = browser.find_element_by_css_selector('#q')

input_third = browser.find_element_by_xpath('//*[@id="q"]')

print(input_first, input_second, input_third)

browser.close()

這裡我們使用3種方式獲取輸入框，分別是根據ID、CSS選擇器和XPath獲取，它們返回的結果完全一致。執行結果如下：

<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")>

可以看到，這3個節點都是WebElement型別，是完全一致的。

這裡列出所有獲取單個節點的方法：

find_element_by_id

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

另外，Selenium還提供了通用方法find_element()，它需要傳入兩個引數：查詢方式By和值。實際上，它就是find_element_by_id()這種方法的通用函式版本，比如find_element_by_id(id)就等價於find_element(By.ID, id)，二者得到的結果完全一致。我們用程式碼實現一下：

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element(By.ID, 'q')

print(input_first)

browser.close()

實際上，這種查詢方式的功能和上面列舉的查詢函式完全一致，不過引數更加靈活。

多個節點

如果查詢的目標在網頁中只有一個，那麼完全可以用find_element()方法。但如果有多個節點，再用find_element()方法查詢，就只能得到第一個節點了。如果要查詢所有滿足條件的節點，需要用find_elements()這樣的方法。注意，在這個方法的名稱中，element多了一個s，注意區分。

比如，要查詢淘寶左側導航條的所有條目，如圖7-3所示。

圖7-3 導航欄

就可以這樣來實現：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

browser.close()

執行結果如下：

[<selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-1")>, <selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-2")>, <selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-3")>...<selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-16")>]

這裡簡化了輸出結果，中間部分省略。

可以看到，得到的內容變成了列表型別，列表中的每個節點都是WebElement型別。

也就是說，如果我們用find_element()方法，只能獲取匹配的第一個節點，結果是WebElement型別。如果用find_elements()方法，則結果是列表型別，列表中的每個節點是WebElement型別。

這裡列出所有獲取多個節點的方法：

find_elements_by_id

find_elements_by_name

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

當然，我們也可以直接用find_elements()方法來選擇，這時可以這樣寫：

1	lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

結果是完全一致的。

6. 節點互動

Selenium可以驅動瀏覽器來執行一些操作，也就是說可以讓瀏覽器模擬執行一些動作。比較常見的用法有：輸入文字時用send_keys()方法，清空文字時用clear()方法，點選按鈕時用click()方法。示例如下：

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')

input.send_keys('iPhone')

time.sleep(1)

input.clear()

input.send_keys('iPad')

button = browser.find_element_by_class_name('btn-search')

button.click()

這裡首先驅動瀏覽器開啟淘寶，然後用find_element_by_id()方法獲取輸入框，然後用send_keys()方法輸入iPhone文字，等待一秒後用clear()方法清空輸入框，再次呼叫send_keys()方法輸入iPad文字，之後再用find_element_by_class_name()方法獲取搜尋按鈕，最後呼叫click()方法完成搜尋動作。

通過上面的方法，我們就完成了一些常見節點的動作操作，更多的操作可以參見官方文件的互動動作介紹：selenium-python.readthedocs.io/api.html#mo…。

7. 動作鏈

在上面的例項中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

比如，現在實現一個節點的拖曳操作，將某個節點從一處拖曳到另外一處，可以這樣實現：

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

首先，開啟網頁中的一個拖曳例項，然後依次選中要拖曳的節點和拖曳到的目標節點，接著宣告ActionChains物件並將其賦值為actions變數，然後通過呼叫actions變數的drag_and_drop()方法，再呼叫perform()方法執行動作，此時就完成了拖曳操作，如圖7-4和圖7-5所示。

圖7-4 拖曳前的頁面

圖7-5 拖曳後的頁面

更多的動作鏈操作可以參考官方文件：selenium-python.readthedocs.io/api.html#mo…。

8. 執行JavaScript

對於某些操作，Selenium API並沒有提供。比如，下拉進度條，它可以直接模擬執行JavaScript，此時使用execute_script()方法即可實現，程式碼如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("To Bottom")')

這裡就利用execute_script()方法將進度條下拉到最底部，然後彈出alert提示框。

所以說有了這個方法，基本上API沒有提供的所有功能都可以用執行JavaScript的方式來實現了。

9. 獲取節點資訊

前面說過，通過page_source屬性可以獲取網頁的原始碼，接著就可以使用解析庫（如正規表示式、Beautiful Soup、pyquery等）來提取資訊了。

不過，既然Selenium已經提供了選擇節點的方法，返回的是WebElement型別，那麼它也有相關的方法和屬性來直接提取節點資訊，如屬性、文字等。這樣的話，我們就可以不用通過解析原始碼來提取資訊了，非常方便。

接下來，就看看通過怎樣的方式來獲取節點資訊吧。

獲取屬性

我們可以使用get_attribute()方法來獲取節點的屬性，但是其前提是先選中這個節點，示例如下：

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

logo = browser.find_element_by_id('zh-top-link-logo')

print(logo)

print(logo.get_attribute('class'))

執行之後，程式便會驅動瀏覽器開啟知乎頁面，然後獲取知乎的logo節點，最後列印出它的class。

控制檯的輸出結果如下：

1 2	<selenium.webdriver.remote.webelement.WebElement (session="e08c0f28d7f44d75ccd50df6bb676104", element="0.7236390660048155-1")> zu-top-link-logo

通過get_attribute()方法，然後傳入想要獲取的屬性名，就可以得到它的值了。

獲取文字值

每個WebElement節點都有text屬性，直接呼叫這個屬性就可以得到節點內部的文字資訊，這相當於Beautiful Soup的get_text()方法、pyquery的text()方法，示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zu-top-add-question')

print(input.text)

這裡依然先開啟知乎頁面，然後獲取“提問”按鈕這個節點，再將其文字值列印出來。

控制檯的輸出結果如下：

提問

獲取id、位置、標籤名和大小

另外，WebElement節點還有一些其他屬性，比如id屬性可以獲取節點id，location屬性可以獲取該節點在頁面中的相對位置，tag_name屬性可以獲取標籤名稱，size屬性可以獲取節點的大小，也就是寬高，這些屬性有時候還是很有用的。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zu-top-add-question')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

這裡首先獲得“提問”按鈕這個節點，然後呼叫其id、location、tag_name、size屬性來獲取對應的屬性值。

10. 切換Frame

我們知道網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部網頁的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中還有子Frame，它是不能獲取到子Frame裡面的節點的。這時就需要使用switch_to.frame()方法來切換Frame。示例如下：

import time

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

try:

logo = browser.find_element_by_class_name('logo')

except NoSuchElementException:

print('NO LOGO')

browser.switch_to.parent_frame()

logo = browser.find_element_by_class_name('logo')

print(logo)

print(logo.text)

控制檯的輸出如下：

NO LOGO

<selenium.webdriver.remote.webelement.WebElement (session="4bb8ac03ced4ecbdefef03ffdc0e4ccd", element="0.13792611320464965-2")>

RUNOOB.COM

這裡還是以前面演示動作鏈操作的網頁為例項，首先通過switch_to.frame()方法切換到子Frame裡面，然後嘗試獲取父級Frame裡的logo節點（這是不能找到的），如果找不到的話，就會丟擲NoSuchElementException異常，異常被捕捉之後，就會輸出NO LOGO。接下來，重新切換回父級Frame，然後再次重新獲取節點，發現此時可以成功獲取了。

所以，當頁面中包含子Frame時，如果想獲取子Frame中的節點，需要先呼叫switch_to.frame()方法切換到對應的Frame，然後再進行操作。

11. 延時等待

在Selenium中，get()方法會在網頁框架載入結束後結束執行，此時如果獲取page_source，可能並不是瀏覽器完全載入完成的頁面，如果某些頁面有額外的Ajax請求，我們在網頁原始碼中也不一定能成功獲取到。所以，這裡需要延時等待一定時間，確保節點已經載入出來。

這裡等待的方式有兩種：一種是隱式等待，一種是顯式等待。

隱式等待

當使用隱式等待執行測試的時候，如果Selenium沒有在DOM中找到節點，將繼續等待，超出設定時間後，則丟擲找不到節點的異常。換句話說，當查詢節點而節點並沒有立即出現的時候，隱式等待將等待一段時間再查詢DOM，預設的時間是0。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.implicitly_wait(10)

browser.get('https://www.zhihu.com/explore')

input = browser.find_element_by_class_name('zu-top-add-question')

print(input)

這裡我們用implicitly_wait()方法實現了隱式等待。

顯式等待

隱式等待的效果其實並沒有那麼好，因為我們只規定了一個固定時間，而頁面的載入時間會受到網路條件的影響。

這裡還有一種更合適的顯式等待方法，它指定要查詢的節點，然後指定一個最長等待時間。如果在規定時間內載入出來了這個節點，就返回查詢的節點；如果到了規定時間依然沒有載入出該節點，則丟擲超時異常。示例如下：

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

browser.get('https://www.taobao.com/')

wait = WebDriverWait(browser, 10)

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

print(input, button)

這裡首先引入WebDriverWait這個物件，指定最長等待時間，然後呼叫它的until()方法，傳入要等待條件expected_conditions。比如，這裡傳入了presence_of_element_located這個條件，代表節點出現的意思，其引數是節點的定位元組，也就是ID為q的節點搜尋框。

這樣可以做到的效果就是，在10秒內如果ID為q的節點（即搜尋框）成功載入出來，就返回該節點；如果超過10秒還沒有載入出來，就丟擲異常。

對於按鈕，可以更改一下等待條件，比如改為element_to_be_clickable，也就是可點選，所以查詢按鈕時查詢CSS選擇器為.btn-search的按鈕，如果10秒內它是可點選的，也就是成功載入出來了，就返回這個按鈕節點；如果超過10秒還不可點選，也就是沒有載入出來，就丟擲異常。

執行程式碼，在網速較佳的情況下是可以成功載入出來的。

控制檯的輸出如下：

1 2	<selenium.webdriver.remote.webelement.WebElement (session="07dd2fbc2d5b1ce40e82b9754aba8fa8", element="0.5642646294074107-1")> <selenium.webdriver.remote.webelement.WebElement (session="07dd2fbc2d5b1ce40e82b9754aba8fa8", element="0.5642646294074107-2")>

可以看到，控制檯成功輸出了兩個節點，它們都是WebElement型別。

如果網路有問題，10秒內沒有成功載入，那就丟擲TimeoutException異常，此時控制檯的輸出如下：

TimeoutException Traceback (most recent call last)

<ipython-input-4-f3d73973b223> in <module>()

7 browser.get('https://www.taobao.com/')

8 wait = WebDriverWait(browser, 10)

----> 9 input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

關於等待條件，其實還有很多，比如判斷標題內容，判斷某個節點內是否出現了某文字等。表7-1列出了所有的等待條件。

表7-1 等待條件及其含義

等待條件	含義
`title_is`	標題是某內容
`title_contains`	標題包含某內容
`presence_of_element_located`	節點載入出來，傳入定位元組，如`(By.ID, 'p')`
`visibility_of_element_located`	節點可見，傳入定位元組
`visibility_of`	可見，傳入節點物件
`presence_of_all_elements_located`	所有節點載入出來
`text_to_be_present_in_element`	某個節點文字包含某文字
`text_to_be_present_in_element_value`	某個節點值包含某文字
`frame_to_be_available_and_switch_to_it`	載入並切換
`invisibility_of_element_located`	節點不可見
`element_to_be_clickable`	節點可點選
`staleness_of`	判斷一個節點是否仍在DOM，可判斷頁面是否已經重新整理
`element_to_be_selected`	節點可選擇，傳節點物件
`element_located_to_be_selected`	節點可選擇，傳入定位元組
`element_selection_state_to_be`	傳入節點物件以及狀態，相等返回`True`，否則返回`False`
`element_located_selection_state_to_be`	傳入定位元組以及狀態，相等返回`True`，否則返回`False`
`alert_is_present`	是否出現警告

關於更多等待條件的引數及用法，可以參考官方文件：selenium-python.readthedocs.io/api.html#mo…。

12. 前進和後退

平常使用瀏覽器時都有前進和後退功能，Selenium也可以完成這個操作，它使用back()方法後退，使用forward()方法前進。示例如下：

import time

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com/')

browser.get('https://www.taobao.com/')

browser.get('https://www.python.org/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()

這裡我們連續訪問3個頁面，然後呼叫back()方法回到第二個頁面，接下來再呼叫forward()方法又可以前進到第三個頁面。

13. Cookies

使用Selenium，還可以方便地對Cookies進行操作，例如獲取、新增、刪除Cookies等。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

首先，我們訪問了知乎。載入完成後，瀏覽器實際上已經生成Cookies了。接著，呼叫get_cookies()方法獲取所有的Cookies。然後，我們新增一個Cookie，這裡傳入一個字典，有name、domain和value等內容。接下來，再次獲取所有的Cookies。可以發現，結果就多了這一項新加的Cookie。最後，呼叫delete_all_cookies()方法刪除所有的Cookies。再重新獲取，發現結果就為空了。

控制檯的輸出如下：

[{'secure': False, 'value': '"NGM0ZTM5NDAwMWEyNDQwNDk5ODlkZWY3OTkxY2I0NDY=|1491604091|236e34290a6f407bfbb517888849ea509ac366d0"', 'domain': '.zhihu.com', 'path': '/', 'httpOnly': False, 'name': 'l_cap_id', 'expiry': 1494196091.403418}]

[{'secure': False, 'value': 'germey', 'domain': '.www.zhihu.com', 'path': '/', 'httpOnly': False, 'name': 'name'}, {'secure': False, 'value': '"NGM0ZTM5NDAwMWEyNDQwNDk5ODlkZWY3OTkxY2I0NDY=|1491604091|236e34290a6f407bfbb517888849ea509ac366d0"', 'domain': '.zhihu.com', 'path': '/', 'httpOnly': False, 'name': 'l_cap_id', 'expiry': 1494196091.403418}]

[]

14. 選項卡管理

在訪問網頁的時候，會開啟一個個選項卡。在Selenium中，我們也可以對選項卡進行操作。示例如下：

import time

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.execute_script('window.open()')

print(browser.window_handles)

browser.switch_to_window(browser.window_handles[1])

browser.get('https://www.taobao.com')

time.sleep(1)

browser.switch_to_window(browser.window_handles[0])

browser.get('https://python.org')

控制檯的輸出如下：

1	['CDwindow-4f58e3a7-7167-4587-bedf-9cd8c867f435', 'CDwindow-6e05f076-6d77-453a-a36c-32baacc447df']

首先訪問了百度，然後呼叫了execute_script()方法，這裡傳入window.open()這個JavaScript語句新開啟一個選項卡。接下來，我們想切換到該選項卡。這裡呼叫window_handles屬性獲取當前開啟的所有選項卡，返回的是選項卡的代號列表。要想切換選項卡，只需要呼叫switch_to_window()方法即可，其中引數是選項卡的代號。這裡我們將第二個選項卡代號傳入，即跳轉到第二個選項卡，接下來在第二個選項卡下開啟一個新頁面，然後切換回第一個選項卡重新呼叫switch_to_window()方法，再執行其他操作即可。

15. 異常處理

在使用Selenium的過程中，難免會遇到一些異常，例如超時、節點未找到等錯誤，一旦出現此類錯誤，程式便不會繼續執行了。這裡我們可以使用try except語句來捕獲各種異常。

首先，演示一下節點未找到的異常，示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.find_element_by_id('hello')

這裡首先開啟百度頁面，然後嘗試選擇一個並不存在的節點，此時就會遇到異常。

執行之後控制檯的輸出如下：

NoSuchElementException Traceback (most recent call last)

<ipython-input-23-978945848a1b> in <module>()

3 browser = webdriver.Chrome()

4 browser.get('https://www.baidu.com')

----> 5 browser.find_element_by_id('hello')

可以看到，這裡丟擲了NoSuchElementException異常，這通常是節點未找到的異常。為了防止程式遇到異常而中斷，我們需要捕獲這些異常，示例如下：

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print('Time Out')
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()
複製程式碼

這裡我們使用try except來捕獲各類異常。比如，我們對find_element_by_id()查詢節點的方法捕獲NoSuchElementException異常，這樣一旦出現這樣的錯誤，就進行異常處理，程式也不會中斷了。

控制檯的輸出如下：

1	No Element

關於更多的異常類，可以參考官方文件：selenium-python.readthedocs.io/api.html#mo…。

現在，我們基本對Selenium的常規用法有了大體的瞭解。使用Selenium，處理JavaScript不再是難事。

本資源首發於崔慶才的個人部落格靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用

1. 準備工作

2. 基本使用

3. 宣告瀏覽器物件

4. 訪問頁面

5. 查詢節點

單個節點

多個節點

6. 節點互動

7. 動作鏈

8. 執行JavaScript

9. 獲取節點資訊

獲取屬性

獲取文字值

獲取id、位置、標籤名和大小

10. 切換Frame

11. 延時等待

隱式等待

顯式等待

12. 前進和後退

13. Cookies

14. 選項卡管理

15. 異常處理

相關文章