【web自動化測試】requests-html 這個解析庫，能讓你更輕鬆的獲取網頁內容

王雨澤發表於2019-06-28

原文網址 : https://www.cnblogs.com/wagyuze/p/11102270.html

1. 開始

Python 中可以進行網頁解析的庫有很多，常見的有 BeautifulSoup 和 lxml 等。在網上玩爬蟲的文章通常都是介紹 BeautifulSoup 這個庫，我平常也是常用這個庫，最近用 Xpath 用得比較多，使用 BeautifulSoup 就不大習慣，很久之前就知道 Reitz 大神出了一個叫 Requests-HTML 的庫，一直沒有興趣看，這回可算歹著機會用一下了。

使用 pip install requests-html安裝，上手和 Reitz 的其他庫一樣，輕鬆簡單：

 from requests_html import HTMLSession
 session = HTMLSession()
 
 r = session.get('https://www.python.org/jobs/')

這個庫是在 requests 庫上實現的，r 得到的結果是 Response 物件下面的一個子類，多個一個 html 的屬性。所以 requests 庫的響應物件可以進行什麼操作，這個 r 也都可以。如果需要解析網頁，直接獲取響應物件的 html 屬性：

 r.html

2. 原理

不得不膜拜 Reitz 大神太會組裝技術了。實際上 HTMLSession 是繼承自 requests.Session 這個核心類，然後將 requests.Session 類裡的 requests 方法改寫，返回自己的一個 HTMLResponse 物件，這個類又是繼承自 requests.Response,只是多加了一個 _from_response 的方法來構造例項：

 class HTMLSession(requests.Session):
     # 重寫 request 方法，返回 HTMLResponse 構造
     def request(self, *args, **kwargs) -> HTMLResponse:
         r = super(HTMLSession, self).request(*args, **kwargs)
         return HTMLResponse._from_response(r, self)

 class HTMLResponse(requests.Response):
     # 構造器
     @classmethod
     def _from_response(cls, response, session: Union['HTMLSession', 'AsyncHTMLSession']):
         html_r = cls(session=session)
         html_r.__dict__.update(response.__dict__)
         return html_r

之後在 HTMLResponse 裡定義屬性方法 html，就可以通過 html 屬性訪問了,實現也就是組裝 PyQuery 來幹。核心的解析類也大多是使用 PyQuery 和 lxml 來做解析，簡化了名稱，挺討巧的。

3. 元素定位

元素定位可以選擇兩種方式：

css 選擇器

css選擇器
xpath

 # css 獲取有多少個職位
 jobs = r.html.find("h1.call-to-action")
 # xpath 獲取
 jobs = r.html.xpath("//h1[@class='call-to-action']")

方法名非常簡單，符合 Python 優雅的風格，這裡不妨對這兩種方式簡單的說明：

4. CSS 簡單規則

標籤名 h1
id 使用 #id 表示
class 使用 .class_name 表示
謂語表示：h1[prop=value]

5. Xpath簡單規則

路徑 // 或者 /
標籤名
謂語 [@prop=value]
軸定位 名稱::元素名[謂語]

定位到元素以後勢必要獲取元素裡面的內容和屬性相關資料，獲取文字：

 jobs.text
 jobs.full_text

獲取元素的屬性：

 attrs = jobs.attrs
 value = attrs.get("key")

還可以通過模式來匹配對應的內容：

 ## 找某些內容匹配
 r.html.search("Python {}")
 r.html.search_all()

這個功能看起來比較雞肋，可以深入研究優化一下，說不定能在 github 上混個提交。

6. 人性化操作

除了一些基礎操作，這個庫還提供了一些人性化的操作。比如一鍵獲取網頁的所有超連結，這對於整站爬蟲應該是個福音，URL 管理比較方便：

 r.html.absolute_links
 r.html.links

內容頁面通常都是分頁的，一次抓取不了太多，這個庫可以獲取分頁資訊：

 print(r.html)
 # 比較一下
 for url in r.html:
     print(url)

結果如下：

 # print(r.html)
 <HTML url='https://www.python.org/jobs/'>
 # for
 <HTML url='https://www.python.org/jobs/'>
 <HTML url='https://www.python.org/jobs/?page=2'>
 <HTML url='https://www.python.org/jobs/?page=3'>
 <HTML url='https://www.python.org/jobs/?page=4'>
 <HTML url='https://www.python.org/jobs/?page=5'>

通過迭代器實現了智慧發現分頁，這個迭代器裡面會用一個叫 _next 的方法，貼一段原始碼感受下：

 def get_next():
     candidates = self.find('a', containing=next_symbol)
 
     for candidate in candidates:
         if candidate.attrs.get('href'):
             # Support 'next' rel (e.g. reddit).
             if 'next' in candidate.attrs.get('rel', []):
                 return candidate.attrs['href']

通過查詢 a 標籤裡面是否含有指定的文字來判斷是不是有下一頁，通常我們的下一頁都會通過 下一頁 或者 載入更多 來引導，他就是利用這個標誌來進行判斷。預設的以列表形式存在全域性：['next', 'more', 'older']。我個人認為這種方式非常不靈活，幾乎沒有擴充套件性。感興趣的可以往 github 上提交程式碼優化。

7. 載入 js

也許是考慮到了現在 js 的一些非同步載入，這個庫支援 js 執行時，官方說明如下：

Reloads the response in Chromium, and replaces HTML content with an updated version, with JavaScript executed.

使用非常簡單，直接呼叫以下方法：

 r.html.render()

第一次使用的時候會下載 Chromium，不過國內你懂的，自己想辦法去下吧，就不要等它自己下載了。render 函式可以使用 js 指令碼來操作頁面，滾動操作單獨做了引數。這對於上拉載入等新式頁面是非常友好的。

8. 總結

Reitz 大神設計出來的東西還是一如既往的簡單好用，自己不多做，大多用別人的東西組裝，簡化 api。真是夠人性。不過有的地方還是優化空間，希望有興趣和精力的童鞋去 github 上關注一下這個專案。

十個vim快捷鍵，讓你的使用更輕鬆
2022-05-24
自媒體新手這樣運營讓你輕鬆獲得大票流量
2021-08-23
靜態網站如何修改，輕鬆更新網頁內容
2024-11-30
網站網頁
selenium模組，web自動化，獲取標籤頁
2024-11-23
Web
Selenium自動化測試網頁
2019-02-16
網頁
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
seldom 2.0 讓介面自動化測試更簡單
2021-06-15
輕鬆繞過AI檢測！BypassGPT讓你的AI文字變得更“人性化”
2024-10-30
AIGPT
帝國cms內容頁圖片自動獲取alt和title的方法
2020-06-10
JavaScript 獲取網頁尾本程式碼內容
2020-02-20
JavaScript網頁
EasyExcel 輕鬆靈活讀取Excel內容
2019-10-22
Excel
透過Requests模組獲取網頁內容並使用BeautifulSoup進行解析
2024-03-26
網頁
自動化測試可替代手動測試?軟體測試這個誤區你有嗎?
2022-08-10
CSS 變數讓你輕鬆製作響應式網頁
2018-03-07
CSS變數網頁
怎麼簡單的繪製拓撲圖，用這個工具能讓你輕鬆實現
2021-03-13
使用 Python 和 Selenium 自動化網頁測試
2024-07-27
Python網頁
appium 自動化測試，無法獲取具體元素
2024-12-17
APP
讓你的網頁更絲滑（一）
2019-03-11
網頁
讓你的網頁更絲滑（全）
2019-06-01
網頁
企業網盤讓檔案管理更輕鬆
2021-06-16
學會這9個偽類,讓你的頁面表單更人性化！！！
2022-04-25
推薦4個常用Python自動化測試框架，你更鐘愛哪一個?
2022-09-15
Python框架
學會這些linux的“自動化”輕鬆搞定任務
2022-08-15
Linux
移動App效能測試包含哪些內容?權威的軟體測試報告如何獲取?
2023-03-08
APP測試報告
大佬對 WEB 自動化測試的看法
2020-04-16
Web
anime.js 網頁動畫庫，輕鬆實現網頁數字滾動效果
2024-09-01
JS網頁動畫
Python自動化測試之獲取配置檔案資訊
2021-09-09
Python
Web自動化-Selenium自動化測試-4-編寫測試用例
2020-12-03
Web
ChatGPT：讓程式開發更輕鬆
2023-02-10
ChatGPT
持續測試跟自動化測試的這些區別你知道嗎？
2018-12-12
一鍵獲取測試指令碼，輕鬆驗證“TSBS 時序資料庫效能基準測試報告”
2023-03-31
指令碼資料庫測試報告
5款讓Web前端開發人員更輕鬆的實用工具！
2021-11-30
Web前端
[翻譯]CSS變數讓你輕鬆製作響應式網頁
2018-03-04
CSS變數網頁
求助：flutter 框架自動化測試時，無法輸入內容
2020-11-14
Flutter框架
14 Web 自動化測試 -- PageObject 思想
2018-07-03
WebObject
爬蟲：越滑越多的動態網頁列表流資料（透過 Ajax 獲取微博個性化推薦內容）
2022-11-24
爬蟲網頁
使用selenium和phantomJS瀏覽器獲取網頁內容的小演示
2019-01-14
JS瀏覽器網頁
用Vue3構建企業級前端應用，TS能讓你更輕鬆點
2021-09-11
Vue前端