xpath beautiful pyquery三種解析庫

樑十安發表於2019-08-05

原文網址 : https://www.cnblogs.com/liangxiyang/p/11302087.html

這兩天看了一下python常用的三種解析庫，寫篇隨筆，整理一下思路。太菜了，若有錯誤的地方，歡迎大家隨時指正。。。。。。。(conme on.......)

爬取網頁資料一般會經過 獲取資訊->提取資訊->儲存資訊 這三個步驟。而解析庫的使用，則可以幫助我們快速的提取出我們需要的那被部分資訊，免去了寫複雜的正規表示式的麻煩。在使用解析庫的時候，個人理解也會有三個步驟 建立文件樹->搜尋文件樹->獲取屬性和文字。

建立文件樹：就是把我們獲取到的網頁原始碼利用解析庫進行解析，只有這樣，後面才能使用這個解析庫的方法。

搜尋文件樹：就是在已經建立的文件樹裡面，利用標籤的屬性，搜尋出我們需要的那部分資訊，比如一個包含一部分網頁內容的div標籤，一個ul標籤等。

獲取索性和文字：在上一步的基礎上，進一步獲取到具體某個標籤的文字或屬性，比如一個a標籤的href屬性，title屬性，或它的文字。

首先，定義一個html的字串，用它來模擬已經獲取到的網頁原始碼

html = '''
<div id="container">
    <ul class="list">
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
     <ul class="list">
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''

View Code

xpath解析庫：XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的語言。它最初是用來搜尋XML文件的，但是它同樣適用於HTML文件的搜尋。

1.建立文件樹：在獲取到網頁原始碼後，只需要使用etree的HTML方法，就可以把複雜的html建立成一棵文件樹了

from lxml import etree
xpath_tree = etree.HTML(html)

這裡首先匯入lxml庫的etree模組，然後宣告瞭一段HTML文字，呼叫HTML類進行初始化，這樣就成功構造了一個XPath解析物件。可以使用type檢視一下xpath_tree的型別，是這樣的 <class 'lxml.etree._Element'>

2.搜尋文件樹：先看一下xpath幾個常用的規則

（1）從整個文件樹中搜尋標籤：一般會用//開頭的XPath規則來選取所有符合要求的節點。這裡以前面的HTML文字為例。例如搜尋 ul 標籤

1 xpath_tree = etree.HTML(html)
2 result = xpath_tree.xpath('ul')
3 print(result)
4 print(type(result))
5 print(type(result[0]))

輸出結果如下：
[<Element ul at 0x2322b7e8608>, <Element ul at 0x2322b7e8648>]
<class 'list'>
<class 'lxml.etree._Element'>

上面第二行程式碼表示從整個文件樹中搜尋出所有的ul標籤，可以看到，返回結果是一個列表，裡面的每個元素都是lxml.etree._Element型別，當然，也可以對這個列表進行一個遍歷，然後對每個lxml.etree._Element物件進行操作。

（2）搜尋當前節點的子節點：比如，找到每一個ul標籤裡面的 li 標籤：

1 xpath_tree = etree.HTML(html)
2 result = xpath_tree.xpath('//ul')
3 for r in result:
4     li_list = r.xpath('./li')
5     print(li_list)

輸出結果如下：
[<Element li at 0x23433127748>, <Element li at 0x23433127788>, <Element li at 0x23433127a88>, <Element li at 0x23433127988>, <Element li at 0x23433127ac8>]
[<Element li at 0x23433127cc8>, <Element li at 0x23433127d08>, <Element li at 0x23433127d48>, <Element li at 0x23433127d88>, <Element li at 0x23433127dc8>]

第四行程式碼表示，選取當前的這個ul標籤，並獲取到它裡面的所有li標籤。

（3）根據屬性過濾：如果你需要根據標籤的屬性進行一個過濾，則可以這樣來做

1 xpath_tree = etree.HTML(html)
2 result = xpath_tree.xpath('//ul')
3 for r in result:
4     li_list = r.xpath('./li[@class="item-0"]')
5     print(li_list)

輸出結果如下：
[<Element li at 0x15c436695c8>, <Element li at 0x15c436698c8>]
[<Element li at 0x15c43669988>, <Element li at 0x15c436699c8>]

與之前的程式碼相比，旨在第四行的後面加了 [@class="item-0"] ，它表示找到當前ul標籤下所有class屬性值為item-0的li標籤，當然，也可以在整個文件樹搜尋某個標籤時，在標籤後面加上某個屬性，進行過濾，下面例子中有用到

（4）獲取文字：獲取具體某個標籤的文字內容

1 xpath_tree = etree.HTML(html)
2 result = xpath_tree.xpath('//ul[@class="list"]')
3 for r in result:
4     li_list = r.xpath('./li[@class="item-0"]')
5     for li in li_list:
6         print(li.xpath('./text()'))

輸出結果如下：
['first item']
[]
['first item']
[]

首先，在第二行的ul標籤後面加了屬性過濾，但因為兩個ul標籤的class屬性值都是list，所以結果沒加之前是一樣的。然後又加了一個for迴圈，用來獲取列表裡面每一個元素的文字，因為第二個li標籤裡面沒有文字內容，所以是空

（5）獲取屬性：獲取具體某個標籤的某個屬性內容

1 xpath_tree = etree.HTML(html)
2 result = xpath_tree.xpath('//ul[@class="list"]')
3 for r in result:
4     li_list = r.xpath('./li[@class="item-0"]')
5     for li in li_list:
6         print(li.xpath('./@class'))

輸出結果如下：
['item-0']
['item-0']
['item-0']
['item-0']

把第六行的text()方法換成@符號，並在後面加上想要的屬性，就獲取到了該屬性的屬性值。

這是xpath這個解析庫基本的使用方法，也有一些沒說到的地方，大家可以看一下靜謐大佬的文章。另外兩個解析庫，放在後面兩篇隨筆裡面

https://cuiqingcai.com/5545.html

*************************不積跬步，無以至千里。*************************

爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
xpath解析
2024-04-27
Xpath解析及其語法
2024-12-04
淺析Beautiful Soup庫和Lxml庫
2018-07-12
XML
Flutter 三種JSON解析方式
2021-03-27
FlutterJSON
Flutter 解析JSON 三種方式
2021-03-29
FlutterJSON
【Python3網路爬蟲開發實戰】4-解析庫的使用-3 使用pyquery
2018-03-19
Python爬蟲
Python網路解析庫Xpath，媽媽再也不會擔心我不會解析了
2019-03-07
Python
Beautiful Soup庫的使用（學習筆記）
2020-12-23
筆記
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
Python3網路爬蟲開發實踐——第4章—解析庫的使用—4.3使用pyquery
2019-01-29
Python爬蟲
解析Json字串的三種方法
2018-04-16
JSON字串
js解析url的三種方法
2022-04-28
JS
pyquery的基本使用
2020-09-29
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-2 使用Beautiful Soup
2018-03-19
Python爬蟲
IOS下三種DNS解析方式分析（LocalDns）
2019-03-04
iOSDNS
Spring-Boot-操作-Redis，三種方案全解析！
2019-06-03
SpringbootRedis
Java中Singleton的三種實現方式解析
2021-02-20
Java
【Python3網路爬蟲開發實戰】4-解析庫的使用-1 使用XPath
2019-02-26
Python爬蟲
BUUCTF：Beautiful_Side
2020-11-24
IDE
Xpath
2024-06-16
EOS原始碼解析建立賬號的三種方式。
2018-11-06
原始碼
VS載入lib庫的三種方法
2020-04-06
深度解析 Go 語言中「切片」的三種特殊狀態
2018-11-13
Go
初始xpath
2024-03-28
在VS中新增lib庫的三種方法
2018-04-14
Python解析引數的三種方法分別是什麼？
2022-08-17
Python
python xpath用法
2018-07-30
Python
Xpath,XQuery,DTD
2018-05-21
獲得資料庫操作日誌的三種方式
2020-09-06
資料庫
openGauss資料庫原始碼解析系列文章——openGauss簡介（三）
2022-12-26
資料庫原始碼
基於身份的分段：三種技術路線解析與建議
2022-11-22
爬蟲 – xpath 匹配
2018-12-20
爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
如何手寫xpath
2020-08-10
Xpath helper外掛
2019-05-20

xpath beautiful pyquery三種解析庫

相關文章