Python 爬蟲從入門到進階之路(十)

豐寸發表於2019-07-03

之前的文章我們介紹了一下 Python 中正規表示式和 re 模組來做一個案例,爬取《糗事百科》的糗事並儲存到本地。本章我們來看一下另一種爬取資料的方式 XPath。

我們在前面爬取《糗事百科》的時候處理 HTML 文件的時候發現會有些累人,還要對正規表示式非常熟悉爬起來才得心應手,那有沒有更為方便的方法呢,答案當然是有的,我們可以先將 HTML檔案 轉換成 XML文件,然後用 XPath 查詢 HTML 節點或元素。

什麼是XML

  • XML 指可擴充套件標記語言(EXtensible Markup Language)
  • XML 是一種標記語言,很類似 HTML
  • XML 的設計宗旨是傳輸資料,而非顯示資料
  • XML 的標籤需要我們自行定義。
  • XML 被設計為具有自我描述性。
  • XML 是 W3C 的推薦標準

XML 和 HTML 的區別

資料格式描述設計目標
XML Extensible Markup Language (可擴充套件標記語言) 被設計為傳輸和儲存資料,其焦點是資料的內容。
HTML HyperText Markup Language (超文字標記語言) 顯示資料以及如何更好顯示資料。
HTML DOM Document Object Model for HTML (文件物件模型) 通過 HTML DOM,可以訪問所有的 HTML 元素,連同它們所包含的文字和屬性。可以對其中的內容進行修改和刪除,同時也可以建立新的元素。
XML文件示例
1 <?xml version="1.0" encoding="utf-8"?>
2 <bookstore>
3   <book category="cooking">
4     <title lang="en">this is title</title>
5     <content>hello world</>
6   </book>
7 </bookstore>
HTML DOM 模型示例

HTML DOM 定義了訪問和操作 HTML 文件的標準方法,以樹結構方式表達 HTML 文件。

什麼是XPath?

XPath (XML Path Language) 是一門在 XML 文件中查詢資訊的語言,可用來在 XML 文件中對元素和屬性進行遍歷。

XPath 開發工具

  1. 開源的XPath表示式編輯工具:XMLQuire(XML格式檔案可用)
  2. Chrome外掛 XPath Helper
  3. Firefox外掛 XPath Checker

選取節點

XPath 使用路徑表示式來選取 XML 文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的表示式非常相似。

下面列出了最常用的路徑表示式:

表示式描述
nodename 選取此節點的所有子節點。
/ 從根節點選取。
// 從匹配選擇的當前節點選擇文件中的節點,而不考慮它們的位置。
. 選取當前節點。
.. 選取當前節點的父節點。
@ 選取屬性。

 

在下面的表格中,我們已列出了一些路徑表示式以及表示式的結果:


路徑表示式
結果
bookstore 選取 bookstore 元素的所有子節點。
/bookstore 選取根元素 bookstore。註釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑!
bookstore/book 選取屬於 bookstore 的子元素的所有 book 元素。
//book 選取所有 book 子元素,而不管它們在文件中的位置。
bookstore//book 選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。
//@lang 選取名為 lang 的所有屬性。

謂語(Predicates)

謂語用來查詢某個特定的節點或者包含某個指定的值的節點,被嵌在方括號中。

在下面的表格中,我們列出了帶有謂語的一些路徑表示式,以及表示式的結果:

 

路徑表示式結果
/bookstore/book[1] 選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()] 選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1] 選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3] 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=’eng’] 選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。

 

選取未知節點

XPath 萬用字元可用來選取未知的 XML 元素。

 

萬用字元描述
* 匹配任何元素節點。
@* 匹配任何屬性節點。
node() 匹配任何型別的節點。

在下面的表格中,我們列出了一些路徑表示式,以及這些表示式的結果:

 

路徑表示式結果
/bookstore/* 選取 bookstore 元素的所有子元素。
//* 選取文件中的所有元素。
//title[@*] 選取所有帶有屬性的 title 元素。

 

選取若干路徑

通過在路徑表示式中使用“|”運算子,您可以選取若干個路徑。

在下面的表格中,我們列出了一些路徑表示式,以及這些表示式的結果:

 

路徑表示式結果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素。
//title | //price 選取文件中的所有 title 和 price 元素。
/bookstore/book/title | //price 選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文件中所有的 price 元素。

XPath的運算子

下面列出了可用在 XPath 表示式中的運算子:

 

 

這些就是XPath的語法內容,在運用到Python抓取時要先轉換為xml。

lxml庫

lxml 是 一個HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 資料。

lxml和正則一樣,也是用 C 實現的,是一款高效能的 Python HTML/XML 解析器,我們可以利用之前學習的XPath語法,來快速的定位特定元素以及節點資訊。

lxml python 官方文件:http://lxml.de/index.html

需要安裝C語言庫,可使用 pip 安裝:pip install lxml (或通過wheel方式安裝)

 我們利用它來解析 HTML 程式碼,簡單示例:

 1 from lxml import etree
 2 
 3 text = '''
 4 <div>
 5     <ul>
 6          <li class="item-0"><a href="link1.html">first item</a></li>
 7          <li class="item-1"><a href="link2.html">second item</a></li>
 8          <li class="item-inactive"><a href="link3.html">third item</a></li>
 9          <li class="item-1"><a href="link4.html">fourth item</a></li>
10          <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 li 閉合標籤
11      </ul>
12  </div>
13 '''
14 
15 # 利用etree.HTML,將字串解析為HTML文件
16 html = etree.HTML(text)
17 
18 # 按字串序列化HTML文件
19 # html = etree.tostring(html).decode("utf8")  # 不能正常顯示中文
20 html = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")  # 可以正常顯示中文
21 
22 print(html)

執行結果如下:

 1 <html><body>
 2 <div>
 3     <ul>
 4          <li class="item-0"><a href="link1.html">first item</a></li>
 5          <li class="item-1"><a href="link2.html">second item</a></li>
 6          <li class="item-inactive"><a href="link3.html">third item</a></li>
 7          <li class="item-1"><a href="link4.html">fourth item</a></li>
 8          <li class="item-0">
 9 <a href="link5.html">fifth item</a> # 注意,此處缺少一個 li 閉合標籤
10      </li>
11 </ul>
12  </div>
13 </body></html>

lxml 可以自動修正 html 程式碼,例子裡不僅補全了 li 標籤,還新增了 body,html 標籤。

檔案讀取:

除了直接讀取字串,lxml還支援從檔案裡讀取內容。我們新建一個 index.html 檔案:

1 <div>
2     <ul>
3          <li class="item-0"><a href="link1.html">first item</a></li>
4          <li class="item-1"><a href="link2.html">second item</a></li>
5          <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
6          <li class="item-1"><a href="link4.html">fourth item</a></li>
7          <li class="item-0"><a href="link5.html">fifth item</a></li>
8      </ul>
9  </div>

再利用 etree.parse() 方法來讀取檔案。

1 from lxml import etree
2 
3 # 讀取外部檔案 hello.html
4 html = etree.parse('./index.html', etree.HTMLParser())  # 指定解析器HTMLParser會根據檔案修復HTML檔案中缺失的如宣告資訊
5 html = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")
6 
7 print(html)

執行結果:

 1 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
 2 <html><body><div>
 3     <ul>
 4          <li class="item-0"><a href="link1.html">first item</a></li>
 5          <li class="item-1"><a href="link2.html">second item</a></li>
 6          <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
 7          <li class="item-1"><a href="link4.html">fourth item</a></li>
 8          <li class="item-0"><a href="link5.html">fifth item</a></li>
 9      </ul>
10  </div></body></html>

 

接下來我們看一下 XPath 的實力測試。

1. 獲取所有的 <li> 標籤

 1 from lxml import etree
 2 
 3 html = etree.parse('./index.html', etree.HTMLParser())
 4 print(type(html))  # <class 'lxml.etree._ElementTree'>
 5 
 6 result = html.xpath('//li')
 7 
 8 print(result)  # [<Element li at 0x109c66248>, <Element li at 0x109c66348>, <Element li at 0x109c66388>, <Element li at 0x109c663c8>, <Element li at 0x109c66408>]
 9 print(len(result))  # 5
10 print(type(result))  # <class 'list'>
11 print(type(result[0]))  # <class 'lxml.etree._Element'>

2. 繼續獲取<li> 標籤的所有 class屬性

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li/@class')
5 
6 print(result)  # ['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

3. 繼續獲取<li>標籤下hre 為 link1.html 的 <a> 標籤

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li/a[@href="link1.html"]')
5 
6 print(result)  # [<Element a at 0x10b324288>]

4. 獲取<li> 標籤下的所有 <span> 標籤

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 # result = html.xpath('//li/span')
5 # 注意這麼寫是不對的:因為 / 是用來獲取子元素的,而 <span> 並不是 <li> 的子元素,所以,要用雙斜槓
6 
7 result = html.xpath('//li//span')
8 
9 print(result)  # [<Element span at 0x10a59b308>]

5. 獲取 <li> 標籤下的<a>標籤裡的所有 class

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li/a//@class')
5 
6 print(result)  # ['bold']

6. 獲取最後一個 <li> 的 <a> 的 href

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li[last()]/a/@href')
5 # 謂語 [last()] 可以找到最後一個元素
6 
7 print(result)  # ['link5.html']

7. 獲取倒數第二個元素的內容

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li[last()-1]/a')
5 
6 # text 方法可以獲取元素內容
7 print(result[0].text)  # fourth item

8. 獲取 class 值為 bold 的標籤名

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//*[@class="bold"]')
5 
6 # tag方法可以獲取標籤名
7 print(result[0].tag)  # span

XPath的更多用法參考:http://www.w3school.com.cn/xpath/index.asp

python lxml庫的更多用法參考:http://lxml.de/

 

 
 

 

相關文章