Python3網路爬蟲開發實踐——第4章—解析庫的使用—4.3使用pyquery

bigcindy發表於2019-01-29

1.準備工作

請先確保已經安裝了pyquery庫,使用import語句匯入模組,如果匯入失敗,請先安裝:

pip install pyquery -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入模組:

import pyquery

2.初始化

2.1 字串初始化

html = """
<div>
<ul>
<li class="item-O">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
"""
doc = pyquery.PyQuery(html)
print(doc("li"))

輸出結果:

<li class="item-O">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

如上結果所示:輸出了html中的所有li節點。

2.2 URL初始化

初始化的引數可以是字串,也可以傳入網頁的URL

doc = pyquery.PyQuery(url="https://cuiqingcai.com")
print(doc("title"))

輸出結果:

<title>靜覓丨崔慶才的個人部落格</title>&#13;

2.3 檔案初始化

doc = pyquery.PyQuery(filename="demo.html")
print(doc("li"))

這裡需要一個本地檔案:demo.html。上述程式碼首先會讀取本地的檔案內容,然後將檔案內容以字串的形式傳遞給Pyquery類進行初始化。

3.基本CSS選擇器

 

 

 

 

 

 

 

 

 

 

 

 

相關文章