在上一節中,我們介紹了Beautiful Soup的用法,它是一個非常強大的網頁解析庫,你是否覺得它的一些方法用起來有點不適應?有沒有覺得它的CSS選擇器的功能沒有那麼強大?
如果你對Web有所涉及,如果你比較喜歡用CSS選擇器,如果你對jQuery有所瞭解,那麼這裡有一個更適合你的解析庫——pyquery。
接下來,我們就來感受一下pyquery的強大之處。
1. 準備工作
在開始之前,請確保已經正確安裝好了pyquery。若沒有安裝,可以參考第1章的安裝過程。
2. 初始化
像Beautiful Soup一樣,初始化pyquery的時候,也需要傳入HTML文字來初始化一個PyQuery物件。它的初始化方式有多種,比如直接傳入字串,傳入URL,傳入檔名,等等。下面我們來詳細介紹一下。
字串初始化
首先,我們用一個例項來感受一下:
html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('li'))
複製程式碼
執行結果如下:
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
複製程式碼
這裡首先引入PyQuery這個物件,取別名為pq
。然後宣告瞭一個長HTML字串,並將其當作引數傳遞給PyQuery
類,這樣就成功完成了初始化。接下來,將初始化的物件傳入CSS選擇器。在這個例項中,我們傳入li
節點,這樣就可以選擇所有的li
節點。
URL初始化
初始化的引數不僅可以以字串的形式傳遞,還可以傳入網頁的URL,此時只需要指定引數為url
即可:
from pyquery import PyQuery as pq
doc = pq(url='http://cuiqingcai.com')
print(doc('title'))
複製程式碼
執行結果如下:
<title>靜覓丨崔慶才的個人部落格</title>
複製程式碼
這樣的話,PyQuery
物件會首先請求這個URL,然後用得到的HTML內容完成初始化,這其實就相當於用網頁的原始碼以字串的形式傳遞給PyQuery
類來初始化。
它與下面的功能是相同的:
from pyquery import PyQuery as pq
import requests
doc = pq(requests.get('http://cuiqingcai.com').text)
print(doc('title'))
複製程式碼
檔案初始化
當然,除了傳遞URL,還可以傳遞本地的檔名,此時將引數指定為filename
即可:
from pyquery import PyQuery as pq
doc = pq(filename='demo.html')
print(doc('li'))
複製程式碼
當然,這裡需要有一個本地HTML檔案demo.html,其內容是待解析的HTML字串。這樣它會首先讀取本地的檔案內容,然後用檔案內容以字串的形式傳遞給PyQuery
類來初始化。
以上3種初始化方式均可,當然最常用的初始化方式還是以字串形式傳遞。
3. 基本CSS選擇器
首先,用一個例項來感受pyquery的CSS選擇器的用法:
html = '''
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))
print(type(doc('#container .list li')))
複製程式碼
執行結果如下:
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
<class 'pyquery.pyquery.PyQuery'>
複製程式碼
這裡我們初始化PyQuery
物件之後,傳入了一個CSS選擇器#container .list li
,它的意思是先選取id
為container
的節點,然後再選取其內部的class
為list
的節點內部的所有li
節點。然後,列印輸出。可以看到,我們成功獲取到了符合條件的節點。
最後,將它的型別列印輸出。可以看到,它的型別依然是PyQuery
型別。
4. 查詢節點
下面我們介紹一些常用的查詢函式,這些函式和jQuery中函式的用法完全相同。
子節點
查詢子節點時,需要用到find()
方法,此時傳入的引數是CSS選擇器。這裡還是以前面的HTML為例:
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
print(type(items))
print(items)
lis = items.find('li')
print(type(lis))
print(lis)
複製程式碼
執行結果如下:
<class 'pyquery.pyquery.PyQuery'>
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
複製程式碼
首先,我們選取class
為list
的節點,然後呼叫了find()
方法,傳入CSS選擇器,選取其內部的li
節點,最後列印輸出。可以發現,find()
方法會將符合條件的所有節點選擇出來,結果的型別是PyQuery
型別。
其實find()
的查詢範圍是節點的所有子孫節點,而如果我們只想查詢子節點,那麼可以用children()
方法:
lis = items.children()
print(type(lis))
print(lis)
複製程式碼
執行結果如下:
<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
複製程式碼
如果要篩選所有子節點中符合條件的節點,比如想篩選出子節點中class
為active
的節點,可以向children()
方法傳入CSS選擇器.active
:
lis = items.children('.active')
print(lis)
複製程式碼
執行結果如下:
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
複製程式碼
可以看到,輸出結果已經做了篩選,留下了class
為active
的節點。
父節點
我們可以用parent()
方法來獲取某個節點的父節點,示例如下:
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
container = items.parent()
print(type(container))
print(container)
複製程式碼
執行結果如下:
<class 'pyquery.pyquery.PyQuery'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
複製程式碼
這裡我們首先用.list
選取class
為list
的節點,然後呼叫parent()
方法得到其父節點,其型別依然是PyQuery
型別。
這裡的父節點是該節點的直接父節點,也就是說,它不會再去查詢父節點的父節點,即祖先節點。
但是如果想獲取某個祖先節點,該怎麼辦呢?這時可以用parents()
方法:
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
parents = items.parents()
print(type(parents))
print(parents)
複製程式碼
執行結果如下:
<class 'pyquery.pyquery.PyQuery'>
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
複製程式碼
可以看到,輸出結果有兩個:一個是class
為wrap
的節點,一個是id
為container
的節點。也就是說,parents()
方法會返回所有的祖先節點。
如果想要篩選某個祖先節點的話,可以向parents()
方法傳入CSS選擇器,這樣就會返回祖先節點中符合CSS選擇器的節點:
parent = items.parents('.wrap')
print(parent)
複製程式碼
執行結果如下:
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
複製程式碼
可以看到,輸出結果少了一個節點,只保留了class
為wrap
的節點。
兄弟節點
前面我們說明了子節點和父節點的用法,還有一種節點,那就是兄弟節點。如果要獲取兄弟節點,可以使用siblings()
方法。這裡還是以上面的HTML程式碼為例:
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings())
複製程式碼
這裡首先選擇class
為list
的節點內部class
為item-0
和active
的節點,也就是第三個li
節點。那麼,很明顯,它的兄弟節點有4個,那就是第一、二、四、五個li
節點。
執行結果如下:
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0">first item</li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
複製程式碼
可以看到,這正是我們剛才所說的4個兄弟節點。
如果要篩選某個兄弟節點,我們依然可以向siblings
方法傳入CSS選擇器,這樣就會從所有兄弟節點中挑選出符合條件的節點了:
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings('.active'))
複製程式碼
這裡我們篩選了class
為active
的節點,通過剛才的結果可以觀察到,class
為active
的兄弟節點只有第四個li
節點,所以結果應該是一個。
我們再看一下執行結果:
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
複製程式碼
5. 遍歷
剛才可以觀察到,pyquery的選擇結果可能是多個節點,也可能是單個節點,型別都是PyQuery
型別,並沒有返回像Beautiful Soup那樣的列表。
對於單個節點來說,可以直接列印輸出,也可以直接轉成字串:
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(str(li))
複製程式碼
執行結果如下:
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
複製程式碼
對於多個節點的結果,我們就需要遍歷來獲取了。例如,這裡把每一個li
節點進行遍歷,需要呼叫items()
方法:
from pyquery import PyQuery as pq
doc = pq(html)
lis = doc('li').items()
print(type(lis))
for li in lis:
print(li, type(li))
複製程式碼
執行結果如下:
<class 'generator'>
<li class="item-0">first item</li>
<class 'pyquery.pyquery.PyQuery'>
<li class="item-1"><a href="link2.html">second item</a></li>
<class 'pyquery.pyquery.PyQuery'>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<class 'pyquery.pyquery.PyQuery'>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<class 'pyquery.pyquery.PyQuery'>
<li class="item-0"><a href="link5.html">fifth item</a></li>
<class 'pyquery.pyquery.PyQuery'>
複製程式碼
可以發現,呼叫items()
方法後,會得到一個生成器,遍歷一下,就可以逐個得到li
節點物件了,它的型別也是PyQuery
型別。每個li
節點還可以呼叫前面所說的方法進行選擇,比如繼續查詢子節點,尋找某個祖先節點等,非常靈活。
6. 獲取資訊
提取到節點之後,我們的最終目的當然是提取節點所包含的資訊了。比較重要的資訊有兩類,一是獲取屬性,二是獲取文字,下面分別進行說明。
獲取屬性
提取到某個PyQuery
型別的節點後,就可以呼叫attr()
方法來獲取屬性:
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a, type(a))
print(a.attr('href'))
複製程式碼
執行結果如下:
<a href="link3.html"><span class="bold">third item</span></a> <class 'pyquery.pyquery.PyQuery'>
link3.html
複製程式碼
這裡首先選中class
為item-0
和active
的li
節點內的a
節點,它的型別是PyQuery
型別。
然後呼叫attr()
方法。在這個方法中傳入屬性的名稱,就可以得到這個屬性值了。
此外,也可以通過呼叫attr
屬性來獲取屬性,用法如下:
print(a.attr.href)
複製程式碼
結果如下:
link3.html
複製程式碼
這兩種方法的結果完全一樣。
如果選中的是多個元素,然後呼叫attr()
方法,會出現怎樣的結果呢?我們用例項來測試一下:
a = doc('a')
print(a, type(a))
print(a.attr('href'))
print(a.attr.href)
複製程式碼
執行結果如下:
<a href="link2.html">second item</a><a href="link3.html"><span class="bold">third item</span></a><a href="link4.html">fourth item</a><a href="link5.html">fifth item</a> <class 'pyquery.pyquery.PyQuery'>
link2.html
link2.html
複製程式碼
照理來說,我們選中的a
節點應該有4個,而且列印結果也應該是4個,但是當我們呼叫attr()
方法時,返回結果卻只是第一個。這是因為,當返回結果包含多個節點時,呼叫attr()
方法,只會得到第一個節點的屬性。
那麼,遇到這種情況時,如果想獲取所有的a
節點的屬性,就要用到前面所說的遍歷了:
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('a')
for item in a.items():
print(item.attr('href'))
複製程式碼
此時的執行結果如下:
link2.html
link3.html
link4.html
link5.html
複製程式碼
因此,在進行屬性獲取時,可以觀察返回節點是一個還是多個,如果是多個,則需要遍歷才能依次獲取每個節點的屬性。
獲取文字
獲取節點之後的另一個主要操作就是獲取其內部的文字了,此時可以呼叫text()
方法來實現:
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print(a.text())
複製程式碼
執行結果如下:
<a href="link3.html"><span class="bold">third item</span></a>
third item
複製程式碼
這裡首先選中一個a
節點,然後呼叫text()
方法,就可以獲取其內部的文字資訊。此時它會忽略掉節點內部包含的所有HTML,只返回純文字內容。
但如果想要獲取這個節點內部的HTML文字,就要用html()
方法了:
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(li.html())
複製程式碼
這裡我們選中了第三個li
節點,然後呼叫了html()
方法,它返回的結果應該是li
節點內的所有HTML文字。
執行結果如下:
<a href="link3.html"><span class="bold">third item</span></a>
複製程式碼
這裡同樣有一個問題,如果我們選中的結果是多個節點,text()
或html()
會返回什麼內容?我們用例項來看一下:
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li')
print(li.html())
print(li.text())
print(type(li.text())
複製程式碼
執行結果如下:
<a href="link2.html">second item</a>
second item third item fourth item fifth item
<class 'str'>
複製程式碼
結果可能比較出乎意料,html()
方法返回的是第一個li
節點的內部HTML文字,而text()
則返回了所有的li
節點內部的純文字,中間用一個空格分割開,即返回結果是一個字串。
所以這個地方值得注意,如果得到的結果是多個節點,並且想要獲取每個節點的內部HTML文字,則需要遍歷每個節點。而text()
方法不需要遍歷就可以獲取,它將所有節點取文字之後合併成一個字串。
7. 節點操作
pyquery提供了一系列方法來對節點進行動態修改,比如為某個節點新增一個class
,移除某個節點等,這些操作有時候會為提取資訊帶來極大的便利。
由於節點操作的方法太多,下面舉幾個典型的例子來說明它的用法。
addClass和removeClass
我們先用例項來感受一下:
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)
複製程式碼
首先選中了第三個li
節點,然後呼叫removeClass()
方法,將li
節點的active
這個class
移除,後來又呼叫addClass()
方法,將class
新增回來。每執行一次操作,就列印輸出當前li
節點的內容。
執行結果如下:
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
複製程式碼
可以看到,一共輸出了3次。第二次輸出時,li
節點的active
這個class
被移除了,第三次class
又新增回來了。
所以說,addClass()
和removeClass()
這些方法可以動態改變節點的class
屬性。
attr、text和html
當然,除了操作class
這個屬性外,也可以用attr()
方法對屬性進行操作。此外,還可以用text()
和html()
方法來改變節點內部的內容。示例如下:
html = '''
<ul class="list">
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
</ul>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.attr('name', 'link')
print(li)
li.text('changed item')
print(li)
li.html('<span>changed item</span>')
print(li)
複製程式碼
這裡我們首先選中li
節點,然後呼叫attr()
方法來修改屬性,其中該方法的第一個引數為屬性名,第二個引數為屬性值。接著,呼叫text()
和html()
方法來改變節點內部的內容。三次操作後,分別列印輸出當前的li
節點。
執行結果如下:
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0 active" name="link"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0 active" name="link">changed item</li>
<li class="item-0 active" name="link"><span>changed item</span></li>
複製程式碼
可以發現,呼叫attr()
方法後,li
節點多了一個原本不存在的屬性name
,其值為link
。接著呼叫text()
方法,傳入文字之後,li
節點內部的文字全被改為傳入的字串文字了。最後,呼叫html()
方法傳入HTML文字後,li
節點內部又變為傳入的HTML文字了。
所以說,如果attr()
方法只傳入第一個引數的屬性名,則是獲取這個屬性值;如果傳入第二個引數,可以用來修改屬性值。text()
和html()
方法如果不傳引數,則是獲取節點內純文字和HTML文字;如果傳入引數,則進行賦值。
remove()
顧名思義,remove()
方法就是移除,它有時會為資訊的提取帶來非常大的便利。下面有一段HTML文字:
html = '''
<div class="wrap">
Hello, World
<p>This is a paragraph.</p>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
wrap = doc('.wrap')
print(wrap.text())
複製程式碼
現在想提取Hello, World
這個字串,而不要p
節點內部的字串,需要怎樣操作呢?
這裡直接先嚐試提取class
為wrap
的節點的內容,看看是不是我們想要的。執行結果如下:
Hello, World This is a paragraph.
複製程式碼
這個結果還包含了內部的p
節點的內容,也就是說text()
把所有的純文字全提取出來了。如果我們想去掉p
節點內部的文字,可以選擇再把p
節點內的文字提取一遍,然後從整個結果中移除這個子串,但這個做法明顯比較煩瑣。
這時remove()
方法就可以派上用場了,我們可以接著這麼做:
wrap.find('p').remove()
print(wrap.text())
複製程式碼
首先選中p
節點,然後呼叫了remove()
方法將其移除,然後這時wrap
內部就只剩下Hello, World
這句話了,然後再利用text()
方法提取即可。
另外,其實還有很多節點操作的方法,比如append()
、empty()
和prepend()
等方法,它們和jQuery的用法完全一致,詳細的用法可以參考官方文件:pyquery.readthedocs.io/en/latest/a…。
8. 偽類選擇器
CSS選擇器之所以強大,還有一個很重要的原因,那就是它支援多種多樣的偽類選擇器,例如選擇第一個節點、最後一個節點、奇偶數節點、包含某一文字的節點等。示例如下:
li = doc('li:contains(second)')
print(li)
複製程式碼
這裡我們使用了CSS3的偽類選擇器,依次選擇了第一個li
節點、最後一個li
節點、第二個li
節點、第三個li
之後的li
節點、偶數位置的li
節點、包含second
文字的li
節點。
關於CSS選擇器的更多用法,可以參考www.w3school.com.cn/css/index.a…。
到此為止,pyquery的常用用法就介紹完了。如果想檢視更多的內容,可以參考pyquery的官方文件:pyquery.readthedocs.io。我們相信有了它,解析網頁不再是難事。
本資源首發於崔慶才的個人部落格靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)