透過LinkExtractor類提取連結

金木大大大發表於2023-11-30

  使用LinkExtractor類可以方便地從網頁中提取連結。以下是使用LinkExtractor類提取連結的基本步驟:


  匯入LinkExtractor類:


  在Python指令碼中匯入LinkExtractor類:


  from scrapy.linkextractors import LinkExtractor


  建立LinkExtractor物件:


  使用LinkExtractor類建立連結提取器物件,指定要提取的連結規則:


  link_extractor=LinkExtractor(allow=r'/page/',restrict_xpaths=['//div[ class="content"]'])


  allow=r'/page/':這裡使用allow引數指定要提取的連結的規則,這個例子中是提取所有URL中包含/page/的連結。


  restrict_xpaths=['//div[ class="content"]']:使用restrict_xpaths引數指定要在哪些XPath表示式匹配的區域中提取連結。


  提取連結:


  在Spider的parse方法中使用建立的LinkExtractor物件提取連結:


  def parse(self,response):


  links=link_extractor.extract_links(response)


  for link in links:


  #處理提取的連結


  print(link.url)


  使用extract_links方法從響應中提取連結,返回一個包含提取的連結的列表。


  遍歷提取的連結列表,可以對每個連結進行進一步處理。


  透過以上步驟,您可以使用LinkExtractor類方便地從網頁中提取連結。這樣可以輕鬆地獲取頁面中符合特定規則的連結,並進一步處理這些連結或者跟蹤這些連結進行爬取。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70032566/viewspace-2998130/,如需轉載,請註明出處,否則將追究法律責任。

相關文章