盤點!最全的Python網路爬蟲第三方庫合集!

老男孩IT教育機構發表於2022-12-20

  Python語言的應用場景可謂是十分全面,比如後端開發、網路爬蟲、人工智慧、資料分析,之所以應用場景這麼廣泛,其原因在於豐富的第三方庫,那麼適用於網路爬蟲的第三方庫有哪些呢?以下是詳細的內容:

  網路:

  通用:

  urllib:網路庫(stdlib)

  requests:網路庫

  grab:網路庫(基於pycurl)

  pycurl:網路庫(繫結libcurl)

  urllib3:Python HTTP庫,安全連線池、支援檔案post、可用性高

  httplib2:網路庫

  RoboBrowser:一個簡單的、極具Python風格的Python庫,無需獨立的瀏覽器即可瀏覽網頁

  MechanicalSoup:一個與網站自動互動Python庫

  mechanize:有狀態、可程式設計的Web瀏覽庫

  socket:底層網路介面(stdlib)

  非同步:

  treq:類似於requests的API(基於twisted)

  aiohttp:asyncio的HTTP客戶端/伺服器(PEP-3156)

  網路爬蟲框架:

  功能齊全的爬蟲:

  grab:網路爬蟲框架(基於pycurl/multicur)

  scrapy:網路爬蟲框架(基於twisted),不支援Python3

  pyspider:一個強大的爬蟲系統

  其他:

  portia:基於Scrapy的視覺化爬蟲

  restkit:Python的HTTP資源工具包,可以讓你輕鬆地訪問HTTP資源,並圍繞它建立的物件


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2928734/,如需轉載,請註明出處,否則將追究法律責任。

相關文章