【分享篇】Python爬蟲方向的第三方庫合集!

老男孩IT教育機構發表於2022-07-28

  提到Python爬蟲,相信大家一定不陌生,Python可應用的領域不止爬蟲,還包括人工智慧、後端開發、機器學習等,今天借本篇文章給大家介紹下Python爬蟲的三方庫都有哪些,請看下文:

  網路(通用)

  urllib-網路庫(stdlib)

  requests-網路庫

  grab-網路庫(基於pycurl)

  pycurl-網路庫(繫結libcurl)

  urllib3-Python HTTP庫,安全連線池、支援檔案post、可用性高

  httplib2-網路庫

  RoboBrowser-一個簡單的、極具Python風格的Python庫,無需獨立的瀏覽器即可瀏覽網頁。

  MechanicalSoup-一個與網站自動互動Python庫。

  mechanize-有狀態、可程式設計的web瀏覽庫

  socker-底層網路介面(stdlib)

  Unirest for Python-Unirest是一套可用於多種語言的輕量級的HTTP庫

  hyper-Python的HTTP/2客戶端

  PySocks-SocksiPy更新並積極維護的版本,包括錯誤修復和一些其他的特徵。作為socket模組的直接替換。

  非同步:

  treq-類似於requests的API(基於twisted)

  aiohttp-asyncio的HTTP客戶端/伺服器(PEP-3156)

  網路爬蟲框架

  功能齊全的爬蟲

  grab-網路爬蟲框架(基於pycurl/multicur)

  scrapy-網路爬蟲框架(基於twisted),不支援Python3

  pyspider-一個強大的爬蟲系統

  cola-一個分散式爬蟲框架

  其他

  portia-基於Scrapy的視覺化爬蟲

  restkit-Python的HTTP資源工具包。它可以讓你輕鬆地訪問HTTP資源,並圍繞它建立的物件

  demiurge-基於PyQuery的爬蟲微框架


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2908001/,如需轉載,請註明出處,否則將追究法律責任。

相關文章