Python培訓教程分享:有哪些值得使用的爬蟲開源專案?

千鋒教育qyf 發表於 2021-11-29
Python 爬蟲

  相信很多同學在 學習Python技術的時候,都有學習到Python爬蟲技術,爬蟲技術在各大網際網路公司都是非常常見的,可以幫助我們獲取各種網站的資訊,比如微博、B站、知乎等,本篇 Python培訓教程分享為大家整理了幾個Python爬蟲專案,我們一起來看看有哪些值得使用的爬蟲開源專案?

src=http___inews.gtimg

  有哪些值得使用的爬蟲開源專案?

  1、爬蟲集合

  收集了各種爬蟲,包括b站、部落格園、百度百科、百度雲網盤、Boss、備課、豆瓣等,你能想到的國內外網站爬蟲,都可以先來看看這裡有沒有開源的爬蟲。

  2、Python爬蟲教程

  從0到1學習Python爬蟲,包括瀏覽器抓包,手機APP抓包,如fiddler、mitmproxy、各種爬蟲涉及的模組的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及驗證碼識別。

  3、微博爬蟲

  這個開源專案,可以持續爬取一個或多個新浪微博使用者的資料,並將結果資訊寫入檔案或資料庫,寫入資訊幾乎包括使用者微博的所有資料,包括使用者資訊和微博資訊兩大類。

  支援下載微博中的圖片和視訊,具體可下載檔案如下:

  原創微博中的原始圖片、轉發微博中的原始圖片、原創微博中的視訊、轉發微博中的視訊、原創視訊Live Photo中的視訊等。

  4、智慧爬蟲平臺

  這個開源平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺,可以再該平臺配置各種爬蟲。

  5、Java爬蟲

  Spiderman是一個Java開源Web資料抽取工具,它能夠收集指定的Web頁面並從這些頁面中提取有用的資料,它主要是運用了像XPath,正規表示式等這些技術來實現資料抽取。

  6、爬蟲大全

  包含了多個網站、電商資料爬蟲,包含:淘寶商品、微信公眾號、大眾點評、招聘網站、閒魚、包圖網等。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69996644/viewspace-2844382/,如需轉載,請註明出處,否則將追究法律責任。