這 6 個爬蟲開源專案 yyds
今天盤點 6 個爬蟲開源專案,它們可以幫你爬天爬地怕空氣,爬微博、爬B站、爬知乎、爬*站。
提前宣告,切勿使用這些專案從事非法商業活動,僅用於用於科研學習
01
微博爬蟲
這個開源專案程式可以持續爬取一個或多個新浪微博使用者(如李文di、無疫煩)的資料,並將結果資訊寫入檔案或資料庫。寫入資訊幾乎包括使用者微博的所有資料,包括使用者資訊和微博資訊兩大類。
地址:https://github.com/dataabc/weiboSpider
爬取結果可寫入檔案和資料庫,具體的寫入檔案型別如下:
txt檔案
csv檔案
json檔案
MySQL資料庫
MongoDB資料庫
SQLite資料庫
同時支援下載微博中的圖片和視訊,具體的可下載檔案如下:
原創微博中的原始圖片
轉發微博中的原始圖片
原創微博中的視訊
轉發微博中的視訊
原創微博Live Photo中的視訊
轉發微博Live Photo中的視訊
首先需要修改 config.json 檔案,然後爬取,程式會自動生成一個 weibo 資料夾,我們以後爬取的所有微博都被儲存在這裡。
然後程式在該資料夾下生成一個名為"微博名字"的資料夾,明星的所有微博爬取結果都在這裡。資料夾裡包含一個csv檔案、一個txt檔案、一個json檔案、一個img資料夾和一個video資料夾,img資料夾用來儲存下載到的圖片,video資料夾用來儲存下載到的視訊。如果你設定了儲存資料庫功能,這些資訊也會儲存在資料庫裡,資料庫設定見設定資料庫部分。
02
Python爬蟲教程
Python爬蟲教程系列、從 0 到 1 學習 Python 爬蟲,包括瀏覽器抓包,手機 APP 抓包,如 fiddler、mitmproxy,各種爬蟲涉及的模組的使用,如:requests、beautifulSoup、selenium、appium、scrapy 等,以及驗證碼識別,MySQL,MongoDB 資料庫的 Python 使用,多執行緒多程式爬蟲的使用,css 爬蟲加密逆向破解,JS爬蟲逆向,分散式爬蟲,爬蟲專案實戰例項等。
地址:https://github.com/wistbean/learn_python3_spider
03
爬蟲集合
這個開源專案收集了各種爬蟲 ,包括 Blibli、部落格園、百度百科、北郵人、百度雲網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公眾號、網易雲等等,你能想到的國內外網站爬蟲,都可以先來這裡看看有沒有開源的爬蟲。
地址:https://github.com/facert/awesome-spider
04
智慧爬蟲平臺
這個開源平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。
地址:https://gitee.com/ssssssss-team/spider-flow
接下來以流程圖的方式,開始配置一些變數和引數,點開始就能爬出你想要的資料。
05
Java爬蟲
Spiderman 是一個Java開源Web資料抽取工具,它能夠收集指定的Web頁面並從這些頁面中提取有用的資料。
Spiderman主要是運用了像XPath,正規表示式等這些技術來實資料抽取。
地址:https://gitee.com/l-weiwei/spiderman
06
爬蟲大全
這個開源專案包含多種網站、電商資料爬蟲。包含:淘寶商品、微信公眾號、大眾點評、招聘網站、閒魚、阿里任務、scrapy部落格園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文字採集、fofa資產採集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評️️️。
地址:https://gitee.com/AJay13/ECommerceCrawlers
歡迎關注公眾號 逛逛GitHub ,每天推薦一個好玩有趣的開源專案。最後,防止找不到本篇文章,可以收藏點贊,方便翻閱查詢。
推薦閱讀
相關文章
- Python爬蟲開源專案合集Python爬蟲
- 讀者推薦的開源專案 yyds
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 32個Python爬蟲專案demoPython爬蟲
- 爬蟲專案爬蟲
- 分享個人開源爬蟲框架爬蟲框架
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 想成為Python高手,必須看這篇爬蟲原理介紹!(附29個爬蟲專案)Python爬蟲
- 第一個分散式爬蟲專案分散式爬蟲
- 如何快速建立一個爬蟲專案爬蟲
- (python)爬蟲----八個專案帶你進入爬蟲的世界Python爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- 104個實用網路爬蟲專案資源整理(超全)爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- Python開發爬蟲專案+程式碼Python爬蟲
- Scrapy入門-第一個爬蟲專案爬蟲
- Python爬蟲小專案:爬一個圖書網站Python爬蟲網站
- 奇伢爬蟲專案爬蟲
- 爬蟲專案總結爬蟲
- scrapyd 部署爬蟲專案爬蟲
- 網路爬蟲專案爬蟲
- Python培訓教程分享:有哪些值得使用的爬蟲開源專案?Python爬蟲
- 從零開始的爬蟲專案(一)爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- 資源整理 | 32個Python爬蟲專案讓你一次吃到撐Python爬蟲
- 網路爬蟲專案開發日誌(三):爬蟲上線準備爬蟲
- Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案Python爬蟲框架
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- 爬蟲實戰專案集合爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 100爬蟲專案遷移爬蟲
- gerapy框架爬蟲專案部署框架爬蟲
- 爬蟲專案實戰(一)爬蟲
- 專案--python網路爬蟲Python爬蟲