新一代爬蟲平臺!不寫程式碼即可完成爬蟲...

Java陈序员發表於2024-05-30

大家好,我是 Java陳序員

今天,給大家介紹一個優秀的爬蟲平臺,無需編寫程式碼,只要透過簡單的流程配置,即可實現爬蟲。

關注微信公眾號:【Java陳序員】,獲取開源專案分享、AI副業分享、超200本經典計算機電子書籍等。

專案介紹

spider-flow —— 新一代爬蟲平臺,以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺。

功能特性:

  • 支援Xpath/JsonPath/css選擇器/正則提取/混搭提取
  • 支援JSON/XML/二進位制格式
  • 支援多資料來源、SQL select/selectInt/selectOne/insert/update/delete
  • 支援爬取JS動態渲染(或ajax)的頁面
  • 支援代理
  • 支援自動儲存至資料庫/檔案
  • 常用字串、日期、檔案、加解密等函式
  • 支援外掛擴充套件(自定義執行器,自定義方法)
  • 任務監控,任務日誌
  • 支援HTTP介面
  • 支援Cookie自動管理
  • 支援自定義函式

平臺還支援 Redis、MongoDB 等多種外掛,可參考對應的外掛文件進行整合。

❗❗❗注意:請友善使用 spider-flow,遵守蜘蛛協議,不要將 spider-flow 用於任何非法用途。

功能截圖

爬蟲列表

爬蟲流程圖配置

爬蟲Debug除錯

爬蟲定時任務設定

任務通知

爬蟲日誌

全域性變數

自定義函式

資料來源管理

快速開始

1、拉取程式碼

git clone https://github.com/ssssssss-team/spider-flow.git

2、建立資料庫

CREATE DATABASE `spiderflow` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;

3、將專案以 Maven 工程的形式匯入到 IDEA

4、修改目錄下 spider-flow/spider-flow-web/src/main/resources 的配置檔案 application.properties 中的資料庫連線資訊

## 資料庫使用者名稱
spring.datasource.username=root
## 資料庫密碼
spring.datasource.password=root
## 資料庫連線地址
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true

5、執行主啟動類 org.spiderflow.SpiderApplication 啟動專案

6、瀏覽器訪問

http://localhost:8088/

spider-flow 作為一個以流程驅動爬蟲的平臺,其中的程式碼實現值得我們深入學習。

❗❗❗注意:請友善使用 spider-flow,遵守蜘蛛協議,不要將 spider-flow 用於任何非法用途。

最後,貼上專案地址:

https://github.com/ssssssss-team/spider-flow

最後

推薦的開源專案已經收錄到 GitHub 專案,歡迎 Star

https://github.com/chenyl8848/great-open-source-project

或者訪問網站,進行線上瀏覽:

https://chencoding.top:8090/#/

大家的點贊、收藏和評論都是對作者的支援,如文章對你有幫助還請點贊轉發支援下,謝謝!

相關文章