大家好,我是 Java陳序員
。
今天,給大家介紹一個優秀的爬蟲平臺,無需編寫程式碼,只要透過簡單的流程配置,即可實現爬蟲。
關注微信公眾號:【Java陳序員】,獲取開源專案分享、AI副業分享、超200本經典計算機電子書籍等。
專案介紹
spider-flow
—— 新一代爬蟲平臺,以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺。
功能特性:
- 支援Xpath/JsonPath/css選擇器/正則提取/混搭提取
- 支援JSON/XML/二進位制格式
- 支援多資料來源、SQL select/selectInt/selectOne/insert/update/delete
- 支援爬取JS動態渲染(或ajax)的頁面
- 支援代理
- 支援自動儲存至資料庫/檔案
- 常用字串、日期、檔案、加解密等函式
- 支援外掛擴充套件(自定義執行器,自定義方法)
- 任務監控,任務日誌
- 支援HTTP介面
- 支援Cookie自動管理
- 支援自定義函式
平臺還支援 Redis、MongoDB 等多種外掛,可參考對應的外掛文件進行整合。
❗❗❗注意:請友善使用
spider-flow
,遵守蜘蛛協議,不要將spider-flow
用於任何非法用途。
功能截圖
爬蟲列表
爬蟲流程圖配置
爬蟲Debug除錯
爬蟲定時任務設定
任務通知
爬蟲日誌
全域性變數
自定義函式
資料來源管理
快速開始
1、拉取程式碼
git clone https://github.com/ssssssss-team/spider-flow.git
2、建立資料庫
CREATE DATABASE `spiderflow` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;
3、將專案以 Maven 工程的形式匯入到 IDEA
4、修改目錄下 spider-flow/spider-flow-web/src/main/resources
的配置檔案 application.properties
中的資料庫連線資訊
## 資料庫使用者名稱
spring.datasource.username=root
## 資料庫密碼
spring.datasource.password=root
## 資料庫連線地址
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true
5、執行主啟動類 org.spiderflow.SpiderApplication
啟動專案
6、瀏覽器訪問
http://localhost:8088/
spider-flow
作為一個以流程驅動爬蟲的平臺,其中的程式碼實現值得我們深入學習。
❗❗❗注意:請友善使用
spider-flow
,遵守蜘蛛協議,不要將spider-flow
用於任何非法用途。
最後,貼上專案地址:
https://github.com/ssssssss-team/spider-flow
最後
推薦的開源專案已經收錄到 GitHub
專案,歡迎 Star
:
https://github.com/chenyl8848/great-open-source-project
或者訪問網站,進行線上瀏覽:
https://chencoding.top:8090/#/
大家的點贊、收藏和評論都是對作者的支援,如文章對你有幫助還請點贊轉發支援下,謝謝!