SWCJ爬蟲框架

AR發表於2022-01-26

原文網址 : https://www.cnblogs.com/microdream2/p/15845573.html

爬蟲框架

SWSJ

什麼是SWSJ

SWSJ是一個基於jsoup和正規表示式的java爬蟲框架，能夠使你的爬蟲與程式碼分離開，降低解耦性，同時

你的爬蟲不是通過程式碼，而是通過配置檔案來配置，這意味這當你的某些需求更改時，能直接修改配置檔案而不必去修改你的程式碼

他能幹什麼

它能使你的配置地獄更加地獄（呸

他能使你通過幾個簡單的爬蟲來實現一個爬蟲的具體實施

關於作者與不完善之處，求生欲極強

這只是一個14的少年的不成熟作品，我完成他僅用了三天，他可能有大量不完美之處，我正在不斷的完善，目前已經勉強能用，所以先發出來， SWSJ爬蟲框架: 一個通過配置檔案實現爬蟲的框架 (gitee.com) （開源）

優化目標：優化異常，優化傳入引數，優化返回值獲取，優化額外方法處理......

jar包見連結

使用詳解

首先你需要一個配置檔案，裡面有部分不是必要的

具體例項（解析見下方）

1.匯入jar包（廢話），暫不完善，並未上傳maven

2.定義一個介面

import com.midream.sheep.swsj.Annotation.WebSpider;

public interface test {
    @WebSpider("getHtml")//url的id,返回值與傳參需要與配置檔案一致
    String[] getData(int count);
    @WebSpider("getli")//支援多方法,非傳參
    String[] getLi();
}

3.配置檔案

<?xml version="1.0" encoding="UTF-8" ?>
<SWCL>
    <config>
        <constructionSpace isAbsolute="false" workSpace="E:\臨時檔案"/>
        <timeout value="10000"/>
        <createTactics isCache="true"/>
    </config>
    <swc id="getHtml">
        <cookies>
        </cookies>
        <parentInterface class="com.midream.sheep.test"/>
        <url name="getHtml" inPutType="int" inPutName="count">
            <type type="GET"/>
            <url path="https://pic.netbian.com/index_#{count}.html"/>
            <parseProgram  isHtml="true">
                <jsoup>
                    <pa>
                        #main>div.slist>ul.clearfix>li>a
                    </pa>
                </jsoup>
            </parseProgram>
            <returnType type="String[]"/>
        </url>
        <url name="getli" inPutType="" inPutName="">
            <type type="GET"/>
            <url path="https://pic.netbian.com/index_5.html"/>
            <parseProgram  isHtml="true">
                <jsoup>
                    <pa>
                        #main>div.slist>ul.clearfix>li
                    </pa>
                </jsoup>
            </parseProgram>
            <returnType type="String[]"/>
        </url>
    </swc>
</SWCL>

一個是有傳參，一個是不傳參，傳參可傳參改變值

4.調方法

XmlFactory xf = null;
        try {
            xf = new XmlFactory(XmlFactory.class.getClassLoader().getResource("").getPath()+"com/midream/sheep/test.xml");
            test getHtml = (test)xf.getWebSpider("getHtml");
            String[] li = getHtml.getLi();
            for (String s : li) {
                System.out.println(s);
            }

調XmlFactory獲取配置，通過工廠獲取類（注：需要強轉）

5.直接通過介面調

xml

<?xml version="1.0" encoding="UTF-8" ?>
<SWCL>
    <!--全域性配置-->
    <config>
        <!--工作空間，生成的位元組碼會儲存到裡面
        isAbsolute->是否是相對路徑
        workplace->資料夾路徑
        -->
        <constructionSpace isAbsolute="false" workSpace="E:\臨時檔案"/>
        <!--超時時間，請求超過這個時間報異常
        value->超時具體時間
        -->
        <timeout value="10000"/>
        <!--userAgrnt資料
        value->具體的userAgent文字
        -->
        <userAgent>
            <value>Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.62</value>
            <value>User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)</value>
            <value>User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)</value>
        </userAgent>
        <!--爬蟲策略
        cache快取，將生成的類直接轉為位元組碼載入
        非快取，將生成的類輸出到本地class在載入
        -->
        <createTactics isCache="false"/>
    </config>
    <!--具體的某個爬蟲類
         inPutType:傳入的數值型別（可以為空）
         id 獲取的方式
        下面使用傳入值時使用的識別符號（可以為空）-->
    <swc id="getHtml">
        <!--區域性爬蟲使用的cookies文字
        格式 鍵:值;···
        -->
        <cookies>
            uuid_tt_dd=4646545646-1642571061362-956268; UserName=xmdymcsheepsir;
        </cookies>
        <!--父類介面，爬蟲通過介面調-->
        <parentInterface class="com.midream.sheep.TestWeb"/>
        <!--請求配置
        一個配置對應一個方法
        -->
        <url name="getHtml" inPutType="" inPutName="">
            <!--請求型別
            當前僅支援POST和GET請求
            type="POST||GET"
            -->
            <type type="GET"/>
            <!--url連結-->
            <url path="https://pic.netbian.com/index_#{count}.html"/>
            <!--解析html方案
            並不支援同時使用
            <regular>正規表示式 正則特殊值 ALL 即為返回所有文字
            <jsoup>jsoup配置-->
            <parseProgram  isHtml="false">
<!--                <regular reg="href="/>-->
                <!--jsoup可以分為多層解析
                即一次<pa>就是一次解析
                -->
                <jsoup>
                    <!--pa可配置屬性來選取目標Document
					#id 通過id選擇
					htmlName 通過標籤名選擇
					name.class 通過類選擇
-->
                    <pa>
                        #main>div.slist>ul>li>a
                    </pa>
                </jsoup>
            </parseProgram>
            <!--返回值型別
            基本資料型別直接用，
            引用型別必須全類名如:java.lang.String
            -->
            <returnType type="String[]"/>
        </url>
    </swc>
</SWCL>

解讀

SWCJ

這是獲取的根標籤，是程式識別的視窗，這是必要的

config

這是全域性配置，其中都可以省略，不過工作空間推薦選擇

constructionSpace

工作空間，位元組碼的生成的資料夾

isAbsolute--是否是相對路徑，相對路徑是相對於當前專案的路徑

workSpace--路徑，具體的資料夾路徑

timeout

超時時間，預設是1000毫秒，可自定義或省略

userAgent

模擬瀏覽器，繞過檢驗是具體的單個userAgent，預設配置有一個，可省略

createTactics

建立策略：isCache是否有快取

swc

具體的一個介面，

id獲取爬蟲類的識別符號

cookies

可攜帶cookie進行爬蟲

parentInterface

父介面，通過介面調方法

class 介面的類全名

url

具體的一個爬蟲方法

id 方法的註解標識

inPutType，inPutName(傳入值，傳入值的呼叫名（呼叫用#{inputname}）,需與介面一致

type

type：獲取型別，有get和POST（暫不完善）供選擇

url

path 具體的一個超連結

parseProgram

爬蟲策略，有jsoup和正規表示式(不推薦)兩種

策略選擇見xml註釋

returnType

返回值型別，暫只支援String和String[]

全篇完，歡迎大佬提出意見，目前優化思路見連結

Scrapy爬蟲框架
2024-11-13
爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
爬蟲框架如何搭建
2023-11-27
爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
WebMagic 爬蟲框架淺析
2019-02-13
Web爬蟲框架
常用python爬蟲框架整理
2018-07-16
Python爬蟲框架
六種高效爬蟲框架
2022-06-07
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
什麼是Python爬蟲？Python爬蟲常用框架有哪些？
2020-12-24
Python爬蟲框架
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python微型非同步爬蟲框架
2019-02-16
Python非同步爬蟲框架
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Golang 網路爬蟲框架gocolly/colly
2019-01-15
Golang爬蟲框架
nodejs eggjs框架爬蟲 readhub.me
2018-11-29
NodeJS框架爬蟲
分享個人開源爬蟲框架
2019-03-01
爬蟲框架
網路爬蟲開發常用框架
2019-02-27
爬蟲框架
高效率爬蟲框架之 pyspider
2018-07-06
爬蟲框架IDE
looter——超輕量級爬蟲框架
2019-04-27
爬蟲框架
10個高效的Python爬蟲框架
2024-09-27
Python爬蟲框架
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
手把手教你寫網路爬蟲（3）：開源爬蟲框架對比
2018-04-28
爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
簡易多執行緒爬蟲框架
2018-06-02
執行緒爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
8個高效的Python爬蟲框架分享！
2021-12-08
Python爬蟲框架
通用爬蟲技術框架是什麼？
2022-05-18
爬蟲框架
Python爬蟲：流程框架和常用模組
2021-09-11
Python爬蟲框架