Java網路爬蟲實操（2）

sinkinka發表於2018-02-14

Java爬蟲

上一篇： Java網路爬蟲實操（1）

本篇文章繼續介紹爬蟲框架NetDiscovery的使用：如何發重複請求、如何用爬蟲容器引擎驅動爬蟲程式

1 ）重複請求的場景舉例

從2017年下半年開始，比特幣、數字貨幣、虛擬幣、區塊鏈技術、去中心化等等新名詞頻頻出現在媒體上，讓人不想看到都很難。

（本篇文章不研究數字貨幣是不是未來的發展方向）

風險提示：炒幣有風險，入市需謹慎

找了一個數字貨幣的聚合資訊平臺，上面會定時重新整理每種貨幣的價格。如果要寫一個有實際價值的抓資料程式，那肯定希望這個程式能重複執行抓資料的動作吧。

目標任務：每隔一段時間去獲取這個頁面上的數字貨幣【EOS】的價格資訊

2 ）程式碼實現

解析類

package com.sinkinka.parser;

import com.cv4j.netdiscovery.core.domain.Page;
import com.cv4j.netdiscovery.core.parser.Parser;

public class EosParser implements Parser {

   @Override
   public void process(Page page) {

       String xpathStr = "//div[@class='coinprice']/text()";
       String marketPrice = page.getHtml().xpath(xpathStr).get();
       System.out.println("marketPrice=" + marketPrice);

   }
}

複製程式碼

執行方法

package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;

public class EosSpider {

    public static void main(String[] args) {

        String eosUrl = "https://www.feixiaohao.com/currencies/eos/";

        long periodTime = 1000 * 600;

        Spider.create()
                .name("EOS")
                .repeatRequest(periodTime, eosUrl)、
 //下面這行程式碼要注意，要設定>=periodTime，想了解具體作用，可以去分析原始碼
                .initialDelay(periodTime) 
                .parser(new EosParser())
                .downloader(new HttpClientDownloader())
                .run();
    }
}
複製程式碼

執行結果

3 ）爬蟲容器引擎

數字貨幣有幾百上千種，每種貨幣資訊都在單獨的頁面上，如果要同時獲取多種數字貨幣的資訊，怎麼處理？

依賴框架，有一種實現方法是：給每種數字貨幣定義一個爬蟲程式，然後把爬蟲程式放到容器裡，統一交給爬蟲引擎去驅動。

程式碼示例：

package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.core.SpiderEngine;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;

public class TestSpiderEngine {

    public static void main(String[] args) {
        //爬蟲容器引擎
        SpiderEngine engine = SpiderEngine.create();

        //爬蟲程式1
        String eosUrl = "https://www.feixiaohao.com/currencies/eos/";
        long periodTime1 = 1000 * 5;
        Spider spider1 = Spider.create()
                .name("EOS")
                .repeatRequest(periodTime1, eosUrl)
                .parser(new EosParser())
                .downloader(new HttpClientDownloader())
                .initialDelay(periodTime1);

        engine.addSpider(spider1);

        //可以增加多個爬蟲到容器中,
//        engine.addSpider(spider2);
//        ......

        engine.httpd(8088);     //這一行要注意，通過介面可以獲取訪問爬蟲容器內的狀態
        engine.runWithRepeat();
    }
}
複製程式碼

訪問容器狀態的介面：

介面地址：http://127.0.0.1:8088/netdiscovery/spiders

返回的內容：

{
    "code":200,
    "data":[
        {
            "downloaderType":"HttpClientDownloader",   //用的哪個下載器
            "leftRequestSize":0,                       //佇列中還剩的request數量
            "queueType":"DefaultQueue",                //佇列型別：jdk(DefaultQueue)、redis、kafka
            "spiderName":"EOS",                        //爬蟲的名字，在引擎裡唯一
            "spiderStatus":1,                          //1:執行  2：暫停  4：停止
            "totalRequestSize":1                       //加入到佇列中的request總數量，減去上面的leftRequestSize，等於該爬蟲已經完成的重複請求次數
        }
    ],
    "message":"success"
}
複製程式碼

4 ）總結

本篇簡單介紹了NetDiscovery中發重複請求這個功能。這就是框架的價值，如果不用框架，自己再去實現的話，要多寫一些程式碼的。爬蟲引擎還有很多功能，敬請期待。

今天是西方情人節，祝天下有情人節日快樂！

祝大家身體健康、家庭和睦、工作順利！

下一篇：Java網路爬蟲實操（3）

Java網路爬蟲實操（10）
2018-06-10
Java爬蟲
Java網路爬蟲實操（1）
2018-02-11
Java爬蟲
Java網路爬蟲實操（6）
2018-02-28
Java爬蟲
Java網路爬蟲實操（3）
2018-02-16
Java爬蟲
Java網路爬蟲實操（4）
2018-02-18
Java爬蟲
Java網路爬蟲實操（5）
2018-02-24
Java爬蟲
Java網路爬蟲實操（7）
2018-03-05
Java爬蟲
Java網路爬蟲實操（9）
2018-03-17
Java爬蟲
Java網路爬蟲實操（8）
2018-03-15
Java爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Java+MySQL實現網路爬蟲程式
2013-12-02
JavaMySql爬蟲
Java實現網路爬蟲案例程式碼
2022-11-22
Java爬蟲
網路爬蟲（六）：實戰
2014-09-19
爬蟲
網路爬蟲
2018-12-07
爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
Python 非同步網路爬蟲（2）
2016-11-21
Python非同步爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
手把手教你寫網路爬蟲（2）：迷你爬蟲架構
2018-04-27
爬蟲架構
Python網路爬蟲實戰
2022-03-18
Python爬蟲
網路爬蟲精要
2019-04-27
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
【Python爬蟲9】Python網路爬蟲例項實戰
2017-02-17
Python爬蟲
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
傻傻的網路爬蟲
2010-01-10
爬蟲
python實現selenium網路爬蟲
2021-03-11
Python爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
讀書筆記：《Python3網路爬蟲開發實戰》——第2章：爬蟲基礎
2019-04-09
筆記Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
《用Python寫網路爬蟲》--編寫第一個網路爬蟲
2017-03-30
Python爬蟲
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
微博爬蟲 java實現
2015-08-31
爬蟲Java
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲

Java網路爬蟲實操（2）

1 ）重複請求的場景舉例

2 ）程式碼實現

3 ）爬蟲容器引擎

4 ）總結

相關文章