構建一個給爬蟲使用的代理IP池

Tony沈哲發表於2017-11-23

原文網址 : https://juejin.im/post/5a1693626fb9a0451a760d1f

爬蟲

做網路爬蟲時，一般對代理IP的需求量比較大。因為在爬取網站資訊的過程中，很多網站做了反爬蟲策略，可能會對每個IP做頻次控制。這樣我們在爬取網站時就需要很多代理IP。

代理IP的獲取，可以從以下幾個途徑得到：

從免費的網站上獲取，質量很低，能用的IP極少
購買收費的代理服務，質量高很多
自己搭建代理伺服器，穩定，但需要大量的伺服器資源。

本文的代理IP池是通過爬蟲事先從多個免費網站上獲取代理IP之後，再做檢查判斷IP是否可用，可用的話就存放到MongoDB中，最後展示到前端的頁面上。

獲取可用Proxy

獲取代理的核心程式碼是ProxyManager，它採用RxJava2來實現，主要做了以下幾件事：

建立ParallelFlowable，針對每一個提供免費代理IP的頁面並行地抓取。對於不瞭解ParallelFlowable的同學，可以看我之前的文章RxJava 之 ParallelFlowable

Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                .parallel()複製程式碼

針對每一個頁面進行抓取，返回List

map(new Function<String, List<Proxy>>() {
                 @Override
                 public List<Proxy> apply(String s) throws Exception {

                     try {
                         return new ProxyPageCallable(s).call();
                     } catch (Exception e) {
                         e.printStackTrace();
                     }

                     return null;
                 }
             })複製程式碼

對每一個頁面獲取的代理IP列表進行校驗，判斷是否可用

flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
                 @Override
                 public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                     if (proxies == null) return null;

                     List<Proxy> result = proxies
                             .stream()
                             .parallel()
                             .filter(new Predicate<Proxy>() {
                         @Override
                         public boolean test(Proxy proxy) {

                             HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                             return HttpManager.get().checkProxy(httpHost);
                         }
                     }).collect(Collectors.toList());

                     return Flowable.fromIterable(result);
                 }
             })複製程式碼

依次儲存到proxyList

subscribe(new Consumer<Proxy>() {
                 @Override
                 public void accept(Proxy proxy) throws Exception {
                     log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                     proxy.setLastSuccessfulTime(new Date().getTime());
                     ProxyPool.proxyList.add(proxy);
                 }
             });複製程式碼

附上完整的流程圖

再附上完整的ProxyManager程式碼：

import com.cv4j.proxy.domain.Proxy;
import com.cv4j.proxy.http.HttpManager;
import com.cv4j.proxy.task.ProxyPageCallable;
import io.reactivex.Flowable;
import io.reactivex.functions.Consumer;
import io.reactivex.functions.Function;
import lombok.extern.slf4j.Slf4j;
import org.apache.http.HttpHost;
import org.reactivestreams.Publisher;
import org.springframework.stereotype.Component;

import java.util.Date;
import java.util.List;
import java.util.function.Predicate;
import java.util.stream.Collectors;

/**
 * Created by tony on 2017/10/25.
 */
@Slf4j
@Component
public class ProxyManager {

    /**
     * 抓取代理，成功的代理存放到ProxyPool中
     */
    public void start() {

        Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                .parallel()
                .map(new Function<String, List<Proxy>>() {
                    @Override
                    public List<Proxy> apply(String s) throws Exception {

                        try {
                            return new ProxyPageCallable(s).call();
                        } catch (Exception e) {
                            e.printStackTrace();
                        }

                        return null;
                    }
                })
                .flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
                    @Override
                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                        if (proxies == null) return null;

                        List<Proxy> result = proxies
                                .stream()
                                .parallel()
                                .filter(new Predicate<Proxy>() {
                            @Override
                            public boolean test(Proxy proxy) {

                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                return HttpManager.get().checkProxy(httpHost);
                            }
                        }).collect(Collectors.toList());

                        return Flowable.fromIterable(result);
                    }
                })
                .sequential()
                .subscribe(new Consumer<Proxy>() {
                    @Override
                    public void accept(Proxy proxy) throws Exception {
                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                        proxy.setLastSuccessfulTime(new Date().getTime());
                        ProxyPool.proxyList.add(proxy);
                    }
                });
    }
}複製程式碼

定時任務

每隔幾個小時跑一次定時任務，在抓取完任務之後先刪除舊的資料，然後再把新的資料插入到MongoDB中。

import com.cv4j.proxy.ProxyManager;
import com.cv4j.proxy.ProxyPool;
import com.cv4j.proxy.dao.ProxyDao;
import com.cv4j.proxy.domain.Proxy;
import com.safframework.tony.common.utils.Preconditions;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import java.util.concurrent.CopyOnWriteArrayList;

/**
 * Created by tony on 2017/11/22.
 */
@Component
public class ScheduleJobs {

    @Autowired
    ProxyDao proxyDao;

    @Autowired
    ProxyManager proxyManager;

    /**
     * 每六個小時跑一次任務
     */
    @Scheduled(cron = "0 0 */6 * * ?")
    public void cronJob() {
        System.out.println("Job Start...");

        proxyManager.start();

        CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;

        // 先刪除舊的資料
        proxyDao.deleteAll();

        // 然後再進行插入新的proxy
        if (Preconditions.isNotBlank(list)) {

            for (Proxy p:list) {

                proxyDao.saveProxy(p);
            }
        }

        System.out.println("Job End...");
    }
}複製程式碼

展示到前端

整個專案使用Spring Boot搭建，執行起來之後本地訪問地址：
http://localhost:8080/load?pagename=proxy_list

預覽效果如下：

在使用前，還可以再做一次檢測，只要雙擊某個代理IP即可。

在第二次檢測時，對於已經失效的IP會被ProxyPool刪除。

總結

在做爬蟲時，自己維護一個可用的代理IP池是很有必要的事情，當然想要追求更高穩定性的代理IP還是考慮購買比較好。

最後，附上github地址：
github.com/fengzhizi71…

爬蟲被封怎麼辦？用Node構建一個私人IP代理池
2019-04-27
爬蟲
爬蟲如何使用ip代理池
2021-09-11
爬蟲
如何建立爬蟲代理ip池
2019-04-25
爬蟲
代理Ip池構建及使用
2019-01-16
Python 爬蟲IP代理池的實現
2018-12-17
Python爬蟲
爬蟲代理IP的使用技巧
2022-07-12
爬蟲
代理ip池對爬蟲有多重要
2021-09-11
爬蟲
手把手教你爬蟲代理ip池的建立
2021-09-11
爬蟲
爬蟲使用代理防封IP
2019-04-17
爬蟲
如何用海外HTTP代理設定python爬蟲代理ip池？
2022-08-30
HTTPPython爬蟲
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
代理ip池對爬蟲有什麼好處
2021-09-11
爬蟲
python 爬蟲代理池
2019-03-09
Python爬蟲
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲採集自建代理ip池的三大優勢
2022-05-18
爬蟲
實用爬蟲-02-爬蟲真正使用代理 ip
2018-09-08
爬蟲
如何建立爬蟲IP池？
2022-06-07
爬蟲
網路爬蟲怎麼使用ip代理
2021-09-11
爬蟲
一篇瞭解怎麼使用爬蟲代理IP
2021-09-11
爬蟲
分散式爬蟲有哪些使用代理IP的方法？
2021-09-11
分散式爬蟲
爬蟲工作使用代理IP有哪些優勢？
2022-05-30
爬蟲
爬蟲之代理池維護
2018-08-18
爬蟲
爬蟲代理怎麼選ip
2021-09-11
爬蟲
代理IP如何突破反爬蟲？
2021-09-11
爬蟲
Python3網路爬蟲(十一)：爬蟲黑科技之讓你的爬蟲程式更像人類使用者的行為(代理IP池等)
2019-01-07
Python爬蟲
爬蟲ip代理池搭建前需解決的問題及搭建思路
2018-12-20
爬蟲
如何用http代理的ip池繞過網站反爬蟲機制？
2023-05-04
HTTP網站爬蟲
python爬蟲實戰：爬取西刺代理的代理ip（二）
2019-02-16
Python爬蟲
爬蟲中代理IP的常見方案
2021-09-11
爬蟲
爬蟲需要代理IP的基本要求
2021-09-11
爬蟲
爬蟲代理IP的三大作用
2022-05-21
爬蟲
【PhpSelenium】3.定時爬蟲 + 多工爬蟲 + 代理池
2019-12-17
PHP爬蟲
[PhpSelenium] 3.定時爬蟲 + 多工爬蟲 + 代理池
2019-12-17
PHP爬蟲
爬蟲代理IP助力企業業務的三個方面
2022-06-15
爬蟲
導致爬蟲使用代理IP卻仍被限制的原因
2022-07-07
爬蟲
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
Python爬蟲技巧---設定代理IP
2018-07-12
Python爬蟲
爬蟲代理IP有哪些好處？
2021-09-11
爬蟲
3 行寫爬蟲 - 使用 Goribot 快速構建 Golang 爬蟲
2019-10-13
爬蟲Golang

構建一個給爬蟲使用的代理IP池

獲取可用Proxy

定時任務

展示到前端

總結

相關文章