通過代理抓取網頁code方法 proxy httpurlconnection

瓜瓜東西發表於2015-01-22

非常簡單，非常容易用--可以可連線

package com.wanju.project001.zonghe.common.util.wjgate;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.InetSocketAddress;
import java.net.Proxy;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class WJWrapProxyTool  {

    /**
     * 通過代理方式來聯網的
     * @param url
     * @param encode
     * @param proxy
     * @return
     */
    public static String getHtmlContent(URL url, String encode,String proxyflg) {
        StringBuffer contentBuffer = new StringBuffer();

        int responseCode = -1;
        HttpURLConnection con = null;
        try {
            Proxy proxy = new Proxy(java.net.Proxy.Type.HTTP,new InetSocketAddress("sswwdwdddssxxxxx", 8080)); 
//            con = (HttpURLConnection) url.openConnection();//原來連線方式
            con = (HttpURLConnection) url.openConnection(proxy);
            con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE�����������  
            con.setConnectTimeout(60000);
            con.setReadTimeout(60000);
            // �����ҳ������Ϣ��  
            responseCode = con.getResponseCode();
            if (responseCode == -1) {
                System.out.println(url.toString() + " : connection is failure...");
                con.disconnect();
                return null;
            }
            if (responseCode >= 400) // ����ʧ��  
            {
                System.out.println("����ʧ��:get response code: " + responseCode);
                con.disconnect();
                return null;
            }

            InputStream inStr = con.getInputStream();
            InputStreamReader istreamReader = new InputStreamReader(inStr, encode);
            BufferedReader buffStr = new BufferedReader(istreamReader);

            String str = null;
            while ((str = buffStr.readLine()) != null)
                contentBuffer.append(str);
            inStr.close();
        } catch (IOException e) {
            e.printStackTrace();
            contentBuffer = null;
            System.out.println("error: " + url.toString());
        } finally {
            con.disconnect();
        }
        return contentBuffer.toString();
    }
    

    //返回所有
    public static String getHtmlContent(String url, String encode) {
        if (!url.toLowerCase().startsWith("http://")) {
            url = "http://" + url;
        }
        try {
            URL rUrl = new URL(url);
            return getHtmlContent(rUrl, encode,"proxy");
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
    }
    
    public static void main(String[] args) {
        String content = getHtmlContent("http://www.baidu.com", "gbk");
        System.out.println("content length"+content);
    }
    
}

使用代理抓取網頁的原因
2021-09-11
網頁
網頁抓取與IPIDEA代理IP的關係
2023-05-04
網頁Idea
Python通過代理多執行緒抓取圖片
2019-02-13
Python執行緒
網頁抓取選擇代理應該考慮什麼？
2022-06-17
網頁
為什麼需要用代理進行網頁抓取？
2021-11-10
網頁
使用 `open-uri.with_proxy` 方法開啟網頁
2023-11-13
網頁
藉助代理IP進行網頁抓取的終極指南
2023-03-06
網頁
Proxy代理資料攔截方法
2022-12-01
CentOS7 通過代理上網
2018-04-03
CentOS
使用代理進行抓取網頁的主要原因是什麼？
2021-12-27
網頁
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
網頁資料抓取之噹噹網
2020-12-21
網頁
代理模式（Proxy）
2019-08-07
模式
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
批量抓取網頁pdf檔案
2019-02-16
網頁
代理模式（Proxy Pattern）
2024-05-28
模式
代理(Proxy)的解析
2019-02-26
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
IP地址在網頁抓取中有何作用
2022-05-09
網頁
IP地址在網頁抓取中的作用
2022-06-20
網頁
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
網頁抓取的重要性介紹
2021-12-16
網頁
網頁抓取如何幫助資料分析？
2022-02-11
網頁
Nginx通過域名代理tcp埠
2021-07-12
NginxTCP
表情黨抓取（單頁） (網站已轉移)
2024-08-07
網站
學會XPath，輕鬆抓取網頁資料
2023-11-30
網頁
網頁抓取常見的問題有哪些？
2023-01-11
網頁
網頁抓取五種常用的HTTP標頭
2022-06-28
網頁HTTP
例項：使用puppeteer headless方式抓取JS網頁
2018-05-08
JS網頁
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
go proxy 實現反向代理
2021-06-18
Go
網路協議之:haproxy的Proxy Protocol代理協議
2022-06-01
協議Protocol
使用 http-proxy 對網路請求進行代理
2022-09-01
HTTP
java動態代理——代理方法的假設和驗證及Proxy原始碼分析五
2020-08-05
Java原始碼
用Rust手把手編寫一個Proxy(代理), TLS加密通訊
2023-09-25
RustTLS加密
有沒有通過網頁線上使用的CRM?
2022-05-29
網頁

通過代理抓取網頁code方法 proxy httpurlconnection

相關文章