通過代理抓取網頁code方法 proxy httpurlconnection
非常簡單,非常容易用--可以可連線
package com.wanju.project001.zonghe.common.util.wjgate;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.InetSocketAddress;
import java.net.Proxy;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class WJWrapProxyTool {
/**
* 通過代理方式來聯網的
* @param url
* @param encode
* @param proxy
* @return
*/
public static String getHtmlContent(URL url, String encode,String proxyflg) {
StringBuffer contentBuffer = new StringBuffer();
int responseCode = -1;
HttpURLConnection con = null;
try {
Proxy proxy = new Proxy(java.net.Proxy.Type.HTTP,new InetSocketAddress("sswwdwdddssxxxxx", 8080));
// con = (HttpURLConnection) url.openConnection();//原來連線方式
con = (HttpURLConnection) url.openConnection(proxy);
con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE�����������
con.setConnectTimeout(60000);
con.setReadTimeout(60000);
// �����ҳ������Ϣ��
responseCode = con.getResponseCode();
if (responseCode == -1) {
System.out.println(url.toString() + " : connection is failure...");
con.disconnect();
return null;
}
if (responseCode >= 400) // ����ʧ��
{
System.out.println("����ʧ��:get response code: " + responseCode);
con.disconnect();
return null;
}
InputStream inStr = con.getInputStream();
InputStreamReader istreamReader = new InputStreamReader(inStr, encode);
BufferedReader buffStr = new BufferedReader(istreamReader);
String str = null;
while ((str = buffStr.readLine()) != null)
contentBuffer.append(str);
inStr.close();
} catch (IOException e) {
e.printStackTrace();
contentBuffer = null;
System.out.println("error: " + url.toString());
} finally {
con.disconnect();
}
return contentBuffer.toString();
}
//返回所有
public static String getHtmlContent(String url, String encode) {
if (!url.toLowerCase().startsWith("http://")) {
url = "http://" + url;
}
try {
URL rUrl = new URL(url);
return getHtmlContent(rUrl, encode,"proxy");
} catch (Exception e) {
e.printStackTrace();
return null;
}
}
public static void main(String[] args) {
String content = getHtmlContent("http://www.baidu.com", "gbk");
System.out.println("content length"+content);
}
}
相關文章
- 使用代理抓取網頁的原因網頁
- 網頁抓取與IPIDEA代理IP的關係網頁Idea
- Python通過代理多執行緒抓取圖片Python執行緒
- 網頁抓取選擇代理應該考慮什麼?網頁
- 為什麼需要用代理進行網頁抓取?網頁
- 使用 `open-uri.with_proxy` 方法開啟網頁網頁
- 藉助代理IP進行網頁抓取的終極指南網頁
- Proxy代理資料攔截方法
- CentOS7 通過代理上網CentOS
- 使用代理進行抓取網頁的主要原因是什麼?網頁
- 騰牛網抓取(單頁)
- 如何抓取網頁資訊?網頁
- NodeJS使用PhantomJs抓取網頁NodeJS網頁
- 網頁資料抓取之噹噹網網頁
- 代理模式(Proxy)模式
- 使用chromedriver抓取網頁截圖Chrome網頁
- 批量抓取網頁pdf檔案網頁
- 代理模式(Proxy Pattern)模式
- 代理(Proxy)的解析
- 爬蟲抓取網頁資料原理爬蟲網頁
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- IP地址在網頁抓取中有何作用網頁
- IP地址在網頁抓取中的作用網頁
- 使用 Beautiful Soup 在 Python 中抓取網頁Python網頁
- 網頁抓取的重要性介紹網頁
- 網頁抓取如何幫助資料分析?網頁
- Nginx通過域名代理tcp埠NginxTCP
- 表情黨抓取(單頁) (網站已轉移)網站
- 學會XPath,輕鬆抓取網頁資料網頁
- 網頁抓取常見的問題有哪些?網頁
- 網頁抓取五種常用的HTTP標頭網頁HTTP
- 例項:使用puppeteer headless方式抓取JS網頁JS網頁
- 如何用Python爬資料?(一)網頁抓取Python網頁
- go proxy 實現反向代理Go
- 網路協議之:haproxy的Proxy Protocol代理協議協議Protocol
- 使用 http-proxy 對網路請求進行代理HTTP
- java動態代理——代理方法的假設和驗證及Proxy原始碼分析五Java原始碼
- 用Rust手把手編寫一個Proxy(代理), TLS加密通訊RustTLS加密
- 有沒有通過網頁線上使用的CRM?網頁