java抓取HTML頁面的資料(淘寶頁面),

ruiguang21發表於2017-12-25

--第1步:獲取http---第2步用正規表示式進行解析

第1步:

package com.yanshu.tools;


import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;


public class HttpUtility {
/**
* 向指定URL傳送GET方法的請求

* @param taskurl
*            傳送請求的URL
* @param param
*            請求引數,請求引數應該是 name1=value1&name2=value2 的形式。
* @return URL 所代表遠端資源的響應結果
*/
public static String sendGet(Object taskurl, String param) {
String result = "";
BufferedReader in = null;
try {
String urlNameString = taskurl + "?" + param;
URL realUrl = new URL(urlNameString);
// 開啟和URL之間的連線
URLConnection connection = realUrl.openConnection();
// 設定通用的請求屬性
connection.setRequestProperty("accept", "*/*");
//connection.setRequestProperty("referer", "https://item.taobao.com/item.htm?spm=a219r.lm874.14.1.7FfR2G&id=531878100031&ns=1&abbucket=17");
// connection.setRequestProperty("referer", "https://www.taobao.com");
connection.setRequestProperty("Content-type", "text/html");
connection.setRequestProperty("upgrade-insecure-requests", "1");
//connection.setRequestProperty("projectId", "1318");
//connection.setRequestProperty("target", "_blank");
connection.setRequestProperty("Cookie", "UM_distinctid=15ce85940eeb6-0ededb7ab12ab7-714d2542-1fa400-15ce85940f03a3; thw=cn; l=AoeH71vtTJplFHodyW9Km6LWlzBRNFtu; ali_apache_id=11.131.220.163.150770215638.249204.2; miid=542152054597054537; _cc_=UtASsssmfA%3D%3D; tg=0; ali_ab=180.172.239.236.1504257044497.3; cna=qj6tEaUwR2gCAbSs7+wVMbzj; t=449d46ab83aeedc87c00dd3445b7c1a1; _m_h5_tk=9848cddbcb8e9e9fbcba777beaf178e3_1513319477951; _m_h5_tk_enc=098be3ca7eefbf0d0dc4ca8d4373a416; hng=CN%7Czh-CN%7CCNY%7C156; mt=ci=0_0; cookie2=2d568166cf6798789cb6dfe308656172; v=0; _tb_token_=55e8bbe9576ed; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; ctoken=lD359uPelBrHdgHqQMaXp4p-render; isg=Av7-BVfyKJPOGn86hKhLA9_JTxSAl8CtYYz2VqgGYcE8S58lEM0MyDpptyF8; JSESSIONID=47BB19E15ADB5FD76C986F288B1DA2BE");
// connection.setRequestProperty("Accept-Charset", "utf-8");
connection.setRequestProperty("Accept-Language", "zh-CN,zh;q=0.8");
connection.setRequestProperty("cache-control", "max-age=0");


connection.setRequestProperty("connection", "Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// connection
// .setRequestProperty(
// "user-agent",
// "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36");


// connection
// .setRequestProperty(
// "user-agent",
// "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0");

// 建立實際的連線
connection.connect();

// 獲取所有響應頭欄位
Map<String, List<String>> map = connection.getHeaderFields();

// 遍歷所有的響應頭欄位
/* for (String key : map.keySet()) {
//System.out.println(key + "--->" + map.get(key));
}*/
// 定義 BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
//System.out.println(line);
}

} catch (Exception e) {
System.out.println("傳送GET請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally塊來關閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}

return result;
}


/**
* 向指定 URL 傳送POST方法的請求

* @param url
*            傳送請求的 URL
* @param param
*            請求引數,請求引數應該是 name1=value1&name2=value2 的形式。
* @return 所代表遠端資源的響應結果
*/
public static String sendPost(String url, String param) {
PrintWriter out = null;
BufferedReader in = null;
String result = "";
try {
URL realUrl = new URL(url);
// 開啟和URL之間的連線
URLConnection conn = realUrl.openConnection();
// 設定通用的請求屬性
conn.setRequestProperty("accept", "*/*");
conn.setRequestProperty("connection", "Keep-Alive");
conn.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// 傳送POST請求必須設定如下兩行
conn.setDoOutput(true);
conn.setDoInput(true);
// 獲取URLConnection物件對應的輸出流
out = new PrintWriter(conn.getOutputStream());
// 傳送請求引數
out.print(param);
// flush輸出流的緩衝
out.flush();
// 定義BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(
new InputStreamReader(conn.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
}
} catch (Exception e) {
System.out.println("傳送 POST 請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally塊來關閉輸出流、輸入流
finally {
try {
if (out != null) {
out.close();
}
if (in != null) {
in.close();
}
} catch (IOException ex) {
ex.printStackTrace();
}
}
return result;
}
}

---第2步

package com.yanshu.tools;


import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class RegexUtils2 {


/**
* 驗證Email

* @param email
*            email地址,格式:zhangsan@zuidaima.com,zhangsan@xxx.com.cn,
*            xxx代表郵件服務商
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkEmail(String email) {
String regex = "\\w+@\\w+\\.[a-z]+(\\.[a-z]+)?";
return Pattern.matches(regex, email);
}


/**
* 驗證身份證號碼

* @param idCard
*            居民身份證號碼15位或18位,最後一位可能是數字或字母
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkIdCard(String idCard) {
String regex = "[1-9]\\d{13,16}[a-zA-Z0-9]{1}";
return Pattern.matches(regex, idCard);
}


/**
* 驗證手機號碼(支援國際格式,+86135xxxx...(中國內地),+00852137xxxx...(中國香港))

* @param mobile
*            移動、聯通、電信運營商的號碼段
*            <p>
*            移動的號段:134(0-8)、135、136、137、138、139、147(預計用於TD上網路卡)
*            、150、151、152、157(TD專用)、158、159、187(未啟用)、188(TD專用)
*            </p>
*            <p>
*            聯通的號段:130、131、132、155、156(世界風專用)、185(未啟用)、186(3g)
*            </p>
*            <p>
*            電信的號段:133、153、180(未啟用)、189
*            </p>
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkMobile(String mobile) {
String regex = "(\\+\\d+)?1[34578]\\d{9}$";
return Pattern.matches(regex, mobile);
}


/**
* 驗證固定電話號碼

* @param phone
*            電話號碼,格式:國家(地區)電話程式碼 + 區號(城市程式碼) + 電話號碼,如:+8602085588447
*            <p>
*            <b>國家(地區) 程式碼 :</b>標識電話號碼的國家(地區)的標準國家(地區)程式碼。它包含從 0 到 9
*            的一位或多位數字, 數字之後是空格分隔的國家(地區)程式碼。
*            </p>
*            <p>
*            <b>區號(城市程式碼):</b>這可能包含一個或多個從 0 到 9 的數字,地區或城市程式碼放在圓括號——
*            對不使用地區或城市程式碼的國家(地區),則省略該元件。
*            </p>
*            <p>
*            <b>電話號碼:</b>這包含從 0 到 9 的一個或多個數字
*            </p>
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkPhone(String phone) {
String regex = "(\\+\\d+)?(\\d{3,4}\\-?)?\\d{7,8}$";
return Pattern.matches(regex, phone);
}


/**
* 驗證整數(正整數和負整數)

* @param digit
*            一位或多位0-9之間的整數
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkDigit(String digit) {
String regex = "\\-?[1-9]\\d+";
return Pattern.matches(regex, digit);
}


/**
* 驗證整數和浮點數(正負整數和正負浮點數)

* @param decimals
*            一位或多位0-9之間的浮點數,如:1.23,233.30
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkDecimals(String decimals) {
String regex = "\\-?[1-9]\\d+(\\.\\d+)?";
return Pattern.matches(regex, decimals);
}


/**
* 驗證空白字元

* @param blankSpace
*            空白字元,包括:空格、\t、\n、\r、\f、\x0B
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkBlankSpace(String blankSpace) {
String regex = "\\s+";
return Pattern.matches(regex, blankSpace);
}


/**
* 驗證中文

* @param chinese
*            中文字元
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkChinese(String chinese) {
String regex = "^[\u4E00-\u9FA5]+$";
return Pattern.matches(regex, chinese);
}


/**
* 驗證日期(年月日)

* @param birthday
*            日期,格式:1992-09-03,或1992.09.03
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkBirthday(String birthday) {
String regex = "[1-9]{4}([-./])\\d{1,2}\\1\\d{1,2}";
return Pattern.matches(regex, birthday);
}


/**
* 驗證URL地址

* @param url
*            格式:http://blog.csdn.net:80/xyang81/article/details/7705960? 或
*            http://www.csdn.net:80
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkURL(String url) {
String regex = "(https?://(w{3}\\.)?)?\\w+\\.\\w+(\\.[a-zA-Z]+)*(:\\d{1,5})?(/\\w*)*(\\??(.+=.*)?(&.+=.*)?)?";
return Pattern.matches(regex, url);
}


/**
* <pre>
* 獲取網址 URL 的一級域
* </pre>

* @param url
* @return
*/
public static String getDomain(String url) {
Pattern p = Pattern.compile(
"(?<=http://|\\.)[^.]*?\\.(com|cn|net|org|biz|info|cc|tv)",
Pattern.CASE_INSENSITIVE);
// 獲取完整的域名
// Pattern
// p=Pattern.compile("[^//]*?\\.(com|cn|net|org|biz|info|cc|tv)",
// Pattern.CASE_INSENSITIVE);
Matcher matcher = p.matcher(url);
matcher.find();
return matcher.group();
}


/**
* 匹配中國郵政編碼

* @param postcode
*            郵政編碼
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkPostcode(String postcode) {
String regex = "[1-9]\\d{5}";
return Pattern.matches(regex, postcode);
}


/**
* 匹配IP地址(簡單匹配,格式,如:192.168.1.1,127.0.0.1,沒有匹配IP段的大小)

* @param ipAddress
*            IPv4標準地址
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkIpAddress(String ipAddress) {
String regex = "[1-9](\\d{1,2})?\\.(0|([1-9](\\d{1,2})?))\\.(0|([1-9](\\d{1,2})?))\\.(0|([1-9](\\d{1,2})?))";
return Pattern.matches(regex, ipAddress);
}


/**
* 正規表示式匹配多個結果

* @param input
*            匹配文字
* @param regex
*            正規表示式
* @return 匹配結果List集合
*/
public static List<String> regexAll(String input, String regex) {
List<String> strList = new ArrayList<String>();
Matcher matcher = matcherUtil(input, regex);


while (matcher.find()) {
strList.add(matcher.group(1));
}
return strList;
}


/**
* 正規表示式匹配單個結果

* @param input
*            匹配文字
* @param regex
*            正規表示式
* @return 匹配結果List集合
*/
public static String regexFirst(String input, String regex) {
Matcher matcher = matcherUtil(input, regex);
if (matcher.find()) {
return matcher.group(1);
}
return ""; 
}


/**
* 獲取正則物件

* @param input
*            匹配文字
* @param regex
*            正規表示式
* @return Matcher物件
*/
public static Matcher matcherUtil(String input, String regex) {
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
return matcher;
}
}

---第3步:測試

package com.yanshu.tools;




import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;


import com.alibaba.fastjson.JSON;






public class pageNum {
public static void main(String[] args) {

// String url = "https://s.taobao.com/search?spm=a230r.1.0.0.3d2936f0doEGnW&q=%E5%A5%B3%E8%A3%85%E5%A4%96%E5%A5%97%E5%86%AC&rs=up&rsclick=7&preq=%E5%A5%B3%E8%A3%852017%E6%96%B0%E6%AC%BE%E6%BD%AE&cps=yes&ppath=413%3A800000782%3B20000%3A123042686%3B122216562%3A47502";
String url = "http://api.s.m.taobao.com/search.json?m=shopitemsearch&sellerId=196993935&n=40&orderType=hotsell_desc&ajax=true";
// String url = "https://s.taobao.com/search?tab=all&ppath=20000:7043912&cat=54900006&q=FLAM&spma=1513693743";

String pageNum = HttpUtility.sendGet(url, null);


  Map maps=(Map)JSON.parse(pageNum);
  Map mapw=new HashMap<>();
  Object key=null;
  Object value=null;
  
  Object proxystring=null;
  for (Object map : maps.entrySet()){  
    key = ((Map.Entry)map).getKey();
    value = ((Map.Entry)map).getValue();
      mapw.put(key, value);
      if( key =="totalPage"||key.equals("totalPage"))
      {
      proxystring=value;
      }
  }  
  System.out.println("-----"+proxystring);
/*String JsonStr = RegexUtils2.regexFirst(pageNum, "g_page_config = (.*?)\\}\\};")+"}}";
// String JsonStr = RegexUtils2.regexFirst(pageNum, "jsonp873\\((.*?)\\}\\}\\);")+"}}";


Object mods = JSON.parseObject(JsonStr).get("mods");

Object sortbar = JSON.parseObject(mods.toString()).get("sortbar");

Object data = JSON.parseObject(sortbar.toString()).get("data");

Object pager = JSON.parseObject(data.toString()).get("pager");

Object totalPage = JSON.parseObject(pager.toString()).get("totalPage");*/



System.out.println(pageNum);




}

}

相關文章