java抓取HTML頁面的資料(淘寶頁面),
--第1步:獲取http---第2步用正規表示式進行解析
第1步:
package com.yanshu.tools;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;
public class HttpUtility {
/**
* 向指定URL傳送GET方法的請求
*
* @param taskurl
* 傳送請求的URL
* @param param
* 請求引數,請求引數應該是 name1=value1&name2=value2 的形式。
* @return URL 所代表遠端資源的響應結果
*/
public static String sendGet(Object taskurl, String param) {
String result = "";
BufferedReader in = null;
try {
String urlNameString = taskurl + "?" + param;
URL realUrl = new URL(urlNameString);
// 開啟和URL之間的連線
URLConnection connection = realUrl.openConnection();
// 設定通用的請求屬性
connection.setRequestProperty("accept", "*/*");
//connection.setRequestProperty("referer", "https://item.taobao.com/item.htm?spm=a219r.lm874.14.1.7FfR2G&id=531878100031&ns=1&abbucket=17");
// connection.setRequestProperty("referer", "https://www.taobao.com");
connection.setRequestProperty("Content-type", "text/html");
connection.setRequestProperty("upgrade-insecure-requests", "1");
//connection.setRequestProperty("projectId", "1318");
//connection.setRequestProperty("target", "_blank");
connection.setRequestProperty("Cookie", "UM_distinctid=15ce85940eeb6-0ededb7ab12ab7-714d2542-1fa400-15ce85940f03a3; thw=cn; l=AoeH71vtTJplFHodyW9Km6LWlzBRNFtu; ali_apache_id=11.131.220.163.150770215638.249204.2; miid=542152054597054537;
_cc_=UtASsssmfA%3D%3D; tg=0; ali_ab=180.172.239.236.1504257044497.3; cna=qj6tEaUwR2gCAbSs7+wVMbzj; t=449d46ab83aeedc87c00dd3445b7c1a1; _m_h5_tk=9848cddbcb8e9e9fbcba777beaf178e3_1513319477951; _m_h5_tk_enc=098be3ca7eefbf0d0dc4ca8d4373a416; hng=CN%7Czh-CN%7CCNY%7C156;
mt=ci=0_0; cookie2=2d568166cf6798789cb6dfe308656172; v=0; _tb_token_=55e8bbe9576ed; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; ctoken=lD359uPelBrHdgHqQMaXp4p-render; isg=Av7-BVfyKJPOGn86hKhLA9_JTxSAl8CtYYz2VqgGYcE8S58lEM0MyDpptyF8; JSESSIONID=47BB19E15ADB5FD76C986F288B1DA2BE");
// connection.setRequestProperty("Accept-Charset", "utf-8");
connection.setRequestProperty("Accept-Language", "zh-CN,zh;q=0.8");
connection.setRequestProperty("cache-control", "max-age=0");
connection.setRequestProperty("connection", "Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// connection
// .setRequestProperty(
// "user-agent",
// "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36");
// connection
// .setRequestProperty(
// "user-agent",
// "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0");
// 建立實際的連線
connection.connect();
// 獲取所有響應頭欄位
Map<String, List<String>> map = connection.getHeaderFields();
// 遍歷所有的響應頭欄位
/* for (String key : map.keySet()) {
//System.out.println(key + "--->" + map.get(key));
}*/
// 定義 BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
//System.out.println(line);
}
} catch (Exception e) {
System.out.println("傳送GET請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally塊來關閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
/**
* 向指定 URL 傳送POST方法的請求
*
* @param url
* 傳送請求的 URL
* @param param
* 請求引數,請求引數應該是 name1=value1&name2=value2 的形式。
* @return 所代表遠端資源的響應結果
*/
public static String sendPost(String url, String param) {
PrintWriter out = null;
BufferedReader in = null;
String result = "";
try {
URL realUrl = new URL(url);
// 開啟和URL之間的連線
URLConnection conn = realUrl.openConnection();
// 設定通用的請求屬性
conn.setRequestProperty("accept", "*/*");
conn.setRequestProperty("connection", "Keep-Alive");
conn.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// 傳送POST請求必須設定如下兩行
conn.setDoOutput(true);
conn.setDoInput(true);
// 獲取URLConnection物件對應的輸出流
out = new PrintWriter(conn.getOutputStream());
// 傳送請求引數
out.print(param);
// flush輸出流的緩衝
out.flush();
// 定義BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(
new InputStreamReader(conn.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
}
} catch (Exception e) {
System.out.println("傳送 POST 請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally塊來關閉輸出流、輸入流
finally {
try {
if (out != null) {
out.close();
}
if (in != null) {
in.close();
}
} catch (IOException ex) {
ex.printStackTrace();
}
}
return result;
}
}
---第2步
package com.yanshu.tools;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexUtils2 {
/**
* 驗證Email
*
* @param email
* email地址,格式:zhangsan@zuidaima.com,zhangsan@xxx.com.cn,
* xxx代表郵件服務商
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkEmail(String email) {
String regex = "\\w+@\\w+\\.[a-z]+(\\.[a-z]+)?";
return Pattern.matches(regex, email);
}
/**
* 驗證身份證號碼
*
* @param idCard
* 居民身份證號碼15位或18位,最後一位可能是數字或字母
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkIdCard(String idCard) {
String regex = "[1-9]\\d{13,16}[a-zA-Z0-9]{1}";
return Pattern.matches(regex, idCard);
}
/**
* 驗證手機號碼(支援國際格式,+86135xxxx...(中國內地),+00852137xxxx...(中國香港))
*
* @param mobile
* 移動、聯通、電信運營商的號碼段
* <p>
* 移動的號段:134(0-8)、135、136、137、138、139、147(預計用於TD上網路卡)
* 、150、151、152、157(TD專用)、158、159、187(未啟用)、188(TD專用)
* </p>
* <p>
* 聯通的號段:130、131、132、155、156(世界風專用)、185(未啟用)、186(3g)
* </p>
* <p>
* 電信的號段:133、153、180(未啟用)、189
* </p>
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkMobile(String mobile) {
String regex = "(\\+\\d+)?1[34578]\\d{9}$";
return Pattern.matches(regex, mobile);
}
/**
* 驗證固定電話號碼
*
* @param phone
* 電話號碼,格式:國家(地區)電話程式碼 + 區號(城市程式碼) + 電話號碼,如:+8602085588447
* <p>
* <b>國家(地區) 程式碼 :</b>標識電話號碼的國家(地區)的標準國家(地區)程式碼。它包含從 0 到 9
* 的一位或多位數字, 數字之後是空格分隔的國家(地區)程式碼。
* </p>
* <p>
* <b>區號(城市程式碼):</b>這可能包含一個或多個從 0 到 9 的數字,地區或城市程式碼放在圓括號——
* 對不使用地區或城市程式碼的國家(地區),則省略該元件。
* </p>
* <p>
* <b>電話號碼:</b>這包含從 0 到 9 的一個或多個數字
* </p>
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkPhone(String phone) {
String regex = "(\\+\\d+)?(\\d{3,4}\\-?)?\\d{7,8}$";
return Pattern.matches(regex, phone);
}
/**
* 驗證整數(正整數和負整數)
*
* @param digit
* 一位或多位0-9之間的整數
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkDigit(String digit) {
String regex = "\\-?[1-9]\\d+";
return Pattern.matches(regex, digit);
}
/**
* 驗證整數和浮點數(正負整數和正負浮點數)
*
* @param decimals
* 一位或多位0-9之間的浮點數,如:1.23,233.30
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkDecimals(String decimals) {
String regex = "\\-?[1-9]\\d+(\\.\\d+)?";
return Pattern.matches(regex, decimals);
}
/**
* 驗證空白字元
*
* @param blankSpace
* 空白字元,包括:空格、\t、\n、\r、\f、\x0B
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkBlankSpace(String blankSpace) {
String regex = "\\s+";
return Pattern.matches(regex, blankSpace);
}
/**
* 驗證中文
*
* @param chinese
* 中文字元
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkChinese(String chinese) {
String regex = "^[\u4E00-\u9FA5]+$";
return Pattern.matches(regex, chinese);
}
/**
* 驗證日期(年月日)
*
* @param birthday
* 日期,格式:1992-09-03,或1992.09.03
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkBirthday(String birthday) {
String regex = "[1-9]{4}([-./])\\d{1,2}\\1\\d{1,2}";
return Pattern.matches(regex, birthday);
}
/**
* 驗證URL地址
*
* @param url
* 格式:http://blog.csdn.net:80/xyang81/article/details/7705960? 或
* http://www.csdn.net:80
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkURL(String url) {
String regex = "(https?://(w{3}\\.)?)?\\w+\\.\\w+(\\.[a-zA-Z]+)*(:\\d{1,5})?(/\\w*)*(\\??(.+=.*)?(&.+=.*)?)?";
return Pattern.matches(regex, url);
}
/**
* <pre>
* 獲取網址 URL 的一級域
* </pre>
*
* @param url
* @return
*/
public static String getDomain(String url) {
Pattern p = Pattern.compile(
"(?<=http://|\\.)[^.]*?\\.(com|cn|net|org|biz|info|cc|tv)",
Pattern.CASE_INSENSITIVE);
// 獲取完整的域名
// Pattern
// p=Pattern.compile("[^//]*?\\.(com|cn|net|org|biz|info|cc|tv)",
// Pattern.CASE_INSENSITIVE);
Matcher matcher = p.matcher(url);
matcher.find();
return matcher.group();
}
/**
* 匹配中國郵政編碼
*
* @param postcode
* 郵政編碼
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkPostcode(String postcode) {
String regex = "[1-9]\\d{5}";
return Pattern.matches(regex, postcode);
}
/**
* 匹配IP地址(簡單匹配,格式,如:192.168.1.1,127.0.0.1,沒有匹配IP段的大小)
*
* @param ipAddress
* IPv4標準地址
* @return 驗證成功返回true,驗證失敗返回false
*/
public static boolean checkIpAddress(String ipAddress) {
String regex = "[1-9](\\d{1,2})?\\.(0|([1-9](\\d{1,2})?))\\.(0|([1-9](\\d{1,2})?))\\.(0|([1-9](\\d{1,2})?))";
return Pattern.matches(regex, ipAddress);
}
/**
* 正規表示式匹配多個結果
*
* @param input
* 匹配文字
* @param regex
* 正規表示式
* @return 匹配結果List集合
*/
public static List<String> regexAll(String input, String regex) {
List<String> strList = new ArrayList<String>();
Matcher matcher = matcherUtil(input, regex);
while (matcher.find()) {
strList.add(matcher.group(1));
}
return strList;
}
/**
* 正規表示式匹配單個結果
*
* @param input
* 匹配文字
* @param regex
* 正規表示式
* @return 匹配結果List集合
*/
public static String regexFirst(String input, String regex) {
Matcher matcher = matcherUtil(input, regex);
if (matcher.find()) {
return matcher.group(1);
}
return "";
}
/**
* 獲取正則物件
*
* @param input
* 匹配文字
* @param regex
* 正規表示式
* @return Matcher物件
*/
public static Matcher matcherUtil(String input, String regex) {
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
return matcher;
}
}
---第3步:測試
package com.yanshu.tools;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import com.alibaba.fastjson.JSON;
public class pageNum {
public static void main(String[] args) {
// String url = "https://s.taobao.com/search?spm=a230r.1.0.0.3d2936f0doEGnW&q=%E5%A5%B3%E8%A3%85%E5%A4%96%E5%A5%97%E5%86%AC&rs=up&rsclick=7&preq=%E5%A5%B3%E8%A3%852017%E6%96%B0%E6%AC%BE%E6%BD%AE&cps=yes&ppath=413%3A800000782%3B20000%3A123042686%3B122216562%3A47502";
String url = "http://api.s.m.taobao.com/search.json?m=shopitemsearch&sellerId=196993935&n=40&orderType=hotsell_desc&ajax=true";
// String url = "https://s.taobao.com/search?tab=all&ppath=20000:7043912&cat=54900006&q=FLAM&spma=1513693743";
String pageNum = HttpUtility.sendGet(url, null);
Map maps=(Map)JSON.parse(pageNum);
Map mapw=new HashMap<>();
Object key=null;
Object value=null;
Object proxystring=null;
for (Object map : maps.entrySet()){
key = ((Map.Entry)map).getKey();
value = ((Map.Entry)map).getValue();
mapw.put(key, value);
if(
key =="totalPage"||key.equals("totalPage"))
{
proxystring=value;
}
}
System.out.println("-----"+proxystring);
/*String JsonStr = RegexUtils2.regexFirst(pageNum, "g_page_config = (.*?)\\}\\};")+"}}";
// String JsonStr = RegexUtils2.regexFirst(pageNum, "jsonp873\\((.*?)\\}\\}\\);")+"}}";
Object mods = JSON.parseObject(JsonStr).get("mods");
Object sortbar = JSON.parseObject(mods.toString()).get("sortbar");
Object data = JSON.parseObject(sortbar.toString()).get("data");
Object pager = JSON.parseObject(data.toString()).get("pager");
Object totalPage = JSON.parseObject(pager.toString()).get("totalPage");*/
System.out.println(pageNum);
}
}
相關文章
- Java爬蟲系列二:使用HttpClient抓取頁面HTMLJava爬蟲HTTPclientHTML
- Java“牽手”淘寶商品列表頁資料採集+淘寶商品價格資料排序,淘寶API介面申請指南Java排序API
- 淘寶API系列:如何採集淘寶商品詳情頁資料?API
- 採集淘寶商品詳情頁資料
- Python抓取淘寶IP地址資料Python
- Javascript抓取京東、淘寶商品資料JavaScript
- 淘寶拼多多京東上貨必備API 商品詳情頁資料抓取 APP商品詳情原資料APIAPP
- 【Python】Python抓取分享頁面的原始碼示例Python原始碼
- 前段頁面HTMLHTML
- 爬蟲抓取網頁資料原理爬蟲網頁
- 網頁資料抓取之噹噹網網頁
- Laravel 配合 puppeteer 抓取 SPA 頁面Laravel
- Html中引用其他html頁面的幾種方式HTML
- 有趣的html頁面HTML
- 網頁抓取如何幫助資料分析?網頁
- 好看的404頁面html帶導航 好看的404頁面htmlHTML
- WebMagic抓取 table分頁資料, table分頁時,URL不變Web
- 從淘寶首頁登入說起
- 如何抓取網頁資訊?網頁
- win10淘寶頁面無法開啟怎麼辦_win10淘寶無法顯示此網頁的解決方法Win10網頁
- 學會XPath,輕鬆抓取網頁資料網頁
- 如何用Python爬資料?(一)網頁抓取Python網頁
- 爬蟲例項-淘寶頁面商品資訊獲取爬蟲
- Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼Python爬蟲網頁
- python怎樣抓取js生成的頁面PythonJS
- HTML頁面轉換為Sharepoint母版頁(實戰)HTML
- 1688 API分享:抓取1688商品詳情頁資料API
- Python爬蟲二:抓取京東商品列表頁面資訊Python爬蟲
- 什麼是聚合頁面?seo做聚合頁面的好處
- Express 配置HTML頁面訪問ExpressHTML
- html頁面轉PDF的功能HTML
- Go抓取網頁資料並存入MySQL和返回json資料Go網頁MySqlJSON
- 基於Html對父頁面開啟子頁面Dialog()的使用HTML
- .net post提交和獲得html頁面的原始碼HTML原始碼
- WebUI測試-獲取html頁面表格資料並存到Excel中WebUIHTMLExcel
- 面試:頁面載入海量資料面試
- springboot無妨訪問html頁面Spring BootHTML
- HTML-5-頁面結構分析HTML
- HTML5中History.back()頁面後退重新整理頁面HTML