Java抓取網頁資料（原網頁+Javascript返回資料）

weixin_33831673發表於2015-01-02

網頁JavaScript

轉載請註明出處！

原文連結：http://blog.csdn.net/zgyulongfei/article/details/7909006

有時候因為種種原因，我們須要採集某個站點的資料，但因為不同站點對資料的顯示方式略有不同！

本文就用Java給大家演示怎樣抓取站點的資料：（1）抓取原網頁資料；（2）抓取網頁Javascript返回的資料。

一、抓取原網頁。

這個樣例我們準備從http://ip.chinaz.com上抓取ip查詢的結果：

第一步：開啟這個網頁，然後輸入IP：111.142.55.73，點選查詢button，就能夠看到網頁顯示的結果：

第二步：檢視網頁原始碼，我們看到原始碼中有這麼一段：

從這裡能夠看出，查詢的結果，是又一次請求一個網頁之後顯示的。

再看看查詢之後的網頁地址：

也就是說，我們僅僅要訪問形如這種網址，就能夠得到ip查詢的結果，接下來看程式碼：

public void captureHtml(String ip) throws Exception {
	String strURL = "http://ip.chinaz.com/?IP=" + ip;
	URL url = new URL(strURL);
	HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();
	InputStreamReader input = new InputStreamReader(httpConn
			.getInputStream(), "utf-8");
	BufferedReader bufReader = new BufferedReader(input);
	String line = "";
	StringBuilder contentBuf = new StringBuilder();
	while ((line = bufReader.readLine()) != null) {
		contentBuf.append(line);
	}
	String buf = contentBuf.toString();
	int beginIx = buf.indexOf("查詢結果[");
	int endIx = buf.indexOf("上面四項依次顯示的是");
	String result = buf.substring(beginIx, endIx);
	System.out.println("captureHtml()的結果：\n" + result);
}

使用HttpURLConnection連線站點，用bufReader儲存網頁返回的資料，然後通過自己定義的一個解析方式將結果顯示出來。

這裡我僅僅是隨便的解析了一下，要解析的很準確的話自己需再處理。

解析結果例如以下：

captureHtml()的結果：
查詢結果[1]: 111.142.55.73 ==>> 1871591241 ==>> 福建省漳州市移動</strong><br />

二、抓取網頁JavaScript返回的結果。

有時候站點為了保護自己的資料，並沒有把資料直接放在網頁原始碼中返回，而是採用非同步的方式，用JS返回資料，這樣能夠避免搜尋引擎等工具對站點資料的抓取。

首先看一下這個網頁：

用第一種方式檢視該網頁的原始碼，卻沒有發現該運單的跟蹤資訊，由於它是通過JS的方式獲取結果的。

但有時候我們非常須要獲取到JS的資料，這個時候要怎麼辦呢？

這個時候我們須要用到一個工具：HTTP Analyzer，這個工具能夠截獲Http的互動內容，我們通過這個工具來達到我們的目的。

首先點選Startbutton之後，它就開始監聽網頁的互動行為了。

我們開啟網頁：http://www.kiees.cn/sf.php ，能夠看到HTTP Analyzer列出了全部該網頁的請求資料以及結果：

為了更方便的檢視JS的結果，我們先清空這些資料，然後再網頁中輸入快遞單號：107818590577，點選查詢button，然後檢視HTTP Analyzer的結果：

這個就是點選查詢button之後，HTTP Analyzer的結果，我們繼續檢視：

從上面兩幅圖中能夠看出，HTTP Analyzer能夠截獲JS返回的資料，並在Response Content中顯示，同一時候能夠看到JS請求的網頁地址。

既然如此，我們僅僅要分析HTTP Analyzer的結果，然後模擬JS的行為就可獲取到資料，即我們僅僅要訪問JS請求的網頁地址來獲取資料，當然前提是這些資料是沒有經過加密的，我們記下JS請求的URL：http://www.kiees.cn/sf.php?wen=107818590577&channel=&rnd=0

然後讓程式去請求這個網頁的結果就可以！

以下是程式碼：

public void captureJavascript(String postid) throws Exception {
	String strURL = "http://www.kiees.cn/sf.php?wen=" + postid
			+ "&channel=&rnd=0";
	URL url = new URL(strURL);
	HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();
	InputStreamReader input = new InputStreamReader(httpConn
			.getInputStream(), "utf-8");
	BufferedReader bufReader = new BufferedReader(input);
	String line = "";
	StringBuilder contentBuf = new StringBuilder();
	while ((line = bufReader.readLine()) != null) {
		contentBuf.append(line);
	}
	System.out.println("captureJavascript()的結果：\n" + contentBuf.toString());
}

看到了吧，抓取JS的方式和前面抓取原網頁的程式碼一模一樣，我們僅僅只是做了一個分析JS的過程。

以下是程式執行的結果：

captureJavascript()的結果：

<div class="results"><div id="ali-itu-wl-result" class="ali-itu-wl-result"><h2 class="logisTitle">運單<span class="mail-no">【107818590577】</span>的跟蹤資訊</h2><div class="trace_result"><ul><li><span class="time">2012-07-16 15:46:00</span><span class="info">已收件 </span></li><li><span class="time">2012-07-16 16:03:00</span><span class="info">快件在廣州\t,準備送往下一站廣州集散中心 </span></li><li><span class="time">2012-07-16 19:33:00</span><span class="info">快件在廣州集散中心,準備送往下一站佛山集散中心 </span></li><li><span class="time">2012-07-17 01:56:00</span><span class="info">快件在佛山集散中心\t,準備送往下一站佛山 </span></li><li><span class="time">2012-07-17 09:41:00</span><span class="info">正在派件.. </span></li><li><span class="time">2012-07-17 11:28:00</span><span class="info">派件已簽收 </span></li><li><span class="time">2012-07-17 11:28:00</span><span class="info">簽收人是:已簽收 </span></li></ul><div></div></div></div> </div>

這些資料就是JS返回的結果了，我們的目的達到了！

希望本文可以對須要的朋友有一點幫助，須要程式原始碼的，請點選這裡下載！

Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
網頁資料抓取之噹噹網
2020-12-21
網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
網頁抓取如何幫助資料分析？
2022-02-11
網頁
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
學會XPath，輕鬆抓取網頁資料
2023-11-30
網頁
如何抓取網頁資訊？
2022-06-02
網頁
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
Puppeteer爬取網頁資料
2019-03-22
網頁
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
QueryList免費線上網頁採集資料抓取工具-toolfk.com
2018-11-04
網頁
網頁提取資料常用正則
2018-09-05
網頁
WebMagic抓取 table分頁資料， table分頁時，URL不變
2024-11-07
Web
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
1688 API分享：抓取1688商品詳情頁資料
2023-02-28
API
Postman模擬瀏覽器網頁請求並獲取網頁資料
2024-04-03
Postman瀏覽器網頁
Python lxml ：從網頁HTML/XML提取資料
2019-07-04
PythonXML網頁HTML
批量抓取網頁pdf檔案
2019-02-16
網頁
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
使用代理抓取網頁的原因
2021-09-11
網頁
網頁可讀內容抽取 API 資料介面
2024-08-31
網頁API
結合LangChain實現網頁資料爬取
2024-07-18
LangChain網頁
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
Go和JavaScript結合使用：抓取網頁中的影像連結
2023-11-07
GoJavaScript網頁
在 C# 和 JavaScript 之間選擇進行網頁抓取
2024-09-22
C#JavaScript網頁
js之返回網頁頂部
2019-01-12
JS網頁
淘寶拼多多京東上貨必備API 商品詳情頁資料抓取 APP商品詳情原資料
2023-03-07
APIAPP
2019Q2網頁遊戲資料包告
2019-10-15
網頁遊戲
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
用Jupyter—Notebook爬取網頁資料例項14
2020-12-01
網頁
用Jupyter—Notebook爬取網頁資料例項12
2020-12-01
網頁
抓取金投網文字資料（xpath練習）
2024-08-07
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
網頁抓取的重要性介紹
2021-12-16
網頁

Java抓取網頁資料（原網頁+Javascript返回資料）

相關文章