抓取網頁中的原始碼.
首先在獲取html頁面的原始碼之前..
要準備Apache裡面的兩個包:
htmllexer.jar
htmlparser.jar
有了這兩個包方便,抓取網頁中的原始碼,抓取之後,生成一個txt文件..如果要獲取裡面的內容..就自己處理下就好了..
具體程式碼如下:
package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
public class Test {
/**
* 測試方法;
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
String url="http://www.baidu.com/";
//建立一個parser物件;
Parser parser=new Parser(url);
//設定字元編碼格式;
parser.setEncoding("gb2312");
NodeList list=parser.parse(null);
//輸出;
FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
outputStream.write(list.toHtml().getBytes());
}
}
相關文章
- php中抓取網頁內容的程式碼PHP網頁
- IP地址在網頁抓取中的作用網頁
- java抓取網頁的亂碼問題(通用)Java網頁
- python3使用requests包抓取並儲存網頁原始碼Python網頁原始碼
- 使用PHP的正則抓取頁面中的網址PHP
- 【Python】Python抓取分享頁面的原始碼示例Python原始碼
- 爬取網頁後的抓取資料_3種抓取網頁資料方法網頁
- 網路爬蟲-去除網頁原始碼中的標籤爬蟲網頁原始碼
- 如何抓取網頁資訊?網頁
- python抓取網頁Python網頁
- Perl 6 網頁抓取網頁
- 使用代理抓取網頁的原因網頁
- 使用 Beautiful Soup 在 Python 中抓取網頁Python網頁
- wget 網頁爬蟲,網頁抓取工具wget網頁爬蟲
- scrapy抓取ajax請求的網頁網頁
- java抓取網頁的郵件地址Java網頁
- 騰牛網抓取(單頁)
- python3抓取網頁解碼問題!Python網頁
- 網頁資料抓取之噹噹網網頁
- Go和JavaScript結合使用:抓取網頁中的影像連結GoJavaScript網頁
- python抓取網頁中圖片並儲存到本地Python網頁
- 網頁抓取的重要性介紹網頁
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- 批量抓取網頁pdf檔案網頁
- 從網頁上抓取資料網頁
- 用scrapy進行網頁抓取網頁
- 使用chromedriver抓取網頁截圖Chrome網頁
- 好看的404頁面html原始碼 網站404原始碼分享HTML原始碼網站
- QWebView獲取網頁原始碼WebView網頁原始碼
- 網頁抓取常見的問題有哪些?網頁
- 網頁抓取五種常用的HTTP標頭網頁HTTP
- Java抓取網頁資料(原網頁+Javascript返回資料)網頁JavaScript
- 兒童攝影網-網頁原始碼全網頁原始碼
- 爬蟲抓取網頁資料原理爬蟲網頁
- C#抓取網頁HTML內容C#網頁HTML
- 中信證券抓取(頁碼範圍)
- 高效獲取網頁原始碼COM網頁原始碼
- 如何隱藏和解網頁原始碼網頁原始碼