抓取網頁中的原始碼.
首先在獲取html頁面的原始碼之前..
要準備Apache裡面的兩個包:
htmllexer.jar
htmlparser.jar
有了這兩個包方便,抓取網頁中的原始碼,抓取之後,生成一個txt文件..如果要獲取裡面的內容..就自己處理下就好了..
具體程式碼如下:
package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
public class Test {
/**
* 測試方法;
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
String url="http://www.baidu.com/";
//建立一個parser物件;
Parser parser=new Parser(url);
//設定字元編碼格式;
parser.setEncoding("gb2312");
NodeList list=parser.parse(null);
//輸出;
FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
outputStream.write(list.toHtml().getBytes());
}
}
相關文章
- 【Python】Python抓取分享頁面的原始碼示例Python原始碼
- IP地址在網頁抓取中的作用網頁
- 使用 Beautiful Soup 在 Python 中抓取網頁Python網頁
- 使用代理抓取網頁的原因網頁
- NodeJS使用PhantomJs抓取網頁NodeJS網頁
- 騰牛網抓取(單頁)
- 如何抓取網頁資訊?網頁
- 網頁資料抓取之噹噹網網頁
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- 網頁抓取的重要性介紹網頁
- 批量抓取網頁pdf檔案網頁
- 使用chromedriver抓取網頁截圖Chrome網頁
- Go和JavaScript結合使用:抓取網頁中的影像連結GoJavaScript網頁
- 好看的404頁面html原始碼 網站404原始碼分享HTML原始碼網站
- 網頁抓取與IPIDEA代理IP的關係網頁Idea
- 網頁抓取常見的問題有哪些?網頁
- 網頁抓取五種常用的HTTP標頭網頁HTTP
- QWebView獲取網頁原始碼WebView網頁原始碼
- 爬蟲抓取網頁資料原理爬蟲網頁
- 中信證券抓取(頁碼範圍)
- 抓取網頁的含義和URL基本構成網頁
- 基於Chrome的Easy Scraper外掛抓取網頁Chrome網頁
- 兒童攝影網-網頁原始碼全網頁原始碼
- 網頁抓取如何幫助資料分析?網頁
- IP地址在網頁抓取中有何作用網頁
- Python實現簡單網頁圖片抓取完整程式碼例項Python網頁
- 例項:使用puppeteer headless方式抓取JS網頁JS網頁
- 如何用Python爬資料?(一)網頁抓取Python網頁
- 學會XPath,輕鬆抓取網頁資料網頁
- 表情黨抓取(單頁) (網站已轉移)網站
- Python中使用mechanize庫抓取網頁上的表格資料Python網頁
- 藉助代理IP進行網頁抓取的終極指南網頁
- 如何避免在網頁抓取時被檢測到?網頁
- 網頁抓取選擇代理應該考慮什麼?網頁
- 為什麼需要用代理進行網頁抓取?網頁
- 使用代理進行抓取網頁的主要原因是什麼?網頁
- 匿名IP在網路抓取中的應用探索
- 怎樣修改網站主頁原始碼,如何編輯網站的HTML檔案網站原始碼HTML
- python怎樣抓取js生成的頁面PythonJS