抓取網頁中的原始碼.

悠悠隱於市發表於2011-03-24

首先在獲取html頁面的原始碼之前..

要準備Apache裡面的兩個包:

htmllexer.jar

htmlparser.jar

有了這兩個包方便,抓取網頁中的原始碼,抓取之後,生成一個txt文件..如果要獲取裡面的內容..就自己處理下就好了..

具體程式碼如下:

package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;   
import org.htmlparser.util.NodeList;
public class Test {   
    /**
     * 測試方法;
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception{   
        // TODO Auto-generated method stub 
        String url="http://www.baidu.com/";  
        //建立一個parser物件;
        Parser parser=new Parser(url);
        //設定字元編碼格式;
        parser.setEncoding("gb2312");   
        NodeList list=parser.parse(null);   
        //輸出;
        FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
        outputStream.write(list.toHtml().getBytes());
    }   
}

【Python】Python抓取分享頁面的原始碼示例
2019-06-27
Python原始碼
IP地址在網頁抓取中的作用
2022-06-20
網頁
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
使用代理抓取網頁的原因
2021-09-11
網頁
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
網頁資料抓取之噹噹網
2020-12-21
網頁
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
網頁抓取的重要性介紹
2021-12-16
網頁
批量抓取網頁pdf檔案
2019-02-16
網頁
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
Go和JavaScript結合使用：抓取網頁中的影像連結
2023-11-07
GoJavaScript網頁
好看的404頁面html原始碼網站404原始碼分享
2022-04-12
HTML原始碼網站
網頁抓取與IPIDEA代理IP的關係
2023-05-04
網頁Idea
網頁抓取常見的問題有哪些？
2023-01-11
網頁
網頁抓取五種常用的HTTP標頭
2022-06-28
網頁HTTP
QWebView獲取網頁原始碼
2018-11-01
WebView網頁原始碼
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
中信證券抓取（頁碼範圍）
2024-08-07
抓取網頁的含義和URL基本構成
2023-10-24
網頁
基於Chrome的Easy Scraper外掛抓取網頁
2024-04-06
Chrome網頁
兒童攝影網-網頁原始碼全
2020-12-27
網頁原始碼
網頁抓取如何幫助資料分析？
2022-02-11
網頁
IP地址在網頁抓取中有何作用
2022-05-09
網頁
Python實現簡單網頁圖片抓取完整程式碼例項
2020-05-27
Python網頁
例項：使用puppeteer headless方式抓取JS網頁
2018-05-08
JS網頁
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
學會XPath，輕鬆抓取網頁資料
2023-11-30
網頁
表情黨抓取（單頁） (網站已轉移)
2024-08-07
網站
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
藉助代理IP進行網頁抓取的終極指南
2023-03-06
網頁
如何避免在網頁抓取時被檢測到？
2022-01-25
網頁
網頁抓取選擇代理應該考慮什麼？
2022-06-17
網頁
為什麼需要用代理進行網頁抓取？
2021-11-10
網頁
使用代理進行抓取網頁的主要原因是什麼？
2021-12-27
網頁
匿名IP在網路抓取中的應用探索
2023-05-16
怎樣修改網站主頁原始碼，如何編輯網站的HTML檔案
2024-11-17
網站原始碼HTML
python怎樣抓取js生成的頁面
2021-09-11
PythonJS

抓取網頁中的原始碼.

相關文章