java抓取網頁的亂碼問題(通用)

悠悠隱於市發表於2011-03-17

java抓取網頁的亂碼問題（通用）2010-12-22 13:34//解決抓取頁面的亂碼問題

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class DownPage {
    public static void main(String args[]) throws IOException{

//抓取的頁面地址
        String urlStr = "http://www.baidu.com";
        URL url = new URL(urlStr);
        URLConnection connection = url.openConnection();

//獲得該網頁的編碼
        String ss = connection.getContentType();
        System.out.println(ss);

//查InputStreamReader的構造方法，gb2312為該頁面的編碼
        BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312"));
        File file = new File("d:/a.html");
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)));
        if(br != null){
            String s = null;
            while((s = br.readLine())!=null){
                //String sss = new String(s.getBytes("gb2312"),"windows-31J");
                System.out.println(s);
                bw.write(s);
                bw.flush();
            }
            bw.close();
            br.close();
        }
    }
}

網頁抓取常見的問題有哪些？
2023-01-11
網頁
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
Java GBK 中文亂碼問題分析
2021-09-09
Java
Java Web開發中文亂碼問題
2018-07-10
JavaWeb
java中亂碼問題解決方法
2020-04-06
Java
tomcat-windows環境頁面亂碼問題
2024-11-06
TomcatWindows
confluence亂碼問題
2018-03-20
Java IO輸入輸出及亂碼問題
2018-08-22
Java
vscode中文亂碼問題
2024-09-29
VSCode
EasyUI 中文亂碼問題
2020-12-30
UI
java建立web動態網頁遇到的問題
2020-10-05
JavaWeb網頁
公司網站首頁突然亂碼
2024-10-12
網站
使用代理抓取網頁的原因
2021-09-11
網頁
mysql亂碼的問題如何解決
2021-09-11
MySql
idea控制檯中文亂碼的問題
2021-01-03
Idea
Python爬蟲亂碼問題
2018-05-11
Python爬蟲
解決中文亂碼問題
2024-05-14
Kali Linux 2020.1亂碼問題
2020-02-21
Linux
jasperreport HTML格式亂碼問題
2020-04-06
HTML
Tomcat配置jsp亂碼問題
2020-11-03
TomcatJS
IDEA中Tomcat亂碼問題
2020-12-12
IdeaTomcat
Python BeautifulSoup中文亂碼問題
2020-12-12
Python
Python網路抓取的三個常見問題
2022-06-09
Python
springboot下的純html頁面亂碼帶問號?
2024-07-06
Spring BootHTML
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
如何解決PuTTY中文亂碼的問題
2019-03-16
jsp頁面通過url向後臺傳值時的中文亂碼問題
2018-05-10
JS
flashfxp 亂碼，2種辦法解決flashfxp 亂碼問題
2020-09-02
linux 安裝字型解決JAVA圖形中文亂碼問題
2024-06-02
LinuxJava
Druid.io SQL亂碼問題
2018-05-15
UISQL
confluence中文顯示亂碼問題
2018-09-04
springmvc 解決中文亂碼問題
2024-05-14
SpringMVC
MySql中文亂碼問題解決
2020-11-13
MySql
Jmeter 解決中文亂碼問題
2020-10-10
JMeter
Gradle 編譯警告亂碼問題
2024-07-15
Gradle編譯
Mysqldump匯出亂碼問題排查
2022-03-15
MySql
MySQL：亂碼問題處理流程
2021-02-16
MySql

java抓取網頁的亂碼問題(通用)

相關文章