java抓取網頁的亂碼問題(通用)
java抓取網頁的亂碼問題(通用)2010-12-22 13:34//解決抓取頁面的亂碼問題 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.net.URL; import java.net.URLConnection; public class DownPage { public static void main(String args[]) throws IOException{ //抓取的頁面地址 String urlStr = "http://www.baidu.com"; URL url = new URL(urlStr); URLConnection connection = url.openConnection(); //獲得該網頁的編碼 String ss = connection.getContentType(); System.out.println(ss); //查InputStreamReader的構造方法,gb2312為該頁面的編碼 BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312")); File file = new File("d:/a.html"); BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file))); if(br != null){ String s = null; while((s = br.readLine())!=null){ //String sss = new String(s.getBytes("gb2312"),"windows-31J"); System.out.println(s); bw.write(s); bw.flush(); } bw.close(); br.close(); } } }
相關文章
- 網頁抓取常見的問題有哪些?網頁
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- Java GBK 中文亂碼問題分析Java
- Java Web開發中文亂碼問題JavaWeb
- java中亂碼問題解決方法Java
- tomcat-windows環境頁面亂碼問題TomcatWindows
- confluence亂碼問題
- Java IO輸入輸出及亂碼問題Java
- vscode中文亂碼問題VSCode
- EasyUI 中文亂碼問題UI
- java建立web動態網頁遇到的問題JavaWeb網頁
- 公司網站首頁突然亂碼網站
- 使用代理抓取網頁的原因網頁
- mysql亂碼的問題如何解決MySql
- idea控制檯中文亂碼的問題Idea
- Python爬蟲亂碼問題Python爬蟲
- 解決中文亂碼問題
- Kali Linux 2020.1亂碼問題Linux
- jasperreport HTML格式亂碼問題HTML
- Tomcat配置jsp亂碼問題TomcatJS
- IDEA中Tomcat亂碼問題IdeaTomcat
- Python BeautifulSoup中文亂碼問題Python
- Python網路抓取的三個常見問題Python
- springboot下的純html頁面亂碼帶問號?Spring BootHTML
- NodeJS使用PhantomJs抓取網頁NodeJS網頁
- 騰牛網抓取(單頁)
- 如何抓取網頁資訊?網頁
- 如何解決PuTTY中文亂碼的問題
- jsp頁面通過url向後臺傳值時的中文亂碼問題JS
- flashfxp 亂碼,2種辦法解決flashfxp 亂碼問題
- linux 安裝字型解決JAVA圖形中文亂碼問題LinuxJava
- Druid.io SQL亂碼問題UISQL
- confluence中文顯示亂碼問題
- springmvc 解決中文亂碼問題SpringMVC
- MySql中文亂碼問題解決MySql
- Jmeter 解決中文亂碼問題JMeter
- Gradle 編譯警告亂碼問題Gradle編譯
- Mysqldump匯出亂碼問題排查MySql
- MySQL:亂碼問題處理流程MySql