Java抓任意網頁標題亂碼jsoup解決方案一例

rgqancy發表於2016-08-06

同事用Java做了一個抓取任意網頁的標題的功能，由於任意網頁的HTML的head中meta中指定的charset五花八門，比如常用的utf-8,gbk，gb2312。

自己寫程式碼處理，短時間內，發現各種情況太難考慮周全，總是抓取亂碼。面臨的挑戰：也可能有meta也可能沒meta，即使有meta也可能大寫也可能小寫，即使大小寫搞定也可能帶空白字元，總之各種意想不到。不過呢，搜尋引擎爬蟲抓到的網頁咋就不會亂碼呢？

百度查這個問題基本無解，bing查這個問題也是無用功居多，只好開上藍燈上谷歌，三個備選方案：

1.上StackOverflow看是否有最佳答案

http://stackoverflow.com/questions/10996726/encoding-of-response-is-incorrect-using-apache-httpclient

Stackoverflow上說如果HTTP client元件不支援，common http也不支援的話，Spring's RESTTemplate能幹這事。我查了查有點玄。

2.把ＨＴＭＬ的元素模型化，提取模型。

http://docs.oracle.com/cd/B28359_01/appdev.111/b28394/adx_j_parser.htm

用Oralce的XML Developer's Kit，Example裡包含一個操作ＸＭＬ的ＤＯＭ的AutoDetectEncoding.java類，挺欣喜，可惜下載ＸＤＫ和這個Example有點費勁。但是後來比較一下ＸＭＬ和ＨＴＭＬ的編碼元素及方式確實不一樣，雖然HTML可以認為是特殊的XML，都是遵循DOM模型，但是DOM不同的Level，水很深，發現也是路選歪了。

３.使用類似搜尋殷勤的爬蟲程式或元件，還得是java的。

http://www.huqiwen.com/2012/05/03/use-jsoup-analytics-html-document/

這個帖子原作者也說了原來都是htmlparser，後來都鳥槍換炮用jsoup了。炮果然比槍好用。中間還從CSDN找到一個網友的帖子，願意提供自己在gitbub上開源爬蟲，測測網頁說是能行，就是會當機，讓我怎麼用，不能給自己埋雷，寧可不解決。試用jsoup，發現它既是最愛了。

Java亂碼解決方案
2014-07-23
Java
Java 解決中文亂碼問題
2018-01-23
Java
java抓取網頁的亂碼問題(通用)
2011-03-17
Java網頁
JavaWeb 亂碼問題終極解決方案！
2019-04-09
JavaWeb
python 中文亂碼問題解決方案
2014-12-09
Python
ORACLE亂碼解決方案
2014-03-31
Oracle
java中亂碼問題解決方法
2020-04-06
Java
mysql 匯入中文亂碼解決一例
2014-08-20
MySql
oracle 輸出中文亂碼問題解決方案
2014-01-07
Oracle
JMeter響應亂碼問題解決方案教程
2024-11-18
JMeter
java中解決request中文亂碼問題
2016-08-23
Java
Java 讀檔案寫檔案韓文中文亂碼問題解決方案
2013-04-03
Java
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
[原創]Gerrit中文亂碼問題解決方案分享
2016-07-15
JSP中文亂碼問題終極解決方案
2017-07-17
JS
eclipse 中文亂碼問題解決方案彙總
2015-12-06
Eclipse
webView的使用及其亂碼問題的解決方案
2012-08-07
WebView
解決GAT首頁亂碼Bug
2017-05-04
WordPress網站亂碼怎麼辦？快速解決方案
2024-04-08
網站
PL/SQL亂碼解決方案(日文)
2007-08-27
SQL
解決Charles手機抓包出現unknown和亂碼的問題
2018-03-31
表單傳值出現亂碼問題解決方案
2017-03-06
JSP中文亂碼問題終極解決方案(上)
2017-02-27
JS
SecureCRT 下MySQL中文亂碼問題終極解決方案
2015-10-28
SecurecrtMySql
requests.get()爬去中文網頁亂碼解決方法
2019-02-01
網頁
解決SSH亂碼問題
2017-12-15
解決中文亂碼問題
2024-05-14
Oracle 生僻字亂碼解決方案
2018-04-03
Oracle
mysql 插入中文亂碼解決方案轉
2014-08-25
MySql
Discuz門戶模板亂碼解決方案
2011-01-22
JS 網頁列印解決方案
2020-10-20
JS網頁
引入外部js檔案導致亂碼問題解決方案
2017-03-21
JS
Python使用request包請求網頁亂碼解決方法
2019-08-09
Python網頁
用XMLHTTP Post/Get HTML頁面時的中文亂碼問題之完全Script解決方案 (轉)
2007-12-28
XMLHTTPHTML
MySql中文亂碼問題解決
2020-11-13
MySql
Jmeter 解決中文亂碼問題
2020-10-10
JMeter
RDSSQLSERVER解決中文亂碼問題
2016-11-28
SQLServer
解決MySQL中文亂碼問題
2014-04-20
MySql

Java抓任意網頁標題亂碼jsoup解決方案一例

相關文章