Java亂碼解決方案

541732025發表於2014-07-23

在做java專案(特別是web專案)的過程中,中文亂碼一直是我們開發人員比較頭疼的問題,因為涉及到編碼,解碼,字符集,以及國際化等諸多問題,所以在著手解決的時候也缺乏相關的知識。我花了一些時間自己動手實驗了一把,雖然沒有洞悉編碼,解碼這些底層原理,但是解決實際問題應該足夠了。這裡主要針對java web專案中的文亂碼問題。

從瀏覽器採用form方式提交資料到伺服器,可以分為post和get方法。

1,post方法:

在jsp頁面中的page指令中,有一個pageEncoding,這個指令表示jsp翻譯成servlet時採用的編碼,以及form提交資料的編碼格式。所以post方法提交資料的編碼格式由pageEncoding指定。那解碼方式呢?通常,我們在頁面設定了pageEncoding=”utf-8”,在後臺用request.getParameter()得到的往往是亂碼,而進一步透過new String(getBytes(“iso-8859-1”),”utf-8”)處理之後就能得到正確的資料。這是因為伺服器預設的解碼方式是iso-8859-1,所以用編碼,解碼流程解釋上面那2個動作分別是:utf-8編碼—>iso-8859-1解碼(當然是亂碼);        utf-8編碼—>iso-8859-1解碼—>iso-8859-1編碼—>utf-8解碼,這是個對稱的過程,所以能正確得到資料。那伺服器預設的解碼方式能改嗎?當然可以,呼叫request.setCharacterEncoding()就能設定,而且只針對post方式有效,設定以後request.getParameter()直接就是正確的資料了。

2,get方法

與post方法一樣,編碼方式由pageEncoding指定,但是get方式的解碼方式與post就不一樣了。在tomcat的conf目錄下有一個server.xml的配置檔案,在裡面找到Connector節點,有一個URIEncoding屬性,這個屬性就是指定get方式的資料解碼格式的,而且只針對get方式有效。其他處理與post一樣。

 

    另外,透過Ajax請求向後臺傳送的資料由於是附在URL地址後面的,所以跟get請求一樣。編碼由pageEncoding指定,解碼由URIEncoding指定。但是有很多開發人員樂於另外一種方式:用兩次encodeURI編碼,然後在後臺用URLDecoder.decode(str,”utf-8”)解碼。這是一個什麼過程呢?我們知道,encodeURI編碼是採用的utf-8編碼,所以,這個過程為:utf-8編碼—>utf-8編碼—>iso-8859-1解碼—>utf-8解碼。這看起來不像一個對稱過程,但最後為什麼能得到正確結果呢?這是因為經過第一次utf-8編碼之後,產生的已經是非中文字元,所以,對非中文字元采再用utf-8編碼,iso-8859-1解碼不會有任何問題,這樣看來,它還是一個對稱的編碼,解碼過程,當然能正確解析了。

      

    當然,我所說的這個“對稱”編碼解碼過程,也不是所有編碼都適用,例如:

gbk編碼—>utf-8解碼—>utf-8編碼—>gbk解碼,最後還是亂碼!

因為gbk編碼—>utf-8解碼產生了不可恢復的錯誤,造成了資訊丟失,至於為什麼產生永久錯誤,得從編碼的底層說起……

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28912557/viewspace-1225693/,如需轉載,請註明出處,否則將追究法律責任。

相關文章