Tomcat中文亂碼問題的原理和解決方法

noter發表於2007-05-29

Tomcat中文亂碼問題的原理和解決方法


  自從接觸Java和JSP以來,就不斷與Java的中文亂碼問題打交道,現在終於得到了徹底的解決,現將我們的解決心得與大家共享。

  一、Java中文問題的由來

  Java的核心和class檔案是基於unicode的,這使Java程式具有良好的跨平臺性,但也帶來了一些中文亂碼問題的麻煩。原因主要有兩方面,Java和JSP檔案本身編譯時產生的亂碼問題和Java程式於其他媒介互動產生的亂碼問題。

   首先Java(包括JSP)原始檔中很可能包含有中文,而Java和JSP原始檔的儲存方式是基於位元組流的,如果Java和JSP編譯成class檔案 過程中,使用的編碼方式與原始檔的編碼不一致,就會出現亂碼。基於這種亂碼,建議在Java檔案中儘量不要寫中文(註釋部分不參與編譯,寫中文沒關係), 如果必須寫的話,儘量手動帶引數-ecoding GBK或-ecoding gb2312編譯;對於JSP,在檔案頭加上<%@ page contentType="text/html;charset=GBK"%>或<%@ page contentType="text/html;charset=gb2312"%>基本上就能解決這類亂碼問題。

  本文要重點討 論的是第二類亂碼,即Java程式與其他儲存媒介互動時產生的亂碼。很多儲存媒介,如資料庫,檔案,流等的儲存方式都是基於位元組流的,Java程式與這些 媒介互動時就會發生字元(char)與位元組(byte)之間的轉換,例如從頁面提交表單中提交的資料在Java程式裡顯示亂碼等情況。

  如果在以上轉換過程中使用的編碼方式與位元組原有的編碼不一致,很可能就會出現亂碼。

  二、解決方法

  對於流行的Tomcat來說,有以下兩種解決方法:

  1) 更改 D:/Tomcat/conf/server.xml,指定瀏覽器的編碼格式為“簡體中文”:

  方法是找到 server.xml 中的

    <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
    enableLookups="false" redirectPort="8443" acceptCount="100"
    connectionTimeout="20000" disableUploadTimeout="true" URIEncoding='GBK' />

  標記,粗體字是我新增的。

  可以這樣驗證你的更改是否成功:在更改前,在你出現亂碼的頁面的IE瀏覽器,點選選單“檢視|編碼”,會發現“西歐(ISO)”處於選中狀態。而更改後,點選選單“檢視|編碼”,會發現“簡體中文(GB2312)”處於選中狀態。

  b)更該 Java 程式,我的程式是這樣的:

public class ThreeParams extends HttpServlet {
  public void doGet(HttpServletRequest request, HttpServletResponse response)
   throws ServletException, IOException {
      response.setContentType("text/html; charset=GBK");
      ...
  } 
}

  粗體字是必需要有的,它的作用是讓瀏覽器把Unicode字元轉換為GBK字元。這樣頁面的內容和瀏覽器的顯示模式都設成了GBK,就不會亂碼了。

【來源】

相關文章