PHP和mySQL的字符集編碼問題(1)

技術小美發表於2017-11-15

幾乎每個剛開始用 PHP 和 mySQL 開發 Web 應用的人,都受到過編碼問題的困擾。要麼頁面原始漢字和從資料庫裡取出的漢字全是亂碼;要麼原始漢字和資料庫漢字,一個顯示正常了,另一個就變成亂碼了。很煩很氣人!

    問題需要一步一步的解決。在實際操作以下方法之前,需要配置 Web 伺服器,使其與 PHP 整合,最終可以除錯 PHP 程式。我們以常見的 GB2312 和 UTF-8 字符集為例來測試和說明。瀏覽器是 IE7.0。

    一,頁面原始漢字亂碼的解決

    編碼的原理我就不說了,網上搜尋一下字串“PHP 亂碼”,整框整框的文章供大家閱讀。我最關心的是具體怎麼做,就可以解決這個實際問題。我最喜歡使用的文字編輯器是 UltraEdit,不僅僅因為它可以進行 16 進位制編輯,還因為它支援多編碼文件。解決這個問題就需要使用 UltraEdit 的這個功能。

    1.1 開啟中文 Windows,用 UltraEdit 建立一個文字檔案,手工輸入一個 PHP 頁面檔案,檔案內容如下。儲存為 test1.php 檔案,注意儲存時“格式”下拉框選擇“預設”- 特別注意這裡。

    <Html>

    <head>

      <title>頁面標題</title>

      <META http-equiv=Content-Type content=”text/html; charset=gb2312″>

    </head>

    <Body>

    電腦學習網:<br>

    http://www.why100000.com

    </body>

    </html>

    用 IE 瀏覽器開啟網站的這一頁面。可以看到,頁面顯示正常。在 IE 瀏覽器的“檢視”/“編碼”選單下看到(勾選了“自動選擇”),字元編碼是 GB2312。

    [Firefox 2.0 下顯示正常。]

    1.2 然後,在 UltraEdit 的“檔案”選單下,選“另存為”,格式選擇“UTF-8”,檔名為 test2.php。用 IE 瀏覽器開啟這一頁面。可以看到,頁面顯示正常(其實英文字型已經有略微的變化了)。在 IE 瀏覽器的“檢視”/“編碼”選單下看到(勾選了“自動選擇”),字元編碼是 UTF-8,自動變了!注意 <META http-equiv=Content-Type content=”text/html; charset=gb2312″> 一句並沒有修改,但是瀏覽器卻自動辨別出了真實的字符集編碼!看來 IE 還是比較聰明的,也說明 IE 自動判別字符集是比 METE 標籤中 charset=xxx 的定義優先的。

    [Firefox 2.0 下顯示出現亂碼。]

    1.3 在該頁面首部加語句

    <?php

      header(”Content-Type:text/html;charset=utf-8″);

    ?>

    再次儲存該頁面檔案,“格式”下拉框選擇“預設”,檔名為 test3.php。用 IE 開啟網站裡的該檔案,這次看到,除過英文字母,漢字變成亂碼了!同時在 IE 瀏覽器的“檢視”/“編碼”選單下看到(勾選了“自動選擇”),字元編碼是 UTF-8,已經被強制改變了。

    出現漢字亂碼的原因,是因為原本的 GB2312 編碼,被強制以 UTF-8 的編碼形式顯示,所以亂碼出現了。這個時候在瀏覽器里人為指定 GB2312 編碼,頁面漢字又顯示正常了(真正製作頁面時是不能這麼做的,非要讓瀏覽者自己選擇編碼,一個是瀏覽者可能根本不知道怎麼選擇編碼、選什麼編碼,再者也顯得我們太菜了!)。

    [Firefox 2.0 下顯示出現亂碼。]

    1.4 在該頁面首部加語句

    <?php

      header(”Content-Type:text/html;charset=GB2312″);

    ?>

    再次儲存該頁面檔案,“格式”下拉框選擇“UTF-8”,檔名為 test4.php。用 IE 開啟網站裡的該檔案,奇怪:看到頁面漢字顯示正常,並不是預想到的亂碼?!在 IE 瀏覽器的“檢視”/“編碼”選單下看到(勾選了“自動選擇”),字元編碼仍然是 UTF-8,並沒有被強制改變了 GB2312 字符集。

    這個時候在瀏覽器里人為指定 GB2312 編碼,發現 IE 瀏覽器並不能人為指定編碼。看來 IE 瀏覽器對 UTF-8 字符集特別關照。無論是在 META 標籤指定,還是 PHP 語句指定,都不能讓 IE 瀏覽器顯示出漢字亂碼。

    [Firefox 2.0 下顯示出現亂碼。]

    小結一下: 以上測試主要在 IE7.0 下進行,Web 伺服器為 Windows Server 2003 下的 IIS6.0,PHP 版本為 4.4.7。可以看到,IE7.0 為了正確識別字符集做了很多額外的自動處理的工作,以顯示其智慧和友好。有時太殷勤了反而使我們不知所措。由於漢字亂碼問題與不同的瀏覽器及其不同的版本、Web 伺服器、後臺指令碼和不同的字符集都有點關係,所以問題顯得特別複雜。作為 Web 程式設計人員,主要關心與自己有關的因素就可以了,沒必要成為字符集編碼方面的專家。為了相容目前流行的 IE 和 FF 瀏覽器,我們可以按照以下簡單的方法處理我們的 PHP 程式碼:

    1,頁面的真正字符集與 META 標籤指定的應該一致;

    2,也可以使用 header(”Content-Type:text/html;charset=xxx”); 語句指定字符集,但是不能與字元的真正字符集衝突,也不能與 META 標籤衝突。(儘管根據測試結果表明,當 header() 和 META 衝突時,header() 比 META 指定的字符集更優先,因為根據 HttpWatch Basic 跟蹤顯示,header() 指定字符集後,IE 瀏覽器 Type 會明確的得到字符集指定。但是不能保證其它非主流瀏覽器也會這樣。)

    3,不能與資料庫取回的字元的字符集衝突,否則頁面會出現頁面本身的漢字和資料庫取回的漢字,全部亂碼或部分亂碼問題。

    二,資料庫亂碼的解決及其與頁面字符集的配合

    mySQL 5.0 在安裝完畢後,可以進入配置嚮導,對一些引數進行設定。其中就有配置伺服器預設字符集選項。這裡需要選擇定製配置,指定一種我們常用的字符集,可以選擇支援多位元組編碼的 UTF8 或 GB2312。因為據說其預設的 Latin1 字符集不支援漢字,因為不支援多位元組編碼。

    ……



本文轉自網眼51CTO部落格,原文連結:http://blog.51cto.com/itwatch/286494,如需轉載請自行聯絡原作者


相關文章