計算機程式的思維邏輯 (7) - 如何從亂碼中恢復 (下)？

swiftma發表於2016-07-31

本系列文章經補充和完善，已修訂整理成書《Java程式設計的邏輯》（馬俊昌著），由機械工業出版社華章分社出版，於2018年1月上市熱銷，讀者好評如潮！各大網店和書店有售，歡迎購買：京東自營連結

亂碼

上節說到亂碼出現的主要原因，即在進行編碼轉換的時候，如果將原來的編碼識別錯了，並進行了轉換，就會發生亂碼，而且這時候無論怎麼切換檢視編碼的方式，都是不行的。

我們來看一個這種錯誤轉換後的亂碼，還是用上節的例子，二進位制是(16進製表示)：C3 80 C3 8F C3 82 C3 AD，無論按哪種編碼解析看上去都是亂碼：


UTF-8	ÀÏÂí
Windows-1252	Ã€ÃÃ‚Ã
GB18030	脌脧脗鉚
Big5	��穩

雖然有這麼多形式，但我們看到的亂碼形式很可能是"ÀÏÂí"，因為在例子中UTF-8是編碼轉換的目標編碼格式，既然轉換為了UTF-8，一般也是要按UTF-8檢視。

亂碼恢復

"亂"主要是因為發生了一次錯誤的編碼轉換，恢復是要恢復兩個關鍵資訊，一個是原來的二進位制編碼方式A，另一個是錯誤解讀的編碼方式B。

恢復的基本思路是嘗試進行逆向操作，假定按一種編碼轉換方式B獲取亂碼的二進位制格式，然後再假定一種編碼解讀方式A解讀這個二進位制，檢視其看上去的形式，這個要嘗試多種編碼，如果能找到看著正常的字元形式，那應該就可以恢復。

這個聽上去可能比較模糊，我們舉個例子來說明，假定亂碼形式是"ÀÏÂí"，嘗試多種B和A來看字元形式。我們先使用編輯器，以UltraEdit為例，然後使用Java程式設計來看。

使用UltraEdit

UltraEdit支援編碼轉換和切換檢視編碼方式，也支援檔案的二進位制顯示和編輯，所以我們以UltraEdit為例，其他一些編輯器可能也有類似功能。

新建一個UTF-8編碼的檔案，拷貝"ÀÏÂí"到檔案中。使用編碼轉換，轉換到windows-1252編碼，功能在 "檔案"->"轉換到"->"西歐"->WIN-1252。轉換完後，開啟十六進位制編輯，檢視其二進位制形式，如下圖所示：

可以看出，其形式還是ÀÏÂí，但二進位制格式變成了 C0 CF C2 ED。這個過程，相當於假設B是windows-1252。這個時候，再按照多種編碼格式檢視這個二進位制，在UltraEdit中，關閉十六進位制編輯，切換檢視編碼方式為GB18030，功能在 "檢視"->"檢視方式（檔案編碼）"->"東亞語言"->GB18030，切換完後，同樣的二進位制神奇的變為了正確的字元形式 "老馬"，開啟十六進位制編輯器，可以看出，二進位制還是C0 CF C2 ED，這個GB18030相當於假設A是GB18030。

這個例子我們碰巧第一次就猜對了。實際中，我們可能要做多次嘗試，過程是類似的，先進行編碼轉換（使用B編碼），然後使用不同編碼方式檢視（使用A編碼），如果能找到看上去對的形式，就恢復了。下圖列出了主要的B編碼格式，對應的二進位制，按A編碼解讀的各種形式。

可以看出，第一行是正確的，也就是說原來的編碼其實是A即GB18030，但被錯誤解讀成了B即Windows-1252了。

使用Java

關於使用Java我們還有很多知識沒有介紹，但一些讀者已經有很好的Java知識，所以本文一併列出相關程式碼。

Java中處理字串的類有String，String中有我們需要的兩個重要方法：

public byte[] getBytes(String charsetName)，這個方法可以獲取一個字串的給定編碼格式的二進位制形式
public String(byte bytes[], String charsetName)，這個構造方法以給定的二進位制陣列bytes按照編碼格式charsetName解讀為一個字串。

將A看做GB18030，B看做Windows-1252，進行恢復的Java程式碼如下所示：

String str = "ÀÏÂí";
String newStr = new String(str.getBytes("windows-1252"),"GB18030");
System.out.println(newStr);
複製程式碼

先按照B編碼(windows-1252)獲取字串的二進位制，然後按A編碼(GB18030)解讀這個二進位制，得到一個新的字串，然後輸出這個字串的形式，輸出為"老馬"。

同樣，這個一次碰巧就對了，實際中，我們可以寫一個迴圈，測試不同的A/B編碼中的結果形式，程式碼如下所示：

public static void recover(String str) 
        throws UnsupportedEncodingException{
    String[] charsets = new String[]{"windows-1252","GB18030","Big5","UTF-8"};
    for(int i=0;i<charsets.length;i++){
        for(int j=0;j<charsets.length;j++){
            if(i!=j){
                String s = new String(str.getBytes(charsets[i]),charsets[j]);
                System.out.println("---- 原來編碼(A)假設是: "+charsets[j]+", 被錯誤解讀為了(B): "+charsets[i]);
                System.out.println(s);
                System.out.println();    
            }
        }
    }
} 
複製程式碼

以上程式碼使用不同的編碼格式進行測試，如果輸出有正確的，那麼就可以恢復。

恢復的討論

可以看出，這種嘗試需要進行很多次，上面例子嘗試了常見編碼GB18030/Windows 1252/Big5/UTF-8共十二種組合。這四種編碼是常見編碼，在大部分實際應用中應該夠了，但如果你的情況有其他編碼，可以增加一些嘗試。

不是所有的亂碼形式都是可以恢復的，如果形式中有很多不能識別的字元如�?，則很難恢復，另外，如果亂碼是由於進行了多次解析和轉換錯誤造成的，也很難恢復。

小結

上節和本節介紹了編碼的知識，亂碼的原因及恢復方法，這些都是與語言無關的。

接下來，是時候看看在Java中如何表示和處理字元了，我們知道Java中用char型別表示一個字元，但在第三節我們提到了一個問題，即"字元型別怎麼也可以進行算術運算和比較?"。

我們需要對Java中的字元型別有一個更為清晰和深刻的理解。

未完待續，檢視最新文章，敬請關注微信公眾號“老馬說程式設計”(掃描下方二維碼)，深入淺出，老馬和你一起探索Java程式設計及計算機技術的本質。原創文章，保留所有版權。

計算機程式的思維邏輯 (25) - 異常 (下)
2016-09-23
計算機
計算機程式的思維邏輯 (84) – 反射
2019-03-01
計算機反射
計算機程式的思維邏輯 (84) - 反射
2017-05-03
計算機反射
計算機程式的思維邏輯 (34) – 隨機
2019-03-01
計算機隨機
計算機程式的思維邏輯 (34) - 隨機
2016-10-25
計算機隨機
計算機程式的思維邏輯 (22) - 程式碼的組織機制
2016-09-14
計算機
計算機程式的思維邏輯 (41) – 剖析HashSet
2019-03-03
計算機
計算機程式的思維邏輯 (50) – 剖析EnumMap
2019-03-01
計算機
計算機程式的思維邏輯 (43) – 剖析TreeMap
2019-03-04
計算機
計算機程式的思維邏輯 (44) – 剖析TreeSet
2019-02-19
計算機
計算機程式的思維邏輯 (46) - 剖析PriorityQueue
2016-11-18
計算機
計算機程式的思維邏輯 (48) - 剖析ArrayDeque
2016-11-22
計算機
計算機程式的思維邏輯 (40) - 剖析HashMap
2016-11-09
計算機HashMap
計算機程式的思維邏輯 (41) - 剖析HashSet
2016-11-10
計算機
計算機程式的思維邏輯 (43) - 剖析TreeMap
2016-11-13
計算機
計算機程式的思維邏輯 (44) - 剖析TreeSet
2016-11-15
計算機
計算機程式的思維邏輯 (31) - 剖析Arrays
2016-10-17
計算機
計算機程式的思維邏輯 (38) - 剖析ArrayList
2016-11-04
計算機
計算機程式的思維邏輯 (50) - 剖析EnumMap
2016-11-30
計算機
計算機程式的思維邏輯 (51) - 剖析EnumSet
2016-12-01
計算機
計算機程式的思維邏輯 (85) - 註解
2017-05-11
計算機
計算機程式的思維邏輯 (66) - 理解synchronized
2017-02-16
計算機synchronized
計算機程式的思維邏輯 (2) ：賦值
2016-08-01
計算機賦值
計算機程式的思維邏輯 (45) - 神奇的堆
2016-11-17
計算機
計算機程式的思維邏輯 (69) - 執行緒的中斷
2017-02-27
計算機執行緒
計算機程式的思維邏輯 (29) – 剖析String
2019-02-25
計算機
計算機程式的思維邏輯 (71) – 顯式鎖
2019-02-25
計算機
計算機程式的思維邏輯 (82) – 理解ThreadLocal
2019-02-28
計算機thread
計算機程式的思維邏輯 (56) – 檔案概述
2019-02-18
計算機
計算機程式的思維邏輯 (33) - Joda-Time
2016-10-24
計算機
計算機程式的思維邏輯 (29) - 剖析String
2016-10-10
計算機
計算機程式的思維邏輯 (71) - 顯式鎖
2017-03-07
計算機
計算機程式的思維邏輯 (91) - Lambda表示式
2017-07-05
計算機
計算機程式的思維邏輯 (39) - 剖析LinkedList
2016-11-07
計算機
計算機程式的思維邏輯 (52) - 抽象容器類
2016-12-04
計算機抽象
計算機程式的思維邏輯 (49) - 剖析LinkedHashMap
2016-11-27
計算機HashMap
計算機程式的思維邏輯 (56) - 檔案概述
2016-12-14
計算機
計算機程式的思維邏輯 (82) - 理解ThreadLocal
2017-04-25
計算機thread

計算機程式的思維邏輯 (7) - 如何從亂碼中恢復 (下)？

亂碼

亂碼恢復

使用UltraEdit

使用Java

恢復的討論

小結

相關文章