Jdk用native2ascii命令做unicode編碼轉換

銳湃發表於2015-08-28

原文網址 : https://blog.csdn.net/chuyouyinghe/article/details/48049477

在做Java開發的時候，常常會出現一些亂碼，或者無法正確識別或讀取的檔案，比如常見的validator驗證用的訊息資源（properties）檔案就需要進行Unicode重新編碼。原因是java預設的編碼方式為Unicode，而我們的計算機系統編碼常常是GBK等編碼。需要將系統的編碼轉換為java正確識別的編碼問題就解決了。

　　1、native2ascii簡介：native2ascii是sun java sdk提供的一個工具。用來將別的文字類檔案（比如*.txt,*.ini,*.properties,*.java等等）編碼轉為Unicode編碼。為什麼要進行轉碼，原因在於程式的國際化。Unicode編碼的定義：Unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字元編碼。它為每種語言中的每個字元設定了統一併且唯一的二進位制編碼，以滿足跨語言、跨平臺進行文字轉換、處理的要求。1990年開始研發，1994年正式公佈。隨著計算機工作能力的增強，Unicode也在面世以來的十多年裡得到普及。（宣告：Unicode編碼定義來自網際網路）。

　　2、獲取native2ascii：安裝了jdk後，假如你是在windows上安裝，那麼在jdk的安裝目錄下，會有一個bin目錄，其中native2ascii.exe正是。

　　3、native2ascii的命令列的命名格式：

　　native2ascii -[options] [inputfile [outputfile]]

　　說明：

　　-[options]：表示命令開關，有兩個選項可供選擇

　　-reverse：將Unicode編碼轉為本地或者指定編碼，不指定編碼情況下，將轉為本地編碼。

　　-encoding encoding_name：轉換為指定編碼，encoding_name為編碼名稱。

　　-[inputfile [outputfile]]

　　inputfile：表示輸入檔案全名。

　　outputfile：輸出檔名。如果缺少此引數，將輸出到控制檯。

　　4、最佳實踐：首先將JDK的bin目錄加入系統變數path。在盤下建立一個test目錄，在test目錄裡建立一個zh.txt檔案，檔案內容為：“熔岩”，開啟“命令列提示符”，並進入C:\test目錄下。下面就可以按照說明一步一步來操作，注意觀察其中編碼的變化。

　　A：將zh.txt轉換為Unicode編碼，輸出檔案到u.txt

　　native2ascii zh.txt u.txt

　　開啟u.txt，內容為“\u7194\u5ca9”。

　　B：將zh.txt轉換為Unicode編碼，輸出到控制檯

　　C:\test>native2ascii zh.txt

　　\u7194\u5ca9

　　可以看到，控制檯輸出了“\u7194\u5ca9”。

　　C：將zh.txt轉換為ISO8859-1編碼，輸出檔案到i.txt

　　native2ascii -encoding ISO8859-1 zh.txt i.txt

　　開啟i.txt檔案，內容為“\u00c8\u00db\u00d1\u00d2”。

　　D：將u.txt轉換為本地編碼，輸出到檔案u_nv.txt

　　native2ascii -reverse u.txt u_nv.txt

　　開啟u_nv.txt檔案，內容為“熔岩”。

　　E：將u.txt轉換為本地編碼，輸出到控制檯

　　C:\test>native2ascii -reverse u.txt

　　熔岩

　　可以看到，控制檯輸出了“熔岩”。

　　F：將i.txt轉換為本地編碼，輸出到i_nv.txt

　　native2ascii -reverse i.txt i_nv.txt

　　開啟i_nv.txt檔案，內容為“\u00c8\u00db\u00d1\u00d2”。發現轉碼前後完全一樣的。也就是說，等於沒有轉，或者說思想糊塗，對命名沒有理解。。

　　G：將i.txt轉換為GBK編碼，輸出到i_gbk.txt

　　native2ascii -reverse -encoding GBK i.txt i_gbk.txt

　　開啟i_gbk.txt檔案，內容為“\u00c8\u00db\u00d1\u00d2”。發現轉碼前後完全一樣的。也就是說，等於沒有轉，或者說思想糊塗，對命名沒有理解。

　　H：將u_nv.txt轉碼到本地編碼GBK，輸出到控制檯

　　C:\test>native2ascii -reverse -encoding ISO8859-1 i.txt

　　熔岩

　　從這個結果看，目標達到到了，編碼i.txt為ISO8859-1，轉為本地編碼後內容為“熔岩”。從這裡應該意識到，native2ascii -reverse命令中-encoding指定的編碼為原始檔的編碼格式。而在native2ascii 命令中-encoding指定的編碼為（生成的）目標檔案的編碼格式。這一點非常的重要！切記！！

　　繼續探索，新建檔案12a.txt，內容“12axyz”。看看純字母數字的編碼又如何。

　　I：將純字母數字的文字檔案12a.txt轉換為Unicode編碼

　　native2ascii 12a.txt 12a_nv.txt

　　開啟12a_nv.txt檔案，內容為“12axyz”。

　　繼續測試，轉為ISO8859-1編碼看看

　　C:\test>native2ascii -encoding ISO8859-1 12a.txt

　　12axyz

　　結果還是沒有轉碼。

　　從結果可以得出結論：對於純數字和字母的文字型別件，轉碼前後的內容是一樣的。

　　5、總結：native2ascii是一個非常的好轉碼工具，並且轉碼是可逆的！而其真正的含義並非本地編碼——>轉碼為ASCII碼，而是一個通用的文字檔案編碼轉換工具。在做編碼轉換的時候有兩類指定編碼的情形，分別指輸出檔案編碼和輸入檔案編碼，具體可以看看最佳實踐部分

轉自：http://www.233.com/Java/zhuanye/20100901/1137278.html

Java 正確的做字串編碼轉換
2018-08-09
Java字串編碼
中文被 json_encode 編碼成 unicode 之後如何轉換回中文
2020-12-23
JSONUnicode
Unicode編碼解碼
2023-12-09
Unicode
編碼轉換
2020-05-03
Unicode編碼和中文互轉（JAVA實現）
2019-01-21
UnicodeJava
ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
Unicode編碼介紹
2024-09-05
Unicode
URL編碼轉換
2018-08-24
字元編碼轉換
2020-04-04
字元
unicode轉碼工具類
2021-09-09
Unicode
從 unicode 到位元組的轉換
2023-11-15
Unicode
python實現中文和unicode轉換
2023-05-14
PythonUnicode
解碼返回Unicode編碼的文字
2024-04-22
Unicode
用Javascript實現UTF8編碼轉換成gb2312編碼
2023-03-07
JavaScript
字符集編碼（三）：Unicode
2022-02-28
Unicode
Unicode編碼解碼的全面介紹
2024-03-30
Unicode
檢測檔案編碼，轉換檔案編碼
2022-05-24
unicode編碼 asis_2019_unicorn_shop
2024-05-03
Unicode
字符集編碼（上）：Unicode 之前
2022-02-17
Unicode
轉換Linux 檔案編碼方式
2020-11-16
Linux
編碼轉換統一防止亂碼
2024-05-31
Python 編碼轉換與中文處理
2021-09-09
Python
Pandas 基礎 (11) - 用 melt 做格式轉換
2019-04-09
[20231012]如何檢視unicode編碼內容.txt
2023-10-16
Unicode
字元編碼：Unicode & UTF-16 & UTF-8
2023-01-01
字元Unicode
萬能java字串編碼轉換工具類
2018-08-09
Java字串編碼
java工具類之編碼轉換工具類
2020-09-30
Java
JavaScript 如何正確處理 Unicode 編碼問題！
2019-01-08
JavaScriptUnicode
JavaScript如何正確處理Unicode編碼問題！
2019-01-07
JavaScriptUnicode
Unicode、GBK、UTF-8、ASCII的編碼簡介
2020-04-06
UnicodeASCII
python編寫圖片主色轉換指令碼
2019-03-04
Python指令碼
C++ string互轉wstring/Unicode互轉ANSI/Unicode互轉UTF8
2018-07-16
C++Unicode
【JDK命令列一】手動編譯Java原始碼與執行位元組碼命令合集(含外部依賴引用)
2021-05-27
JDK命令列編譯Java原始碼
計算機編碼歷程(what is Unicode&UTF8 )
2019-01-07
計算機Unicode
Java 如何獲取字元所對應的UniCode編碼
2019-04-15
Java字元Unicode
字元編碼發展史4 — Unicode與UTF-8
2024-09-27
字元Unicode
Unicode編碼 - 代理區和4位元組codePoint
2024-09-12
Unicode
Mac系統下檔案編碼轉換工具enca
2018-10-26
Mac

Jdk用native2ascii命令做unicode編碼轉換

相關文章