Unicode 問答集

superdont發表於2007-04-23

Unicode 問答集



問:什麼是Unicode?
答:Unicode給每個字元提供了一個唯一的數字,不論是什麼平臺,不論是什麼程式,不論什麼語言。Unicode標準已經被這些工業界的領導們所採 用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它許多公司。最新的標準都需要Unicode,例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等,並且,Unicode是實現ISO/IEC 10646的正規方式。許多作業系統,所有最新的瀏覽器和許多其他產品都支援它。Unicode標準的出現和支援它工具的存在,是近來全球軟體技術最重要 的發展趨勢。

問:為什麼使用Unicode?
答:基本上,計算機只是處理數字。它們指定一個數字,來儲存字母或其他字元。在創造Unicode之前,有數百種指定這些數字的編碼系統。沒有一個編碼可 以包含足夠的字元:例如,單單歐州共同體就需要好幾種不同的編碼來包括所有的語言。即使是單一種語言,例如英語,也沒有哪一個編碼可以適用於所有的字母, 標點符號,和常用的技術符號。這些編碼系統也會互相沖突。也就是說,兩種編碼可能使用相同的數字代表兩個不同的字元,或使用不同的數字代表相同的字元。任 何一臺特定的計算機(特別是伺服器)都需要支援許多不同的編碼,但是,不論什麼時候資料通過不同的編碼或平臺之間,那些資料總會有損壞的危險。

問:舉個例子吧。
答:比如,簡體中文(GB)、繁體中文(BIG5)、日文中,“趙”都是一個字,但是編碼不同。在不同的編 碼下,BIG5的趙是0xBBAF,而0xBBAF在GB裡面就被顯示為“化”,這就是亂碼。而Unicode採用統一的編碼,“趙”只有一個,不必管他 在哪種文字裡。

問:Unicode的優點是什麼?
答:舉一個最明顯的例子就是Windows 2000/XP以及微軟Office2000及其後的產品。因為這些軟體都是Unicode核心,因此,無論何種文字,都可以在上面正常顯示,而且是同屏 顯示。以前,簡體中文的Word檔案拿到英文版開啟就會是亂碼,簡體中文的程式在Windows英文版上執行會出現亂碼,而現在一切都解決了。

問:中國京劇戲考為什麼使用Unicode?
答:因為有些劇本中的生僻字,只在擴充套件字型檔或繁體字型檔中才有,有的甚至沒有。而 Unicode不僅包含了所有常用字和大部分生僻字,而且因為其可擴充套件,在現在沒有的情況下,將來也是可以擴充的。例如最新的Unicode 4.0標準,較3.0增加了很多生僻字。目前有70207個漢字。再有一點就是Unicode在將來會取代現有的GBK及BIG5。

問:我如何能夠看到不是亂碼的劇本?
答:如果您閱讀PDF的格式,只需要有Adobe Reader即可。如果您是在網站上直接閱讀劇本,有時可能會出現亂碼,請檢視選單(或右鍵單擊劇本)中,選擇編碼,然後點Unicode (UTF-8) 即可。注意,有些字在早期的 Unicode 定義中還沒有,所以建議您閱讀PDF格式的劇本。詳情請見這裡

相關文章