Oracle資料庫字符集的全面認識
轉載 http://www.succeeding.com.cn/bbs/redirect.php?fid=10&tid=597&goto=nextoldset
對Oracle資料庫字符集的全面認識
本文從定義入手來講解對Oracle資料庫字符集如何全面認識。
什麼是Oracle字符集
Oracle字符集是一個位元組資料的解釋的符號集合,有大小之分,有相互的包容關係。
Oracle支援國家語言的體系結構允許你使用本地化語言來儲存,處理,檢索資料。它使資料庫工具,錯誤訊息,排序次序,日期,時間,貨幣,數字,和日曆自動適應本地化語言和平臺。
影響oracle資料庫字符集最重要的引數是NLS_LANG引數。它的格式如下:
它有三個組成部分(語言、地域和字符集),每個成分控制了NLS子集的特性。其中:
Language 指定伺服器訊息的語言,territory 指定伺服器的日期和數字格式,charset指定字符集。如:AMERICAN _ AMERICA. ZHS16GBK.
從NLS_LANG的組成我們可以看出,真正影響資料庫字符集的其實是第三部分。所以兩個資料庫之間的字符集只要第三部分一樣就可以相互匯入匯出資料,前面影響的只是提示資訊是中文還是英文。
如何查詢Oracle的字符集
很多人都碰到過因為字符集不同而使資料匯入失敗的情況。這涉及三方面的字符集,一是Oracel server端的字符集,二是oracle client端的字符集;三是dmp檔案的字符集。在做資料匯入的時候,需要這三個字符集都一致才能正確匯入。
1、查詢Oracle Server端的字符集:
有很多種方法可以查出oracle server端的字符集,比較直觀的查詢方法是以下這種:
結果類似如下:AMERICAN _ AMERICA. ZHS16GBK.
2、如何查詢dmp檔案的字符集:
用Oracle的exp工具匯出的dmp檔案也包含了字符集資訊,dmp檔案的第2和第3個位元組記錄了dmp檔案的字符集。如果dmp檔案不大,比如只有幾M或幾十M,可以用UltraEdit開啟(16進位制方式),看第2第3個位元組的內容,如0354,然後用以下SQL查出它對應的字符集:
如果dmp檔案很大,比如有2G以上(這也是最常見的情況),用文字編輯器開啟很慢或者完全打不開,可以用以下命令(在unix主機上):
然後用上述SQL也可以得到它對應的字符集。
3、查詢Oracle client端的字符集:
這個比較簡單。在Windows平臺下,就是登錄檔裡面相應OracleHome的NLS_LANG.還可以在Dos視窗裡面自己設定,比如:
這樣就隻影響這個視窗裡面的環境變數。 在Unix平臺下,就是環境變數NLS_LANG.
如果檢查的結果發現Server端與Client端字符集不一致,請統一修改為同Server端相同的字符集。
修改Oracle的字符集
上文說過,oracle的字符集有互相的包容關係。
如us7ascii就是zhs16gbk的子集,從us7ascii到zhs16gbk不會有資料解釋上的問題,不會有資料丟失。在所有的字符集中utf8應該是最大,因為它基於unicode,雙位元組儲存字元(也因此在儲存空間上佔用更多)。
一旦資料庫建立後,資料庫的字符集理論上講是不能改變的。因此,在設計和安裝之初考慮使用哪一種字符集十分重要。根據Oracle的官方說明,字符集的轉換是從子集到超集受支援,反之不行。如果兩種字符集之間根本沒有子集和超集的關係,那麼字符集的轉換是不受oracle支援的。對資料庫server而言,錯誤的修改字符集將會導致很多不可測的後果,可能會嚴重影響資料庫的正常執行,所以在修改之前一定要確認兩種字符集是否存在子集和超集的關係。一般來說,除非萬不得已,我們不建議修改oracle資料庫server端的字符集。特別說明,我們最常用的兩種字符集ZHS16GBK和ZHS16CGB231280之間不存在子集和超集關係,因此理論上講這兩種字符集之間的相互轉換不受支援。
修改Server端字符集(不建議使用):
在Oracle 8之前,可以用直接修改資料字典表props$來改變資料庫的字符集。但Oracle8之後,至少有三張系統表記錄了資料庫字符集的資訊,只改props$表並不完全,可能引起嚴重的後果。正確的修改方法如下:
若此時資料庫伺服器已啟動,則先執行SHUTDOWN IMMEDIATE命令關閉資料庫伺服器,然後執行以下命令:
修改dmp檔案字符集:
上文說過,dmp檔案的第2第3位元組記錄了字符集資訊,因此直接修改dmp檔案的第2第3位元組的內容就可以‘騙’過oracle的檢查。這樣做理論上也僅是從子集到超集可以修改,但很多情況下在沒有子集和超集關係的情況下也可以修改,我們常用的一些字符集,如US7ASCII,WE8ISO8859P1,ZHS16CGB231280,ZHS16GBK基本都可以改。因為改的只是dmp檔案,所以影響不大。
具體的修改方法比較多,最簡單的就是直接用UltraEdit修改dmp檔案的第2和第3個位元組。比如想將dmp檔案的字符集改為ZHS16GBK,可以用以下SQL查出該種字符集對應的16進位制程式碼:
然後將dmp檔案的2、3位元組修改為0354即可。
如果dmp檔案很大,用ue無法開啟,就需要用程式的方法了。網上有人用java儲存過程寫了轉換的程式(用java儲存過程的好處是通用性教好,缺點是比較麻煩)。我在Windows下測試通過。但要求Oracle資料庫一定要安裝JVM選項。
var tagarray = ['Oracle','HRMS','個人所得稅','企業所得稅','社會保險','每日一題','Peoplesoft','工資','合同','住房公積金','Payroll','Formula','養老保險','DBA','勞動法','薪酬','工傷保險','就業','會計','Discoverer','成本','醫療保險','SSHR','失業保險','生育保險','R12','招聘','公式','EBS','員工','企業年金','FNDLOAD','獎金','自助','考勤','身份證','人力資源','休假','預警','能力','彈性域','PLSQL','UNIX','Clone','培訓','Workflow','職位','要素','雙薪制','編碼','外籍員工','Tax','DBI','職務','APPS','FTE','工作時間','第13個月工資','定義','引數','通訊補貼','驗證','表單','津貼','克隆','AutoConfig','Patch','增值稅','OCP','補丁','Linux','工資項','年終獎金','年度獎金','工資單執行結果','FNDCPASS','口令','組織管理','組織','PTO','API','ERP'];var tagencarray = ['Oracle','HRMS','%B8%F6%C8%CB%CB%F9%B5%C3%CB%B0','%C6%F3%D2%B5%CB%F9%B5%C3%CB%B0','%C9%E7%BB%E1%B1%A3%CF%D5','%C3%BF%C8%D5%D2%BB%CC%E2','Peoplesoft','%B9%A4%D7%CA','%BA%CF%CD%AC','%D7%A1%B7%BF%B9%AB%BB%FD%BD%F0','Payroll','Formula','%D1%F8%C0%CF%B1%A3%CF%D5','DBA','%C0%CD%B6%AF%B7%A8','%D0%BD%B3%EA','%B9%A4%C9%CB%B1%A3%CF%D5','%BE%CD%D2%B5','%BB%E1%BC%C6','Discoverer','%B3%C9%B1%BE','%D2%BD%C1%C6%B1%A3%CF%D5','SSHR','%CA%A7%D2%B5%B1%A3%CF%D5','%C9%FA%D3%FD%B1%A3%CF%D5','R12','%D5%D0%C6%B8','%B9%AB%CA%BD','EBS','%D4%B1%B9%A4','%C6%F3%D2%B5%C4%EA%BD%F0','FNDLOAD','%BD%B1%BD%F0','%D7%D4%D6%FA','%BF%BC%C7%DA','%C9%ED%B7%DD%D6%A4','%C8%CB%C1%A6%D7%CA%D4%B4','%D0%DD%BC%D9','%D4%A4%BE%AF','%C4%DC%C1%A6','%B5%AF%D0%D4%D3%F2','PLSQL','UNIX','Clone','%C5%E0%D1%B5','Workflow','%D6%B0%CE%BB','%D2%AA%CB%D8','%CB%AB%D0%BD%D6%C6','%B1%E0%C2%EB','%CD%E2%BC%AE%D4%B1%B9%A4','Tax','DBI','%D6%B0%CE%F1','APPS','FTE','%B9%A4%D7%F7%CA%B1%BC%E4','%B5%DA13%B8%F6%D4%C2%B9%A4%D7%CA','%B6%A8%D2%E5','%B2%CE%CA%FD','%CD%A8%D1%B6%B2%B9%CC%F9','%D1%E9%D6%A4','%B1%ED%B5%A5','%BD%F2%CC%F9','%BF%CB%C2%A1','AutoConfig','Patch','%D4%F6%D6%B5%CB%B0','OCP','%B2%B9%B6%A1','Linux','%B9%A4%D7%CA%CF%EE','%C4%EA%D6%D5%BD%B1%BD%F0','%C4%EA%B6%C8%BD%B1%BD%F0','%B9%A4%D7%CA%B5%A5%D4%CB%D0%D0%BD%E1%B9%FB','FNDCPASS','%BF%DA%C1%EE','%D7%E9%D6%AF%B9%DC%C0%ED','%D7%E9%D6%AF','PTO','API','ERP'];parsetag();
什麼是Oracle字符集
Oracle字符集是一個位元組資料的解釋的符號集合,有大小之分,有相互的包容關係。
Oracle支援國家語言的體系結構允許你使用本地化語言來儲存,處理,檢索資料。它使資料庫工具,錯誤訊息,排序次序,日期,時間,貨幣,數字,和日曆自動適應本地化語言和平臺。
影響oracle資料庫字符集最重要的引數是NLS_LANG引數。它的格式如下:
NLS_LANG = language_territory.charset |
Language 指定伺服器訊息的語言,territory 指定伺服器的日期和數字格式,charset指定字符集。如:AMERICAN _ AMERICA. ZHS16GBK.
從NLS_LANG的組成我們可以看出,真正影響資料庫字符集的其實是第三部分。所以兩個資料庫之間的字符集只要第三部分一樣就可以相互匯入匯出資料,前面影響的只是提示資訊是中文還是英文。
如何查詢Oracle的字符集
很多人都碰到過因為字符集不同而使資料匯入失敗的情況。這涉及三方面的字符集,一是Oracel server端的字符集,二是oracle client端的字符集;三是dmp檔案的字符集。在做資料匯入的時候,需要這三個字符集都一致才能正確匯入。
1、查詢Oracle Server端的字符集:
有很多種方法可以查出oracle server端的字符集,比較直觀的查詢方法是以下這種:
SQL>select userenv(‘language’) from dual; |
2、如何查詢dmp檔案的字符集:
用Oracle的exp工具匯出的dmp檔案也包含了字符集資訊,dmp檔案的第2和第3個位元組記錄了dmp檔案的字符集。如果dmp檔案不大,比如只有幾M或幾十M,可以用UltraEdit開啟(16進位制方式),看第2第3個位元組的內容,如0354,然後用以下SQL查出它對應的字符集:
SQL> select nls_charset_name(to_number('0354','xxxx')) from dual; ZHS16GBK |
cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6 |
3、查詢Oracle client端的字符集:
這個比較簡單。在Windows平臺下,就是登錄檔裡面相應OracleHome的NLS_LANG.還可以在Dos視窗裡面自己設定,比如:
set nls_lang=AMERICAN_AMERICA.ZHS16GBK |
$echo $NLS_LANG AMERICAN_AMERICA.ZHS16GBK |
修改Oracle的字符集
上文說過,oracle的字符集有互相的包容關係。
如us7ascii就是zhs16gbk的子集,從us7ascii到zhs16gbk不會有資料解釋上的問題,不會有資料丟失。在所有的字符集中utf8應該是最大,因為它基於unicode,雙位元組儲存字元(也因此在儲存空間上佔用更多)。
一旦資料庫建立後,資料庫的字符集理論上講是不能改變的。因此,在設計和安裝之初考慮使用哪一種字符集十分重要。根據Oracle的官方說明,字符集的轉換是從子集到超集受支援,反之不行。如果兩種字符集之間根本沒有子集和超集的關係,那麼字符集的轉換是不受oracle支援的。對資料庫server而言,錯誤的修改字符集將會導致很多不可測的後果,可能會嚴重影響資料庫的正常執行,所以在修改之前一定要確認兩種字符集是否存在子集和超集的關係。一般來說,除非萬不得已,我們不建議修改oracle資料庫server端的字符集。特別說明,我們最常用的兩種字符集ZHS16GBK和ZHS16CGB231280之間不存在子集和超集關係,因此理論上講這兩種字符集之間的相互轉換不受支援。
修改Server端字符集(不建議使用):
在Oracle 8之前,可以用直接修改資料字典表props$來改變資料庫的字符集。但Oracle8之後,至少有三張系統表記錄了資料庫字符集的資訊,只改props$表並不完全,可能引起嚴重的後果。正確的修改方法如下:
$sqlplus /nolog SQL>conn / as sysdba; |
SQL>STARTUP MOUNT; SQL>ALTER SYSTEM ENABLE RESTRICTED SESSION; SQL>ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0; SQL>ALTER SYSTEM SET AQ_TM_PROCESSES=0; SQL>ALTER DATABASE OPEN; SQL>ALTER DATABASE CHARACTER SET ZHS16GBK; SQL>ALTER DATABASE national CHARACTER SET ZHS16GBK; SQL>SHUTDOWN IMMEDIATE; SQL>STARTUP |
上文說過,dmp檔案的第2第3位元組記錄了字符集資訊,因此直接修改dmp檔案的第2第3位元組的內容就可以‘騙’過oracle的檢查。這樣做理論上也僅是從子集到超集可以修改,但很多情況下在沒有子集和超集關係的情況下也可以修改,我們常用的一些字符集,如US7ASCII,WE8ISO8859P1,ZHS16CGB231280,ZHS16GBK基本都可以改。因為改的只是dmp檔案,所以影響不大。
具體的修改方法比較多,最簡單的就是直接用UltraEdit修改dmp檔案的第2和第3個位元組。比如想將dmp檔案的字符集改為ZHS16GBK,可以用以下SQL查出該種字符集對應的16進位制程式碼:
SQL> select to_char(nls_charset_id('ZHS16GBK'), 'xxxx') from dual; 0354 |
如果dmp檔案很大,用ue無法開啟,就需要用程式的方法了。網上有人用java儲存過程寫了轉換的程式(用java儲存過程的好處是通用性教好,缺點是比較麻煩)。我在Windows下測試通過。但要求Oracle資料庫一定要安裝JVM選項。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/16860121/viewspace-692289/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- oracle資料庫的字符集更改Oracle資料庫
- 全面認識資料指標體系指標
- 修改Oracle資料庫字符集Oracle資料庫
- oracle資料庫字符集資訊Oracle資料庫
- 循序漸進Oracle - 全面認識Oracle ASHOracle
- oracle資料庫字符集的轉換Oracle資料庫
- oracle國家字符集與資料庫字符集Oracle資料庫
- 修改Oracle資料庫字符集(zt)Oracle資料庫
- 檢視oracle資料庫字符集Oracle資料庫
- Oracle資料庫字符集介紹Oracle資料庫
- Oracle資料庫字符集問題Oracle資料庫
- Oracle資料庫字符集淺析Oracle資料庫
- 全面認識JAVAJava
- 「Oracle」資料庫字符集編碼修改Oracle資料庫
- Oracle資料庫字符集問題解析Oracle資料庫
- 巧妙轉換ORACLE資料庫字符集Oracle資料庫
- Oracle資料庫字符集分析之一Oracle資料庫
- 一張圖認識天下資料庫資料庫
- oracle11g更改資料庫字符集Oracle資料庫
- Oracle資料庫字符集問題解析(轉)Oracle資料庫
- 認識及操作SQL Server 資料庫SQLServer資料庫
- 全面剖析Oracle資料庫中的分割槽功能Oracle資料庫
- 1.4. 認識你的資料庫版本號資料庫
- 全面認識oracle分割槽表及分割槽索引Oracle索引
- 【MySQL資料庫】認識資料庫+環境搭建--------Windows系統MySql資料庫Windows
- (轉載)Oracle資料庫字符集問題解析Oracle資料庫
- oracle資料庫字符集設定的查詢語法Oracle資料庫
- 修改oracle9i資料庫字符集的方法(轉)Oracle資料庫
- oracle資料庫巡檢(二)全面檢查Oracle資料庫
- 修改資料庫字符集資料庫
- 資料探勘——認識資料
- Oracle修改資料字符集Oracle
- ORACLE 修改資料庫的字符集編碼為UTF-8Oracle資料庫
- Oracle 11g rac資料庫字符集轉換Oracle資料庫
- [轉載]Oracle資料庫字符集問題解析3Oracle資料庫
- [轉載]Oracle資料庫字符集問題解析2Oracle資料庫
- [轉載]Oracle資料庫字符集問題解析1Oracle資料庫
- Oracle資料庫字符集問題解決方案大全Oracle資料庫