關於資料庫字符集

zhangsharp20發表於2016-03-06
影響資料庫字符集最重要的引數是NLS_LANG引數
它的格式如下: NLS_LANG = language_territory.charset
它有三個組成部分(語言、地域和字符集),每個成分控制了NLS子集的特性。

其中:

Language: 指定伺服器訊息的語言, 影響提示資訊是中文還是英文

Territory: 指定伺服器的日期和數字格式,

Charset:  指定字符集。

如:AMERICAN _ AMERICA. ZHS16GBK

從NLS_LANG的組成我們可以看出,真正影響資料庫字符集的其實是第三部分。
所以兩個資料庫之間的字符集只要第三部分一樣就可以相互匯入匯出資料,前面影響的只是提示資訊是中文還是英文。


怎麼檢視資料庫版本

select * from v$version

包含版本資訊,核心版本資訊,位數資訊(32位或64位)等  
至於位數資訊,在Linux/unix平臺上,可以透過file檢視,如file $ORACLE_HOME/bin/oracle

二、檢視資料庫字符集

資料庫伺服器字符集

select * from nls_database_parameters;

客戶端字符集環境

select * from nls_instance_parameters;

表示客戶端的字符集的設定,可能是引數檔案,環境變數或者是登錄檔

會話字符集環境

select * from nls_session_parameters;

客戶端的字符集要求與伺服器一致或者是伺服器的超集,才能正確顯示資料庫的非Ascii字元。如果多個設定存在的時候,alter session>環境變數>登錄檔>引數檔案

字符集要求一致,但是語言設定卻可以不同,語言設定建議用英文。如字符集是zhs16gbk,則nls_lang可以是American_America.zhs16gbk。

查詢oracle server端的字符集

select userenv('language') from dual;

如何查詢dmp檔案的字符集

一般dmp日誌資訊中會有記錄

查詢oracle client端的字符集

在windows平臺下,就是登錄檔裡面相應OracleHome的NLS_LANG。還可以在dos視窗裡面自己設定,

比如: set nls_lang=AMERICAN_AMERICA.ZHS16GBK

這樣就隻影響這個視窗裡面的環境變數。

在unix平臺下,就是環境變數NLS_LANG。

$echo $NLS_LANG

AMERICAN_AMERICA.ZHS16GBK

如果檢查的結果發現資料庫server端與client端字符集不一致,請統一修改為同資料庫server端相同的字符集。

NLS_LANG引數格式

    NLS_LANG=<language>_<territory>.<client character set>

    Language: 顯示oracle訊息,校驗,日期命名

    Territory:指定預設日期、數字、貨幣等格式

    Client character set:指定客戶端將使用的字符集

    例如:NLS_LANG=AMERICAN_AMERICA.US7ASCII

    AMERICAN是語言,AMERICA是地區,US7ASCII是客戶端字符集

EXP/IMP 與 字符集

由於使用exp/imp進行資料遷移時,資料從源資料庫到目標資料庫的過程中有四個環節涉及到字符集,如果這四個環節的字符集不一致,將會發生字符集轉換。

EXP

     ____________ _________________ _____________

     |imp匯入檔案|<-|環境變數NLS_LANG|<-|資料庫字符集|

      ------------   -----------------   -------------

IMP

     ____________ _________________ _____________

     |imp匯入檔案|->|環境變數NLS_LANG|->|資料庫字符集|

      ------------   -----------------   -------------

 

 

四個字符集是

   (1)源資料庫字符集

   (2)Export過程中使用者會話字符集(透過NLS_LANG設定)

   (3)Import過程中使用者會話字符集(透過NLS_LANG設定)

   (4)目標資料庫字符集

    
匯出的轉換過程

例:如果源資料庫使用ZHS16GBK,而Export使用者會話字符集使用US7ASCII,由於ZHS16GBK是16位字符集,而US7ASCII是7位字符集,這個轉換過程中,中文字元在US7ASCII中不能夠找到對等的字元,所以所有中文字元都會丟失而變成“?? ”形式,這樣轉換後生成的Dmp檔案已經發生了資料丟失。

因此如果想正確匯出源資料庫資料,則Export過程中使用者會話字符集應等於源資料庫字符集或是源資料庫字符集的超集

匯入的轉換過程

第一次:匯入檔案字符集與匯入Session使用的字符集之間的轉換,如果這個轉換過程不能正確完成,Import向目標資料庫的匯入過程也就不能完成。

第二次:匯入Session字符集與資料庫字符集之間的轉換。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29802484/viewspace-2047597/,如需轉載,請註明出處,否則將追究法律責任。

相關文章