[20240804]關於kitty設定與linux LANG環境設定問題.txt

lfree發表於2024-08-05
[20240804]關於kitty設定與linux LANG環境設定問題.txt

--//更正我以前理解的一個混沌的地方:
--//我以前個人的工作習慣:LANG=en_US,kitty Remote character set 選擇 Use font encoding.
--//目前這樣的設定存在一些問題:

--//kitty設定LANG=en_US.UTF-8的情況下,kitty window->Translation ,Remote character set=utf-8,輸入的漢字是UTF-8編碼!!

--//張 utf-8的編碼是 e5 bc a0
--//張 gb2312的編碼是 d5 c5 --//213 = 0xd5 197 = 0xc5

--//簡單的測試說明問題:

1.第一種情況,LANG=en_US,kitty Remote character set 選擇 Use font encoding.
# echo $LANG
en_US

# mkdir test;cd test
# touch 張
# ls -1


# ls -1 | xxd -c 16
00000000: d5c5 0a ...

# ls -1 ??| xxd -c 16
00000000: d5c5 0a ...

--//中文gb2132編碼.
# echo 111111 >> 張
--//給檔案加入內容,方便下面的測試與觀察.
--//補充:
# ls -l
total 4
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 寮?
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 張

2.第二種情況,LANG=en_US,kitty Remote character set 選擇 utf-8:

# echo $LANG
en_US

# cd test
# ls -l ??
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 ??
--//實際上看到的是一個圖形符號.

# touch 張
# ls -l
total 4
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 張
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 ??
--//這樣建立了2個檔案.

# ls -1|xxd -c 16
00000000: e5bc a00a d5c5 0a .......
--//可以發現第1個檔名編碼是e5 bc a0,第2個檔名編碼是 d5 c5.
--//回到第1個終端會話,看到如下:
# ls -l
total 4
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 寮?
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 張

--//這裡看到的檔名與第2種情況互換了,可以透過檔案大小判斷.

3.第三種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 Use font encoding:
--//注意測試前先修改/etc/locale.conf檔案.

# echo $LANG
en_US.UTF-8

# ls -l
total 4
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 ''$'\325\305'
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 寮?
--//兩個檔案的顯示都存在異常.第1個是gb2312編碼的檔案,第2個uft-8編碼檔案.
# echo "ibase=8;325;305" |bc
213
197

# echo "obase=16;ibase=8;325;305" |bc |paste -sd ' '
D5 C5
--//只不過以8進位制顯示.前面不知道為什麼顯示''$'.

# ls -b -l
total 4
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 \325\305
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 寮?

4.第四種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 utf-8:

# echo $LANG
en_US.UTF-8

# cd test;ls -l
total 4
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 ''$'\325\305'
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 張
--//這種情況utf-8字元的顯示正常.

# ls -l -b
total 4
-rw-r--r-- 1 root root 7 2024-08-03 23:20:58 \325\305
-rw-r--r-- 1 root root 0 2024-08-03 23:15:05 張

5.複製與貼上情況:
--//最後看看從windows copy and paste 中英文的情況:
--//在windows記事本上寫入 1張2 ,然後複製與貼上測試
--//在終端上測試:
--//除了第3種情況出現 1耪2 其他正常.

--//再測試啟動tmux的情況:
--//第一種情況,LANG=en_US,kitty Remote character set 選擇 Use font encoding, 顯示12
--//第二種情況,LANG=en_US,kitty Remote character set 選擇 utf-8, 顯示1__2
--//第三種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 Use font encoding, 顯示12
--//第四種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 utf-8, 顯示1張2.

6.輸入漢字的情況:
--//在終端上測試,輸入張:
--//第一種情況,LANG=en_US,kitty Remote character set 選擇 Use font encoding, 顯示 張 gb2312編碼
--//第二種情況,LANG=en_US,kitty Remote character set 選擇 utf-8, 顯示 張 utf-8編碼
--//第三種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 Use font encoding, 顯示 耪
--//第四種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 utf-8, 顯示 張 utf-8編碼

--//補充測試:
# echo -e 耪 | xxd -c 16
00000000: c5d5 0a ...
--//編碼與張的gb2312編碼正好反了一下.

--//再測試啟動tmux的情況:
--//第一種情況,LANG=en_US,kitty Remote character set 選擇 Use font encoding, 顯示 無法輸入
--//第二種情況,LANG=en_US,kitty Remote character set 選擇 utf-8, 顯示 __
--//第三種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 Use font encoding, 顯示 無法輸入
--//第四種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 utf-8, 顯示 張 utf-8編碼

5.總結:
--//從上面的測試可以看出:
--//第4種情況,LANG=en_US.utf-8,kitty Remote character set 選擇 utf-8,可以比較好的支援漢字顯示.
--//不過漢字編碼不再是gb2312,而是utf-8,我個人始終不理解,在windows下輸入編碼是gb2312的漢字,在linux
--//的LANG=en_US.utf-8的情況下,如何轉換為utf-8編碼,也許存在某種規則或者演算法,這種方法在設計編碼時已經考慮的.

--//第1種情況,LANG=en_US,kitty Remote character set 選擇 Use font encoding,可以很好的輸入gb2312編碼,但是在tmux下
--//要麼無法輸入,要麼複製貼上丟失..

--//之所以做這些測試,主要問題是我們團隊缺乏統一管理,我不可能要求每個的設定都一樣.
--//而且如果設定utf-8,在服務端運算元據庫做一些dml涉及到中文時,會導致亂碼問題.
--//我已經遇到類似的問題,比如在資料庫新建立的包,函式,可以發現裡面的一些註解看到的都是亂碼.
--//而且現在我感覺大有統一到utf-8的情況,至少許多軟體有這個的趨勢.

--//我以前使用老版本的kitty在第一種情況終端,tmux都正常工作,現在僅僅終端可以.
--//而且以前建立的資料庫選擇如下:
--//characterSet ZHS16GBK -nationalCharacterSet AL16UTF16
--//如果在服務端做DML涉及中文的話,可能導致資料庫一些欄位出現亂碼.

--//仔細檢視man tmux文件,存在如下內容.

ENVIRONMENT
When tmux is started, it inspects the following environment variables:

EDITOR If the command specified in this variable contains the string 'vi' and VISUAL is unset, use vi-style
key bindings. Overridden by the mode-keys and status-keys options.

HOME The user's login directory. If unset, the passwd(5) database is consulted.

LC_CTYPE The character encoding locale(1). It is used for two separate purposes. For output to the terminal,
UTF-8 is used if the -u option is given or if LC_CTYPE contains "UTF-8" or"UTF8". Otherwise, only ASCII
characters are written and non-ASCII characters are replaced with underscores ('_'). For input, tmux
always runs with a UTF-8 locale. If en_US.UTF-8 is provided by the operating system it is used and
LC_CTYPE is ignored for input. Otherwise, LC_CTYPE tells tmux what the UTF-8 locale is called on the
current system.If the locale specified by LC_CTYPE is not available or is not a UTF-8 locale, tmux exits
with an error message.

--//這些細節應該在工作中引起注意.

相關文章