一篇文章助你理解Python2中字串編碼問題

Python進階者發表於2018-12-11

原文網址 : https://flycode.co/archives/159274

Python字串編碼

前幾天給大家介紹了unicode編碼和utf-8編碼的理論知識沒來得及上車的小夥伴們可以戳這篇文章淺談unicode編碼和utf-8編碼的關係。下面在Python2環境中進行程式碼演示分別Windows和Linux作業系統下進行演示以加深對字串編碼的理解。

ä¸ç¯æç« å©ä½ çè§£Python2ä¸åç¬¦ä¸²ç¼ç é®é¢

1、首先在Windows作業系統下的Python2環境中進行演示我們都知道Python2中的編碼問題經常出現需要通過編碼encode和解碼decode進行實現。通過cmd進入命令列視窗然後輸入兩個字串’abc’和u’abc’如下圖所示。需要注意的是這兩個字串的編碼格式是不一樣的前者是string後者是unicode。接下來對其進行編碼指定編碼為utf-8可以發現兩個都正常顯示沒有報錯。

ä¸ç¯æç« å©ä½ çè§£Python2ä¸åç¬¦ä¸²ç¼ç é®é¢

當字串變為中文的時候爾後對其再次進行編碼演示的時候如下圖所示可以看到前者有報錯產生而後者沒有報錯。這個報錯在Python2中經常出現所以需要特別注意Python字串在記憶體中它是通過unicode來進行編碼的。此時定義的str1它傳遞過來的是utf-8編碼非unicode編碼使用encode()函式的前提是待轉換的字串編碼為unicode編碼。所以可以看到str1會報錯而str2並沒有報錯。在Windows下字串的編碼格式是GB2312編碼在Linux下字串的編碼格式是utf-8編碼。如果想要將str1順利的轉換為utf-8編碼的話則需要先將str1進行解碼成unicode編碼再進行編碼即可此時得到的結果同str2轉換的結果是一致的。

ä¸ç¯æç« å©ä½ çè§£Python2ä¸åç¬¦ä¸²ç¼ç é®é¢

2、現在在Linux作業系統下的Python2環境中進行演示使用一樣的字串結果最後是一樣的但是過程有些不同如下圖所示。

ä¸ç¯æç« å©ä½ çè§£Python2ä¸åç¬¦ä¸²ç¼ç é®é¢

在Windows下字串的編碼格式是GB2312編碼在Linux下字串的編碼格式是utf-8編碼。所以當輸入有中文的字串的時候直接編碼為utf-8會報錯通過gb2312編碼進行解碼也會報錯。只要通過utf-8編碼進行解碼然後再通過utf-8進行編碼才可以正確的輸出結果。
有個地方大家可能會覺得很奇怪就是一開始str1.encode(‘utf-8’)表面上看上去str1已經是unicode編碼了之後進行編碼按說沒有什麼問題可是為什麼還是會報錯呢其實主要原因還是在於str1並不是真正的解碼成了unicode格式。其實str1.encode(‘utf-8’)它預設的會進行一步解碼但是其decode()的過程呼叫的是預設的編碼格式而這個預設的編碼格式卻是ASCII編碼如下圖所示。

ä¸ç¯æç« å©ä½ çè§£Python2ä¸åç¬¦ä¸²ç¼ç é®é¢

當中文字串使用ASCII編碼進行解碼之後本身就報錯了後邊的encode(‘utf-8’)根本就沒有執行到。
關於Python2中字串編碼的問題就先介紹到這裡了相信大家應該有了一個初步的認識了下一篇文章將介紹Python3中字串編碼的問題。

相關文章

一篇文章助你理解Python3中字串編碼問題
2018-12-14
Python字串編碼
編譯原理入門篇|一篇文章理解編譯全過程
2020-10-31
編譯原理
MySQL 中字元編碼問題
2019-12-24
MySql字元
一篇文章完全理解virtualenv
2018-03-16
面對複雜問題時，系統思考助你理解問題本質
2023-05-19
python中字串的編碼和解碼
2020-11-29
Python字串
一篇文章理解Web快取
2018-08-09
Web快取
深入剖析go中字串的編碼問題——特殊字元的string怎麼轉byte？
2020-10-10
Go字串字元
Ubuntu中 MySQL 的中文編碼問題
2018-09-18
UbuntuMySql
JS、C#中URL編碼解碼問題
2024-08-19
JSC#
py編碼問題
2019-03-11
字元編碼問題
2024-06-15
字元
一篇文章，從原始碼深入詳解ThreadLocal記憶體洩漏問題
2021-09-09
原始碼thread記憶體
字串-編碼
2019-03-18
字串
字串編碼
2018-09-04
字串編碼
漢字編碼問題
2019-01-07
關於Tungsten Fabic版本問題，這一篇文章說清了
2020-11-08
JS字串編碼
2018-10-26
JS字串編碼
字串-字元編碼
2019-03-17
字串字元
C++中的字串編碼處理
2023-05-15
C++字串編碼
遇到的編碼問題、時區問題整理
2021-08-10
在vscode中go編碼發生的問題整理
2021-03-17
VSCodeGo
C++windows編碼問題
2024-03-14
C++Windows
字元編碼問題記錄
2019-05-12
字元
一篇文章帶你搞定經典面試題之扔雞蛋問題
2019-02-16
面試題
Rust中字串的base64編碼與解碼
2022-09-21
Rust字串
轉載一篇文章，自己不會編輯
2020-12-29
徹底理解Netty，這一篇文章就夠了
2018-11-01
Netty
理解python函式，這一篇文章就夠了
2020-11-23
Python函式
理解線段樹這一篇文章就夠啦！
2023-03-01
分割字串問題
2019-03-26
字串
java安全編碼指南之:字串和編碼
2020-09-16
Java字串
PHP 與 JS 的編碼問題
2019-04-15
PHPJS
Gradle 編譯警告亂碼問題
2024-07-15
Gradle編譯
理解樹狀陣列這一篇文章就夠啦
2023-02-21
陣列
字串編碼入門科普
2019-03-04
字串編碼
Java字串編碼介紹
2019-01-27
Java字串編碼
一篇文章弄懂 JavaScript 中的 import
2018-12-07
JavaScriptImport