一篇文章助你理解Python3中字串編碼問題

Python進階者發表於2018-12-14

前幾天給大家介紹了unicode編碼和utf-8編碼的理論知識,以及Python2中字串編碼問題,沒來得及上車的小夥伴們可以戳這篇文章:淺談unicode編碼和utf-8編碼的關係和一篇文章助你理解Python2中字串編碼問題。下面在Python3環境中進行程式碼演示,分別Windows和Linux作業系統下進行演示,以加深對字串編碼的理解。

05a75e74b2bb4c90847095dd4da02b29

在Python2的Python檔案的檔案頭往往會宣告字元的編碼格式,通過會使用程式碼“#-*- coding -*-”作為編碼宣告,如下圖所示。

1f4367ac22ae4a9fbd10f6e38ee4e194

因為考慮到Python檔案中可能會穿插中文,不然的話Python通過直譯器來讀取檔案的時候,檔案中的中文就有可能識別不了。而在Python3中,我們就不必像Python2的檔案那樣進行宣告編碼格式了,因為在Python3中,預設將所有的字元都視為unicode格式了。下面在Python3環境下進行程式碼演示。

1、首先在Windows作業系統下的Python3環境中進行演示,如下圖所示。

ec724afec5eb46cd97ea14b8f2a68c59

可以看到str1就是一箇中文的字串,字串前面也沒有加u以表示其為unicode編碼,其實也沒有必要加那個字元,因為在Python3中將所有的字元都內建成unicode字元了,這就是Python2和Python3最大的區別。所有在這裡可以直接呼叫encode()函式對字串進行編碼,而且也不會報錯。

2、接下來在Linux作業系統下的Python3環境中進行演示,如下圖所示。

28137e56f80f45c9b5eb8fadb9ca0bd9

這個過程和Windows下是一樣的,這裡就不再贅述了。有個地方需要注意的是在Linux作業系統下,Python3的預設環境編碼變為了utf-8編碼,而不是Python2中的ASCII編碼。

總的來說,Python3解決了一個字串編碼的重要問題,所以在字串編碼的報錯方面相對Python2來說要少的多,幫助我們省下了很多事情。小夥伴們,關於在Python2和Python3中字串的編碼問題這個知識點十分重要,希望大家都可以get到噢~~


相關文章