解決Python在windows平臺預設編碼(encoding)為gbk所導致的open()函式報錯及其他編碼問題

ycycorona發表於2018-10-26

原文網址 : https://juejin.im/post/5bd2b6d5e51d45735c3c0453

注意以下提到的Python均指的Python3.7

在windows平臺下使用python內建函式 open() 時發現,當不傳遞encoding引數時，會自動採用gbk(cp936)編碼開啟檔案，而當下很大部分檔案的編碼都是UTF-8。

我們當然可以通過每次手動傳參encoding='utf-8'，但是略顯冗餘，而且有很多外國的第三方包，裡面呼叫的內建open()函式並沒有提供介面讓我們指定encoding，這就會導致這些包在windows平臺上使用時，常會出現如 "UnicodeDecodeError: 'gbk' codec can't decode byte 0x91 in position 209: illegal multibyte sequence" 的報錯

通過檢視python文件分析原因：

if encoding is not specified the encoding used is platform dependent: locale.getpreferredencoding(False) is called to get the current locale encoding. (For reading and writing raw bytes use binary mode and leave encoding unspecified.)

可以發現當open不傳遞encoding引數時，是預設呼叫locale.getpreferredencoding()方法來獲取當前平臺的“預設編碼型別”,繼續檢視相關文件，發現有兩種方法可以指定windows平臺下Python執行時的“預設編碼型別”。

1. 指定sys.flags.utf8_mode(推薦)

通過執行指令碼是新增命令列引數 -X utf8（注意是跟在python.exe後面的interpreter option,不是跟在要執行指令碼後面的parameters!）

指定sys.flags.utf8_mode引數之後，Python執行時會在很多場景下自動使用utf-8編碼，而不是win預設的gbk(cp936)編碼。

2. 直接重寫_locale(相容老版本)

import _locale
_locale._getdefaultlocale = (lambda *args: ['en_US', 'utf8'])
複製程式碼

python直譯器會取_getdefaultlocale()[1]作為預設編碼型別，重寫後，會改變當前執行環境下的所有模組的預設編碼。

總之，使用以上兩種方法後，windows平臺下，open()函式會預設用utf-8編碼開啟檔案，其實不止open()方法，跨模組、全域性改變python直譯器的預設編碼為utf-8,會帶來很多使用上的便利，而不需要被gbk編碼報錯的噩夢所糾纏。

解決java“錯誤：編碼GBK的不可對映字元”
2018-03-24
Java字元
徹底解決Python編碼問題
2020-04-25
Python
不同Node版本導致的Date建構函式問題及解決方法
2018-07-06
函式
一文講透Windows平臺下的ASCII，Unicode編碼問題
2024-11-13
WindowsASCIIUnicode
程式設計師不是在編寫程式碼，而是在解決問題 - LanRaccoon
2020-03-30
程式設計師
C++windows編碼問題
2024-03-14
C++Windows
python編碼規範以及推導式的編寫
2020-11-22
Python
解決 requests 庫 URL 編碼問題
2023-11-20
python中怎樣指定open編碼為ansi
2024-08-17
Python
Linux 和 Windows 下編碼問題處理 codestyle 解決方法
2020-04-17
LinuxWindows
mysql5.7.22設定中文編碼-解決亂碼問題Linux
2018-05-29
MySqlLinux
CAS導致的ABA問題及解決
2019-04-24
Transformer中的位置編碼(Positional Encoding)
2024-10-19
ORMEncoding
Laravel對不同版本的MySQL字元編碼報錯問題
2021-01-14
LaravelMySql字元
python中的編碼&解碼
2024-08-31
Python
python批次將檔案編碼格式轉換為 UTF8帶標籤的格式，解決linux環境下中文編碼亂碼的問題
2024-12-04
PythonLinux
git合併丟失程式碼問題分析與解決(錯誤操作導致)
2020-11-27
Git
Sass將Unicode編譯成文字字元導致icon亂碼問題
2021-10-19
Unicode編譯字元
vim 編輯報錯導致無法正常退出和編輯
2024-03-20
你解決的問題比你編寫的程式碼更重要！
2021-09-09
Python編解碼問題與文字檔案處理
2021-06-19
Python
but no encoding declared;問題的解決方法
2024-03-14
Encoding
Netty原始碼學習6——netty編碼解碼器&粘包半包問題的解決
2023-11-28
Netty原始碼
空格在程式碼中變成其他字元或者亂碼問題解決方法
2018-08-30
字元
py編碼問題
2019-03-11
字元編碼問題
2024-06-15
字元
JS、C#中URL編碼解碼問題
2024-08-19
JSC#
Servlet3:從根源瞭解並解決編碼問題
2020-12-07
Servlet
重新restore了mysql到另一臺機器上後mysql 編碼問題報錯
2021-09-09
RESTMySql
在https中引入http資源所導致的問題
2018-12-24
HTTP
【爬坑】.Net編譯環境導致的問題
2024-09-06
編譯
PHP中文GBK編碼轉UTF-8
2019-02-16
PHP
[LeetCode] Short Encoding of Words 單詞集的短編碼
2018-12-08
LeetCodeEncoding
解決java socket在傳輸漢字時出現截斷導致亂碼的問題
2021-06-23
Java
漢字編碼問題
2019-01-07
關於tomcat在idea上的中文編碼問題
2024-05-01
TomcatIdea
在vscode中go編碼發生的問題整理
2021-03-17
VSCodeGo
音影片編解碼技術在直播平臺中是如何運用的？
2019-12-31

解決Python在windows平臺預設編碼(encoding)為gbk所導致的open()函式報錯及其他編碼問題

注意 以下提到的Python均指的Python3.7

1. 指定sys.flags.utf8_mode(推薦)

2. 直接重寫_locale(相容老版本)

相關文章

注意以下提到的Python均指的Python3.7