Python:將utf-8格式的檔案轉換成gbk格式的檔案

pythontab發表於2015-01-26

需求：將utf-8格式的檔案轉換成gbk格式的檔案

實現程式碼如下：

def ReadFile(filePath,encoding="utf-8"):
    with codecs.open(filePath,"r",encoding) as f:
        return f.read()
 
def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath,"w",encoding) as f:
        f.write(u)
 
def UTF8_2_GBK(src,dst):
    content = ReadFile(src,encoding="utf-8")
    WriteFile(dst,content,encoding="gbk")

程式碼講解：

函式ReadFile的第二個引數指定以utf-8格式的編碼方式讀取檔案，返回的結果content為Unicode

然後，在將Unicode以gbk格式寫入檔案中。

這樣就能實現需求。

但是，如果要轉換格式的檔案中包含有一些字元並不包含在gbk字符集中的話，就會報錯，類似如下：

UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 4813: illegal multibyte sequence

以上的報錯資訊的意思是：在將Unicode編碼成gbk的時候，不能將Unicode u'\xa0'編碼成gbk。

這裡，我們需要弄清楚gb2312、gbk和gb18030三者之間的關係

GB2312：6763個漢字

GBK：21003個漢字

GB18030-2000：27533個漢字

GB18030-2005：70244個漢字

所以，GBK是GB2312的超集，GB18030是GBK的超集。

理清了關係之後，我們進一步改進下程式碼：

def UTF8_2_GBK(src,dst):
    content = ReadFile(src,encoding="utf-8")
    WriteFile(dst,content,encoding="gb18030")

執行後，發現沒有報錯，可以正常執行。

因為，在GB18030字符集中，可以找到u'\xa0'對應的字元。

此外，還有另外一種實現方案：

需要修改下WriteFile方法

def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath,"w") as f:
        f.write(u.encode(encoding,errors="ignore"))

這裡，我們將Unicode編碼（encode）成gbk格式，但是注意encode函式的第二個引數，我們賦值"ignore"，表示在編碼的時候，忽略掉那些無法編碼的字元，

解碼同理。

但是，當我們執行後，發現可以成功的將utf-8格式的檔案修改成了ansi格式。但，另外發現生成的檔案中，每個一行都有一行空行。

這裡，可以指定以二進位制流的形式寫檔案，修改後的程式碼如下：

def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath,"wb") as f:
        f.write(u.encode(encoding,errors="ignore"))

JAVA中GBK格式檔案和UTF-8格式檔案互相轉換
2020-08-21
Java
如何將檔案PDF格式轉換成Word格式
2019-02-17
csv格式怎麼轉換成excel？csv格式轉換成excel格式檔案的方法
2019-04-08
Excel
ofd檔案如何轉換成pdf格式電腦上ofd檔案如何轉換成pdf格式
2022-02-22
chm檔案怎麼轉換成TXT格式？chm檔案快速轉化成TXT格式的方法
2019-04-08
CR2檔案怎麼轉換成jpg格式？快速轉換cr2檔案成jpg格式的操作技巧
2019-04-22
caj檔案怎麼轉換成word文件，簡單的檔案格式轉換教程
2021-04-24
ofd檔案如何轉換成pdf格式電腦ofd檔案如何免費轉換為pdf格式
2022-04-16
plist檔案格式轉換器
2023-04-12
Linux轉換檔案格式
2012-05-28
Linux
COFF檔案的格式 (轉)
2007-08-17
PDF檔案如何轉成markdown格式
2019-02-24
使用sratoolkit轉換SRA檔案格式
2018-01-19
我使用過的Linux命令之dos2unix - 將DOS格式文字檔案轉換成UNIX格式
2013-04-15
Linux
Photoshop檔案格式(轉)
2007-08-12
Java 生成本文檔案的時候，Dos格式轉成Unix格式
2016-01-05
Java
自動將視訊檔案轉換成音訊檔案，mp4轉mp3格式
2021-11-16
音訊
如何將MP4影片檔案轉換成MP3音訊格式
2018-11-26
音訊
如何給視訊格式的檔案進行格式轉換可以轉為音訊格式嗎？
2022-01-11
音訊
[請教] 如何把列印檔案轉換成圖片格式的問題
2006-08-03
用Python將word檔案轉換成html
2018-01-08
PythonHTML
Permute for mac(媒體檔案格式轉換器)
2022-07-13
Mac
MIDI 檔案格式 (轉)
2008-01-06
影片格式處理：騰訊影片格式怎麼轉換成mp4檔案？
2021-04-26
win10系統把cdr格式轉換成psd檔案的方法
2019-05-02
Win10
10款方便的線上檔案格式轉換工具網站
2013-01-10
網站
caj檔案怎麼轉換成pdf 電腦caj轉換成pdf格式文件的方法介紹
2022-04-20
檔案開啟的格式
2020-07-25
vscode如何將所有檔案格式lf批次轉換為crlf
2024-05-16
VSCode
QSV檔案怎麼開啟？QSV格式影片轉換成MP4格式教程
2019-01-11
DjVu檔案轉換PDF格式：DjVu To PDF Converter
2020-11-16
Permute 3 for mac(媒體檔案格式轉換器)
2022-10-21
Mac
免費版軟體文件檔案格式轉換
2018-05-24
線上檔案格式（PDF相關）轉換網站
2017-04-26
網站
WOR檔案轉換成GST檔案
2014-01-07
ubuntu下使用sratoolkit將sra檔案轉換成fastq檔案
2016-01-13
UbuntuAST
讀取DXF格式檔案 (轉)
2007-12-05
smali 檔案格式
2019-02-01

Python:將utf-8格式的檔案轉換成gbk格式的檔案

相關文章