lxml處理xml時的字元編碼問題

agentwx發表於2015-01-28

為了簡化問題，就把xml的內容簡化為如下的形式:

<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>

它的encoding為gbk，其中的節點有一個為中文字元
使用lxml提取節點的值時出現瞭如下的異常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

此時對應的Python指令碼為：

tst = u`<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>`
for event,element in etree.iterparse(BytesIO(tst.encode(`utf-8`))):
    print("%s, %s" % (element.tag, element.text))

不過簡化之前，報的是另外一個異常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

不論異常是哪一個，猜測還是和字元的編碼形式有關。
經過各種嘗試無果，後來在stackoverflow上看到這篇文章，文中提到的問題和xml中的encoding值有關，嘗試了增加了一段程式碼

tst = u`<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>`
tst = tst.replace(`encoding="gbk"`, `encoding="utf-8"`)
for event,element in etree.iterparse(BytesIO(tst.encode(`utf-8`))):
    print("%s, %s" % (element.tag, element.text))

增加了一個替換的語句，將之前的encoding=”gbk”替換成encoding:”utf-8″
於是終於得到了結果：

da, 中文，就是任性
DOCUMENT, None

xml處理的問題
2005-01-18
XML
JDBC的XML編碼和Delphi融合時的編碼問題
2003-07-01
JDBCXML
字元編碼問題
2024-06-15
字元
字元編碼與檔案處理
2020-11-25
字元
字元顯示亂碼問題處理辦法
2006-07-18
字元
MySQL 中字元編碼問題
2019-12-24
MySql字元
字元編碼問題記錄
2019-05-12
字元
【字元編碼】Java字元編碼詳細解答及問題探討
2016-03-26
字元Java
xml+xsl應用,包含中文字元的URL編碼問題 (轉)
2007-08-15
XML字元
在用package方式產生.xml時由於有&造成問題的處理
2006-11-21
PackageXML
(iphone/ipad）解析json時指定字元編碼問題
2011-10-31
iPhoneiPadJSON字元
mysql中文字元的問題全面處理
2016-10-24
MySql字元
解析XML檔案時,無效的XML 字元 (Unicode: 0x7)異常處理
2018-08-06
XML字元Unicode
XML檔案處理中增加xmlns問題
2007-05-17
XML
pb資料視窗saveas成xml的時候返回-1的問題處理
2015-01-20
XML
字元編碼常識及問題解析
2014-09-02
字元
JavaScript 如何正確處理 Unicode 編碼問題！
2019-01-08
JavaScriptUnicode
JavaScript如何正確處理Unicode編碼問題！
2019-01-07
JavaScriptUnicode
Swift3.0語言教程刪除字元與處理字元編碼
2016-11-17
Swift字元
軟體編碼階段遇到問題的處理辦法
2007-06-16
ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
大體積XML檔案處理效能問題
2010-06-02
XML
maven編譯遇到"編碼GBK的不可對映字元"警告的處理
2022-06-27
Maven編譯字元
解決XML下無效字元的問題
2006-10-30
XML字元
Python編解碼問題與文字檔案處理
2021-06-19
Python
scheme跳轉特殊字元編碼問題
2018-11-26
Scheme字元
包含中文字元的URL編碼問題(轉)
2007-08-12
字元
Python 字元編碼問題和其他一些問題
2009-05-18
Python字元
Laravel對不同版本的MySQL字元編碼報錯問題
2021-01-14
LaravelMySql字元
大容量XML檔案處理如何解決效能問題
2009-12-02
XML
MySQL：亂碼問題處理流程
2021-02-16
MySql
java處理中文亂碼問題
2009-12-18
Java
【問題處理】MySQL忘記root密碼的處理辦法
2021-01-05
MySql密碼
MSSQL隱碼攻擊時對中文字元的處理方法
2012-08-20
SQL字元
XML學習筆記（一）：關於字元編碼的理解
2019-01-12
XML筆記字元
執行計劃問題導致處理速度時快時慢的問題
2011-09-22
Mysql設定字元編碼及varchar寬度問題
2016-09-01
MySql字元
處理問題的方法
2010-11-10

lxml處理xml時的字元編碼問題

相關文章