python中mysql模組的記憶體洩露和中文亂碼詳解

pythontab發表於2013-02-08

mysql-python的連線時,預設大家會寫成

con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,charset='gbk')

一旦指定了"gbk",預設mysql-python會設定use_unicode=True。結果是mysql-python會利用python自己的 codec模組去做字元解碼工作,但實際中發現mysql庫gbk編碼字符集比python的gbk編碼集大。一些在mysql裡可以儲存的字元,拿 python的codec去解析就會拋錯。更嚴重的問題是,在mysql-python1.2.3之前,use_unicode=True即讓 mysql-python解碼這塊存在記憶體洩露的bug。解碼出來所有資料庫字串經過mysql-python出來都是unicode object,要輸出到檔案需要再次編碼。


解決方法是強制指定use_unicode=False。即:

con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,charset='gbk',use_unicode=False)

這樣既不會有記憶體洩露,也不需要在輸出檔案時進行編碼。也迴避了python的codec不能解析mysql gbk裡面存放的字串的問題。 最後對於mysql4,我們可以將charset引數留空:

con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,use_unicode=False)

這樣就完美解決了這個問題,哈哈

相關文章