全網最適合入門的物件導向程式設計教程:57 Python 字串與序列化-序列化與反序列化
摘要:
Python 序列化與反序列化是將 Python 物件轉換為位元組流(序列化)以便儲存或傳輸,和將位元組流轉換回物件(反序列化)的過程,pickle 模組和 shelve 模組是 Python 內建的序列化工具,以將 Python 物件序列化為二進位制資料並儲存或傳輸。
原文連結:
FreakStudio的部落格
往期推薦:
學嵌入式的你,還不會物件導向??!
全網最適合入門的物件導向程式設計教程:00 物件導向設計方法導論
全網最適合入門的物件導向程式設計教程:01 物件導向程式設計的基本概念
全網最適合入門的物件導向程式設計教程:02 類和物件的 Python 實現-使用 Python 建立類
全網最適合入門的物件導向程式設計教程:03 類和物件的 Python 實現-為自定義類新增屬性
全網最適合入門的物件導向程式設計教程:04 類和物件的Python實現-為自定義類新增方法
全網最適合入門的物件導向程式設計教程:05 類和物件的Python實現-PyCharm程式碼標籤
全網最適合入門的物件導向程式設計教程:06 類和物件的Python實現-自定義類的資料封裝
全網最適合入門的物件導向程式設計教程:07 類和物件的Python實現-型別註解
全網最適合入門的物件導向程式設計教程:08 類和物件的Python實現-@property裝飾器
全網最適合入門的物件導向程式設計教程:09 類和物件的Python實現-類之間的關係
全網最適合入門的物件導向程式設計教程:10 類和物件的Python實現-類的繼承和里氏替換原則
全網最適合入門的物件導向程式設計教程:11 類和物件的Python實現-子類呼叫父類方法
全網最適合入門的物件導向程式設計教程:12 類和物件的Python實現-Python使用logging模組輸出程式執行日誌
全網最適合入門的物件導向程式設計教程:13 類和物件的Python實現-視覺化閱讀程式碼神器Sourcetrail的安裝使用
全網最適合入門的物件導向程式設計教程:全網最適合入門的物件導向程式設計教程:14 類和物件的Python實現-類的靜態方法和類方法
全網最適合入門的物件導向程式設計教程:15 類和物件的 Python 實現-__slots__魔法方法
全網最適合入門的物件導向程式設計教程:16 類和物件的Python實現-多型、方法重寫與開閉原則
全網最適合入門的物件導向程式設計教程:17 類和物件的Python實現-鴨子型別與“file-like object“
全網最適合入門的物件導向程式設計教程:18 類和物件的Python實現-多重繼承與PyQtGraph串列埠資料繪製曲線圖
全網最適合入門的物件導向程式設計教程:19 類和物件的 Python 實現-使用 PyCharm 自動生成檔案註釋和函式註釋
全網最適合入門的物件導向程式設計教程:20 類和物件的Python實現-組合關係的實現與CSV檔案儲存
全網最適合入門的物件導向程式設計教程:21 類和物件的Python實現-多檔案的組織:模組module和包package
全網最適合入門的物件導向程式設計教程:22 類和物件的Python實現-異常和語法錯誤
全網最適合入門的物件導向程式設計教程:23 類和物件的Python實現-丟擲異常
全網最適合入門的物件導向程式設計教程:24 類和物件的Python實現-異常的捕獲與處理
全網最適合入門的物件導向程式設計教程:25 類和物件的Python實現-Python判斷輸入資料型別
全網最適合入門的物件導向程式設計教程:26 類和物件的Python實現-上下文管理器和with語句
全網最適合入門的物件導向程式設計教程:27 類和物件的Python實現-Python中異常層級與自定義異常類的實現
全網最適合入門的物件導向程式設計教程:28 類和物件的Python實現-Python程式設計原則、哲學和規範大彙總
全網最適合入門的物件導向程式設計教程:29 類和物件的Python實現-斷言與防禦性程式設計和help函式的使用
全網最適合入門的物件導向程式設計教程:30 Python的內建資料型別-object根類
全網最適合入門的物件導向程式設計教程:31 Python的內建資料型別-物件Object和型別Type
全網最適合入門的物件導向程式設計教程:32 Python的內建資料型別-類Class和例項Instance
全網最適合入門的物件導向程式設計教程:33 Python的內建資料型別-物件Object和型別Type的關係
全網最適合入門的物件導向程式設計教程:34 Python的內建資料型別-Python常用複合資料型別:元組和命名元組
全網最適合入門的物件導向程式設計教程:35 Python的內建資料型別-文件字串和__doc__屬性
全網最適合入門的物件導向程式設計教程:36 Python的內建資料型別-字典
全網最適合入門的物件導向程式設計教程:37 Python常用複合資料型別-列表和列表推導式
全網最適合入門的物件導向程式設計教程:38 Python常用複合資料型別-使用列表實現堆疊、佇列和雙端佇列
全網最適合入門的物件導向程式設計教程:39 Python常用複合資料型別-集合
全網最適合入門的物件導向程式設計教程:40 Python常用複合資料型別-列舉和enum模組的使用
全網最適合入門的物件導向程式設計教程:41 Python常用複合資料型別-佇列(FIFO、LIFO、優先順序佇列、雙端佇列和環形佇列)
全網最適合入門的物件導向程式設計教程:42 Python常用複合資料型別-collections容器資料型別
全網最適合入門的物件導向程式設計教程:43 Python常用複合資料型別-擴充套件內建資料型別
全網最適合入門的物件導向程式設計教程:44 Python內建函式與魔法方法-重寫內建型別的魔法方法
全網最適合入門的物件導向程式設計教程:45 Python實現常見資料結構-連結串列、樹、雜湊表、圖和堆
全網最適合入門的物件導向程式設計教程:46 Python函式方法與介面-函式與事件驅動框架
全網最適合入門的物件導向程式設計教程:47 Python函式方法與介面-回撥函式Callback
全網最適合入門的物件導向程式設計教程:48 Python函式方法與介面-位置引數、預設引數、可變引數和關鍵字引數
全網最適合入門的物件導向程式設計教程:49 Python函式方法與介面-函式與方法的區別和lamda匿名函式
全網最適合入門的物件導向程式設計教程:50 Python函式方法與介面-介面和抽象基類
全網最適合入門的物件導向程式設計教程:51 Python函式方法與介面-使用Zope實現介面
全網最適合入門的物件導向程式設計教程:52 Python函式方法與介面-Protocol協議與介面
全網最適合入門的物件導向程式設計教程:53 Python字串與序列化-字串與字元編碼
全網最適合入門的物件導向程式設計教程:54 Python字串與序列化-字串格式化與format方法
全網最適合入門的物件導向程式設計教程:55 Python字串與序列化-位元組序列型別和可變位元組字串
全網最適合入門的物件導向程式設計教程:56 Python字串與序列化-正規表示式和re模組應用
更多精彩內容可看:
給你的 Python 加加速:一文速通 Python 平行計算
一文搞懂 CM3 微控制器除錯原理
肝了半個月,嵌入式技術棧大彙總出爐
電子計算機類比賽的“武林秘籍”
一個MicroPython的開源專案集錦:awesome-micropython,包含各個方面的Micropython工具庫
Avnet ZUBoard 1CG開發板—深度學習新選擇
SenseCraft 部署模型到Grove Vision AI V2影像處理模組
文件和程式碼獲取:
可訪問如下連結進行對文件下載:
https://github.com/leezisheng/Doc
本文件主要介紹如何使用 Python 進行物件導向程式設計,需要讀者對 Python 語法和微控制器開發具有基本瞭解。相比其他講解 Python 物件導向程式設計的部落格或書籍而言,本文件更加詳細、側重於嵌入式上位機應用,以上位機和下位機的常見串列埠資料收發、資料處理、動態圖繪製等為應用例項,同時使用 Sourcetrail 程式碼軟體對程式碼進行視覺化閱讀便於讀者理解。
相關示例程式碼獲取連結如下:https://github.com/leezisheng/Python-OOP-Demo
正文
序列化與反序列化
我們已經明確,在程式執行的過程中,所有的變數均儲存在記憶體中。舉例來說,我們定義了一個名為 d
的字典,其中包含 name
、age
、grade
和 score
等鍵值對。在程式執行過程中,我們可以隨時更改這些變數的值,例如將 name
的值從'Larry'修改為'david'。然而,一旦程式執行完畢,這些變數所佔用的記憶體將被作業系統全部回收。值得注意的是,如果我們在程式執行過程中對變數進行了修改,但未將這些修改後的資料持久化至磁碟,那麼在下一次重新執行程式時,這些變數將重新初始化為原始狀態,即 name
的值仍為'Larry'。因此,為了確保資料的連續性和一致性,我們需要在適當的時候將關鍵資料寫入磁碟,以便在程式重啟後能夠恢復到正確的狀態。
另一方面,儲存在記憶體夠中的物件由於程式語言、網路環境等等因素,很難在網路中進行傳輸互動。由此,就誕生了一種機制,可以實現記憶體中的物件與方便持久化在磁碟中或在網路中進行互動的資料格式(字串、位元組等)之間的相互轉換。這種機制就叫序列化與反序列化:
- 序列化:將記憶體中的不可持久化和傳輸物件轉換為可方便持久化和傳輸物件的過程,在 Python 中叫 pickling,在其他語言中也被稱之為 serialization,marshalling,flattening 等等,都是一個意思,序列化之後,就可以把序列化後的內容寫入磁碟,或者透過網路傳輸到別的機器上;
- 反序列化:將可持久化和傳輸物件轉換為不可持久化和傳輸物件的過程,即把變數內容從序列化的物件重新讀到記憶體裡,也稱為 unpickling。
在 Python 中常見序列化物件的方式有 pickle、shelve、JSON 三種方式:json 模組常用於編寫 web 介面,將 Python 資料轉換為通用的 json 格式傳遞給其它系統或客戶端;也可以用於將 Python 資料儲存到本地檔案中;pickle 模組實現了用於序列化和反序列化 Python 物件結構的二進位制協議;shelve 模組可以看做是 pickle 模組的升級版,因為 shelve 使用的就是 pickle 的序列化協議,但是 shelve 比 pickle 提供的操作方式更加簡單、方便。
使用 pickle 模組進行序列化
Python 的 pickle 模組透過一種物件導向的方式直接將物件儲存為特殊儲存格式。將物件(它所持有的一切物件都作為屬性存在)轉換為位元組序列是很有必要的,可以在我們需要的時候進行儲存或傳輸。
pickle 具有如下方法,用於儲存和載入資料:
方法 | 作用 | 操作物件 |
---|---|---|
** **** **dump | dump 方法接受一個物件和一個類檔案物件並將序列化位元組寫入檔案。檔案物件必須擁有一個 write 方法,且這一方法必須知道如何處理 bytes 引數(這樣以文字輸出模式開啟的檔案就無法使用了)。所謂類檔案物件(file-like object),簡單說就是類似檔案物件的物件,至少要具備 read ()和 write ()兩個方法。 | 類檔案(file-like)物件 |
load | load 方法檔案物件中讀取序列化的物件。這裡的檔案物件必須擁有合適的 read 和 readline 方法,當然它們都必須返回 bytes 型別。pickle 模組將會從這些位元組中載入物件,而 load 方法將會返回完全重建的物件。 | |
dumps | 將封存以後的物件作為 bytes 型別直接返回,而不是將其寫入到檔案。 | bytes 物件 |
loads | 重建並返回一個物件的封存表示形式 data 的物件層級結構。data 必須為 bytes-like object。 |
要序列化某個包含層次結構的物件,只需呼叫 dumps() 函式即可。同樣,要反序列化資料流,可以呼叫 loads() 函式。但是,如果要對序列化和反序列化加以更多的控制,可以分別建立 Pickler 或 Unpickler 物件。
下面我們嘗試使用 pickle 模組完成列表物件的儲存和載入,示例程式碼如下:
import pickle
_# 待序列化的列表物件_
some_data = ["a list", "containing", 5, "values including another list", ["inner", "list"]]
_# 序列化物件,將列表儲存到檔案中_
_# 使用 open() 函式開啟一個名為 "pickled_list" 的檔案_
_# 以二進位制寫入模式 'wb' 開啟檔案_
with open("pickled_list", 'wb') as file:
_# 使用 pickle.dump() 方法將 some_data 物件序列化並寫入到檔案中_
pickle.dump(some_data, file)
_# 反序列化物件,將檔案中列表載入_
_# 開同一個檔案,以二進位制讀取模式 'rb' 開啟檔案_
with open("pickled_list", 'rb') as file:
_# 使用 pickle.load() 方法從檔案中反序列化出 some_data 物件_
loaded_data = pickle.load(file)
_# 列印載入後的列表_
print(loaded_data)
_# 判斷列表檔案是否相同_
if loaded_data == some_data:
print("反序列化後的列表與原始列表相同")
執行結果如下,可以看到新出現了一個 pickled_list 二進位制檔案,同時反序列化後的列表與原始列表相同:
兩個 dump
方法均設有可選的 protocol
引數。若我們所儲存和載入的物件僅限於 Python 3 程式使用,則無需指定此引數。然而,若我們所儲存的物件可能需要與舊版本的 Python 相容,那麼我們只能使用相對低效的舊協議。為確保資料的相容性和安全性,我們在使用時需要仔細考慮此引數的設定。
當資料反序列化回來的時候,會先假定所有的源資料時可用的。 模組、類和函式會自動按需匯入進來。對於 Python 資料被不同機器上的解析器所共享的應用程式而言, 資料的儲存可能會有問題,因為所有的機器都必須訪問同一個原始碼。
pickle 在載入時有一個副作用就是它會自動載入相應模組並構造例項物件。
在使用 pickle 時,需要注意它不是一個安全的格式,從未知或不能信任的來源載入序列化物件有可能引入惡意程式碼/病毒,因此不要透過網際網路將 pickle 傳送給未知的直譯器。
同時 pickle 模組中,也內建了一些有關序列化和反序列化操作失敗的異常:
可以向一個開啟的檔案多次執行 dump 或 load 方法。每次呼叫 dump 將會儲存一個單獨的物件(加上它包含的所有物件),而執行 load 也只會載入、返回一個物件。因此對於單獨的檔案,每次呼叫 dump 來儲存物件時應該有一個相關聯的 load 呼叫。
pickle 對於大型的資料結構比如使用 array 或 numpy 模組建立的二進位制陣列效率並不是一個高效的編碼方式。如果你需要移動大量的陣列資料,你最好是先在一個檔案中將其儲存為陣列資料塊或使用更高階的標準編碼方式如 HDF5 (需要第三方庫的支援)。
對於最常見的 Python 物件,pickle 就能夠很好地完成序列化。諸如整數、浮點數和字串這些基本型別都可以進行序列化,包括任何容器物件,如列表或字典。除此之外,重要的是,任何物件都可以進行 pickle 序列化,只要其所有的屬性都是可 pickle 的。
但是需要注意,與時間相關的屬性或依賴外部系統狀態的物件儘可能不要用 pickle 模組進行序列化。例如,開啟的網路套接字、開啟的檔案、正在執行的執行緒、或者資料庫連線,在未來的某個時間點嘗試重新載入這些物件是不合理的,因為許多與之相關的系統狀態資訊可能已經不再存在。
在想要對存在與時間相關的屬性的物件進行序列化時,我們可以自定義這種短暫存在的資料的儲存和載入過程。使用者自定義類可以透過提供 getstate()和 setstate()方法來繞過這些限制。如果定義了這兩個方法,pickle.dump()就會呼叫 getstate()獲取序列化的物件。類似的,setstate() 在反序列化時被呼叫。
在如下的程式碼中,我們定義了個名為 UpdatedURL 的類,該類用於定期更新指定 URL 的內容:
- 在類的初始化方法中,傳入一個 URL 引數,並呼叫 update()方法來獲取該 URL 的內容和最後更新時間。然後呼叫 schedule()方法來設定定時器,每隔一小時(3600 秒)呼叫一次 update()方法;
- update()方法使用 urlopen()函式開啟指定的 URL,讀取其中的內容,並記錄當前時間作為最後更新時間。然後再次呼叫 schedule()方法來設定下一次定時器;
- schedule()方法建立一個 Timer 物件,將 update()方法作為回撥函式,並設定為守護執行緒,最後啟動定時器。
需要注意的是,這段程式碼中使用了 urlopen()、datetime.datetime.now()和 Timer 等函式或類,需要先匯入相應的模組才能正常執行。
示例程式碼如下:
from threading import Timer
import datetime
from urllib.request import urlopen
import pickle
class UpdatedURL:
def __init__(self, url):
self.url = url
self.contents = ''
self.last_updated = None
self.update()
def update(self):
self.contents = urlopen(self.url).read()
self.last_updated = datetime.datetime.now()
self.schedule()
def schedule(self):
self.timer = Timer(3600, self.update)
self.timer.daemon = True
self.timer.start()
u = UpdatedURL("http://www.people.com.cn/")
url、contents 和 last_updated 都是可序列化的,接下來我們嘗試序列化這個類的例項:
serialized = pickle.dumps(u)
執行結果如下:
當 pickle 模組對物件進行序列化時,它會首先嚐試檢查物件是否存在 __getstate__
方法。如果存在此方法,pickle 則會選擇儲存 __getstate__
方法的返回結果,反之,它會嘗試儲存該物件的 __dict__
屬性。__dict__
是一個字典,它對映了物件的所有屬性名稱及其對應的值。
接下來,我們透過重寫 UpdatedURL 類的__getstate__方法,實現對存在與時間相關的屬性的物件進行序列化,在此__getstate__方法中,首先使用複製了該類例項的所有屬性和值到一個新的字典物件 new_state 中。然後檢查 new_state 中是否包含名為'timer'的鍵,如果存在則刪除該鍵及其對應的值。最後返回新的字典物件:
def __getstate__(self):
new_state = self.__dict__.copy()
if 'timer' in new_state:
del new_state['timer']
return new_state
現在序列化這個物件,就不會再失敗了。而且也可以成功地透過 loads 載入。不過,重新載入的物件不再擁有 timer 屬性,因此將不能按照最初設計的那樣定期重新整理內容,我們需要為反序列化的物件建立一個新的 timer。
和重寫__getstate__方法實現自定義序列化操作一樣,我們也可以透過設定__setstate__方法實現自定義的反序列化操作。這個方法只接受一個引數,即__getstate__方法返回的物件。如果同時實現這兩個方法,那麼__getstate__就不一定非要返回一個字典物件了。因為不管返回什麼物件__setstate__都是可以處理的。在這裡,我們透過自定義__setstate__方法,重新修復__dict__。
def __setstate__(self, data):
self.__dict__ = data
self.schedule()
接著,我們對序列化後的 serialized 使用 load 方法進行反序列化:
u2 = pickle.loads(serialized)
_# 使用hasattr()函式判斷物件是否包含對應屬性_
print(hasattr(u2,'timer'))
print(u2.timer)
輸出結果如下:
我們可以看到透過重寫__setstate__方法我們可以實現自定義的反序列化操作,為反序列化的物件建立一個新的 timer。
使用 shelve 模組進行序列化
Shelve 模組是 Python 標準庫中的一部分,它使用了 Python 的 pickle 模組,可以序列化和反序列化 Python 物件,將它們儲存到磁碟檔案中。但與 pickle 模組不同的是,它儲存資料時使用鍵值對儲存資料,類似於字典。
Shelve 模組是 Python 標準庫的一部分,因此無需額外安裝。要使用 Shelve,只需在 Python 指令碼中匯入它即可。在使用 Shelve 儲存資料時,通常會建立一個 Shelve 檔案,Shelve 檔案實際上是一個包含鍵值對的資料庫檔案,通常以.db、.shelf 或.dat 為副檔名。
在接下來的示例中,我們建立一個 Shelve 檔案,並將資料儲存到檔案中,我們可以使用鍵來訪問和儲存資料。
import shelve
_# 使用shelve.open()函式建立或開啟一個Shelve檔案_
with shelve.open('mydata.db') as shelf:
_# 使用 shelf['key'] = value 的方式將鍵值對寫入到 Shelve 檔案中_
shelf['name'] = 'Alice'
shelf['age'] = 30
shelf['scores'] = [95, 88, 72]
_# 使用 shelf['key'] 的方式從 Shelve 檔案中讀取資料_
_# 將其賦值給相應的變數_
name = shelf['name']
age = shelf['age']
scores = shelf['scores']
print(f'Name: {name}')
print(f'Age: {age}')
print(f'Scores: {scores}')
執行結果如下:
我們也可以像字典一樣更新 Shelve 檔案中的資料。如果使用已存在的鍵來儲存新的值,它會覆蓋舊的值。同樣,也可以刪除鍵以刪除相應的值。
with shelve.open('mydata.db', writeback=True) as shelf:
_# 更新資料_
shelf['name'] = 'Bob'
_# 刪除資料_
del shelf['age']
name = shelf['name']
print(name)
try:
age = shelf['age']
print(age)
except:
print("No ages")
雖然 Shelve 模組非常方便,但它也有一些限制和注意事項:Shelve 不支援多執行緒寫操作。如果需要在多執行緒環境中寫入 Shelve 檔案,可以考慮使用執行緒鎖來保護檔案操作;同時 Shelve 檔案的鍵必須是字串,而值可以是任何可可序列化的 Python 物件。同時 Shelve 通常適用於小型應用程式、配置檔案和簡單的資料庫需求,但不適合儲存大量資料,因為它們需要在記憶體中載入整個資料庫。
在使用 pickle 模組和 shelve 模組時,我們需要注意由於使用其特有的序列化協議,其序列化之後的資料只能被 Python 識別,因此只能用於 Python 系統內部。另外,Python 2.x 和 Python3.x 預設使用的序列化協議也不同,如果需要互相相容需要在序列化時透過 protocol 引數指定協議版本。除了上面這些缺點外,pickle 模組和 shelve 模組相對於 json 模組的優點在於對於自定義資料型別可以直接序列化和反序列化,不需要編寫額外的轉換函式或類。