Python基礎之IO流和序列化講解

上善若泪發表於2024-06-29

目錄
  • 1 IO流
    • 1.1 簡介
      • 1.1.1 定義
      • 1.1.2 同步&非同步IO
    • 1.2 輸入輸出
      • 1.2.1 輸出格式美化
      • 1.2.2 str.format()
      • 1.2.3 舊式字串格式化
      • 1.2.4 讀取鍵盤輸入
    • 1.3 檔案操作
      • 1.3.1 讀和寫檔案
        • 1.3.1.1 open()
        • 1.3.1.2 讀取其他檔案
          • 1.3.1.2.1 二進位制檔案
          • 1.3.1.2.2 字元編碼
      • 1.3.2 檔案物件的方法
        • 1.3.2.1 f.read()
        • 1.3.2.2 f.readline()
        • 1.3.2.3 f.readlines()
        • 1.3.2.4 f.write()
        • 1.3.2.5 f.tell()
        • 1.3.2.6 f.seek()
        • 1.3.2.7 f.close()
    • 1.4 檔案目錄
      • 1.4.1 os
      • 1.4.2 環境變數
      • 1.4.3 操作檔案和目錄
    • 1.5 序列化
      • 1.5.1 pickle
        • 1.5.1.1 簡介
        • 1.5.1.2 pickle.loads()
      • 1.5.2 JSON
      • 1.5.3 JSON進階

1 IO流

1.1 簡介

1.1.1 定義

IO在計算機中指Input/Output,也就是輸入和輸出。由於程式和執行時資料是在記憶體中駐留,由CPU這個超快的計算核心來執行,涉及到資料交換的地方,通常是磁碟、網路等,就需要IO介面。

比如開啟瀏覽器,訪問新浪首頁,瀏覽器這個程式就需要透過網路IO獲取新浪的網頁。瀏覽器首先會傳送資料給新浪伺服器,告訴它我想要首頁的HTML,這個動作是往外發資料,叫Output,隨後新浪伺服器把網頁發過來,這個動作是從外面接收資料,叫Input。所以,通常,程式完成IO操作會有Input和Output兩個資料流。當然也有隻用一個的情況,比如,從磁碟讀取檔案到記憶體,就只有Input操作,反過來,把資料寫到磁碟檔案裡,就只是一個Output操作。

IO程式設計中,Stream(流)是一個很重要的概念,可以把流想象成一個水管,資料就是水管裡的水,但是隻能單向流動Input Stream就是資料從外面(磁碟、網路)流進記憶體Output Stream就是資料從記憶體流到外面去。對於瀏覽網頁來說,瀏覽器和新浪伺服器之間至少需要建立兩根水管,才可以既能發資料,又能收資料。

1.1.2 同步&非同步IO

同步和非同步的區別就在於是否等待IO執行的結果。
由於CPU和記憶體的速度遠遠高於外設的速度,所以,在IO程式設計中,就存在速度嚴重不匹配的問題。舉個例子來說,比如要把100M的資料寫入磁碟,CPU輸出100M的資料只需要0.01秒,可是磁碟要接收這100M資料可能需要10秒,怎麼辦呢?有兩種辦法:

  • 第一種是CPU等著,也就是程式暫停執行後續程式碼,等100M的資料在10秒後寫入磁碟,再接著往下執行,這種模式稱為同步IO
  • 另一種方法是CPU不等待,幹別的事去,於是,後續程式碼可以立刻接著執行,這種模式稱為非同步IO

1.2 輸入輸出

1.2.1 輸出格式美化

Python兩種輸出值的方式: 表示式語句和 print() 函式。第三種方式是使用檔案物件的 write() 方法,標準輸出檔案可以用 sys.stdout 引用。
如果希望輸出的形式更加多樣,可以使用 str.format() 函式來格式化輸出值。如果希望將輸出的值轉成字串,可以使用 repr() 或 str() 函式來實現。

  • str(): 函式返回一個使用者易讀的表達形式。
  • repr(): 產生一個直譯器易讀的表達形式。
>>> s = 'Hello, Runoob'
>>> str(s)
'Hello, Runoob'
>>> repr(s)
"'Hello, Runoob'"
>>> str(1/7)
'0.14285714285714285'
>>> x = 10 * 3.25
>>> y = 200 * 200
>>> s = 'x 的值為: ' + repr(x) + ',  y 的值為:' + repr(y) + '...'
>>> print(s)
x 的值為: 32.5,  y 的值為:40000...
>>> #  repr() 函式可以跳脫字元串中的特殊字元
... hello = 'hello, runoob\n'
>>> hellos = repr(hello)
>>> print(hellos)
'hello, runoob\n'
>>> # repr() 的引數可以是 Python 的任何物件
... repr((x, y, ('Google', 'Runoob')))
"(32.5, 40000, ('Google', 'Runoob'))"

這裡有兩種方式輸出一個平方與立方的表:

>>> for x in range(1, 11):
...     print(repr(x).rjust(2), repr(x*x).rjust(3), end=' ')
...     # 注意前一行 'end' 的使用
...     print(repr(x*x*x).rjust(4))
...
 1   1    1
 2   4    8
 3   9   27
 4  16   64
 5  25  125
 6  36  216
 7  49  343
 8  64  512
 9  81  729
10 100 1000

>>> for x in range(1, 11):
...     print('{0:2d} {1:3d} {2:4d}'.format(x, x*x, x*x*x))
...
 1   1    1
 2   4    8
 3   9   27
 4  16   64
 5  25  125
 6  36  216
 7  49  343
 8  64  512
 9  81  729
10 100 1000

注意:在第一個例子中, 每列間的空格由 print() 新增。
這個例子展示了字串物件的 rjust() 方法, 它可以將字串靠右, 並在左邊填充空格。
還有類似的方法, 如 ljust()center()。 這些方法並不會寫任何東西, 它們僅僅返回新的字串。另一個方法 zfill(), 它會在數字的左邊填充 0,如下所示:

>>> '12'.zfill(5)
'00012'
>>> '-3.14'.zfill(7)
'-003.14'
>>> '3.14159265359'.zfill(5)
'3.14159265359'

1.2.2 str.format()

str.format() 的基本使用如下:

>>> print('{}網址: "{}!"'.format('測試', 'www.runoob.com'))
測試: "www.runoob.com!"

括號及其裡面的字元 (稱作格式化欄位) 將會被 format() 中的引數替換。
在括號中的數字用於指向傳入物件在 format() 中的位置,如下所示:

>>> print('{0} 和 {1}'.format('Google', 'Baidu'))
Google 和 Baidu
>>> print('{1} 和 {0}'.format('Google', 'Baidu'))
Baidu和 Google

如果在 format() 中使用了關鍵字引數, 那麼它們的值會指向使用該名字的引數。

>>> print('{name}網址: {site}'.format(name='測試', site='www.runoob.com'))
測試網址: www.runoob.com

位置及關鍵字引數可以任意的結合:

>>> print('站點列表 {0}, {1}, 和 {other}。'.format('Google', 'Baidu', other='Taobao'))
站點列表 Google, Baidu, 和 Taobao。

!a (使用 ascii()), !s (使用 str()) 和 !r (使用 repr()) 可以用於在格式化某個值之前對其進行轉化:

>>> import math
>>> print('常量 PI 的值近似為: {}。'.format(math.pi))
常量 PI 的值近似為: 3.141592653589793。
>>> print('常量 PI 的值近似為: {!r}。'.format(math.pi))
常量 PI 的值近似為: 3.141592653589793。

可選項 : 和格式識別符號可以跟著欄位名。 這就允許對值進行更好的格式化。 下面的例子將 Pi 保留到小數點後三位:

>>> import math
>>> print('常量 PI 的值近似為 {0:.3f}。'.format(math.pi))
常量 PI 的值近似為 3.142。

: 後傳入一個整數, 可以保證該域至少有這麼多的寬度。 用於美化表格時很有用。

>>> table = {'Google': 1, 'Baidu': 2, 'Taobao': 3}
>>> for name, number in table.items():
...     print('{0:10} ==> {1:10d}'.format(name, number))
...
Google     ==>          1
Baidu      ==>          2
Taobao     ==>          3

如果有一個很長的格式化字串, 不想將它們分開, 那麼在格式化時透過變數名而非位置會是很好的事情。
最簡單的就是傳入一個字典, 然後使用方括號 [] 來訪問鍵值:

>>> table = {'Google': 1, 'Baidu': 2, 'Taobao': 3}
>>> print('Baidu: {0[Baidu]:d}; Google: {0[Google]:d}; Taobao: {0[Taobao]:d}'.format(table))
Baidu: 2; Google: 1; Taobao: 3

注意{0[Baidu]:d}0表示取format第一個位置引數,由於只有一個是table,所以是0[Baidu]表示取table字典中的key名,:d 指定了格式化指令,其中 d 表示十進位制整數

也可以透過在 table 變數前使用 ** 來實現相同的功能:

>>> table = {'Google': 1, 'Baidu': 2, 'Taobao': 3}
>>> print('Baidu: {Baidu:d}; Google: {Google:d}; Taobao: {Taobao:d}'.format(**table))
Baidu: 2; Google: 1; Taobao: 3

1.2.3 舊式字串格式化

% 運算子也可以實現字串格式化。 它將左邊的引數作為類似 sprintf() 式的格式化字串, 而將右邊的代入, 然後返回格式化後的字串. 例如:

>>> import math
>>> print('常量 PI 的值近似為:%5.3f。' % math.pi)
常量 PI 的值近似為:3.142。

因為 str.format() 是比較新的函式, 大多數的 Python 程式碼仍然使用 % 運算子。但是因為這種舊式的格式化最終會從該語言中移除, 應該更多的使用 str.format()

1.2.4 讀取鍵盤輸入

Python 提供了 input() 內建函式從標準輸入讀入一行文字,預設的標準輸入是鍵盤。

str = input("請輸入:");
print ("你輸入的內容是: ", str)
這會產生如下的對應著輸入的結果:

請輸入:測試
你輸入的內容是:  測試

1.3 檔案操作

1.3.1 讀和寫檔案

1.3.1.1 open()

open() 將會返回一個 file 物件,基本語法格式如下:open(filename, mode)

  • filename:包含了你要訪問的檔名稱的字串值。
  • mode:決定了開啟檔案的模式:只讀,寫入,追加等。所有可取值見如下的完全列表。這個引數是非強制的,預設檔案訪問模式為只讀(r)。

完整的語法格式為:
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
引數說明:

  • file: 必需,檔案路徑(相對或者絕對路徑)。
  • mode: 可選,檔案開啟模式
  • buffering: 設定緩衝
  • encoding: 一般使用utf8
  • errors: 報錯級別
  • newline: 區分換行符
  • closefd: 傳入的file引數型別
  • opener: 設定自定義開啟器,開啟器的返回值必須是一個開啟的檔案描述符。

不同模式開啟檔案的完全列表:

模式 描述
r 以只讀方式開啟檔案。檔案的指標將會放在檔案的開頭。這是預設模式
rb 以二進位制格式開啟一個檔案用於只讀。檔案指標將會放在檔案的開頭
r+ 開啟一個檔案用於讀寫。檔案指標將會放在檔案的開頭。
rb+ 以二進位制格式開啟一個檔案用於讀寫。檔案指標將會放在檔案的開頭。
w 開啟一個檔案只用於寫入。如果該檔案已存在則開啟檔案,並從開頭開始編輯,即原有內容會被刪除。如果該檔案不存在,建立新檔案。
wb 以二進位制格式開啟一個檔案只用於寫入。如果該檔案已存在則開啟檔案,並從開頭開始編輯,即原有內容會被刪除。如果該檔案不存在,建立新檔案。
w+ 開啟一個檔案用於讀寫。如果該檔案已存在則開啟檔案,並從開頭開始編輯,即原有內容會被刪除。如果該檔案不存在,建立新檔案
wb+ 以二進位制格式開啟一個檔案用於讀寫。如果該檔案已存在則開啟檔案,並從開頭開始編輯,即原有內容會被刪除。如果該檔案不存在,建立新檔案
a 開啟一個檔案用於追加。如果該檔案已存在,檔案指標將會放在檔案的結尾。也就是說,新的內容將會被寫入到已有內容之後。如果該檔案不存在,建立新檔案進行寫入。
ab 以二進位制格式開啟一個檔案用於追加。如果該檔案已存在,檔案指標將會放在檔案的結尾。也就是說,新的內容將會被寫入到已有內容之後。如果該檔案不存在,建立新檔案進行寫入。
a+ 開啟一個檔案用於讀寫。如果該檔案已存在,檔案指標將會放在檔案的結尾。檔案開啟時會是追加模式。如果該檔案不存在,建立新檔案用於讀寫。
ab+ 以二進位制格式開啟一個檔案用於追加。如果該檔案已存在,檔案指標將會放在檔案的結尾。如果該檔案不存在,建立新檔案用於讀寫。
模式 r r+ w w+ a a+
+ + + +
+ + + + +
建立 + + + +
覆蓋 + +
指標在開始 + + + +
指標在結尾 + +

以下例項將字串寫入到檔案 foo.txt 中:

# 開啟一個檔案
f = open("/tmp/foo.txt", "w")
f.write( "Python 是一個非常好的語言。\n是的,的確非常好!!\n" )
# 關閉開啟的檔案
f.close()

1.3.1.2 讀取其他檔案

1.3.1.2.1 二進位制檔案

前面講的預設都是讀取文字檔案,並且是ASCII編碼的文字檔案。要讀取二進位制檔案,比如圖片、影片等等,用'rb'模式開啟檔案即可:

>>> f = open('/Users/michael/test.jpg', 'rb')
>>> f.read()
'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六進位制表示的位元組
1.3.1.2.2 字元編碼

要讀取非ASCII編碼的文字檔案,就必須以二進位制模式開啟,再解碼。比如GBK編碼的檔案:

>>> f = open('/Users/michael/gbk.txt', 'rb')
>>> u = f.read().decode('gbk')
>>> u
u'\u6d4b\u8bd5'
>>> print u

或者如下:

with open('/Users/michael/gbk.txt', 'r', encoding='gbk') as f:
    u = f.read()

1.3.2 檔案物件的方法

假設已經建立了一個稱為 f 的檔案物件。

1.3.2.1 f.read()

f.read():為了讀取一個檔案的內容,呼叫 f.read(size),這將讀取一定數目的資料, 然後作為字串或位元組物件返回。size 是一個可選的數字型別的引數。 當 size 被忽略了或者為負, 那麼該檔案的所有內容都將被讀取並且返回。

以下例項假定檔案 foo.txt 已存在(上面例項中已建立):

# 開啟一個檔案
f = open("/tmp/foo.txt", "r")
str = f.read()
print(str)

# 關閉開啟的檔案
f.close()

輸出結果為:
Python 是一個非常好的語言。
是的,的確非常好!!

1.3.2.2 f.readline()

f.readline() 會從檔案中讀取單獨的一行。換行符為 \nf.readline() 如果返回一個空字串, 說明已經已經讀取到最後一行。

# 開啟一個檔案
f = open("/tmp/foo.txt", "r")

str = f.readline()
print(str)

# 關閉開啟的檔案
f.close()

輸出結果為:
Python 是一個非常好的語言。

1.3.2.3 f.readlines()

f.readlines() 將返回該檔案中包含的所有行。
如果設定可選引數 sizehint,則讀取指定長度的位元組, 並且將這些位元組按行分割。

# 開啟一個檔案
f = open("/tmp/foo.txt", "r")

str = f.readlines()
print(str)

# 關閉開啟的檔案
f.close()

輸出結果為:
['Python 是一個非常好的語言。\n', '是的,的確非常好!!\n']

另一種方式是迭代一個檔案物件然後讀取每行:

# 開啟一個檔案
f = open("/tmp/foo.txt", "r")

for line in f:
    print(line, end='')

# 關閉開啟的檔案
f.close()

輸出結果為:
Python 是一個非常好的語言。
是的,的確非常好!!

這個方法很簡單, 但是並沒有提供一個很好的控制。 因為兩者的處理機制不同, 最好不要混用。

1.3.2.4 f.write()

f.write(string) 將 string 寫入到檔案中, 然後返回寫入的字元數。

# 開啟一個檔案
f = open("/tmp/foo.txt", "w")

num = f.write( "Python 是一個非常好的語言。\n是的,的確非常好!!\n" )
print(num)
# 關閉開啟的檔案
f.close()

輸出結果為:
29

如果要寫入一些不是字串的東西, 那麼將需要先進行轉換:

# 開啟一個檔案
f = open("/tmp/foo1.txt", "w")

value = ('www.runoob.com', 14)
s = str(value)
f.write(s)
# 關閉開啟的檔案
f.close()


執行以上程式,開啟 foo1.txt 檔案:
$ cat /tmp/foo1.txt 
('www.runoob.com', 14)

1.3.2.5 f.tell()

f.tell() 用於返回檔案當前的讀/寫位置(即檔案指標的位置)。檔案指標表示從檔案開頭開始的位元組數偏移量。f.tell() 返回一個整數,表示檔案指標的當前位置。

1.3.2.6 f.seek()

如果要改變檔案指標當前的位置, 可以使用 f.seek(offset, from_what) 函式。
f.seek(offset, whence) 用於移動檔案指標到指定位置。
offset 表示相對於 whence 引數的偏移量,from_what 的值, 如果是 0 表示開頭, 如果是 1 表示當前位置, 2 表示檔案的結尾,例如:

  • seek(x,0) : 從起始位置即檔案首行首字元開始移動 x 個字元
  • seek(x,1): 表示從當前位置往後移動x個字元
  • seek(-x,2):表示從檔案的結尾往前移動x個字元

from_what 值為預設為0,即檔案開頭。下面給出一個完整的例子:

>>> f = open('/tmp/foo.txt', 'rb+')
>>> f.write(b'0123456789abcdef')
16
>>> f.seek(5)     # 移動到檔案的第六個位元組
5
>>> f.read(1)
b'5'
>>> f.seek(-3, 2) # 移動到檔案的倒數第三位元組
13
>>> f.read(1)
b'd'

1.3.2.7 f.close()

在文字檔案中 (那些開啟檔案的模式下沒有 b 的),只會相對於檔案起始位置進行定位。
當處理完一個檔案後, 呼叫 f.close() 來關閉檔案並釋放系統的資源,如果嘗試再呼叫該檔案,則會丟擲異常。

>>> f.close()
>>> f.read()
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
ValueError: I/O operation on closed file

當處理一個檔案物件時, 使用 with 關鍵字是非常好的方式。在結束後, 它會幫你正確的關閉檔案。 而且寫起來也比 try - finally 語句塊要簡短:

>>> with open('/tmp/foo.txt', 'r') as f:
...     read_data = f.read()
>>> f.closed
True

檔案物件還有其他方法, 如 isatty() 和 trucate(), 但這些通常比較少用。

1.4 檔案目錄

1.4.1 os

如果要在Python程式中執行這些目錄和檔案的操作怎麼辦?其實作業系統提供的命令只是簡單地呼叫了作業系統提供的介面函式,Python內建的os模組也可以直接呼叫作業系統提供的介面函式。

開啟Python互動式命令列,我們來看看如何使用os模組的基本功能:

>>> import os
>>> os.name # 作業系統名字
'posix'

如果是posix,說明系統是Linux、Unix或Mac OS X,如果是nt,就是Windows系統。

要獲取詳細的系統資訊,可以呼叫uname()函式:

>>> os.uname()
('Darwin', 'iMac.local', '13.3.0', 'Darwin Kernel Version 13.3.0: Tue Jun  3 21:27:35 PDT 2014; root:xnu-2422.110.17~1/RELEASE_X86_64', 'x86_64')

注意uname()函式在Windows上不提供,也就是說,os模組的某些函式是跟作業系統相關的。

1.4.2 環境變數

在作業系統中定義的環境變數,全部儲存在os.environ這個dict中,可以直接檢視:

>>> os.environ
{'VERSIONER_PYTHON_PREFER_32_BIT': 'no', 'TERM_PROGRAM_VERSION': '326', 'LOGNAME': 'michael', 'USER': 'michael', 'PATH': '/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/opt/X11/bin:/usr/local/mysql/bin', ...}

要獲取某個環境變數的值,可以呼叫os.getenv()函式:

>>> os.getenv('PATH')
'/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/opt/X11/bin:/usr/local/mysql/bin'

1.4.3 操作檔案和目錄

操作檔案和目錄的函式一部分放在os模組中,一部分放在os.path模組中,這一點要注意一下。檢視、建立和刪除目錄可以這麼呼叫:

# 檢視當前目錄的絕對路徑:
>>> os.path.abspath('.')
'/Users/michael'
# 在某個目錄下建立一個新目錄,
# 首先把新目錄的完整路徑表示出來:
>>> os.path.join('/Users/michael', 'testdir')
'/Users/michael/testdir'
# 然後建立一個目錄:
>>> os.mkdir('/Users/michael/testdir')
# 刪掉一個目錄:
>>> os.rmdir('/Users/michael/testdir')

把兩個路徑合成一個時,不要直接拼字串,而要透過os.path.join()函式,這樣可以正確處理不同作業系統的路徑分隔符。在Linux/Unix/Mac下,os.path.join()返回這樣的字串:part-1/part-2
而Windows下會返回這樣的字串:part-1\part-2
同樣的道理,要拆分路徑時,也不要直接去拆字串,而要透過os.path.split()函式,這樣可以把一個路徑拆分為兩部分,後一部分總是最後級別的目錄或檔名:

>>> os.path.split('/Users/michael/testdir/file.txt')
('/Users/michael/testdir', 'file.txt')

os.path.splitext()可以直接讓你得到副檔名,很多時候非常方便:
>>> os.path.splitext('/path/to/file.txt')
('/path/to/file', '.txt')

這些合併、拆分路徑的函式並不要求目錄和檔案要真實存在,它們只對字串進行操作。

檔案操作使用下面的函式。假定當前目錄下有一個test.txt檔案:

# 對檔案重新命名:
>>> os.rename('test.txt', 'test.py')
# 刪掉檔案:
>>> os.remove('test.py')

但是複製檔案的函式居然在os模組中不存在,原因是複製檔案並非由作業系統提供的系統呼叫。理論上講,我們透過讀寫檔案可以完成檔案複製,只不過要多寫很多程式碼。
幸運的是shutil模組提供了copyfile()的函式,還可以在shutil模組中找到很多實用函式,它們可以看做是os模組的補充。

最後看看如何利用Python的特性來過濾檔案。比如我們要列出當前目錄下的所有目錄,只需要一行程式碼:

>>> [x for x in os.listdir('.') if os.path.isdir(x)]
['.lein', '.local', '.m2', '.npm', '.ssh', '.Trash', '.vim', 'Adlm', 'Applications', 'Desktop', ...]
要列出所有的.py檔案,也只需一行程式碼:

>>> [x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']
['apis.py', 'config.py', 'models.py', 'pymonitor.py', 'test_db.py', 'urls.py', 'wsgiapp.py']

1.5 序列化

1.5.1 pickle

1.5.1.1 簡介

python的pickle模組實現了基本的資料序列和反序列化。
透過pickle模組的序列化操作我們能夠將程式中執行的物件資訊儲存到檔案中去,永久儲存。
透過pickle模組的反序列化操作,我們能夠從檔案中建立上一次程式儲存的物件。

基本介面:pickle.dump(obj, file, [,protocol]):可以把任意物件序列化成一個str,然後,就可以把這個str寫入檔案
有了 pickle 這個物件, 就能對 file 以讀取的形式開啟:x = pickle.load(file)
從 file 中讀取一個字串,並將它重構為原來的python物件。
file: 類檔案物件,有read()和readline()介面。

import pickle
# 使用pickle模組將資料物件儲存到檔案
data1 = {'a': [1, 2.0, 3, 4+6j],
         'b': ('string', u'Unicode string'),
         'c': None}

selfref_list = [1, 2, 3]
selfref_list.append(selfref_list)

output = open('data.pkl', 'wb')

# Pickle dictionary using protocol 0.
pickle.dump(data1, output)

# Pickle the list using the highest protocol available.
pickle.dump(selfref_list, output, -1)

output.close()

例項 2

import pprint, pickle

#使用pickle模組從檔案中重構python物件
pkl_file = open('data.pkl', 'rb')

data1 = pickle.load(pkl_file)
pprint.pprint(data1)

data2 = pickle.load(pkl_file)
pprint.pprint(data2)

pkl_file.close()

1.5.1.2 pickle.loads()

當我們要把物件從磁碟讀到記憶體時,可以先把內容讀到一個str,然後用pickle.loads()方法反序列化出物件,也可以直接用pickle.load()方法從一個file-like Object中直接反序列化出物件。我們開啟另一個Python命令列來反序列化儲存的物件:

>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'age': 20, 'score': 88, 'name': 'Bob'}

變數的內容又回來了!

當然,這個變數和原來的變數是完全不相干的物件,它們只是內容相同而已。

Pickle的問題和所有其他程式語言特有的序列化問題一樣,就是它只能用於Python,並且可能不同版本的Python彼此都不相容,因此,只能用Pickle儲存那些不重要的資料,不能成功地反序列化也沒關係。

1.5.2 JSON

如果我們要在不同的程式語言之間傳遞物件,就必須把物件序列化為標準格式,比如XML,但更好的方法是序列化為JSON,因為JSON表示出來就是一個字串,可以被所有語言讀取,也可以方便地儲存到磁碟或者透過網路傳輸。JSON不僅是標準格式,並且比XML更快,而且可以直接在Web頁面中讀取,非常方便。

Python內建的json模組提供了非常完善的Python物件到JSON格式的轉換。我們先看看如何把Python物件變成一個JSON:

>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'

dumps()方法返回一個str,內容就是標準的JSON。類似的,dump()方法可以直接把JSON寫入一個file-like Object。

要把JSON反序列化為Python物件,用loads()或者對應的load()方法,前者把JSON的字串反序列化,後者從file-like Object中讀取字串並反序列化:

>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{u'age': 20, u'score': 88, u'name': u'Bob'}

有一點需要注意,就是反序列化得到的所有字串物件預設都是unicode而不是str。由於JSON標準規定JSON編碼是UTF-8,所以我們總是能正確地在Python的str或unicode與JSON的字串之間轉換。

1.5.3 JSON進階

Python的dict物件可以直接序列化為JSON的{},不過,很多時候,我們更喜歡用class表示物件,比如定義Student類,然後序列化:

import json

class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score

s = Student('Bob', 20, 88)
print(json.dumps(s))

執行程式碼,毫不留情地得到一個TypeError:

Traceback (most recent call last):
  ...
TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable

錯誤的原因是Student物件不是一個可序列化為JSON的物件。
仔細看看dumps()方法的引數列表,可以發現,除了第一個必須的obj引數外,dumps()方法還提供了一大堆的可選引數

這些可選引數就是讓我們來定製JSON序列化。前面的程式碼之所以無法把Student類例項序列化為JSON,是因為預設情況下,dumps()方法不知道如何將Student例項變為一個JSON的{}物件。
可選引數default就是把任意一個物件變成一個可序列為JSON的物件,我們只需要為Student專門寫一個轉換函式,再把函式傳進去即可:

def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }

print(json.dumps(s, default=student2dict))

這樣,Student例項首先被student2dict()函式轉換成dict,然後再被順利序列化為JSON。

不過,下次如果遇到一個Teacher類的例項,照樣無法序列化為JSON。我們可以把任意class的例項變為dictprint(json.dumps(s, default=lambda obj: obj.__dict__))
因為通常class的例項都有一個__dict__屬性,它就是一個dict,用來儲存例項變數。也有少數例外,比如定義了__slots__的class。

同樣的道理,如果我們要把JSON反序列化為一個Student物件例項,loads()方法首先轉換出一個dict物件,然後,我們傳入的object_hook函式負責把dict轉換為Student例項:

def dict2student(d):
    return Student(d['name'], d['age'], d['score'])

json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student))

執行結果如下:
<__main__.Student object at 0x10cd3c190>

列印出的是反序列化的Student例項物件。

相關文章