Python讀取大檔案的"坑“與記憶體佔用檢測

pythontab發表於2018-08-28

python讀寫檔案的api都很簡單,一不留神就容易踩”坑“。筆者記錄一次踩坑歷程,並且給了一些總結,希望到大家在使用python的過程之中,能夠避免一些可能產生隱患的程式碼。

1.read()與readlines()

隨手搜尋python讀寫檔案的教程,很經常看到read()與readlines()這對函式。所以我們會常常看到如下程式碼:

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())
or
with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

這對方法在讀取小檔案時確實不會產生什麼異常,但是一旦讀取大檔案,很容易會產生MemoryError,也就是記憶體溢位的問題。


####Why Memory Error?

我們首先來看看這兩個方法:


當預設引數size=-1時,read方法會讀取直到EOF,當檔案大小大於可用記憶體時,自然會發生記憶體溢位的錯誤。

read方法

read([size])方法從檔案當前位置起讀取size個位元組,若無引數size,則表示讀取至檔案結束為止,它範圍為字串物件


同樣的,readlines會構造一個list。list而不是iter,所以所有的內容都會儲存在記憶體之上,同樣也會發生記憶體溢位的錯誤。

readlines方法

該方法每次讀出一行內容,所以,讀取時佔用記憶體小,比較適合大檔案,該方法返回一個字串物件。


2.正確的用法

在實際執行的系統之中如果寫出上述程式碼是十分危險的,這種”坑“十分隱蔽。所以接下來我們來了解一下正確用,正確的用法也很簡單,依照API之中對函式的描述來進行對應的編碼就OK了:


如果是二進位制檔案推薦用如下這種寫法,可以自己指定緩衝區有多少byte。顯然緩衝區越大,讀取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而如果是文字檔案,則可以用readline方法或直接迭代檔案(python這裡封裝了一個語法糖,二者的內生邏輯一致,不過顯然迭代檔案的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡單測試了一下,在3G檔案之下,大概效能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break
with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.記憶體檢測工具的介紹

對於python程式碼的記憶體佔用問題,對於程式碼進行記憶體監控十分必要。這裡筆者這裡推薦兩個小工具來檢測python程式碼的記憶體佔用。


####memory_profiler

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的,所以我們需要在進行測試的函式上新增裝飾器。

from hashlib import sha1
import sys
@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break
    print(sha1Obj.hexdigest())
if __name__ == '__main__':
    my_func()

之後在執行程式碼時加上** -m memory_profiler**

就可以瞭解函式每一步程式碼的記憶體佔用了

ä¾æ¬¡ååºæ¯ä¸æ­¥ä»£ç çå…å­å ç¨æ…åµ

guppy

依樣畫葫蘆,仍然是通過pip先安裝guppy

pip install guppy

之後可以在程式碼之中利用guppy直接列印出對應各種python型別(list、tuple、dict等)分別建立了多少物件,佔用了多少記憶體。

from guppy import hpy
import sys
def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

如下圖所示,可以看到列印出對應的記憶體佔用資料:

python代ç è¯¦ç»çå…å­å ç¨æ…åµ

通過上述兩種工具guppy與memory_profiler可以很好地來監控python程式碼執行時的記憶體佔用問題。


4.小結

python是一門崇尚簡潔的語言,但是正是因為它的簡潔反而更多了許多需要仔細推敲和思考的細節。希望大家在日常工作與學習之中也能多對一些細節進行總結,少踩一些不必要的“坑”。


相關文章