本文完整示例程式碼及檔案已上傳至我的
Github
倉庫https://github.com/CNFeffery/PythonPracticalSkills
這是我的新系列文章「Python實用祕技」的第1期,本系列立足於筆者日常工作中使用Python
輔助辦公的心得體會,每一期為大家帶來一個3分鐘即可學會的簡單小技巧。
作為系列第1期,我們即將學習的是:複雜zip檔案的解壓
。
廢話不多說,直接看問題,使用過Python
中的標準庫zipfile
解壓過zip
格式壓縮包的朋友們,可能遇到過,當壓縮檔案中的目錄或檔名中包含中文等常見unicode
字元時,典型如下面的例子:
使用zipfile
的extract()
或extractall()
方法直接解壓時,產生的解壓結果名充斥著亂碼,這一點我們通過呼叫namelist()
方法就可以看出來:
from zipfile import ZipFile
# 讀入壓縮包檔案
file = ZipFile('示例壓縮包.zip')
# 檢視壓縮包內目錄、檔名稱
file.namelist()
這是因為zipfile
中針對壓縮包內容的編碼相容性差,但我們可以通過下面的函式自行矯正:
def recode(raw: str) -> str:
'''
編碼修正
'''
try:
return raw.encode('cp437').decode('gbk')
except:
return raw.encode('utf-8').decode('utf-8')
for file_or_path in file.namelist():
print(file_or_path, ' -------> ' , recode(file_or_path))
解決了檔名亂碼的問題後,接下來我們就可以配合shutil
與os
標準庫中的相關功能,實現將指定任意zip
壓縮包,完好地解壓到指定的目錄中,程式碼如下:
def zip_extract_all(src_zip_file: ZipFile, target_path: str) -> None:
# 遍歷壓縮包內所有內容
for file_or_path in file.namelist():
# 若當前節點是資料夾
if file_or_path.endswith('/'):
try:
# 基於當前資料夾節點建立多層資料夾
os.makedirs(os.path.join(target_path, recode(file_or_path)))
except FileExistsError:
# 若已存在則跳過建立過程
pass
# 否則視作檔案進行寫出
else:
# 利用shutil.copyfileobj,從壓縮包io流中提取目標檔案內容寫出到目標路徑
with open(os.path.join(target_path, recode(file_or_path)), 'wb') as z:
# 這裡基於Zipfile.open()提取檔案內容時需要使用原始的亂碼檔名
shutil.copyfileobj(src_zip_file.open(file_or_path), z)
# 向已存在的指定資料夾完整解壓當前讀入的zip檔案
zip_extract_all(file, '解壓測試')
可以看到,效果完美?:
本期分享結束,我們們下回見~?