拋棄os.path,擁抱pathlib

大江東流發表於2020-05-20

基於Python的檔案、目錄和路徑操作,我們一般使用的是os.path模組。

pathlib是它的替代品,在os.path上的基礎上進行了封裝,實現了路徑的物件化,api更加通俗,操作更便捷,更符程式設計的思維習慣。

pathlib模組提供了一些使用語義化表示檔案系統路徑的類,這些類適合多種作業系統。路徑類被劃分為純路徑(該路徑提供了不帶I/O的純粹計算操作),以及具體路徑(從純路徑中繼承而來,但提供了I/O操作)。

首先我們看一下pathlib模組的組織結構,其核心是6個類,這6個類的基類是PurePath類,其它5個類都是從它派生出來的:

箭頭連線的是有繼承關係的兩個類,以 PurePosixPath 和 PurePath 類為例,PurePosixPath 繼承自 PurePath,即前者是後者的子類。

  • PurePath 類:將路徑看做是一個普通的字串,它可以實現將多個指定的字串拼接成適用於當前作業系統的路徑格式,同時還可以判斷任意兩個路徑是否相等。從英文名來理解,Pure是純粹的意思,表示PurePath類純粹只關心路徑的操作,而不管真實檔案系統中路徑是否有效、檔案是否存在、目錄是否存在等現實問題。
  • PurePosixPath 和 PureWindowsPath 是 PurePath 的子類,前者用於操作 UNIX(包括 Mac OS X)風格作業系統的路徑,後者用於操作 Windows 作業系統的路徑。我們都知道兩種風格的作業系統在路徑分隔符上有一定的區別。
  • Path 類和以上 3 個類不同,在操作路徑的同時,還能操作檔案/目錄,並和真實的檔案系統互動,例如判斷路徑是否真實存在。
  • PosixPath 和 WindowsPath 是 Path 的子類,分別用於操作 Unix(Mac OS X)風格的路徑和 Windows 風格的路徑。

PurePath、PurePosixPath 和 PureWindowsPath這三個純路徑類通常用在一些特殊的情況裡,如:

  • 如果你需要在Unix裝置裡操作Windows路徑,或在Windiws裝置裡操作Unix路徑。因為我們不能在Unix上例項化一個真正的Windows路徑,但我們可以例項化一個純Windows路徑,假裝我們在操作windows。

  • 你想要確保你的程式碼只操作路徑而不和作業系統真實互動。

科普:UNIX 型別的作業系統和 Windows 作業系統上,路徑的格式是完全不同的,主要區別在於根路徑和路徑分隔符,UNIX 系統的根路徑是斜槓(/),而 Windows 系統的根路徑是碟符(C:);UNIX 系統路徑使用的分隔符是正斜槓(/),而 Windows 使用的是反斜槓(\)。

一、PurePath類

PurePath 類(以及 PurePosixPath 類和 PureWindowsPath 類)都提供了大量的構造方法、例項方法以及類例項屬性供我們使用。

在例項化 PurePath 類時,會自動適配作業系統。如果在 UNIX 或 Mac OS X 系統中,構造方法實際返回的是 PurePosixPath 物件;反之,如果在 Windows 系統上使用 PurePath 建立例項,構造方法返回的是 PureWindowsPath 物件。

例如,在 Windows 系統中執行如下語句:

from pathlib import PurePath

path = PurePath('file.txt')
print(type(path))

# <class 'pathlib.PureWindowsPath'>

PurePath 在建立物件時,也支援傳入多個路徑字串,它們會被拼接成一個路徑。例如:

from pathlib import PurePath

path = PurePath('https:','www.liujiangblog.com','django')
print(path)

# https:\www.liujiangblog.com\django

可以看到,由於執行環境為 Windows 擦奧做系統,因此輸出的是 Windows 平臺格式的路徑。

如果想在 Windows 中建立 UNIX 風格的路徑,就需要指定使用 PurePosixPath 類,反之亦然。例如:

from pathlib import PurePosixPath
path = PurePosixPath('https:','www.liujiangblog.com','django')
print(path)

# https:/www.liujiangblog.com/django

強調:在做純路徑操作的時候,其實玩弄的都是字串,與本地檔案系統沒有任何實際關聯,不做任何磁碟IO操作。PurePath構造的路徑本質上是字串,完全可以使用 str() 將 其轉換成字串。

此外,如果在使用 PurePath 類的構造方法時,不傳入任何字串引數,則等相當於傳入點.(當前路徑)作為引數:

from pathlib import PurePath

path1 = PurePath()

path2 = PurePath('.')

print(path1 == path2)

# True

如果傳入 PurePath 構造方法中的多個引數中,包含多個根路徑,則只會有最後一個根路徑及後面的子路徑生效。例如:

from pathlib import PurePath

path = PurePath('C:/', 'D:/', 'file.txt')
print(path)

# D:\file.txt

額外提醒,在Python中構造字串的時候,一定要注意正/反斜槓在轉義和不轉義時的區別。以及r原生字串的使用和不使用。千萬不要寫錯了

如果傳給 PurePath 構造方法的引數中包含有多餘的斜槓或者.會直接被忽略,但..不會被忽略:

from pathlib import PurePath
path = PurePath('C:/./..file.txt')
print(path)

# C:\..file.txt

PurePath 例項支援比較運算子,對於同種風格的路徑,可以判斷是否相等,也可以比較大小(實際上就是比較字串的大小);對於不同風格的路徑,只能判斷是否相等(顯然,不可能相等),但不能比較大小:

from pathlib import *

# Unix風格的路徑區分大小寫
print(PurePosixPath('/D/file.txt') == PurePosixPath('/d/file.txt'))

# Windows風格的路徑不區分大小寫
print(PureWindowsPath('D://file.txt') == PureWindowsPath('d://file.txt'))

# False
# True

下面列出PurePath例項常用的方法和屬性:

例項屬性和方法 功能描述
PurePath.parts 返回路徑字串中所包含的各部分。
PurePath.drive 返回路徑字串中的驅動器碟符。
PurePath.root 返回路徑字串中的根路徑。
PurePath.anchor 返回路徑字串中的碟符和根路徑。
PurePath.parents 返回當前路徑的全部父路徑。
PurPath.parent 返回當前路徑的上一級路徑,相當於 parents[0] 的返回值。
PurePath.name 返回當前路徑中的檔名。
PurePath.suffixes 返回當前路徑中的檔案所有字尾名。
PurePath.suffix 返回當前路徑中的檔案字尾名。也就是 suffixes 屬性列表的最後一個元素。
PurePath.stem 返回當前路徑中的主檔名。
PurePath.as_posix() 將當前路徑轉換成 UNIX 風格的路徑。
PurePath.as_uri() 將當前路徑轉換成 URL。只有絕對路徑才能轉換,否則將會引發 ValueError。
PurePath.is_absolute() 判斷當前路徑是否為絕對路徑。
PurePath.joinpath(*other) 將多個路徑連線在一起,作用類似於前面介紹的斜槓(/)連線符。
PurePath.match(pattern) 判斷當前路徑是否匹配指定萬用字元。
PurePath.relative_to(*other) 獲取當前路徑中去除基準路徑之後的結果。
PurePath.with_name(name) 將當前路徑中的檔名替換成新檔名。如果當前路徑中沒有檔名,則會引發 ValueError。
PurePath.with_suffix(suffix) 將當前路徑中的檔案字尾名替換成新的字尾名。如果當前路徑中沒有字尾名,則會新增新的字尾名。

二、Path類

更多的時候,我們都是直接使用Path類,而不是PurePath。

Path 是 PurePath 的子類, 除了支援 PurePath 提供的各種建構函式、屬性及方法之外,還提供判斷路徑有效性的方法,甚至還可以判斷該路徑對應的是檔案還是資料夾,如果是檔案,還支援對檔案進行讀寫等操作。

Path 有 2 個子類,分別為 PosixPath和 WindowsPath,這兩個子類的作用顯而易見,不再贅述。

基本使用

from pathlib import Path

# 建立例項
p = Path('a','b','c/d')  	
p = Path('/etc')  	

-------------------------------------------------------
p = Path()		

# WindowsPath('.')
p.resolve()                    	# 解析路徑,不一定是真實路徑
# WindowsPath('C:/Users/liujiangblog')
--------------------------------------------------
# 任何時候都返回當前的真實的絕對路徑
p.cwd()
# WindowsPath('D:/work/2020/django3')
Path.cwd()
# WindowsPath('D:/work/2020/django3')
p.home()
# WindowsPath('C:/Users/liujiangblog')
Path.home()
# WindowsPath('C:/Users/liujiangblog')

目錄操作

p = Path(r'd:\test\11\22')
p.mkdir(exist_ok=True)          # 建立檔案目錄(前提是tt目錄存在, 否則會報錯)
# 一般我會使用下面這種建立方法
p.mkdir(exist_ok=True, parents=True) # 遞迴建立檔案目錄
p.rmdir()		#刪除當前目錄,但是該目錄必須為空

p
# WindowsPath('d:/test/11/22')  		p依然存在

遍歷目錄

p = Path(r'd:\test')
# WindowsPath('d:/test')
p.iterdir()                     # 相當於os.listdir
p.glob('*')                     # 相當於os.listdir, 但是可以新增匹配條件
p.rglob('*')                    # 相當於os.walk, 也可以新增匹配條件

建立檔案

file = Path(r'd:\test\11\22\test.py')
file.touch()				# touch方法用於建立空檔案,目錄必須存在,否則無法建立
#Traceback (most recent call last):
#  File "<input>", line 1, in <module>
# .....
#FileNotFoundError: [Errno 2] No such file or directory: 'd:\\test\\11\\22\\test.py'

p = Path(r'd:\test\11\22')
p.mkdir(exist_ok=True,parents=True)
file.touch()

file.exists()
# True

file.rename('33.py')			# 檔案重新命名或者移動
#Traceback (most recent call last):
#  File "<pyshell#4>", line 1, in <module>
#    file.rename('33.py')
#  File "C:\Program Files\Python38\lib\pathlib.py", line 1353, in rename
#    self._accessor.rename(self, target)
#PermissionError: [WinError 5] 拒絕訪問。: 'd:\\test\\11\\22\\test.py' -> '33.py'

file.rename(r'd:\test\11\22\33.py')
# WindowsPath('d:/test/11/22/33.py')

檔案操作

p = Path(r'd:\test\tt.txt.bk')
p.name                          # 獲取檔名
# tt.txt.bk
p.stem                          # 獲取檔名除字尾的部分
# tt.txt
p.suffix                        # 檔案字尾
# .bk
p.suffixs                       # 檔案的字尾們...
# ['.txt', '.bk']
p.parent                        # 相當於dirnanme
# WindowsPath('d:/test')
p.parents                       # 返回一個iterable, 包含所有父目錄
# <WindowsPath.parents>
for i in p.parents:
    print(i)
# d:\test
# d:\
p.parts                         # 將路徑通過分隔符分割成一個元組
# ('d:\\', 'test', 'tt.txt.bk')

p = Path('C:/Users/Administrator/Desktop/')
p.parent
# WindowsPath('C:/Users/Administrator')

p.parent.parent
# WindowsPath('C:/Users')


# 索引0是直接的父目錄,索引越大越接近根目錄
for x in p.parents: print(x)
# C:\Users\Administrator
# C:\Users
# C:\
# 更多技術文章請訪問官網https://www.liujiangblog.com

# with_name(name)替換路徑最後一部分並返回一個新路徑
Path("/home/liujiangblog/test.py").with_name('python.txt')
# WindowsPath('/home/liujiangblog/python.txt')

# with_suffix(suffix)替換副檔名,返回新的路徑,副檔名存在則不變
Path("/home/liujiangblog/test.py").with_suffix('.txt')
# WindowsPath('/home/liujiangblog/test.txt')

檔案資訊

p = Path(r'd:\test\tt.txt')
p.stat()                        # 獲取詳細資訊
# os.stat_result(st_mode=33206, st_ino=562949953579011, st_dev=3870140380, st_nlink=1, st_uid=0, st_gid=0, st_size=0, st_atime=1525254557, st_mtime=1525254557, st_ctime=1525254557)
p.stat().st_size                # 檔案大小
# 0
p.stat().st_ctime               # 建立時間
# 1525254557.2090347
# 其他的資訊也可以通過相同方式獲取
p.stat().st_mtime               # 修改時間

檔案讀寫

open(mode='r', bufferiong=-1, encoding=None, errors=None, newline=None)

使用方法類似Python內建的open函式,返回一個檔案物件。

p = Path('C:/Users/Administrator/Desktop/text.txt')
with p.open(encoding='utf-8') as f: 
	print(f.readline())  

read_bytes():以'rb'模式讀取檔案,並返回bytes型別資料

write_bytes(data): 以'wb'方式將資料寫入檔案

p = Path('C:/Users/Administrator/Desktop/text.txt')
p.write_bytes(b'Binary file contents')
# 20
p.read_bytes()
# b'Binary file contents'

read_text(encoding=None, errors=None): 以'r'方式讀取路徑對應檔案,返回文字

write_text(data, encoding=None, errors=None):以'w'方式寫入字串到路徑對應檔案

p = Path('C:/Users/Administrator/Desktop/text.txt')
p.write_text('Text file contents')
# 18
p.read_text()
# 'Text file contents'

判斷操作

返回布林值

  • is_dir() :是否是目錄
  • is_file() :是否是普通檔案
  • is_symlink() :是否是軟連結
  • is_socket(): 是否是socket檔案
  • is_block_device(): 是否是塊裝置
  • is_char_device(): 是否是字元裝置
  • is_absolute() :是否是絕對路徑
p = Path(r'd:\test')
p = Path(p, 'test.txt')           # 字串拼接
p.exists()                      # 判斷檔案是否存在
p.is_file()                     # 判斷是否是檔案
p.is_dir()                      # 判斷是否是目錄

路徑拼接和分解

在pathlib中,通過拼接操作符/來拼接路徑,主要有三種方式:

  • Path物件 / Path物件
  • Path物件 / 字串
  • 字串 / Path物件

分解路徑主要通過parts方法

p=Path()
p
# WindowsPath('.')
p = p / 'a'
p
# WindowsPath('a')
p = 'b' / p
p
# WindowsPath('b/a')
p2 = Path('c')
p = p2 / p
p
# WindowsPath('c/b/a')
p.parts
# ('c', 'b', 'a')
p.joinpath("c:","liujiangblog.com","jack")    # 拼接的時候,前面部分被忽略了
# WindowsPath('c:liujiangblog.com/jack')

# 更多技術文章請訪問官網https://www.liujiangblog.com

萬用字元

  • glob(pattern): 通配給定的模式
  • rglob(pattern) :通配給定的模式,並且遞迴搜尋目錄

返回值: 一個生成器

p=Path(r'd:\vue_learn')
p.glob('*.html')   # 匹配所有HTML檔案,返回的是一個generator生成器
# <generator object Path.glob at 0x000002ECA2199F90>
list(p.glob('*.html'))
# [WindowsPath('d:/vue_learn/base.html'), WindowsPath('d:/vue_learn/components.html'), WindowsPath('d:/vue_learn/demo.html').........................
g = p.rglob('*.html')	# 遞迴匹配
next(g)  
# WindowsPath('d:/vue_learn/base.html')
next(g)
# WindowsPath('d:/vue_learn/components.html')

正則匹配

使用match方法進行模式匹配,成功則返回True

p = Path('C:/Users/Administrator/Desktop/text.txt')
p.match('*.txt')
# True
Path('C:/Users/Administrator/Desktop/text.txt').match('**/*.txt')
# True

更多內容請訪問: https://www.liujiangblog.com

更多視訊教程請訪問: https://www.liujiangblog.com/video/

相關文章