Python技法:實用運維指令碼編寫(程式/檔案/目錄操作)

orion發表於2022-05-12

Python在很大程度上可以對shell指令碼進行替代。筆者一般單行命令用shell,複雜點的多行操作就直接用Python了。這篇文章就歸納一下Python的一些實用指令碼操作。

1. 執行外部程式或命令

我們有以下C語言程式cal.c(已編譯為.out檔案),該程式負責輸入兩個命令列引數並列印它們的和。該程式需要用Python去呼叫C語言程式並檢查程式是否正常返回(正常返回會返回 0)。

#include<stdio.h>
#include<stdlib.h>
int main(int argc, char* argv[]){
    int a = atoi(argv[1]);
    int b = atoi(argv[2]);
    int c = a + b;
    printf("%d + %d = %d\n", a, b, c);
    return 0;
}

那麼我們可以使用subprocess模組的run函式來spawn一個子程式:

res = subprocess.run(["Python-Lang/cal.out", "1", "2"])
print(res.returncode) 

可以看到控制檯列印出程式的返回值0:

1 + 2 = 3
0

當然,如果程式中途被殺死。如我們將下列while.c程式寫為下列死迴圈(已編譯為.out檔案):

#include<stdio.h>
#include<stdlib.h>
int main(int argc, char* argv[]){
    while(1);
    return 0;
}

我們同樣用run函式接收其返回值:

res = subprocess.run("Python-Lang/while.out")
print(res.returncode)

不過我們在程式執行中用shell命令將其終止掉:

(base) orion-orion@MacBook-Pro Python-Lang % ps -a |grep while 
11829 ttys001    0:17.49 Python-Lang/while.out
11891 ttys005    0:00.00 grep while
(base) orion-orion@MacBook-Pro Python-Lang % kill 11829

可以看到控制檯列印輸出的程式返回值為-15(因為負值-N表示子程式被訊號N終止,而kill命令預設的訊號是15,該訊號會終止程式):

-15

如果程式陷入死迴圈不能正常終止,我們總不能一直等著吧?此時,我們可以設定超時機制並進行異常捕捉:

try:
    res = subprocess.run(["Python-Lang/while.out"], capture_output=True, timeout=5)
except subprocess.TimeoutExpired as e:
    print(e)

此時會列印輸出異常結果:

Command '['Python-Lang/while.out']' timed out after 5 seconds

有時需要獲取程式的輸出結果,此時可以加上capture_output引數,然後訪問返回物件的stdout屬性即可:

res = subprocess.run(["netstat", "-a"], capture_output=True)
out_bytes = res.stdout

輸出結果是以位元組串返回的,如果想以文字形式解讀,可以再增加一個解碼步驟:

out_text = out_bytes.decode("utf-8")
print(out_text)

可以看到已正常獲取文字形式的輸出結果:

...
kctl       0      0     33      6 com.apple.netsrc
kctl       0      0     34      6 com.apple.netsrc
kctl       0      0      1      7 com.apple.network.statistics
kctl       0      0      2      7 com.apple.network.statistics
kctl       0      0      3      7 com.apple.network.statistics

(base) orion-orion@MacBook-Pro Learn-Python % 

一般來說,命令的執行不需要依賴底層shell的支援(如sh,bash等),我們提供的字串列表會直接傳遞給底層的系統呼叫,如os.execve()。如果希望命令通過shell來執行,只需要給定引數shell=True並將命令以簡單的字串形式提供即可。比如我們想讓Python執行一個涉及管道、I/O重定向或其它複雜的Shell命令時,我們就可以這樣寫:

out_bytes = subprocess.run("ps -a|wc -l> out", shell=True)

2. 檔案和目錄操作(命名、刪除、拷貝、移動等)

我們想要和檔名稱和路徑打交道時,為了保證獲得最佳的移植性(尤其是需要同時執行與Unix和Windows上時),最好使用os.path中的函式。例如:

import os
file_name = "/Users/orion-orion/Documents/LocalCode/Learn-Python/Python-Lang/test.txt"
print(os.path.basename(file_name)) 
# test.txt
print(os.path.dirname(file_name))
# /Users/orion-orion/Documents/LocalCode/Learn-Python/Python-Lang
print(os.path.split(file_name))
# ('/Users/orion-orion/Documents/LocalCode/Learn-Python/Python-Lang', 'test.txt')
print(os.path.join("/new/dir", os.path.basename(file_name)))
# /new/dir/test.txt
print(os.path.expanduser("~/Documents"))
# /Users/orion-orion/Documents

其中os.path.expanduser當使用者或$HOME未知時, 將不做任何操作。如我們這裡的$HOME就為/Users/orion-orion

(base) orion-orion@MacBook-Pro ~ % echo $HOME
/Users/orion-orion

如果要刪除檔案,請用os.remove(在刪除前注意先判斷檔案是否存在):

file_name = "Python-Lang/test.txt"
if os.path.exists(file_name):
    os.remove(file_name)

接下來我們看如何拷貝檔案。當然最直接的方法是呼叫Shell命令:

os.system("cp Python-Lang/test.txt Python-Lang/test2.txt")

當然這不夠優雅。如果不像通過呼叫shell命令來實現,可以使用shutil模組,該模組提供了一系列對檔案和檔案集合的高階操作,其中就包括檔案拷貝和移動/重新命名。這些函式的引數都是字串,用來提供檔案或目錄的名稱。以下是示例:


src = "Python-Lang/test.txt"
dst = "Python-Lang/test2.txt"

# 對應cp src dst (拷貝檔案,存在則覆蓋)
shutil.copy(src, dst) 


src = "Python-Lang/sub_dir"
dst = "Python-Lang/sub_dir2"
# 對應cp -R src dst (拷貝整個目錄樹)
shutil.copytree(src, dst)

src = "Python-Lang/test.txt"
dst = "Python-Lang/sub_dir/test2.txt"
# 對應mv src dst (移動檔案,可選擇是否重新命名)
shutil.move(src, dst)

可以看到,正如註釋所言,這些函式的語義和Unix命令類似。如果你對Unix下的檔案拷貝/移動等操作不熟悉,可以參見我的部落格《Linux:檔案解壓、複製和移動的若干坑》

預設情況下,如果原始檔是一個符號連結,那麼目標檔案將會是該連結所指向的檔案的拷貝。如果只想拷貝符號連結本身,可以提供關鍵字引數follow_symlinks:

shutil.copy(src, dst, follow_symlinks=True)

如果想在拷貝的目錄中保留符號連結,可以這麼做:

shutil.copytree(src, dst, symlinks=True)

有時在拷貝整個目錄時需要對特定的檔案和目錄進行忽略,如.pyc這種中間過程位元組碼。我們可以為copytree提供一個ignore函式,該函式已目錄名和檔名做為輸入引數,返回一列要忽略的名稱做為結果(此處用到字串物件的.endswith方法,該方法用於獲取檔案型別):

def ignore_pyc_files(dirname, filenames):
    return [name for name in filenames if name.endswith('pyc')] 


shutil.copytree(src, dst, ignore=ignore_pyc_files)

不過由於忽略檔名這種模式非常常見,已經有一個實用函式ignore_patterns()提供給我們使用了(相關模式使用方法類似.gitignore):

shutil.copytree(src, dst, ignore=shutil.ignore_patterns("*~", "*.pyc"))

注:此處的"*~"模式匹配是文字編輯器(如Vi)產生的以"~"結尾的中間檔案。

忽略檔名還常常用在os.listdir()中。比如我們在資料密集型(如機器學習)應用中,需要遍歷data目錄下的所有資料集檔案並載入,但是需要排除.開頭的隱藏檔案,如.git,否則會出錯,此時可採用下列寫法:

import os
import os
filenames = [filename for filename in os.listdir("Python-Lang/data") if not filename.startswith(".")] #注意,os.listdir返回的是不帶路徑的檔名

讓我們回到copytree()。用copytree()來拷貝目錄時,一個比較棘手的問題是錯誤處理。比如在拷貝的過程中遇到已經損壞的符號連結,或者由於許可權問題導致有些檔案無法訪問等。對於這種情況,所有遇到的異常會收集到一個列表中並將其歸組為一個單獨的異常,在操作結束時丟擲。示例如下:

import shutil

src = "Python-Lang/sub_dir"
dst = "Python-Lang/sub_dir2"

try:
    shutil.copytree(src, dst)
except shutil.Error as e:
    for src, dst, msg in e.args[0]:
        print(src, dst, msg)

如果提供了ignore_dangling_symlinks=True,那麼copytree將會忽略懸垂的符號連結。

更多關於shutil的使用(如記錄日誌、檔案許可權等)可參見shutil文件[4]

接下來我們看如何使用os.walk()函式遍歷層級目錄以搜尋檔案。只需要將頂層目錄提供給它即可。比如下列函式用來查詢一個特定的檔名,並將所有匹配結果的絕對路徑列印出來:

import os
def findfile(start, name):
    for relpath, dirs, files in os.walk(start):
        if name in files:
            # print(relpath)
            full_path = os.path.abspath(os.path.join(relpath, name))
            print(full_path)

start = "."
name = "test.txt"
findfile(start, name)

可以看到,os.walk可為為我們遍歷目錄層級,且對於進入的每個目錄層級它都返回一個三元組,包含:正在檢視的目錄的相對路徑(相對指令碼執行路徑),正在檢視的目錄中包含的所有目錄名列表,正在撿視的目錄中包含的所有檔名列表。這裡的os.path.abspath接受一個可能是相對的路徑並將其組成絕對路徑的形式。

我們還能夠附加地讓指令碼完成更復雜的功能,如下面這個函式可列印出所有最近有修改過的檔案:

import os
import time
def modified_within(start, seconds):
    now = time.time()
    for relpath, dirs, files in os.walk(start):
        for name in files:
            full_path = os.path.join(relpath, name)
            mtime = os.path.getmtime(full_path)
            if mtime > (now - seconds):
                print(full_path)

start = "."
seconds = 60
modified_within(start, 60)

3. 建立和解包歸檔檔案

如果僅僅是想建立或解包歸檔檔案,可以直接使用shutil模組中的高層函式:

import shutil
shutil.make_archive(base_name="data", format="zip", root_dir="Python-Lang/data")
shutil.unpack_archive("data.zip")

其中第二個引數format為期望輸出的格式。要獲取所支援的歸檔格式列表,可以使用get_archive_formats()函式:

print(shutil.get_archive_formats())
# [('bztar', "bzip2'ed tar-file"), ('gztar', "gzip'ed tar-file"), ('tar', 'uncompressed tar file'), ('xztar', "xz'ed tar-file"), ('zip', 'ZIP file')]

Python也提供了諸如tarfilezipfilegzip等模組來處理歸檔格式的底層細節。比如我們想要建立然後解包.zip歸檔檔案,可以這樣寫:

import zipfile


with zipfile.ZipFile('Python-Lang/data.zip', 'w') as zout:
    zout.write(filename='Python-Lang/data/test1.txt', arcname="test1.txt")
    zout.write(filename='Python-Lang/data/test2.txt', arcname="test2.txt")
with zipfile.ZipFile('Python-Lang/data.zip', 'r') as zin:
    zin.extractall('Python-Lang/data2') #沒有則自動建立data2目錄

參考

相關文章