Python在很大程度上可以對shell指令碼進行替代。筆者一般單行命令用shell,複雜點的多行操作就直接用Python了。這篇文章就歸納一下Python的一些實用指令碼操作。
1. 執行外部程式或命令
我們有以下C語言程式cal.c(已編譯為.out檔案),該程式負責輸入兩個命令列引數並列印它們的和。該程式需要用Python去呼叫C語言程式並檢查程式是否正常返回(正常返回會返回 0)。
#include<stdio.h>
#include<stdlib.h>
int main(int argc, char* argv[]){
int a = atoi(argv[1]);
int b = atoi(argv[2]);
int c = a + b;
printf("%d + %d = %d\n", a, b, c);
return 0;
}
那麼我們可以使用subprocess
模組的run
函式來spawn一個子程式:
res = subprocess.run(["Python-Lang/cal.out", "1", "2"])
print(res.returncode)
可以看到控制檯列印出程式的返回值0:
1 + 2 = 3
0
當然,如果程式中途被殺死。如我們將下列while.c程式寫為下列死迴圈(已編譯為.out檔案):
#include<stdio.h>
#include<stdlib.h>
int main(int argc, char* argv[]){
while(1);
return 0;
}
我們同樣用run
函式接收其返回值:
res = subprocess.run("Python-Lang/while.out")
print(res.returncode)
不過我們在程式執行中用shell命令將其終止掉:
(base) orion-orion@MacBook-Pro Python-Lang % ps -a |grep while
11829 ttys001 0:17.49 Python-Lang/while.out
11891 ttys005 0:00.00 grep while
(base) orion-orion@MacBook-Pro Python-Lang % kill 11829
可以看到控制檯列印輸出的程式返回值為-15(因為負值-N表示子程式被訊號N終止,而kill命令預設的訊號是15,該訊號會終止程式):
-15
如果程式陷入死迴圈不能正常終止,我們總不能一直等著吧?此時,我們可以設定超時機制並進行異常捕捉:
try:
res = subprocess.run(["Python-Lang/while.out"], capture_output=True, timeout=5)
except subprocess.TimeoutExpired as e:
print(e)
此時會列印輸出異常結果:
Command '['Python-Lang/while.out']' timed out after 5 seconds
有時需要獲取程式的輸出結果,此時可以加上capture_output
引數,然後訪問返回物件的stdout
屬性即可:
res = subprocess.run(["netstat", "-a"], capture_output=True)
out_bytes = res.stdout
輸出結果是以位元組串返回的,如果想以文字形式解讀,可以再增加一個解碼步驟:
out_text = out_bytes.decode("utf-8")
print(out_text)
可以看到已正常獲取文字形式的輸出結果:
...
kctl 0 0 33 6 com.apple.netsrc
kctl 0 0 34 6 com.apple.netsrc
kctl 0 0 1 7 com.apple.network.statistics
kctl 0 0 2 7 com.apple.network.statistics
kctl 0 0 3 7 com.apple.network.statistics
(base) orion-orion@MacBook-Pro Learn-Python %
一般來說,命令的執行不需要依賴底層shell的支援(如sh,bash等),我們提供的字串列表會直接傳遞給底層的系統呼叫,如os.execve()
。如果希望命令通過shell來執行,只需要給定引數shell=True
並將命令以簡單的字串形式提供即可。比如我們想讓Python執行一個涉及管道、I/O重定向或其它複雜的Shell命令時,我們就可以這樣寫:
out_bytes = subprocess.run("ps -a|wc -l> out", shell=True)
2. 檔案和目錄操作(命名、刪除、拷貝、移動等)
我們想要和檔名稱和路徑打交道時,為了保證獲得最佳的移植性(尤其是需要同時執行與Unix和Windows上時),最好使用os.path
中的函式。例如:
import os
file_name = "/Users/orion-orion/Documents/LocalCode/Learn-Python/Python-Lang/test.txt"
print(os.path.basename(file_name))
# test.txt
print(os.path.dirname(file_name))
# /Users/orion-orion/Documents/LocalCode/Learn-Python/Python-Lang
print(os.path.split(file_name))
# ('/Users/orion-orion/Documents/LocalCode/Learn-Python/Python-Lang', 'test.txt')
print(os.path.join("/new/dir", os.path.basename(file_name)))
# /new/dir/test.txt
print(os.path.expanduser("~/Documents"))
# /Users/orion-orion/Documents
其中os.path.expanduser
當使用者或$HOME
未知時, 將不做任何操作。如我們這裡的$HOME
就為/Users/orion-orion
:
(base) orion-orion@MacBook-Pro ~ % echo $HOME
/Users/orion-orion
如果要刪除檔案,請用os.remove
(在刪除前注意先判斷檔案是否存在):
file_name = "Python-Lang/test.txt"
if os.path.exists(file_name):
os.remove(file_name)
接下來我們看如何拷貝檔案。當然最直接的方法是呼叫Shell命令:
os.system("cp Python-Lang/test.txt Python-Lang/test2.txt")
當然這不夠優雅。如果不像通過呼叫shell命令來實現,可以使用shutil模組,該模組提供了一系列對檔案和檔案集合的高階操作,其中就包括檔案拷貝和移動/重新命名。這些函式的引數都是字串,用來提供檔案或目錄的名稱。以下是示例:
src = "Python-Lang/test.txt"
dst = "Python-Lang/test2.txt"
# 對應cp src dst (拷貝檔案,存在則覆蓋)
shutil.copy(src, dst)
src = "Python-Lang/sub_dir"
dst = "Python-Lang/sub_dir2"
# 對應cp -R src dst (拷貝整個目錄樹)
shutil.copytree(src, dst)
src = "Python-Lang/test.txt"
dst = "Python-Lang/sub_dir/test2.txt"
# 對應mv src dst (移動檔案,可選擇是否重新命名)
shutil.move(src, dst)
可以看到,正如註釋所言,這些函式的語義和Unix命令類似。如果你對Unix下的檔案拷貝/移動等操作不熟悉,可以參見我的部落格《Linux:檔案解壓、複製和移動的若干坑》。
預設情況下,如果原始檔是一個符號連結,那麼目標檔案將會是該連結所指向的檔案的拷貝。如果只想拷貝符號連結本身,可以提供關鍵字引數follow_symlinks:
shutil.copy(src, dst, follow_symlinks=True)
如果想在拷貝的目錄中保留符號連結,可以這麼做:
shutil.copytree(src, dst, symlinks=True)
有時在拷貝整個目錄時需要對特定的檔案和目錄進行忽略,如.pyc
這種中間過程位元組碼。我們可以為copytree
提供一個ignore函式,該函式已目錄名和檔名做為輸入引數,返回一列要忽略的名稱做為結果(此處用到字串物件的.endswith
方法,該方法用於獲取檔案型別):
def ignore_pyc_files(dirname, filenames):
return [name for name in filenames if name.endswith('pyc')]
shutil.copytree(src, dst, ignore=ignore_pyc_files)
不過由於忽略檔名這種模式非常常見,已經有一個實用函式ignore_patterns()
提供給我們使用了(相關模式使用方法類似.gitignore
):
shutil.copytree(src, dst, ignore=shutil.ignore_patterns("*~", "*.pyc"))
注:此處的"*~"
模式匹配是文字編輯器(如Vi)產生的以"~"結尾的中間檔案。
忽略檔名還常常用在os.listdir()
中。比如我們在資料密集型(如機器學習)應用中,需要遍歷data
目錄下的所有資料集檔案並載入,但是需要排除.
開頭的隱藏檔案,如.git
,否則會出錯,此時可採用下列寫法:
import os
import os
filenames = [filename for filename in os.listdir("Python-Lang/data") if not filename.startswith(".")] #注意,os.listdir返回的是不帶路徑的檔名
讓我們回到copytree()
。用copytree()
來拷貝目錄時,一個比較棘手的問題是錯誤處理。比如在拷貝的過程中遇到已經損壞的符號連結,或者由於許可權問題導致有些檔案無法訪問等。對於這種情況,所有遇到的異常會收集到一個列表中並將其歸組為一個單獨的異常,在操作結束時丟擲。示例如下:
import shutil
src = "Python-Lang/sub_dir"
dst = "Python-Lang/sub_dir2"
try:
shutil.copytree(src, dst)
except shutil.Error as e:
for src, dst, msg in e.args[0]:
print(src, dst, msg)
如果提供了ignore_dangling_symlinks=True
,那麼copytree
將會忽略懸垂的符號連結。
更多關於shutil
的使用(如記錄日誌、檔案許可權等)可參見shutil文件[4]。
接下來我們看如何使用os.walk()
函式遍歷層級目錄以搜尋檔案。只需要將頂層目錄提供給它即可。比如下列函式用來查詢一個特定的檔名,並將所有匹配結果的絕對路徑列印出來:
import os
def findfile(start, name):
for relpath, dirs, files in os.walk(start):
if name in files:
# print(relpath)
full_path = os.path.abspath(os.path.join(relpath, name))
print(full_path)
start = "."
name = "test.txt"
findfile(start, name)
可以看到,os.walk
可為為我們遍歷目錄層級,且對於進入的每個目錄層級它都返回一個三元組,包含:正在檢視的目錄的相對路徑(相對指令碼執行路徑),正在檢視的目錄中包含的所有目錄名列表,正在撿視的目錄中包含的所有檔名列表。這裡的os.path.abspath
接受一個可能是相對的路徑並將其組成絕對路徑的形式。
我們還能夠附加地讓指令碼完成更復雜的功能,如下面這個函式可列印出所有最近有修改過的檔案:
import os
import time
def modified_within(start, seconds):
now = time.time()
for relpath, dirs, files in os.walk(start):
for name in files:
full_path = os.path.join(relpath, name)
mtime = os.path.getmtime(full_path)
if mtime > (now - seconds):
print(full_path)
start = "."
seconds = 60
modified_within(start, 60)
3. 建立和解包歸檔檔案
如果僅僅是想建立或解包歸檔檔案,可以直接使用shutil
模組中的高層函式:
import shutil
shutil.make_archive(base_name="data", format="zip", root_dir="Python-Lang/data")
shutil.unpack_archive("data.zip")
其中第二個引數format
為期望輸出的格式。要獲取所支援的歸檔格式列表,可以使用get_archive_formats()
函式:
print(shutil.get_archive_formats())
# [('bztar', "bzip2'ed tar-file"), ('gztar', "gzip'ed tar-file"), ('tar', 'uncompressed tar file'), ('xztar', "xz'ed tar-file"), ('zip', 'ZIP file')]
Python也提供了諸如tarfile
、zipfile
、gzip
等模組來處理歸檔格式的底層細節。比如我們想要建立然後解包.zip
歸檔檔案,可以這樣寫:
import zipfile
with zipfile.ZipFile('Python-Lang/data.zip', 'w') as zout:
zout.write(filename='Python-Lang/data/test1.txt', arcname="test1.txt")
zout.write(filename='Python-Lang/data/test2.txt', arcname="test2.txt")
with zipfile.ZipFile('Python-Lang/data.zip', 'r') as zin:
zin.extractall('Python-Lang/data2') #沒有則自動建立data2目錄
參考
- [1] https://docs.python.org/3/library/subprocess.html
- [2] https://stackoverflow.com/questions/28708531/what-does-do-in-a-gitignore-file
- [3] https://stackoverflow.com/questions/7099290/how-to-ignore-hidden-files-using-os-listdir
- [4] https://docs.python.org/3/library/shutil.html
- [5] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015.